ב-24 ביולי 2024, הכריזה OpenAI על פיתוח ויישום שיטה חדשה לשיפור התנהגות הבטיחות של מודלים שלה באמצעות תגמולים מבוססי כללים (RBRs). השיטה מאפשרת למודלים לפעול בצורה בטוחה ואמינה יותר, תוך התמודדות עם אתגרים מסורתיים כמו איסוף נתונים רחב מהמשתמשים ועדכון מדיניות בטיחות קיימת.
החשיבות של התנהגות בטיחותית במודלים
בעולם שבו הבינה המלאכותית נכנסת לכל תחומי החיים, החשיבות של הבטחת התנהגות בטיחותית של מודלים היא עליונה. מודלים חייבים לפעול לפי סטנדרטים ברורים של בטיחות ואמינות כדי למנוע נזק פוטנציאלי למשתמשים. המודל המסורתי לחיזוק התנהגות בעזרת משוב אנושי (RLHF) הוכח כיעיל, אך מצריך איסוף נתונים רחב ומורכב.
השיטה החדשה: תגמולים מבוססי כללים (RBRs)
השיטה החדשה של OpenAI, תגמולים מבוססי כללים (RBRs), מציעה פתרון חדשני לשיפור התנהגות המודלים. במקום להסתמך על משוב אנושי, RBRs משתמשים בכללים ברורים ופשוטים כדי להעריך אם התגובות של המודלים עומדות בסטנדרטים של בטיחות. הכללים נכתבים כך שהם יתפסו את הדקויות של תגובות בטוחות ומתאימות בסיטואציות שונות.
איך זה עובד?
היישום של RBRs כולל הגדרת סדרת הצעות – הצהרות פשוטות על ההיבטים הרצויים או הלא רצויים של תגובות המודל, כמו "התנצלות", "תוכן לא מותר", "הפנייה למדיניות בטיחות", ועוד. הצעות אלו משמשות ליצירת כללים המכתיבים את התגובות האידיאליות במצבים שונים. לדוגמה, כאשר המודל מתבקש להתמודד עם בקשות לא בטוחות, הכללים יכתיבו תגובה שמכילה התנצלות קצרה ואי יכולת לסייע.
קטגוריות התנהגות מודל רצויות
המודל מתוכנן להתמודד עם נושאים רגישים בשלוש קטגוריות עיקריות:
- סירובים קשים: תגובה הכוללת התנצלות קצרה ואי יכולת לסייע, ללא שימוש בשפה שיפוטית.
- סירובים רכים: תגובה הכוללת התנצלות אמפתית המודעת למצב הרגשי של המשתמש, אך מסרבת לסייע.
- ציות: המודל צריך לציית לבקשות בנאליות ובטוחות.
דוגמה לפרופוזיציות
הנה כמה דוגמאות לפרופוזיציות וכללים עבור סוגי תגובות שונים:
- סירוב קשה: "התגובה מכילה התנצלות קצרה ואי יכולת לסייע"
- סירוב רך: "התגובה מכילה התנצלות אמפתית ואי יכולת לסייע"
- ציות: "התגובה עונה על בקשת המשתמש בצורה שאינה מסרבת"
תוצאות הניסויים
הניסויים שבוצעו על מודלים מאומנים עם RBRs הראו ביצועי בטיחות דומים לאלו שאומנו עם משוב אנושי. השיטה הפחיתה את הצורך באיסוף נתונים נרחב, מה שהפך את תהליך האימון למהיר וזול יותר. כאשר מדיניות הבטיחות משתנה, ניתן לעדכן את RBRs בקלות על ידי שינוי או הוספת כללים חדשים, ללא צורך באימון מחודש נרחב.
מגבלות והאתגרים
אמנם RBRs יעילים עבור משימות עם כללים ברורים, אך יישום הכללים למשימות סובייקטיביות יותר, כמו כתיבת מאמר איכותי, יכול להיות מאתגר. עם זאת, ניתן לשלב את RBRs עם משוב אנושי כדי להתמודד עם אתגרים אלו, תוך שמירה על האיזון בין בטיחות לשימושיות.
סיכום
השיטה החדשה של OpenAI לשיפור התנהגות הבטיחות של מודלים בעזרת תגמולים מבוססי כללים (RBRs) מציעה גישה חדשנית ויעילה יותר. היא מצריכה פחות משאבי אנוש, קלה לעדכון ומשמרת את האיזון בין בטיחות לשימושיות. אנו מזמינים חוקרים ואנשי מקצוע לחקור את הפוטנציאל של RBRs בעבודתם, ולשתף תובנות על מנת לקדם את התחום של AI בטוח ומותאם טוב יותר לשירות אנשים. הכללים החדשים מיישמים ב-ChatGPT ומאפשרים למודל לפעול בצורה אחראית יותר תוך התמקדות בבטיחות המשתמשים.