ChatGPT Israel – צ'אט GPT בעברית
ChatGPT

הכירו את SimpleQA: מבחן חדש לבדיקת אמינות התשובות של בינה מלאכותית

חברת OpenAI הכריזה על SimpleQA, מדד אמיתות חדש שמטרתו לבחון את היכולת של מודלים בשפה לענות על שאלות קצרות וממוקדות בעובדות. מטרת המבחן היא למדוד את רמת הדיוק של המודלים ולצמצם את בעיית "הזיות המידע" – בעיה שבה המודלים מייצרים תשובות שאינן מבוססות על מידע מהימן. המבחן עוצב כדי לספק הערכה קלה ומהירה לשימוש לחוקרים, עם דגש על דיוק, גיוון ונגישות.
הכירו את SimpleQA מבחן חדש לבדיקת אמינות התשובות של בינה מלאכותית

מהו SimpleQA ואיך הוא עובד?

בינה מלאכותית מתמודדת עם אתגרים בתחום האמינות, כאשר לעיתים קרובות מודלים לשוניים מייצרים תשובות שאינן נכונות או שאינן מבוססות על מידע מדויק. בעיה זו, המכונה "הזיות המידע", היא אחד האתגרים המרכזיים בתחום. כדי להתמודד עם אתגר זה, פיתחה OpenAI את SimpleQA – מבחן ייחודי שנועד להעריך את רמת האמיתות של מודלים בלמידה שפתית.

SimpleQA מתמקד בשאלות קצרות וממוקדות בעובדות – כלומר, שאלות שהתשובה להן מבוססת על נתון אחד ברור ובלתי ניתן לוויכוח. בכך, SimpleQA מצמצם את היקף המבחן ומקל על מדידת האמיתות. לדוגמה, מודלים נשאלים שאלות כמו "מי היה נשיא ארה"ב בשנת 1960?", ונמדדים בהתאם לדיוק התשובות. כל שאלה במבחן תואמת לתשובות ממקורות עצמאיים כדי לוודא את אמינות המידע ולמנוע סתירות.

תהליך בניית SimpleQA ומדידת האיכות

המבחן פותח מתוך כוונה לאפשר הערכה נוחה ומהירה למידת האמיתות של המודלים. תהליך ההכנה כלל שכירת מאמני AI, שתפקידם היה ליצור שאלות ותשובות בהתבסס על מקורות אמינים. כל שאלה נבחנה במטרה לוודא כי קיימת תשובה ברורה וחד-משמעית שאינה משתנה לאורך זמן.

השאלות נוסחו גם כדי לאתגר את המודלים החדישים ביותר, למשל, המודל GPT-4o הגיע לציון של פחות מ-40%, דבר המעיד על כך שהשאלות אכן מהוות אתגר משמעותי למודלים השונים.

בנוסף, הערכת דיוק התשובות התבצעה על ידי השוואת התשובות שניתנו על ידי המודלים לתשובות שנבדקו ואומתו על ידי מאמנים נוספים. כשלב אחרון, אחוז קטן מהשאלות נבדקו באופן ידני על ידי מאמנים נוספים כדי לאשר את איכות המבחן. כך נוצר מבחן אמין ומגוון מבחינת נושאים, עם שיעור שגיאה מוערך של כ-3%.

נושאים מגוונים ומדדים ייחודיים

SimpleQA כולל מגוון רחב של נושאים, בהם היסטוריה, גאוגרפיה, אמנות, מדע וטכנולוגיה, פוליטיקה, ספורט ועוד. השאלות במבחן מציגות את המגוון הרחב של התחומים שבהם מצופה מהמודלים להיות בקיאים. מגוון זה מאפשר להעריך את יכולות המודל בתחומים שונים ולאמוד את רמת הדיוק של תשובותיו לפי תחום ספציפי.

למשל, אחד מהמדדים שמספק SimpleQA הוא מדד הדיוק לפי קטגוריה – כך ניתן לראות האם מודל מסוים נוטה לשגיאות באחד התחומים, למשל, במדע וטכנולוגיה, יותר מאשר בתחום אחר כמו היסטוריה.

שיפור רמת האמינות באמצעות הערכת אמון המודל

אחת המטרות של SimpleQA היא לבדוק עד כמה מודלים מבינים את מגבלות הידע שלהם, מה שנקרא "הערכת אמון". במבחן זה, המודלים מתבקשים לציין את רמת הביטחון שלהם בתשובה, ואז משווים את אחוזי הדיוק האמיתיים שלהם לאחוזי הביטחון שהם מציינים. לדוגמה, אם מודל מציין שהוא בטוח ב-75% בתשובה מסוימת, רמת הדיוק בפועל שלו בשאלות באותו תחום אמורה להיות 75%.

המדד מראה שמודלים גדולים יותר כמו o1-preview מפגינים רמה גבוהה יותר של "כיול" (calibration) – כלומר, ביטחון התשובה שלהם קרוב יותר לשיעור הדיוק בפועל.

מסקנות ועתיד השימוש ב-SimpleQA

SimpleQA הוא כלי מהותי להערכת האמינות של מודלים מתקדמים ולסיוע בהבנת יכולותיהם. המבחן מספק מדד מדויק וממוקד למדידת רמת האמיתות של מודלים לשאלות קצרות, והינו אמצעי חדשני בהתקדמות לעבר בינה מלאכותית יותר מהימנה ואמינה. עם זאת, חשוב לזכור שהמבחן בודק רק שאלות ממוקדות ואינו בהכרח מתאים להערכת רמת הדיוק בתשובות מורכבות יותר.

מבחן זה צפוי לסייע לחוקרים ולמפתחי AI לפתח ולשפר את הדור הבא של המודלים בתחום השפה, תוך התמקדות במתן תשובות מדויקות ומהימנות יותר. OpenAI מזמינה את החוקרים להשתמש ב-SimpleQA ולהמשיך בפיתוח דרכים להערכת מודלים בצורה יעילה ומהימנה.

סיכום

SimpleQA מהווה כלי מתקדם וחשוב למדידת אמינותן של מערכות בינה מלאכותית, ומסייע להבין כיצד הן מתמודדות עם שאלות עובדתיות. באמצעות מדד זה, OpenAI שואפת להניע מחקר שמקדם את אמינות התשובות של מודלים כמו ChatGPT ולהבטיח יישום של AI מדויק ומהימן יותר. SimpleQA מציב רף חדש בתחום בדיקת העובדתיות, ומזמין את החוקרים והקהילה להמשיך ולשפר את האיכות והדיוק של מערכות בינה מלאכותית.