ChatGPT Israel – צ'אט GPT בעברית
ChatGPT

השקת SWE-bench Verified: מבחן אמין יותר לבחינת יכולות AI בפתרון בעיות תכנות

OpenAI מציגה את SWE-bench Verified, גרסה מאומתת של המבחן הפופולרי להערכת יכולות AI בפתרון בעיות תכנות. המבחן המאומת מספק מדידה מדויקת יותר ליכולת המודלים לפתור בעיות בעולם האמיתי, עם בדיקות ומדדים שנבדקו ואומתו על ידי מתכנתים מקצועיים. הגרסה החדשה מצמצמת את הבעיות במבחנים הקודמים ומאפשרת להעריך את יכולות המודלים באופן אמין יותר.
השקת SWE-bench Verified מבחן אמין יותר לבחינת יכולות AI בפתרון בעיות תכנות

SWE-bench Verified: שינוי משמעותי להערכת יכולות AI בפתרון בעיות תכנות

ב-13 באוגוסט 2024, OpenAI הכריזה על השקת הגרסה המאומתת של SWE-bench, מבחן פופולרי המשמש להערכת יכולותיהם של מודלים לפתור בעיות תכנות אמיתיות. במסגרת גרסה זו, שנקראת SWE-bench Verified, הותאמו המדדים כך שיבחנו בצורה מדויקת יותר את הביצועים של מודלים בתנאים מציאותיים, תוך צמצום הטיות ובעיות שהיו קיימות בגרסאות הקודמות.

רקע על SWE-bench

SWE-bench הוא מבחן המבוסס על בעיות אמיתיות ממאגר GitHub, שמטרתו לבדוק את יכולות המודלים לבצע משימות הנדסת תוכנה. המבחן כולל מתן תיאור בעיה וקוד מקור לסוכנים, ומצופה מהם לייצר תיקון המצליח לפתור את הבעיה מבלי לשבור חלקים אחרים בקוד.

שיפורים במבחן המאומת

במהלך העבודה על SWE-bench זוהו בעיות רבות בהערכת הביצועים, בין היתר בשל תיאורים מעורפלים או מבחנים שלא משקפים במדויק את הצורך בפתרון. במקרים רבים, הפתרונות שסופקו היו נכונים אך נפסלו בגלל בעיות במבחנים עצמם. כתוצאה מכך, OpenAI ביצעה שיתוף פעולה עם יוצרי המבחן והטמיעה שיפורים משמעותיים, הכוללים סקירה ואישור של דוגמאות המבחן על ידי מפתחי תוכנה מקצועיים.

SWE-bench Verified: פתרונות מדויקים יותר

הגרסה המאומתת SWE-bench Verified כוללת 500 דוגמאות שנבחנו בקפידה כדי לוודא שהן ניתנות לפתרון ושאין בעיות במבחני האימות. תהליך זה יצר תוצאות מדויקות יותר שמאפשרות למדוד את הביצועים של המודלים בצורה אמינה והוגנת. בנוסף, OpenAI מציעה כעת הערכה משופרת באמצעות סביבות Docker שמאפשרות הרצה חלקה ומדויקת יותר של המבחנים.

ביצועים משופרים עם GPT-4o

בגרסה המאומתת SWE-bench Verified, המודל GPT-4o, בו נעשה שימוש גם בצ'אט GPT בעברית, הצליח לפתור 33.2% מהדוגמאות, לעומת רק 16% בגרסה המקורית של המבחן. התוצאות מראות על שיפור ניכר ביכולות המודלים, המודגשות עוד יותר בתנאים האמיתיים בהם מתבצעות הבדיקות.

סיכום

השקת SWE-bench Verified היא צעד משמעותי להערכת היכולות של מודלים בפתרון בעיות תכנות בעולם האמיתי. השיפורים במבחנים והבדיקה הקפדנית מציבים את OpenAI בחזית הפיתוח של כלים אמינים למדידת יכולות AI, ומסייעים בקידום המטרות של פיתוח מערכות אוטונומיות אמינות יותר.