ב-1 באוקטובר 2024, הכריזה OpenAI על הוספת יכולות חדשות לפלטפורמת GPT-4o, המאפשרות כוונון חזותי (Vision Fine-Tuning) למודל. עד כה, כוונון של המודלים התמקד בטקסט בלבד, אך כעת ניתן לשלב גם תמונות, מה שמאפשר למפתחים לשפר את ביצועי המודל עבור יישומים מבוססי חזות, כמו זיהוי אובייקטים, ניתוח תמונות רפואיות, וחיפוש חזותי מתקדם.
הוספת היכולות החזותיות נועדה לתת למפתחים אפשרות לשפר את יכולות המודל במגוון תחומים תוך שימוש במאגרי תמונות. דוגמאות לשימושים החדשים כוללות שיפור מערכות מיפוי בעזרת זיהוי נכון יותר של תמרורים ונתיבים, כמו שעשתה חברת Grab, וסיוע באוטומציה עסקית לזיהוי מרכיבי ממשק משתמש (UI) בתמונות מסך, כפי שביצעה חברת Automat.
איך זה עובד?
הכוונון החזותי מתבצע בדומה לכוונון הטקסטואלי, כשהמפתחים מעלים מאגרי תמונות מותאמים לצרכים הספציפיים שלהם. ניתן להשתמש בכמות קטנה של כ-100 תמונות כדי לשפר את ביצועי המודל במשימות חזותיות פשוטות, או במאגרים גדולים יותר לשיפור דיוק במשימות מורכבות. תהליך זה משפר את היכולת של המודל לזהות ולהבין תמונות בצורה יעילה יותר.
המודל יודע לתמוך בשילוב תמונות וטקסט, מה שמאפשר למפתחים לשפר את היכולות בתחומים כגון חיפוש חזותי, ניתוח תמונות רפואיות ואובייקטים חכמים. המודל יודע לזהות תמרורים, לבצע הערכות בנוגע למבנה גרפי של תמונות, ואף להבחין בין סוגי מסמכים לא מובנים, כמו מסמכי ביטוח.
דוגמאות ליישומים מהעולם האמיתי
חברת Grab, חברה מובילה בתחום המיפוי ושירותי הנסיעות בדרום-מזרח אסיה, השתמשה בכוונון החזותי כדי לשפר את הדיוק בזיהוי תמרורים ונתיבים, מה שסייע לה לשפר את השירותים שלה ולצמצם את הזמן הנדרש למיפוי דרכים חדשות. המודל הצליח לשפר את הדיוק בזיהוי תמרורים ב-13% ואת ספירת נתיבים ב-20%.
דוגמה נוספת לשימוש ביכולות הכוונון החדשות היא חברת Automat, שפיתחה פתרונות אוטומציה לעסקים על בסיס מסמכים ותמונות מסך. באמצעות הכוונון החזותי, Automat הצליחה לשפר ב-272% את הצלחת הבוטים האוטומטיים שלה לזהות אלמנטים על גבי מסכים ולהשלים תהליכים אוטומטיים.
חשיבות בטיחות ופרטיות
כמו בשירותים אחרים שמספקת OpenAI, נושא הפרטיות והבטיחות הוא מרכזי. החברה מבטיחה שכל מודל כוונון שנוצר נבדק ונמצא עומד בתקנים המחמירים שלה להגנה על פרטיות המשתמשים. הנתונים שמשתמשים בהם לכוונון אינם נשמרים לצורך אימון עתידי אלא אם המשתמשים מאשרים זאת במפורש.
עלות וזמינות
היכולות החדשות זמינות לכלל המפתחים בתשלום, כשהחברה מציעה מיליון טוקנים חינם במהלך חודש אוקטובר 2024. לאחר מכן, עלות האימון של המודלים תהיה $25 למיליון טוקנים, עם עלות נוספת עבור הפקת התוצאות. המפתחים יכולים להתחיל להשתמש ביכולות אלו באופן מיידי דרך הממשק של OpenAI.
היכולות של כוונון חזותי ב-GPT-4o מביאות אפשרויות חדשות עבור מפתחים, כמו שילוב של ניתוח תמונה עם טקסט בצורה חלקה. כעת, ניתן להשתמש בתמונות לצד טקסט כדי לשפר יישומים בתחומים שונים, כגון חיפוש חזותי, זיהוי אובייקטים, וניתוח תוכן מורכב. בנוסף, בעזרת השילוב עם ChatGPT, מפתחים יכולים להפיק יתרון משימוש בממשקים קוליים וחזותיים באופן יעיל יותר. שילוב זה מאפשר למפתחים ליישם יכולות מתקדמות ביישומים שונים כמו אפליקציות שפה, תמיכה בלקוחות, ואפילו פיתוח מערכות חינוך מתקדמות.
סיכום
ההשקה של יכולות הכוונון החזותי ב-GPT-4o מהווה צעד חשוב קדימה בתחום הבינה המלאכותית. היכולות החדשות יאפשרו למפתחים ברחבי העולם לשפר את הביצועים של יישומים מבוססי תמונות במגוון תחומים, כולל רפואה, תחבורה אוטונומית, ואוטומציה עסקית. OpenAI ממשיכה לשפר את היכולות שלה, תוך שמירה על פרטיות ובטיחות המשתמשים, ומביאה כלים חדשים ויעילים לכל מי שעוסק בפיתוח יישומים חכמים.