באירוע מיוחד שהתקיים אתמול (שני), OpenAI חשפה את GPT-4o, גרסה משודרגת של מודל השפה המתקדם שלה. GPT-4o, שפותח תוך שימוש בים אדיר של נתונים מהאינטרנט, מציג קפיצת מדרגה משמעותית ביכולותיו לעבד ולנתח טקסט, שמע ותמונות בזמן אמת. בניגוד לגרסאות קודמות של ChatGPT, המודל החדש אינו מסתפק רק בהתכתבות טקסטואלית אלא מסוגל לתקשר עם המשתמשים במגוון דרכים, כולל קול ותמונה. יכולת זו מאפשרת לו לנהל שיחות מורכבות יותר, להבין הקשרים ניואנסיים ולספק תגובות מדויקות, טבעיות ומועילות יותר.
בהודעה שפורסמה בבלוג החברה, OpenAI מציינת כי היכולות של GPT-4o "יוטמעו באופן הדרגתי", אך יכולות הטקסט והתמונה שלו יתחילו לפעול כבר היום ב-ChatGPT. מנכ"ל OpenAI, סם אלטמן, ציין כי הדגם החדש "רב-מודלי באופן טבעי", כלומר הוא מסוגל לייצר תכנים ולהבין פקודות בקול, טקסט או תמונות. בנוסף, יקבלו מפתחים גישה ל-API של GPT-4o במחיר נמוך פי 2 ובמהירות כפולה מ-GPT-4 Turbo.
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
— OpenAI (@OpenAI) May 13, 2024
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
במהלך המצגת, OpenAI הציגה את יכולות ה-GPT-4o בתרגום סימולטני בין אנגלית לאיטלקית, סיוע לחוקר בפתרון משוואה לינארית בזמן אמת על גבי נייר, ומתן הנחיות על נשימות עמוקות למנהל אחר ב-OpenAI פשוט על ידי האזנה לנשימות שלו.
הדגמות מרשימות נוספות במהלך האירוע הציגו את הפוטנציאל העצום של GPT-4o. עובד OpenAI הציג בפני המודל את החדר בו הוא נמצא, ו-GPT-4o זיהה מיד ובצורה עצמאית שהוא כנראה מצלם סרטון. למעשה, בהדגמה הראתה OpenAI כיצד GPT-4o מסוגל לא רק לספק תשובות בקול אנושי, אלא גם לשנות את הטון שלו בהתאם לבקשה.
OpenAI מתכננת להפוך את המודל החדש לזמין לכולם, כולל משתמשי ChatGPT החינמיים, בשבועות הקרובים. בנוסף, החברה תשחרר גרסת דסקטופ של ChatGPT, תחילה עבור מחשבי Mac, אשר תהיה זמינה למשתמשים בתשלום החל מהיום.