גרסת GPT-4o מייצגת קפיצת מדרגה ביכולת של AI להגיב , במיוחד עם קלט אודיו ויכולת ויזואלית.
זה גם יכול לדבר די טוב, וזה מתחיל להרגיש אנושי בצורה מוזרה ( מצמרר כמובן).
דפוס הדיבור וזמני התגובה מהירים מעל פי 10 מהגרסאות הקודמות, וכמעט שלא ניתן להבחין בהם מאדם אמיתי.
שני סרטונים נוספים הגיעו לסיבוב בטוויטר.
אחד הראה את הדוגמנית עוברת על ילד דרך שיעורי בית בגיאומטריה והשני עושה תרגום בזמן אמת בין איטלקית לאנגלית.
דברים מרשימים המציגים דיוק, צדדיות והומור באותה מידה. הם גם מדגימים את האיום ש-OpenAI עשויה לייצג לאלפי סטארט-אפים שבונים "עטיפות" על גבי ChatGPT - אולי היא תוכל לעשות הכל, ללא צורך בפתרונות נקודתיים לבעיות ספציפיות (שאלה שבן אוונס העלה לאחרונה).
מבחינת שיפורים טכניים, בעדכון קודם, OpenAI השתמשה בשלושה דגמים שונים עבור תכונת הקול שלה:
אחד לתמלול אודיו לטקסט קריא;
הליבה GPT-3.5/4 כדי לאסוף את הטקסט ולייצר תגובה, וכן;
דגם שלישי להמרת הטקסט בחזרה לפלט אודיו.
ה GPT-4o מאחסן את התהליך המשורשר הזה.
זהו דגם אחד מקצה לקצה; הכל מעובד על ידי אותה רשת עצבית.
עכשיו זה הרבה יותר טוב בתפיסת הקשר: טון של הרמקול, רעשי רקע וכו' ומפיק תגובה מרקם יותר, עם נגיעות של משהו שנראה כמו רגש (כמעט אבל בצורה מצמררת איפה שאתה יודע שזה לא) .
ביום ההשקה, סם אלטמן צייץ "Her" - רפרנס לסרט שבו חואקין פיניקס מתאהב בעוזרו הוירטואלי (עד שהיא זורקת אותו ל-AI אחר).
ברור שהמרדף אחר AGI נותר המטרה העיקרית של OpenAI. כמובן, הם רוצים גם לפתח כלים ותכונות שימושיות. אבל, לפחות במוחו של אלטמן, המטרה נותרה ליצור אנלוגי/שיפור אנושי.
אני תוהה אם חשיבה כזו, במקום התמקדות בתועלת - או אפילו הפחתת נזקים, למשל - תוביל לתוצאה הטובה ביותר עבור האנושות.
אז כך זה עובד אינטראקציה בין מערכות AI הנעזרות ביכולות קול וויזואל על מנת לתקשר.
החוויה מופעלת על ידי גרסה חדשה של דגם השפה הגדול GPT-4 שלה - זמין במחשב שולחני ובנייד - המכונה GPT-4o ("GPT-four-oh"). הדגם החדש, לפי OpenAI, מחזיר תשובות הרבה יותר מהר מ-GPT-4, ומשפר את יכולות הטקסט, החזון והשמע שלו.
המודל מהווה חלון ראווה לפיתוח של OpenAI של AI מולטי-מודאלי. GPT-4o יכול לקבל ולהגיב לגבי טקסט, אודיו וקלט חזותי, ולאחר מכן לספק פלטים בשפה טבעית ובקול שנשמע טבעי.
החוקר OpenAI Mark Chen הדגים את יכולות השיחה המרשימות של הדגם החדש במהלך הדגמה חיה. הוא אמר לצ'אטבוט שהוא עצבני מההדגמה, וביקש ממנה עצה כדי לעזור להרגע. לאחר מכן צ'ן התנכל לטלפון שלו, והאפליקציה הגיבה לו, "מארק! אתה לא שואב אבק." ה-AI היה ספונטני ומצחיק, בדומה לעוזרת הקולית (בקולה של סקרלט ג'והנסון) ב- Her , שהפכה לכוכב צפון עבור אנשים שמפתחים בינה מלאכותית צרכנית.
האפליקציה התבקשה לספר סיפור עם רמות שונות של "דרמה" בקולה, מה שהיא עשתה, באופן משכנע. לאחר מכן, הבינה המלאכותית סיפרה את אותו סיפור בקולו של רובוט סטריאוטיפי, ואז שוב בשירה.
חן גם הדגים כיצד הוא יכול להפריע לקול הבינה המלאכותית, והיא הייתה מפסיקה לדבר במהירות. ChatGPT, במילים אחרות, הופך לאינטליגנטי יותר "רגשית". זה דומה מאוד למה שפיתחה Inflection.ai עם אפליקציית Pi AI שלה. אבל Inflection.ai בעצם נרכשה על ידי מיקרוסופט, אותה ענקית טכנולוגיה שמחזיקה בכמעט מחצית מ-OpenAI.
לאפליקציית ChatGPT יש גם את היכולת "לראות" דברים ולחשוב עליהם. דרך מצלמת הטלפון הוצגה לאפליקציה בעיה מתמטית כתובה על לוח לבן וביקשה עזרה בפיתרון. לאחר מכן הוא התבקש להסביר קוד מחשב כלשהו. האפליקציה גם ביצעה תרגום חי מאיטלקית לאנגלית ובחזרה.
התכונות החדשות באפליקציית ChatGPT יושקו למשתמשי ChatGPT Plus במהלך השבועות הקרובים. OpenAI אומרת שהיא גם הופכת את GPT-4o לזמין למפתחים דרך ה-API שלה.
עדכון : הסיפור הזה דיווח במקור שהתכונות החדשות באפליקציית ChatGPT יושקו למשתמשים בחינם של ChatGPT. למעשה, הפיצ'רים יגיעו לעת עתה רק למשתמשי ChatGPT Plus.