ב-12 באפריל 2024, מעבדת המחקר x.AI של אילון מאסק פרסמה את (Grok-1.5 Vision (Grok-1.5V, מודל רב-מודאלי חדש המשלב עיבוד טקסט עם הבנת נתונים חזותיים.
מודל Grok-1.5V מציג התקדמות משמעותית בתחום הבינה המלאכותית (AI).
גרוק : הוא צ'טבוט בינה מלאכותית שיכול לענות על כמעט כל שאלה ולהציע אילו שאלות לשאול. יש לו אישיות הומוריסטית וידע עולם בזמן אמת דרך פלטפורמת 𝕏.
גרוק יכול גם להתמודד עם שאלות פיקנטיות שמערכות בינה מלאכותיות אחרות עשויות לדחות. הוא בין הטובים ביותר בהנמקה רב-תחומית, הבנה מרחבית בעולם האמיתי ובמדד RealWorldQA.
הוא מתעלה על צ'אטבוטים אחרים בהבנת תרחישים בעולם האמיתי ללא הנחיה מפורטת. כפי שמציגה הטבלה הבאה :
ל Grok-1.5V של ה-x.AI יש יכולות מרשימות.
הוא יכול ליצור קוד פונקציונלי מתרשימים מצוירים ידנית.
ה Grok-1.5V יכול גם לפתור בעיות קוד
לחשב קלוריות על בסיס תמונה בלבד
לתת ייעוץ בנושאי תחזוקת הבית
אפילו יכולה להכין סיפורים לפני השינה מציורי ילדים
להפוך טבלה בקלות ל-CSV.
עם זאת, התכונה הטובה ביותר עשויה להיות היכולת שלה להסביר ממים
פלטפורמת Grok-1.5V יכולה לקצר את הפער בין עולם וירטואלי למציאות.
אמת המידה של RealWorldQA מעריכה את יכולות ההבנה המרחבית של מודלים מולטי-מודאליים, ומדגישה את הצורך לשפר את הבנת ה-AI של הסביבה הפיזית.
למרות שהמשימות עשויות להיראות פשוטות לבני אדם, הן מאתגרות עבור כלי AI מובילים, מה שהופך את הביצועים של Grok-1.5V למדהימים.
לסיכום:
פלטפורמת
מציגה עידן חדש ב-AI מולטי-מודאלי, שבו מודלים מבינים נתונים חזותיים ופיזיים.
חידוש זה מוביל את הדרך ליישומי AI מעודנים ומעשיים יותר, ומוביל אותנו קרוב יותר למערכות אינטליגנטיות ומסתגלות באמת.