מודל ChatGPT מושך עניין חוצה תחומים מכיוון שהוא מספק ממשק שפה עם יכולת שיחה ייחודית ויכולות חשיבה על פני תחומים רבים. עם זאת, מכיוון ש-ChatGPT מאומן בשפות, הוא אינו מסוגל כרגע לעבד או ליצור תמונות מהעולם החזותי.
יחד עם זאת, מודלים של Visual Foundation, כגון Visual Transformers או Stable Diffusion, למרות שמראים הבנה ויזואלית ויכולות יצירה נהדרות, הם רק מומחים למשימות ספציפיות עם כניסות ויציאות קבועות בסיבוב אחד.
לשם כך, נבנתה מערכת בשם \textbf{Visual ChatGPT}, המשלבת מודלים שונים של Visual Foundation, כדי לאפשר למשתמש ליצור אינטראקציה עם ChatGPT על ידי :
שליחה וקבלה לא רק של שפות אלא גם תמונות
מתן שאלות ויזואליות מורכבות או ויזואליות הוראות עריכה הדורשות שיתוף פעולה של דגמי AI מרובים עם ריבוי שלבים.
מתן משוב ובקשת תוצאות מתוקנות.
עיצוב סדרה של הנחיות להחדרת מידע על המודל החזותי ל-ChatGPT, תוך התחשבות במודלים של מספר כניסות/יציאות ומודלים הדורשים משוב חזותי.
ניסויים מראים ש-Visual ChatGPT פותח את הדלת לחקור את התפקידים החזותיים של ChatGPT בעזרת Visual Foundation Models. המערכת שלנו זמינה לציבור בכתובת \url{ https URL זה }.
להורדת המסמך המלא :
לפירוט הקוד :
Comments