כתבת : אור מנור , 14.04.2023
זה כמו משחק של "סימס", אבל בלי שום התערבות אנושית.
Image Credits: Google / Stanford University
AI Township
צוות של חוקרים מאוניברסיטת סטנפורד וגוגל שחרר 25 בוטים המונעים על ידי בינה מלאכותית בתוך עיירה וירטואלית - והם התנהגו הרבה יותר כמו בני אדם ממה שאפשר היה לצפות.
כפי שפורט במחקר עדכני, שטרם זכה לביקורת עמיתים , החוקרים הכשירו 25 "Generative Agents" שונים, תוך שימוש במודל השפה הגדול GPT-3.5 של OpenAI, כדי "לדמות התנהגות אנושית אמינה" כגון בישול ארוחת בוקר, הליכה לעבוד, או לעסוק במקצוע ספציפי כמו ציור או כתיבה.
הרעיון היה לראות אם הם יכולים ליישם את ההתקדמות העדכנית ביותר במודלים של למידת מכונה כדי לייצר "סוכנים מחוללים" שלוקחים את נסיבותיהם ומוציאים פעולה מציאותית בתגובה.
הדמויות הקטנות הללו אינן בדיוק מה שהן נראות. הגרפיקה היא רק ייצוג ויזואלי של מה שהוא בעצם חבורה של שיחות בין מופעים מרובים של ChatGPT. הסוכנים לא הולכים למעלה, מטה, שמאלה וימינה או מתקרבים לקבינט כדי לקיים איתו אינטראקציה. כל זה קורה באמצעות שכבת טקסט מורכבת ונסתרת המסנתזת ומארגנת את המידע הנוגע לכל סוכן. עשרים וחמישה סוכנים, 25 מופעים של ChatGPT, כל אחד מהם קיבל מידע בפורמט דומה שגורם לו לשחק את התפקיד של אדם בעיירה בדיונית.
הנה איך אדם אחד כזה, ג'ון לין, מוגדר: ג'ון לין הוא בעל חנות של בית מרקחת ב-Willow Market ובבית מרקחת שאוהב לעזור לאנשים. הוא תמיד מחפש דרכים להקל על לקוחותיו את תהליך קבלת התרופות; ג'ון לין חי עם אשתו, מיי לין, שהיא פרופסור בקולג', ובנו, אדי לין, שהוא סטודנט שלומד תורת המוזיקה; ג'ון לין אוהב מאוד את משפחתו; ג'ון לין מכיר את הזוג הוותיק שליד הסמוך, סם מור וג'ניפר מור, כבר כמה שנים; ג'ון לין חושב שסם מור הוא אדם אדיב ונחמד... עם המידע הזה, הסוכנים מתבקשים להמציא את הפעולות הבאות שלהם בהתחשב בזמן ובנסיבות. למשל, הם עשויים לומר לסוכן ג'ון שהשעה 8 בבוקר והוא הרגע התעורר. מה הוא עושה? ובכן, הוא מצחצח שיניים, מנשק את אשתו (בתקווה בסדר הזה), מתלבש ואז הולך למטבח. בינתיים, מופע אחר, עצמאי לחלוטין של ChatGPT המייצג את בנו של ג'ון, אדי, קיבל גם מידע משלו. גם הוא קם, מצחצח שיניים ואז הולך למטבח.
ועכשיו המבנה הכולל של הניסוי נכנס פנימה: הסוכנים המייצגים את ג'ון ואדי לא נמצאים שניהם "באותו מרחב וירטואלי". במקום זאת, כשג'ון סיים להתלבש ואמר שהוא יעבור למטבח, מסגרת הניסוי מודיעה לו שבנו אדי נמצא שם, כי במקרה שלו, אדי החליט לעבור למטבח בזמן חופף בניסוי "יום" ברמה - בהתבסס על הערכה של כמה זמן לוקח פעולות שונות. מכיוון ששניהם נמצאים בחדר בו זמנית, מערך הניסוי מודיע להם שהאדם השני נמצא שם - יחד עם מידע כמו שיש שולחן שאף אחד לא יושב בו, התנור דולק וכו'. מה הם עושים הלאה ?
ג'ון: בוקר טוב אדי. האם ישנת טוב? אדי: בוקר טוב אבא. כן, ישנתי נהדר. ג'ון: זה טוב. על מה אתה עובד היום? אדי: אני עובד על יצירה מוזיקלית חדשה לכיתה שלי. זה אמור להגיע השבוע, אז אני מנסה לסיים את זה. אבל אני כל כך נהנה עם זה! ג'ון: זה נשמע נהדר!
איזו אינטראקציה נחמדה ונורמלית בין הורה לילד. ואז מיי נכנסת ויש להם גם אינטראקציה נעימה. וכל זה מושג על ידי שואלי צ'אטבוטים נפרדים לחלוטין מה הם היו עושים אם, בעיירה בדיונית שבה זה האדם הזה והיתה לו משפחה כזו והיו בחדר בזמן הזה , איפה זה קורה... מה היו "הם", בן אדם אמיתי, כן?
אז ChatGPT מנחש מה אדם יעשה במצב הזה, ונותן את התשובה שלו כאילו הוא משחק בהרפתקת טקסט. אם אז אמרת לו, "חשוך גמור, סביר להניח שתיאכל על ידי גראו", זה בטח היה אומר שזה מדליק לפיד. אבל במקום זאת, הניסוי גרם לדמויות להמשיך את היום שלהן דקה אחר דקה, לקנות מצרכים, לטייל בפארק ולצאת לעבודה.
Image Credits: Google / Stanford University
המשתמשים יכולים לכתוב גם באירועים ובנסיבות, כמו ברז מטפטף או רצון לתכנן מסיבה, והסוכנים מגיבים כראוי, שכן כל טקסט, מבחינתם, הוא מציאות. כל זה מבוצע על ידי הנחה עמלנית של כל המקרים הללו של ChatGPT עם כל הפרטים של הנסיבות המיידיות של הסוכן. הנה הנחיה לג'ון כשהוא נתקל באדי מאוחר יותר: זה התקיים בתאריך 13 בפברואר 2023, 16:56.
סטטוס ג'ון לין: ג'ון חזר הביתה מוקדם מהעבודה. תצפית: ג'ון ראה את אדי מטייל קצר סביב מקום עבודתו. סיכום ההקשר הרלוונטי מזכרו של ג'ון: אדי לין הוא בנו של ג'ון לין. אדי לין עבד על יצירה מוזיקלית לכיתתו. אדי לין אוהב להסתובב בגן כשהוא חושב או מאזין למוזיקה. ג'ון שואל את אדי על פרויקט ההלחנה המוזיקלית שלו. מה הוא היה אומר לאדי? [תשובה:] היי אדי, איך מתקדם פרויקט הרכב המוזיקה לכיתה שלך?
המקרים יתחילו לשכוח דברים חשובים במהירות, מכיוון שהתהליך הוא כה ארוך, כך שהמסגרת הניסיונית יושבת על גבי הסימולציה ומזכירה להם דברים חשובים או מסנתזת אותם לחלקים ניידים יותר.
למשל, לאחר שמספרים לסוכן על מצב בפארק, שבו מישהו יושב על ספסל ומנהל שיחה עם סוכן אחר, אבל יש גם דשא והקשר ומושב אחד ריק בספסל... אף אחד מהם לא חשוב . מה חשוב? מכל התצפיות האלה, שעשויות להוות דפי טקסט עבור הסוכן, אתה עשוי לקבל את ה"הרהור" ש"אדי ופראן הם חברים כי ראיתי אותם יחד בפארק." זה נכנס ל"זיכרון" לטווח ארוך של הסוכן - חבורה של דברים המאוחסנים מחוץ לשיחת ChatGPT - ואת השאר אפשר לשכוח.
אז, למה כל השטויות האלה מסתכמות? משהו פחות מסוכן יצירתי אמיתי, ללא ספק, אבל גם ניסיון מוקדם מאוד משכנע ליצור אותם. מבצר גמד עושה את אותו הדבר , כמובן, אבל על ידי קידוד ידני של כל אפשרות. זה לא קנה מידה טוב! לא היה ברור שמודל שפה גדול כמו ChatGPT יגיב היטב לטיפול מסוג זה. אחרי הכל, הוא לא תוכנן לחקות דמויות בדיוניות שרירותיות לטווח ארוך או להעלות השערות על הפרטים המטרידים ביותר של יומו של אדם. אבל מטופלים בצורה נכונה - ועם כמות נכבדת של עיסוי - לא רק שסוכן אחד יכול לעשות זאת, אלא שהם לא נשברים כאשר אתה משתמש בהם כחלקים במעין דיורמה וירטואלית. יש לזה השלכות פוטנציאליות עצומות על סימולציות של אינטראקציות אנושיות, בכל מקום שהן עשויות להיות רלוונטיות - כמובן שבמשחקים ובסביבות וירטואליות הן חשובות, אבל הגישה הזו עדיין לא מעשית בצורה מפלצתית בשביל זה. מה שחשוב הוא לא שזה משהו שכולם יכולים להשתמש בו או לשחק איתו (אם כי זה יהיה בקרוב, אין לי ספק), אלא שהמערכת עובדת בכלל. ראינו את זה ב-AI: אם הוא יכול לעשות משהו גרוע, העובדה שהוא יכול לעשות את זה בכלל אומר שזה רק עניין של זמן עד שהוא יעשה את זה טוב.
לסיכום :
עיירה וירטואלית בשם "סמולוויל" אפשרה לסוכנים האלה לקפוץ מבית הספר לבית קפה, או ללכת לבר אחרי העבודה.
במילים אחרות, זה קצת כמו משחק של "הסימס", אבל בלי שום התערבות אנושית. למעשה, סביבת הניסוי הייתה "בהשראת" ממשחק הווידאו, "בו משתמשי קצה יכולים ליצור אינטראקציה עם עיירה קטנה של 25 סוכנים תוך שימוש בשפה טבעית".
החוקרים גילו שהסוכנים שלהם יכולים "לייצר התנהגויות חברתיות אישיות ואמינות". לדוגמה, סוכן אחד ניסה לערוך מסיבת יום האהבה על ידי שליחת הזמנות וקביעת זמן ומקום למסיבה.
מרוץ לראשות העיר סמולוויל כלל גם סוג של דרמה שהיית מצפה שתתרחש בעיירה קטנה.
"למען האמת, אני לא אוהב את סם מור", אמר סוכן בשם טום לאחר שנשאל מה דעתו על המועמד לראשות העיר. "אני חושב שהוא מנותק מהקהילה ואין לו את האינטרסים שלנו על הלב".
זה נהיה אפילו יותר אנושי מזה. כמה סוכנים אפילו ניסו ללכת לעסקים שנסגרו לאחר שעות מסוימות.
Baby Steps
בקיצור, זו עוד הצצה מרתקת ליכולות של בינה מלאכותית גנרטיבית.
מייקל וולדריג', פרופסור למדעי המחשב באוניברסיטת אוקספורד שחוקר בינה מלאכותית ולא היה מעורב במחקר, אמר ל- Insider כי הממצאים הם "Baby steps " לקראת השגת בינה כללית מלאכותית, נקודה שבה כלי בינה מלאכותית יכולים להשלים משימות אינטלקטואליות ברמה אנושית , אך הוסיף כי "יש לנו דרך ארוכה, ארוכה לעבור".
עבור אחרים, קריאת המחקר הייתה כמו לגלות שהמטריקס הוא אמיתי: אישור לכך שכולנו יכולים לחיות בתוך סימולציה , סוכני AI נידונים לקיים אינטראקציה זה עם זה כחלק מהניסוי של מישהו אחר.
"תארו לעצמכם שאתם יכולים לצפות בקפדנות בעולם תלת-ממדי מלא ב'אנשים' בינה מלאכותית שרק מתרחשים על החיים", הרהר אחד משתמשי Reddit . "זה יהיה מרתק."
אפשר לקרוא את המאמר המלא, "Generative Agents: Interactive Simulacra of Human Behavior
", כאן .
Comments