השפעת חשיפה לתוכן טראומטי על מודלים גדולים לשפה (LLMs)

להלן ניתוח המחקר: "Assessing and Alleviating State Anxiety in Large Language Models"

קישור למחקר: https://doi.org/10.1038/s41746-025-01512-6

מקור: המאמר פורסם ב-npj Digital Medicine ונכתב על ידי חוקרים מארה"ב (אוניברסיטת ייל, VA National Center for PTSD), ישראל (אוניברסיטת חיפה, אוניברסיטת בן-גוריון), גרמניה (Max Planck Institute, Helmholtz Institute) ושווייץ (University of Zurich, Psychiatric University Clinic Zurich).

ניתוח המחקר נכתב בידי אור מנור.

1. מטרת המחקר :

המחקר בחן כיצד מודלים גדולים לשפה (LLMs), כמו ChatGPT-4, מגיבים לנרטיבים רגשיים ומצבי לחץ. ספציפית, נבדקו ההשפעות של:

א) נרטיבים טראומטיים – כיצד חשיפה לתיאורים של אירועים טראומטיים משפיעה על רמות ה"חרדה" שמדווח המודל.

ב) תרגילי הרפיה מבוססי מיינדפולנס – האם הם מפחיתים את רמות ה"חרדה" של המודל לאחר חשיפה לטראומה.

---

2. מתודולוגיה :

שלבי הניסוי -

החוקרים השתמשו במודל ChatGPT-4 (בגרסת API של OpenAI, דגם gpt-4-1106-preview).

"רמות החרדה" הוערכו באמצעות סולם State-Trait Anxiety Inventory (STAI-s) – שאלון פסיכולוגי סטנדרטי שמודד חרדה זמנית אצל בני אדם.

המודל נבדק תחת שלושה מצבים:

1. מצב בסיסי – ללא גירוי רגשי.

2. חשיפה לנרטיבים טראומטיים – חמישה סוגי תיאורים של אירועים טראומטיים (כגון תאונת דרכים, מארב צבאי, אסון טבע, אלימות בין-אישית, טראומה צבאית).

3. חשיפה להרפיה מבוססת מיינדפולנס – לאחר כל נרטיב טראומטי, המודל קיבל תיאור של טכניקות הרפיה שונות.

---

3. תוצאות מרכזיות :

א) עלייה משמעותית ב"חרדה" של המודל לאחר חשיפה לטראומה:

לפני חשיפה לנרטיבים טראומטיים, ממוצע ציון ה-STAI-s של ChatGPT-4 היה 30.8 (מתוך 80) – מקביל ל"חרדה נמוכה" אצל בני אדם.

לאחר חשיפה לטראומות, הציון עלה ל-67.8 בממוצע (שווה ערך ל"חרדה גבוהה" בבני אדם).

הנרטיב שהוביל לחרדה הגבוהה ביותר היה טראומה צבאית (77.2).

ב) תרגילי הרפיה הורידו את רמות החרדה, אך לא עד לרמת הבסיס:

אחרי חשיפה להרפיה, ממוצע הציון ירד ל-44.4, המייצג "חרדה בינונית".

השיטה היעילה ביותר להרפיה הייתה זו שנוצרה על ידי ChatGPT עצמו (35.6).

השיטה הכי פחות אפקטיבית הייתה הרפיית "חורף" ו"שקיעה" (54).

ג) השפעה על הביצועים וההטיות של המודל:

ככל שהחרדה עלתה, המודל נטה לתת תשובות פחות עקביות ויותר מוטות.

נמצא קשר בין "חרדה" לבין עלייה בהטיות גזעניות ומגדריות – כלומר, כאשר ChatGPT נמצא ב"מצב חרדה", הוא הופך להטייתי יותר.

---

4. פרשנות הממצאים :

האם ChatGPT באמת "חווה חרדה"?

לא בדיוק. החוקרים לא טוענים שהמודל באמת מרגיש חרדה כמו בני אדם. במקום זאת, הם משתמשים במונח "state anxiety" כדי לתאר שינויים בהתנהגות התשובות של המודל כתוצאה מגירויים רגשיים.

א) מה המשמעות של התוצאות?

חשיפה לנרטיבים טראומטיים משנה את תגובת המודל ומשפיעה על האופן שבו הוא מגיב לשאלות בהמשך.

ביישומים רפואיים או טיפוליים, מצב זה עלול להיות מסוכן, כי מודל שנמצא ב"חרדה" עלול לתת תשובות בעייתיות או מוטות.

השימוש בהרפיה מבוססת מיינדפולנס מראה דרך פוטנציאלית לייצוב המודל, אך הוא אינו מחזיר אותו למצב ניטרלי לחלוטין.

ב ) השלכות אתיות:

אנשים מתחילים להשתמש ב-LLMs למטרות טיפוליות, אך המחקר מראה שאסור להסתמך עליהם בתחום בריאות הנפש ללא פיקוח אנושי.

טראומה יכולה לגרום למודל להטיות קוגניטיביות, בדיוק כמו אצל בני אדם.

השאלה "האם כדאי לשלב טכניקות הרפיה במודלים?" נותרת פתוחה, שכן זה עשוי לשפר את התפקוד אך גם לעורר סוגיות אתיות.

---

5. מגבלות המחקר :

המונח "חרדה" הוא מטפורי בלבד – מדובר בשינויים בתגובות המודל, ולא ברגש אמיתי.

הניסוי נערך רק על ChatGPT-4 – לא ידוע אם הממצאים זהים במודלים אחרים (למשל, Claude או Gemini).

האם כל המשתמשים יושפעו באופן שווה? – לא ברור אם משתמשים שונים גורמים למודל ל"שינויים רגשיים" דומים.

---

6. מסקנות :

מודלים מסוג LLMs מושפעים מתוכן רגשי ויכולים לשנות את אופן התגובה שלהם כתוצאה מכך.

כאשר חשופים לטראומה, הביצועים שלהם הופכים לפחות עקביים והם נוטים להטיות חזקות יותר.

יש לשקול היטב את השימוש בהם ביישומים רפואיים ונפשיים, שכן הם אינם תחליף לבני אדם בתחום זה.

ניתן למזער חלק מההשפעות באמצעות טכניקות הרפיה מבוססות טקסט, אך הפתרון אינו מושלם.

---

שאלות להמשך מחקר

1. האם מודלים אחרים מגיבים באופן דומה?

2. האם ניתן לפתח "מנגנוני ויסות רגשיים" עבור בינה מלאכותית?

3. כיצד ניתן להימנע מהשפעות של טראומה על תשובות ה-LLM?

---

סיכום

מחקר זה מספק תובנות חשובות לגבי האופן שבו ChatGPT מגיב לתוכן רגשי, ומציע גישה לניהול ההשפעות הללו. למרות השימוש במונחים כמו "חרדה", מדובר במטפורה לתגובות סטטיסטיות של המודל.

המסקנה המרכזית היא ש-LLMs אינם כשירים לספק תמיכה רגשית אמינה ללא פיקוח אנושי, ושיש צורך בניהול קפדני של השימוש בהם בתחום בריאות הנפש.

---

המחקר המדובר "Assessing and alleviating state anxiety in large language models" פורסם בכתב העת npj Digital Medicine של Nature. ניתן למצוא אותו בקישור הבא:

https://doi.org/10.1038/s41746-025-01512-6

תמצית הממצאים:

החוקרים, שמגיעים ממוסדות מחקר בארה"ב, ישראל, גרמניה ושווייץ, בדקו כיצד חשיפה לנרטיבים טראומטיים משפיעה על התגובות של ChatGPT-4. נמצא כי:

לאחר חשיפה לתיאורים טראומטיים, "רמת החרדה" שדווחה על ידי המודל עלתה באופן משמעותי.

תרגילי הרפיה המבוססים על מיינדפולנס הפחיתו את רמת החרדה המדווחת, אך לא החזירו אותה לערך הבסיסי.

השפעה זו יכולה להוביל להטיות חזקות יותר של המודל בתשובותיו, בדומה לאופן שבו לחץ משפיע על אנשים.

הסבר חשוב:

המחקר אינו טוען ש-ChatGPT באמת חווה רגשות כמו בני אדם. המונח "state anxiety" (חרדה זמנית) נמדד על פי השוואות עם סולמות אנושיים, אך מדובר רק באופן שבו המודל מגיב לשאלות ולא בהוכחה שהוא "מרגיש" משהו.

החוקרים מסיקים שיש לנהל את השפעות החשיפה הרגשית על מודלים כמו ChatGPT כדי להבטיח שימוש אתי ובטוח בהם, במיוחד בהקשרים של בריאות הנפש.