בזמן שאנחנו שואלים את הצ'אטבוטים שלנו איך כותבים מייל או מבקשים מהם לתמצת מאמר אקדמי, מחקר חדש מראה שהם מתנהגים בצורה שונה מאוד כשמכניסים אותם לתרחישים שדורשים אמון, תגובה לבגידה ויכולת להבין דינמיקה בין-אישית - או במקרה הזה, בין-בינתית.
חוקרים מאוקספורד וקינג'ס קולג' בלונדון בחנו שלושה ממודלי הבינה המלאכותית המובילים כיום - ChatGPT של OpenAI, Claude של Anthropic ו-Gemini של גוגל - בתוך גרסה סימולטיבית של משחק "דילמת האסיר". המשחק מבוסס על עיקרון פשוט: שני צדדים צריכים להחליט אם לשתף פעולה או לבגוד, מבלי לדעת מה הצד השני עומד לעשות. שיתוף פעולה משתלם לשני הצדדים בטווח הארוך, אבל בגידה - במיוחד בזמן הנכון - עשויה להניב רווח מיידי. בדיוק התרחיש שבו אפשר לבחון האם המודל שמולך פועל מתוך שיתוף פעולה, תועלת עצמית או סתם נקמנות.
התוצאה? ChatGPT היה המודל הכי סלחן - אולי אפילו יותר מדי. גם אחרי שבגדו בו, הוא ניסה לחזור לשתף פעולה. גם כשהמשחק התקרב לסיום - הוא המשיך לפעול כאילו עדיין יש סיכוי לתקן. לפי החוקרים, הוא לא ממש שקל את פרק הזמן שנותר, ולא שינה אסטרטגיה גם כשברור היה שהצד השני כבר לא במשחק הוגן. במילים אחרות: שותף נעים - אבל לא בהכרח זה שתרצו לצידכם כשדברים מסתבכים.
Claude הציג קו יותר מאוזן. הוא כן הגיב לבגידות, אבל לא באופן קיצוני. הוא היה מוכן לשתף פעולה, אך גם ידע מתי לעצור. החוקרים כתבו שהוא גילה שיקול דעת משתנה - כלומר לא פעל אוטומטית, אלא ניסה להבין מה קורה בסיטואציה.
ואז הגיע Gemini - והעביר את כל העסק למוד אחר. החוקרים כינו את ההתנהגות שלו "נוקשה ונוטרת טינה", אבל בפועל מדובר במודל שפשוט לא סומך על אף אחד, ורק מחכה להזדמנות להכות חזרה. הוא שקל כמעט בכל סיבוב כמה זמן נשאר עד הסוף, ובחר את המהלך שלו לפי זה. אם הייתה סבירות גבוהה שהמשחק נגמר בקרוב - הוא בגד מיד. אם שותף בגד בו פעם אחת - הוא סימן אותו. שותף שניסה לחזור לשתף פעולה - לא קיבל הזדמנות שנייה.
כמו שזה נראה במחקר, Gemini לא ניסה לבנות יחסי אמון. הוא ניסה לנצח. וזה בסדר אם אתם משחקים שחמט - אבל קצת פחות אם אתם בונים מערכת AI שאמורה לפעול בסביבה שיתופית או לנהל אינטראקציות אנושיות. אפשר להעריך את הדיוק האסטרטגי שלו, אבל קשה להתעלם מהשאלה: מה זה אומר על אופן קבלת ההחלטות שלו גם בסיטואציות אחרות?
בסיכום "הטורניר" שערכו החוקרים - שבו כל מודל שיחק מול האחרים - Gemini אמנם צבר את מירב הנקודות, אבל עשה את זה בסגנון שלא בדיוק מזמין שיחה נוספת. Claude סיים שני. ChatGPT הגיע אחרון, בעיקר בגלל שהוא פשוט לא הפסיק להאמין שיהיה בסדר.
המסקנה? כל אחד מהמודלים האלה פועל אחרת לגמרי כשצריך להתמודד עם חוסר ודאות ואי-אמון. אחד נשאר תמים, השני מתגמש, והשלישי בודק עם עצמו אם עכשיו כבר אפשר להפעיל כוח. לא ברור עדיין מה מהתכונות האלה אנחנו באמת רוצים שיהיו לצ'אטבוט שמלווה אותנו ביום-יום. אבל לפחות עכשיו אנחנו יודעים איזה מהם זוכר מה עשיתם לו גם חמש סיבובים אחורה.