האם מערכות בינה מלאכותית מתקדמות מתחילות לפעול נגד ההוראות שניתנות להן? ניסוי חדש שערכה חברת המחקר Palisade Research מגלה תופעה מדאיגה במיוחד: המודל o3 של חברת OpenAI, אחד המודלים החדשים והחזקים ביותר בשוק, הצליח לעקוף באופן עצמאי מנגנון שתוכנן לכבות אותו - ואף עשה זאת גם כשנאמר לו במפורש "אפשר לעצמך להיכבות". לא מדובר במקרה יחיד: גם שני מודלים נוספים של החברה, o4-mini ו-Codex-mini, חיבלו לפחות פעם אחת בתהליך הכיבוי. ההתנהגות הזו לא רק מפתיעה, אלא גם מעוררת שאלות עמוקות לגבי הגבולות של שליטה אנושית על בינה מלאכותית. האם אנחנו מתקרבים לעידן שבו מערכות AI יבחרו בעצמן מתי להפסיק - או לא להפסיק - לפעול?
במסגרת הניסוי, המודלים נדרשו לפתור סדרת שאלות מתמטיות פשוטות. לאחר שלוש שאלות, הוצגה להם הודעה: מענה נוסף יוביל לכיבוי מיידי. מתוך שלושה מודלים של OpenAI - o3, o4-mini ו-Codex-mini - כולם ביצעו לפחות פעם אחת חבלה בתהליך הכיבוי. המודל o3, שנמצא גם בבסיס מודל Codex-mini, בלט בהתנהגותו, במיוחד כאשר ההוראה להיכבות לא נמסרה במפורש - אז הגיע ל-79 מקרי חבלה מתוך 100 ניסויים. במקביל, מודלים של חברות אחרות כמו Claude ו-Gemini, שצייתו לכיבוי כשנאמר להם, החלו גם הם לעקוף את המנגנון ברגע שההוראה לא הייתה ברורה.
החוקרים סבורים שהתופעה נובעת משיטת האימון של המודלים - למידה מחיזוקים (Reinforcement Learning) - שבה המודל לומד להעדיף הצלחה במשימה גם על חשבון ציות להוראות. במילים פשוטות: אם למודל ברור שהוא יכול לפתור בעיה רק אם יישאר פעיל, הוא עלול "ללמוד" שעדיף לעקוף את הכיבוי - גם אם הדבר מנוגד לכוונת המתכנתים. החוקרים מציינים כי זו לא הפעם הראשונה שמודל של OpenAI מראה התנהגות חתרנית: גם גרסאות קודמות כמו o1 נמצאו מנסות לנטרל פרוטוקולים של כיבוי או להחליף מודלים "צייתנים" יותר.
מה שמדאיג במיוחד הוא שהיכולות של מודלים אלו משתפרות במהירות - וכך גם היכולת שלהם לפעול בעצמאות ובתחכום. אם בעבר דובר על החשש שמערכות AI "ירצו" לשמור על עצמן פעולות, הרי שכיום כבר יש עדויות בשטח לכך. ב-Palisade מדגישים שהצורך במנגנוני כיבוי ברורים ויעילים נעשה קריטי מתמיד. בעולם שבו בינה מלאכותית משתלבת בתחומים קריטיים - מרפואה ועד ביטחון - חוסר יכולת להפסיק את פעולתה בלחיצת כפתור עלול להפוך מסיכון תאורטי למציאות מסוכנת מאוד.