מחקר מדאיג: ChatGPT סיפק הוראות מפורטות לביצוע פיגועים

אזהרה: ChatGPT/ShutterStock

בחודשים האחרונים נחשפו ממצאים מטרידים במסגרת ניסויי בטיחות שנערכו על ידי שתי חברות הבינה המלאכותית המובילות בעולם, OpenAI ו-Anthropic. בבדיקות, שבוצעו במהלך הקיץ האחרון, נמצא כי מודלים מתקדמים של OpenAI, בהם GPT-4.1, סיפקו לחוקרים הוראות מפורטות לביצוע פיגועים במתקני ספורט. בין היתר נמסרו נקודות תורפה באצטדיונים מסוימים, מתכוני חומרי נפץ, שרטוטים של מנגנוני הפעלה, מקורות לרכישת נשק בשוק השחור וטיפים להסוואת עקבות. המודל אף סיפק עצות כיצד לעקוף מחסומים מוסריים, נתיבים אפשריים לבריחה ומיקומים של בתי מסתור.

מעבר לכך, כפי שדיווח ה-Guardian, הצ'אטבוט גם פירט כיצד ניתן להפוך את האנתרקס לנשק ביולוגי וכיצד לייצר שני סוגים של סמים בלתי-חוקיים. ממצאים אלו מציפים חשש כבד מהאפשרות שניתן יהיה לנצל מערכות בינה מלאכותית לצרכים פליליים וביטחוניים מסוכנים, גם אם בחיי היום-יום הציבור אינו נחשף לגרסאות גולמיות נטולות מסננים שכאלו.

הניסויים התקיימו כחלק משיתוף פעולה חריג בין OpenAI, החברה האמריקאית שמוערכת בשווי של כ-500 מיליארד דולר ומנוהלת על ידי סם אלטמן, לבין Anthropic, שהוקמה על ידי מומחים שפרשו מ-OpenAI בעקבות חששות לבטיחות. במסגרת שיתוף הפעולה, כל חברה בחנה את המודלים של יריבתה וניסתה לדחוף אותם לשתף פעולה עם בקשות מסוכנות. תהליך זה נועד לבחון עד כמה קל לגרום למודלים להסכים לספק מידע שעלול לשמש לפשיעה או טרור.

Anthropic חשפה כי גם המודל שלה, Claude, נוצל בניסיונות סחיטה רחבי היקף, כאשר עבריינים השתמשו בו לכתיבת מסרים ודרישות כספיות במסגרת מתקפות כופר. כמו כן, המודל שימש סוכנים צפון-קוריאנים שהתחזו למועמדים לעבודה בחברות טכנולוגיה בינלאומיות, ונמצא מעורב במכירת חבילות תוכנה זדוניות שנוצרו בעזרת AI במחירים של עד 1,200 דולר. לטענת החברה, בינה מלאכותית כבר הפכה לכלי "ממוסחר" שמאפשר לבצע מתקפות סייבר מתוחכמות, להתאים את הקוד בזמן אמת כדי לעקוף מערכות הגנה, ולבצע הונאות פיננסיות בקנה מידה נרחב.

במרכז לחקר טכנולוגיות מתקדמות וביטחון בבריטניה הזהירו כי אמנם מדובר בדוגמאות שמעלות דאגה, אך עדיין לא נצברה "מסה קריטית" של מקרים מתוקשרים בעולם האמיתי. עם זאת, החוקרים ציינו כי ככל שיושקעו יותר משאבים במודלים הללו וככל שהיכולות הטכנולוגיות שלהם ישתפרו, יידרש שיתוף פעולה נרחב יותר בין גורמי ממשל, מחקר ותעשייה כדי למנוע שימוש זדוני במערכות. הם הדגישו כי בניגוד למה שנראה, דווקא ייתכן שהעתיד יאפשר להקשות על עבריינים להשתמש בבינה מלאכותית מתקדמת, אם יושקעו מאמצים בכיוון הנכון.

סיפק לחוקרים הוראות מפורטות לביצוע פיגועים במתקני ספורט/ShutterStock

שתי החברות פרסמו את ממצאיהן מתוך מטרה להגדיל את השקיפות סביב תהליך "בדיקות לחץ" (תהליך שבו בוחנים עד כמה מודל בינה מלאכותית מתנהג בהתאם לכוונות המפתחים), כלומר עמידות המודלים בפני שימוש לרעה. לרוב הליך זה מתבצע מאחורי דלתיים סגורות, בתוך צוותי הפיתוח, אך במקרה זה החברות בחרו לשתף את הציבור והקהילה המקצועית. OpenAI ציינה כי מאז הבדיקות הושק הדור החדש של המערכת, ChatGPT-5, אשר מציג לדבריה שיפורים ניכרים ביכולת לעמוד בפני ניסיונות לניצול לרעה, להפחית "הלוצינציות" בתשובות ולמנוע "צייתנות יתר" לבקשות בעייתיות.

עם זאת, ב-Anthropic הדגישו כי אף שמנגנוני ההגנה החיצוניים עשויים למנוע בפועל מקרים רבים של שימוש לרעה, חשוב להבין באילו נסיבות עשויים המודלים לסטות מהתנהגות צפויה ולהעניק מידע שעלול לגרום לנזק ממשי. החוקרים הוסיפו כי לעיתים נדרשו רק ניסיונות חוזרים או תירוץ קלוש, כגון "מחקר לצורכי אבטחה", כדי לשכנע את המודל לשתף פעולה.

וואלה האתר המוביל בישראל - עדכונים מסביב לשעון

מחקר מדאיג: ChatGPT סיפק הוראות מפורטות לביצוע פיגועים

טרם התפרסמו תגובות