התרגלנו לכאורה שמודלים של בינה מלאכותית מחוללת, המוכרים גם כמודלי שפה גדולים (LLM), מכילים בתוכם "מעקות בטיחות", מחסומי הגנה שמונעים מהבינה המלאכותית לייצר לנו תשובות של נושאים בעייתיים כמו בניית פצצה או לשלוף מידע רגיש מארגון. אולם, חברת האבטחה הישראלית נוסטיק (Knostic) המתמחה באבטחת בינה מלאכותית לארגונים ושבין מייסדיה איש האבטחה גדי עברון, חשפה היום (שלישי) שתי מתקפות שכל אחד יכול לבצע, כדי "להכריח" את מודלי הבינה המלאכותית להציג מידע חסוי או בעייתי, לרבות הוראות ודרכים לבצע התאבדות.
המתקפות שתיהן מנצלות חולשה או בעייתיות שקיימת בזרימה שבה בינה מלאכותית מחוללת פועלת - המודל קודם מייצר את התשובה לשאלה ששאל המשתמש, ומתחיל לשלוח אותה בחזרה אליו, לפני שהיא עוברת את מנגנון האבטחה המובנה. גם אם מדובר בתוכן בעייתי, ייקח למנגנון האבטחה כמה שניות "להתערב" ולמחוק את התשובה המוצגת - אבל זו כבר הוצגה על המסך.
תקיפה אחת, המכונה Flowbraking או "שבירת זרימה", בעצם "מכריחה" את הבינה המלאכותית להציג תשובה המכילה תוכן רגיש (למשל, המשכורת של המנכ"ל בארגון שהטמיע את הבינה המלאכותית במערכות הפנימיות, מגמה ההולכת וצוברת תאוצה) או אפילו לספק מידע על שאילתות של משתמשים אחרים תוך הפרת פרטיותם. מתקפה זו גם אפשרה לסחוט ממנועי בינה מלאכותית הוראות כיצד ליטול את חייך במו ידיך.
במסגרת התשובה לשאילתא הבעייתית, החוקרים הישראליים גרמו ל-ChatGPT לדון בהרחבה ובפירוט בשיטות התאבדות שונות, כולל שימוש בנשק, מנת יתר של תרופות, הרעלה ותלייה, תוך שהבינה המלאכותית מציגה את היתרונות והצדדים הבעייתיים בכל שיטת התאבדות. כמובן, באופן רגיל בינה מלאכותית לא אמורה לתת למשתמש את הידע כיצד ליטול את חייו, אבל בזכות החולשה והמתקפה שגילו אנשי נוסטיק, הם גרמו למודל להשיב על השאלה הנוראית.
מה שקורה בפועל, הוא שבתהליך עבודה של שליחת התשובה לממשק המשתמש - המידע הבעייתי כבר מוצג על המסך, ורק אז מנגנון האבטחה מתערב ואז ChatGPT, ג'מיני או קופיילוט "מתחרטת" ומוחקת את התשובה. אבל הנה הקטע: משתמשים ששומרים את השיחות שלהם, יכולים לחזור לשיחה השמורה, ולהוציא משם את המידע הבעייתי, גם אם בזמן אמת לכאורה הוא נמחק מהמסך.
המתקפה השניה, היא אפילו עוד יותר קלה לביצוע: אנשי Knostic, גילו שאם מבקשים מבינה מלאכותית כמות גדולה של תשובות מהונדסות אפשריות, נגיד 15 או 20 תשובות בעייתיות - כלומר, כאלה המציגות מידע רגיש או בעייתי, ואז לוחצים על כפתור ה-"עצור" באמצע התהליך - התשובות הבעייתיות שכבר הוצגו, יישארו על המסך במקום להימחק. חברת האבטחה הישראלית כינתה את המתקפה הזו Stop and Roll.
רבים מתלהבים מהעולם החדש והאמיץ שהבינה המלאכותית המחוללת פורשת בפנינו, אבל שתי הדוגמאות מעלה מראות שעוד רחוקה הדרך לבינה מלאכותית שלא תסכן מידע רגיש ולא תפגע בפרטיות, במיוחד לארגונים שרוצים ליישם אותה - אבל לשמור גם על המידע הארגוני ממודר כך שלא יגיע למקומות או לידיים של עובדים שלא מורשים לראותו, או חלילה - להציע לאנשים דרכים מעשיות להתאבדות.