משבר Covid-19 יצר הזדמנות עבור טכנולוגיות מבוססות AI להוכיח את ערכן ולהציג את יכולתן. החל מחיזוי הסבירות לאשפוזים ועד לניבוי תוצאות המטופלים, נראה כי בפרק זמן קצר למדי ייצרה קהילת מפתחי ה- AI מסביב לעולם עשרות מודלים שנועדו לסייע להילחם בנגיף. למעשה המהירות בה נוצרו ושותפו דגמים הייתה כה מרשימה עד כי זו העלתה תקווה כי הנה, בכוחם של יישומי ה- AI להביא לפריצת דרך במלחמה בווירוס הקורונה. אבל תקווה לחוד ומציאות לחוד, כעת מחקר שפורסם לאחרונה שופך מים קרים על התקוות הללו.
מחקר חדש ומקיף שנערך על ידי צוות חוקרים מאוניברסיטת קיימברידג' בחן למעלה מ-300 מודלים של למידת מכונות שפותחו עם פרוץ הקורונה כדי לסייע ולהלחם בנגיף ופורסמו בין החודשים ינואר עד אוקטובר 2020. תוצאות המחקר הניבו נתון מפתיע למדי מאחר ואף אחד מהמודלים שנבדקו לא נמצא שמיש או ישים למטרות איתור ואבחון נגיפי קורונה. עוד טוען המחקר כי המודלים הללו הופיעו בלמעלה מ-415 מחקרים שונים ומתוכם רק 62 עברו ביקורת עמיתים כלשהיא. הנתון הזה הופך מדהים עוד יותר לאחר שהתברר כי מתוך 62 המחקרים שעברו ביקורת כלשהו - אף אחד לא נמצא כבעל פוטנציאל ליישום קליני.
וזה לא נגמר כאן, מחקר קודם של צוות בראשות אפידמיולוג מאוניברסיטת מאסטריכט בשם, ד"ר לור וויננץ, ביקש לבחון ולנתח 31 מודלים של AI שפורסמו בחודשים הראשונים של הקורונה ואשר התמקדו בחיזוי התפשטות וטיפול בקורונה. החוקרים שבחנו את המודלים הכריזו עליהם כי הם "גרועים באופן אחיד" עד כי "לא ניתן יהיה להמליץ עליהם לשימוש קליני". ב-19 מחקרים שנבדקו היה חשד סביר להטיה בתוצאות עקב שימוש בתוצאות סובייקטיביות (למשל, זיהומים בדרכי הנשימה הקשות שאינם קשורים ל covid-19). עבור לפחות 11 מהמודלים שפותחו, מערכי הנתונים המשמשים לאימות החיצוני ככל הנראה לא היו מייצגים את אוכלוסיית היעד ולפחות במחקר אחד נעשה שימוש בנתונים שלפני משבר covid-19.
כל המודלים הללו דיווחו על ביצועי חיזוי מתונים עד מצויינים, אך מנגד כולם הוערכו כבעלי סיכון גבוה להטיה בשל מה שניתן לכנות כשילוב של דיווח לקוי והתנהלות מתודולוגית לקויה בכל הנוגע לבחירת משתתפים, תיאור מנבא ושיטות סטטיסטיות. מתודולוגיית עבודה קפדנית ודקדקנית בכל הנוגע לאיסוף הנתונים כמו גם הצלבתם ואימותם יכלו למנוע רבות מהסטיות שתוארו כאן בנוסף לתשומת לב טובה יותר לפרטים ושימוש בכלים סטטיסטים נפוצים ככלי ביקורת- יכלו אף הם למנוע הטיות לא מכוונת על ידי ה AI.
אז מה בדיוק קרה כאן? הרי ההצלחה המדהימה של טכנולוגיות מבוססות AI בעולם הרפואי הביאה את השימוש בה לקדמת הבמה. מדוע אם כן, בכל הנוגע לווירוס הקורונה, נדמה כי הטכנולוגיה הזו כשלה כישלון נחרץ? ובכן, נראה כי ברוב המקרים הללו האשמה אינה נעוצה בטכנולוגיה או בוירוס הקורונה, כי אם בגורם האנושי.
כאמור, המחקרים המדוברים עשו שימוש בארכיטקטורות שונות של למידה עמוקה כשחלקם עשה שימוש בארכיטקטורות קיימות וחלקם תוכננו במיוחד אך ללא ביצוע כיול ובדיקות איזון מול ארכיטקטורות אחרות. כדי לא לאבד את אמינותה, הרי שעל קהילת מפתחי ה- AI לאמץ מתודולוגיות עבודה מחמירות ואולי אף יותר מכך - יתכן וקיים צורך להעמיד פרוטוקולי סקירה מוסדרים גם כאשר התוצאות המשותפות מוכחות כלא נכונות. בסופו של דבר היכולת לשחזר תוצאות על בסיס אותו המידע היא כלי מחקרי חשוב בכל ענף או ניסוי מדעי ואין סיבה ששיטות אלו לא יאומצו גם בקרב קהילת מפתחי ה AI.
יונתן שמאמא הוא Data scientist בחברת AllCloud, ספקית פתרונות הענן המובילה בישראל. יונתן יעביר סדנא מיוחדת בנושא בינה מלאכותית במסגרת AWS Machine Learning Immersion Day שיערך ביום רביעי ה- 12.5, בשעה 09:30, במתחם BE ALL ביגאל אלון.