יממה לאחר התקלה הגלובלית שהקשתה על גלישה לאתרים רבים ברחבי העולם, Cloudflare מפרסמת תיאור מפורט של רצף האירועים שהוביל לשיבושים הנרחבים. החברה, שנחשבת לאחת מאבני היסוד של תשתיות האינטרנט המודרני, מסבירה כי התקלה לא נבעה מהתקפה מתוחכמת או מאירוע עוין כלשהו, אלא דווקא משרשרת טעויות פנימיות בעדכון תוכנה שגרתי. תיאור ההתרחשויות חושף עד כמה תהליך קטן לכאורה מסוגל להשפיע על מיליוני משתמשים בו זמנית.
לדברי החברה, הכול החל בשינוי הרשאות באחד ממערכי בסיסי הנתונים שלה. שינוי כזה אמור היה להיות שקוף לחלוטין למשתמשים, ולהשפיע רק על האופן שבו מערכות פנימיות ניגשות למידע. אלא שבפועל, השינוי יצר תופעת לוואי בלתי צפויה: הוא גרם לכך שקובץ תצורה המשמש את מערכת ניהול הבוטים של Cloudflare הוכפל בגודלו, מבלי שהמערכות האחרות שסומכות עליו עודכנו לתמוך בכך. אותו קובץ, שנקרא "קובץ פיצ'רים", משמש את מערכות הניתוב ואת כלי ההגנה של החברה כדי לזהות תנועה חשודה, להגדיר חוקים ולהפעיל מסננים בזמן אמת.
הקובץ הזה נוצר מחדש בכל חמש דקות באמצעות שאילתת מסד נתונים. מכיוון שהשינוי בהרשאות בוצע רק על חלק מהמכונות בשרתים, הגרסאות של הקובץ שנוצרו כל חמש דקות לא היו אחידות: לעיתים נוצרה גרסה תקינה וקטנה, ולעיתים נוצרה גרסה כפולה בגודל שגרמה לתוכנות הניתוב לקרוס ברגע שטענו אותה. מאחר שהקובץ מופץ אוטומטית לכל השרתים של Cloudflare ברחבי העולם, כל גרסה פגומה התפשטה במהירות עצומה והפילה חלקים גדולים מהרשת.
התוצאה היתה מחזורי נפילות קבועים: כל חמש דקות, כשהקובץ נוצר מחדש, התברר האם הגרסה הנוכחית תקינה או בעייתית. אם היתה תקינה, השירותים הוחזרו לפעילות; אם היתה פגומה, שרתים ברחבי העולם קרסו שוב. דפוס זה נראה כמעט זהה למתקפת DDoS מתקדמת, שבה התוקפים שולחים גלים מחזוריים של עומסים שמורידים שירותים ומאפשרים להם לקום מחדש כדי לבלבל מערכות הגנה. המהנדסים של Cloudflare התרשמו בתחילה כי מדובר בהתקפת ענק מתוזמנת היטב, ולא בבעיה שנוצרת מתוך המערכות שלהם.
לבלבול נוסף הוביל אירוע נפרד לכאורה: עמוד הסטטוס החיצוני של Cloudflare, שאינו מאוחסן על גבי התשתית של החברה, קרס אף הוא במקרה. מכיוון שהעמוד הזה אמור להיות מבודד לחלוטין מהמערכות הפנימיות, הצניחה שלו התפרשה כהוכחה לכך שמדובר בתוקף שמכוון גם לתשתית וגם לכלי המידע של החברה. רק לאחר בדיקה ממושכת התברר כי מדובר בצירוף מקרים, וכי עמוד הסטטוס קרס מסיבה אחרת.
בסיכום הפרסום מציינת Cloudflare כי מדובר בתקלה "עמוקה וכואבת", וששום תקלה פנימית לא היתה אמורה להגיע לממדים כאלה. החברה התחייבה לבצע בדיקות מחמירות יותר לכל שינוי בהרשאות, לפצל תהליכי עדכון כך שקובצי תצורה לא יופצו בבת אחת לכל העולם, ולהטמיע מנגנוני הגנה שיזהו קבצים חריגים עוד לפני שהם נשלחים למערכות הייצור. "אנחנו יודעים שאכזבנו אתכם", כתבה החברה, "ונפעל כדי לוודא שזה לא יקרה שוב".
כך טעות אחת בעדכון תוכנה הצליחה להפיל חלקים עצומים מהאינטרנט
עודכן לאחרונה: 19.11.2025 / 20:48
