אפליקציית בינה מלאכותית סינית חדשה בשם DeepSeek טיפסה השבוע לצמרת טבלת ההורדות בחנות האפליקציות של אפל בארה"ב, והדיחה את ChatGPT של OpenAI מהמקום הראשון - גם בישראל. האפליקציה, המבוססת על מודלים של קוד פתוח שפותחו על ידי DeepSeek, טוענת ליעילות חסרת תקדים, המאפשרת אימון בינה מלאכותית בעלויות נמוכות משמעותית בהשוואה למודלים המובילים בעולם - בהם גם Claude של Anthropic ו-Gemini של גוגל.
Nvidia, מיקרוסופט, OpenAI ומטא משקיעות מיליארדים במרכזי נתונים לבינה מלאכותית - 500 מיליארד דולר לבדם עבור פרויקט Stargate, שנועד להבטיח את עליונות ארה"ב בתחום הבינה המלאכותית, מתוכם 100 מיליארד דולר מיועדים ככל הנראה ל-Nvidia.
משקיעים ואנליסטים תוהים כעת האם זהו כסף שהושקע היטב, כאשר מניות Nvidia, Microsoft וחברות אחרות עם אחזקות משמעותיות בשמירה על הסטטוס קוו בתחום הבינה המלאכותית נמצאות במגמת ירידה במסחר המוקדם. ביממה האחרונה, הטענות הללו זעזעו את השווקים הפיננסיים, כאשר מניית Nvidia צנחה ביותר מ-12% במסחר המוקדם.
בימים האחרונים, ההתרגשות סביב DeepSeek גוברת עם השקת שני מודלים חדשים - R1 ו-R1-Zero, שמיועדים לקרב ישיר מול o1, מודל הדגל של OpenAI. המודל R1 מתבסס על הפיתוחים הקיימים של החברה, אבל את רוב תשומת הלב מושך R1-Zero, בזכות שיטת האימון הייחודית שלו. מה ההבדל? בניגוד למודלים מתקדמים אחרים, שדורשים "ליטוש" (Fine-Tuning) בפיקוח אנושי, R1-Zero אומן בשיטה שנקראת למידת חיזוק (Reinforcement Learning). המשמעות היא שהמודל למד לבד לשפר את הביצועים שלו, ללא מעורבות אנושית בתהליך. זה כמו ללמד רובוט לשחק שחמט - ואז לתת לו להתאמן מול עצמו עד שהוא הופך לאלוף, בלי שאף אדם ידריך אותו.
הגישה החדשנית הזו מספקת לא רק פתרון טכנולוגי מתקדם, אלא גם יעילות כלכלית שמייתרת את הצורך בהשקעות עצומות בתהליכים מסובכים. DeepSeek לא רק חוסכת משאבים, אלא גם מציעה דרך פשוטה יותר להפיק תוצאות מדהימות - מה שמסמן שינוי פוטנציאלי במירוץ הבינה המלאכותית.
מי שעומד מאחורי DeepSeek הוא ליאנג וונפנג, והוא אחד השמות המסקרנים ביותר בתחום הבינה המלאכותית כיום. וונפנג, שגדל בסין כבן למשפחת מורים ולמד באוניברסיטת ג'ג'יאנג היוקרתית, החל את דרכו כיזם עם הקמת קרן ההשקעות High-Flyer ב-2015, שהתמקדה בהשקעות מבוססות מתמטיקה ובינה מלאכותית. בשנת 2021, בעודו מנהל את הקרן, החל לרכוש אלפי שבבי Nvidia במטרה לפתח מודלים משלו - מה שהוביל להקמת DeepSeek בשנת 2023.
מי שעומד מאחורי DeepSeek הוא ליאנג וונפנג:
? WIELKI SZOK W ŚWIECIE AI - MAŁA CHIŃSKA FIRMA ROZWALA SYSTEM
— Świat Krypto (@SwiatKrypto) January 27, 2025
? Mała chińska firma DeepSeek namieszała w świecie AI - wypuścili właśnie model R1 i co najważniejsze, pokazali jak go zbudowali.
• Za sterami stoi Liang Wenfeng, gość który dorobił się na funduszu hedgingowym i… pic.twitter.com/vKUbiMMlNe
לפחות בינתיים - בחינם לחלוטין
אחד הגורמים שמוסיפים לאטרקטיביות של DeepSeek הוא העובדה שבשלב זה המודלים שלה, כולל R1 ו-R1-Zero, זמינים לשימוש בחינם. זאת בניגוד למודלים של מתחרים אחרים, שמגיעים עם תגי מחיר משמעותיים למשתמשים פרטיים ולמפתחים כאחד.
לדוגמה, גרסת Gemini Advanced של גוגל מתומחרת ב-79.70 שקלים לחודש. ChatGPT של OpenAI, השחקנית המובילה בתחום, מציעה תוכנית בסיסית ב-20 דולר לחודש, ואילו Claude של Anthropic, המתחרה העולה, מציעה אף היא תוכנית בסיסית במחיר דומה.
הגישה של DeepSeek להציע את המודל שלה בחינם פותחת את הדלת בפני מגוון רחב של משתמשים - מתאגידים גדולים ועד למפתחים עצמאיים - לנסות את הטכנולוגיה שלה מבלי לחשוש מהשקעה כספית. בכך, החברה לא רק יוצרת עניין משמעותי בקרב הקהל הרחב, אלא גם מפעילה לחץ על השחקניות הוותיקות בתחום, שנאלצות כעת להתמודד עם מודל עסקי שמאתגר את המודל הרווחי שלהן.
בדקנו את המודל
כשהתחלתי לבדוק את R1-Zero של DeepSeek, הייתי סקפטי. בכל זאת, מדובר במודל גם סיני וגם חינמי, והתרגלנו לחשוב ששני הדברים האלה אומרים בהכרח פשרות. אבל האמת? הופתעתי. המודל הפגין יכולות מרשימות במיוחד - במיוחד בעברית, שידועה כשפה מאתגרת לבינה מלאכותית. גם כשביקשתי ממנו לתרגם מאנגלית לעברית, התוצאה הייתה לא רק נכונה מבחינת תוכן, אלא גם נשמעה "זורמת" ואותנטית, בלי אותם ניסוחים מוזרים שלפעמים נתקלים בהם במודלים חינמיים אחרים.
גם במשימות מורכבות יותר, כמו ניתוח טקסטים והפקת תובנות, המודל עמד במשימה בצורה מרשימה. בקיצור, בהחלט אפשר לומר ש-R1-Zero מספק חוויית שימוש ברמה גבוהה מאוד, שמזכירה את הביצועים של תוכנות בתשלום - וכל זה ללא עלות. עבור המשתמשים, מדובר בלא פחות מהזדמנות נדירה ליהנות מכלי עוצמתי ואיכותי, שמסוגל לעמוד לצד הפתרונות של ענקיות הבינה המלאכותית.
ומה אומרים באנבידיה?
דובר מטעם החברה מסר בתגובה לפרסומים ברחבי העולם כי "DeepSeek היא התקדמות מצוינת בבינה מלאכותית והיא דוגמה מושלמת ל-Test-Time Scaling. העבודה של DeepSeek ממחישה כיצד ניתן לייצר מודלים חדשים באמצעות טכניקה זו, תוך מינוף של מודלים קיימים וטכנולוגיות מחשוב שעומדות בתקנות הייצוא. ביצוע Inference דורש מספר משמעותי של מעבדים גרפיים וטכנולוגיות תקשורת מואצת".