וואלה
וואלה
וואלה
וואלה

וואלה האתר המוביל בישראל - עדכונים מסביב לשעון

Voicebox: פייסבוק חשפה מודל שיודע ליצור משימות דיבור

עודכן לאחרונה: 18.6.2023 / 12:41

דיבור שנוצר על ידי AI (בינה מלאכותית) יהיה משמעותי הן עבור יישומים רבים במטאוורס והן בכל האפליקציות של מטא ומעבר להן. לדברי החברה, המודל רושם ביצועים טובים יותר מדגמים חד-שימושיים במשימות דיבור בשש שפות

Voicebox של מטא/Meta

חוקרי ה-AI של Meta (מטא), החברה-האם של פייסבוק, רושמים היום (שישי) פריצת דרך נוספת ומציגים את Voicebox, מודל הבינה המלאכותית הראשון שיכול לבצע משימות דיבור שונות ומגוונות, לרבות משימות אותן לא אומן באופן ספציפי. מדובר במודל הבינה המלאכותית היוצר (גנרטיבי) החדשני והמתקדם ביותר בעולם ליצירת דיבור, המבוסס על שיטה חדשה שהציגה מטא AI בשם Flow Matching. המודל החדש המוצג היום עולה בביצועיו על מודלי AI חד-תכליתיים הזמינים, משום שהוא מאפשר למידה קונטקסטואלית (המתחשבת בהקשר).

בדומה למודלי בינה מלאכותית ליצירת תמונות וטקסט, Voicebox יכול לייצר יש-מאין פלט במגוון רחב של סגנונות, או לערוך דוגמה שכבר סופקה לו. אך במקום ליצור תמונה או קטע טקסט, Voicebox מפיק קטעי שמע באיכות גבוהה. המודל מסוגל ליצור דיבור בשש שפות בקול שלכם (גם אם אתם לא דוברים את אותה שפה), ולבצע משימות של ניקוי רעשים, עריכת תוכן, שינוי סגנון ויצירת דוגמאות מגוונות.

בחברה מדגישים כי בשל הסיכונים הפוטנציאליים של שימוש לרעה בטכנולוגיה זו, היא לא תעמיד את מודל או קוד Voicebox לרשות הציבור בשלב זה. "בעוד שמטא מקדמת גישה פתוחה בעולמות הבינה המלאכותית, ומשתפת במחקרים רבים לקידום התחום, היא מקפידה על איזון נכון בין פתיחות לאחריות ולאור שיקולים אלו, החברה משתפת היום בדוגמאות שמע, ומציגה מאמר מחקרי המפרט את הגישה והתוצאות שהשיגה", הסבירו בחברה, ופירטו במאמר כיצד הכלי שבנט מבדיל בין דיבור אותנטי לבין שמע המופק באמצעות Voicebox.

מטא. ShutterStock
בחברה מדגישים כי בשל הסיכונים הפוטנציאליים של שימוש לרעה בטכנולוגיה זו, היא לא תעמיד את מודל או קוד Voicebox לרשות הציבור בשלב זה/ShutterStock

גישה חדשה ליצירת דיבור

אחת המגבלות העיקריות של כלי יצירת דיבור קיימים - היא שניתן לאמן אותם אך ורק מתוך נתונים שנוצרו באופן ייחודי למשימה מסוימת. קלטים אלו - הידועים כ"נתונים מונוטוניים נקיים" (Monotonic, Clean Data) - הם קשים להפקה, ולכן קיימים בכמויות מוגבלות בלבד, וכן יוצרים פלטי אודיו שנשמעים מונוטוניים.

חברת מטא פיתחה את Voicebox על פי מודל Flow Matching, שהוא החידוש האחרון שלה בתחום המודלים היצירתיים שאינם אוטו-רגרסיביים: כלומר, שמאפשרים למודל Voicebox ללמוד מנתוני דיבור שונים, ללא צורך בתיוג קפדני של גרסאות אלו. המשמעות היא שניתן לאמן את מודל Voicebox על נתונים מגוונים יותר, ועל היקף נתונים הרבה יותר גדול.

למעשה, חוקרי הבינה המלאכותית של ענקית הטכנולוגיה אימנו את Voicebox באמצעות מעל 50 אלף שעות של דיבור מוקלט ותעתיקים מספרי אודיו הזמינים לציבור הרחב באנגלית, צרפתית, ספרדית, גרמנית, פולנית ופורטוגזית. המודל גם אומן לחזות מראש קטעי דיבור ספציפיים בהתחשב בקטע הדיבור הכולל והתעתיק שלו. המודל, שאומן להשלים קטעי דיבור לפי ההקשר, יכול להחיל יכולת זו במגוון רחב של משימות דיבור, לרבות יצירת חלקים באמצע הקלטת אודיו - ללא צורך ליצור מחדש את כל הקטע.

מטא. רויטרס
חוקרי הבינה המלאכותית של ענקית הטכנולוגיה אימנו את Voicebox באמצעות מעל 50 אלף שעות של דיבור מוקלט ותעתיקים/רויטרס

יוסי עדי, חוקר בינה מלאכותית באוניברסיטה העברית ובארגון FAIR של Meta, מסר: "VoiceBox מהווה פריצת דרך משמעותית בעולמות ה-AI ומודלי הדיבור הגנרטיביים. בניגוד למודלים אחרים בתעשייה, VoiceBox מאומן לחזות סגמנטים ממוסכים עם יכולת צפיה של העתיד - הוא לומד תוך התחשבות בהקשר, מה שמאפשר למודל לבצע משימות רבות בו-זמנית, אפילו כאלה שלא אומן עליהן באופן מפורש. נכון להיום, VoiceBox הוא המודל הוורסטילי ביותר בתחום, מאפשר להמיר טקסט-לדיבור במספר שפות, ניקוי רעשים, עריכת תוכן וסגנון, וייצור של מגוון דוגמאות. בניגוד למגמה הרווחת כיום בעולם, VoiceBox לא מבוסס על מודלי שפה - אלא על טכנולוגיה, המאפשרת ייצור מקבילי, על כן, זמן הריצה שלו קצר בצורה משמעותית ממודלים אחרים בתעשייה"

הגמישות הזו מאפשרת ל- Voicebox להפגין ביצועים טובים במגוון רחב של משימות, לרבות:

  • המרת טקסט-לדיבור בהקשר ספציפי: באמצעות דוגמת קלט שמע באורך של שתי שניות בלבד, Voicebox יכול להתאים את סגנון השמע של הדוגמה, ולהשתמש בכך להמרת טקסט-לדיבור. פרויקטים עתידיים יכולים להתבסס על יכולת זו: למשל מתן יכולת דיבור לאנשים שאינם מסוגלים לדבר, או להתאים את הקולות שנעשה בהם שימוש על ידי דמויות במשחקים שאינן שחקנים (NPC) או עוזרים וירטואליים.
  • ניקוי רעשים ועריכת דיבור: הלמידה תלוית-ההקשר של Voicebox הופכת אותו לכלי טוב ליצירת דיבור ולעריכה שוטפת של קטעי שמע. בעזרת המודל, ניתן להפיק מחדש קטעי דיבור שהושחת על ידי רעש קצר, או להחליף מילים שלא נאמרו כראוי, ללא צורך להקליט מחדש את כל הקטע. ניתן לזהות קטעים גולמיים של דיבור שנפגע מרעש (כמו נביחת כלב), לחתוך אותו, ולהורות ל-Voicebox להפיק את הקטע מחדש. יכולת זו תוכל לשמש יום אחד לניקוי ועריכת שמע בקלות רבה, כפי שכיום קל ופשוט לערוך תמונות באמצעות כלי עריכת התמונות הנפוצים.
  • העברת סגנון בין שפות שונות: עם דוגמה של דיבור באנגלית, צרפתית, גרמנית, ספרדית, פולנית או פורטוגזית - Voicebox יוכל להקריא טקסט בשפות אלה. זוהי יכולת מלהיבה, שכן בעתיד ניתן יהיה להשתמש בה כדי לסייע לאנשים לתקשר באופן טבעי ואותנטי - גם אם הם אינם דוברים את אותן שפות.
  • דוגמאות דיבור מגוונות: לאחר למידה ממגוון רחב של נתונים מהשטח, המודל יכול ליצור דיבור המייצג יותר את הדרך שבה בני אדם מדברים בעולם האמיתי בשש השפות הללו. בעתיד, ניתן יהיה להשתמש ביכולת זו להפקת נתונים סינתטיים כדי לאמן טוב יותר מודלים של עוזרים קוליים. התוצאות מעידות כי מודלים של זיהוי דיבור שאומנו על דיבור סינתטי שהופק על ידי Voicebox מפגינים ביצועים טובים כמעט באותה המידה בהשוואה למודלים שאומנו על דיבור אמיתי, עם שיעור טעויות של 1% בלבד (לעומת 45-70 אחוזים עם קטעי דיבור סינתטי ממודלים קודמים של טקסט-לדיבור).

טרם התפרסמו תגובות

הוסף תגובה חדשה

+
בשליחת תגובה אני מסכים/ה
    4
    walla_ssr_page_has_been_loaded_successfully