חברת הבינה המלאכותית OpenAI פיתחה כלי בשם Voice Engine ("מנוע קול"), שמאפשר בדוגמת קול של משתמש באורך של 15 שניות בלבד על מנת לייצר שמע שכפול ריאליסטי. עם זאת, לפי דיווח בגרדיאן, הוחלט שלא להפיץ את הכלי לשימוש ציבורי משום שהוא מסוכן מדי ועלול לגרום להפצת מידע שגוי במהלך מערכות הבחירות הרבות ברחבי העולם.
פיתוח Voice Engine החל בסוף 2022, ומאז נעשה בו שימוש כדי להפעיל את הקולות המוגדרים מראש על גבי ה-API הקיים של החברה למשימות Text-to-Speech, והוא נמצא בשימוש כבר עכשיו כחלק מפיצ'רי ה-ChatGPT Voice ו-Real Aloud. ההבדל המקורי, כאמור, הוא האפשרות ליצור קטע קול מדגימה של 15 שניות בלבד.
"אנו מקווים לפתוח דיאלוג על הפריסה האחראית של קולות סינתטיים וכיצד החברה יכולה להסתגל ליכולות החדשות האלה", נכתב בפוסט בבלוג מטעם OpenAI. "על סמך שיחות אלה ותוצאות הבדיקות בקנה מידה קטן, נקבל החלטה מושכלת יותר לגבי השאלה האם וכיצד לפרוס טכנולוגיה זו בקנה מידה רחב".
ניתן להאזין להקלטות כאן
OpenAI just launched Voice Engine,
— AshutoshShrivastava (@ai_for_success) March 29, 2024
It uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker.
Reference and Generated audio is very close and hard to differentiate.
More details in ? pic.twitter.com/tJRrCO2WZP
למרות החששות, שיתפה החברה דוגמאות לשימושים בעולם האמיתי של הטכנולוגיה על ידי שותפים שונים שקיבלו גישה אליה. חברת הטכנולוגיה החינוכית Age of Learning משתמשת בה כדי לייצר קריינות כתובות מראש, בעוד אפליקציית "סיפור חזותי באמצעות בינה מלאכותית" HeyGen מציעה למשתמשים את היכולת ליצור תרגומים של תכנים מוקלטים באופן שוטף אך שומר על המבטא והקול של הדובר המקורי.
OpenAI ציינה כי היא בוחרת להציג תצוגה מקדימה אך לא לשחרר את הטכנולוגיה באופן נרחב בשלב זה, כדי "לחזק את החוסן החברתי מפני האתגרים שמעמידים מודלים גנרטיבים משכנעים יותר ויותר". החברה גם קראה לחקור "מדיניות להגנה על השימוש בקולות של אנשים בבינה מלאכותית" ו"לחנך את הציבור להבין את היכולות והמגבלות של טכנולוגיות בינה מלאכותית, כולל האפשרות לתכנים מטעים של בינה מלאכותית".