'מנוע קול' חדש מבית OpenAI צריך רק 15 שניות כדי לשכפל דיבור - פענוח

'מנוע קול' חדש מ-OpenAI צריך רק 15 שניות כדי לשכפל דיבור - פענוח

'מנוע קול' חדש מבית OpenAI צריך רק 15 שניות כדי לשכפל דיבור - פענוח PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

OpenAI, חברת הבינה המלאכותית מאחורי כלי הבינה המלאכותית הדומיננטית ChatGPT, חשפה טכנולוגיית שיבוט קולי חדשה שהיא מכנה "Voice Engine". מודל אודיו זה יכול לשכפל את הקול, האינטונציה ודפוסי דיבור אנושיים אחרים של אדם על סמך דגימה קטנה יחסית של אודיו מקורי.

"זה ראוי לציון שדגם קטן עם דגימה בודדת של 15 שניות יכול ליצור קולות רגשיים ומציאותיים", אומרת החברה. פוסט בבלוג של יום שישי.

לשם השוואה, פלטפורמת קול בינה מלאכותית ElevenLabs כולל כלי שיבוט קול מיידי דורש דגימות של דקה אחת לפחות. לקבלת התוצאות הטובות ביותר, נדרשות כמעט 10 דקות של דיבור רצוף לרמת השירות המקצועית שלה.

החברה הראתה דוגמאות שונות למה שהטכנולוגיה הזו מסוגלת לעשות. בדוגמה אחת, קולה של מטופלת צעירה שאיבדה חלק ניכר מיכולתה לדבר עקב גידול מוחי בכלי הדם שובט באמצעות הקלטה ישנה יותר שהכינה עבור פרויקט בית ספרי. זה איך היא נשמעת היום, על פי OpenAI.

OpenAI עבד עם אורך חיים, משך חיים, מלכ"ר המזוהה עם בית הספר לרפואה באוניברסיטת בראון והיוצרים של כלי שנקרא ליבוקס, "אפליקציית תקשורת אלטרנטיבית" שנבנתה לאנשים עם מוגבלויות. הצוות הצליח לעבוד עם א הקלטה שהאשה ערכה למצגת בית ספרית:

מנוע הקול הפתוח AI היה מסוגל לספק יכולת טקסט לדיבור מיידית שתאפשר למטופל לבצע לדבר עם הקול שלה:

OpenAI גם הראתה איך הייג'ן משתמשת בטכנולוגיה שלה כדי ליצור תרגומים בצלילים טבעיים של דיבור שהועלה בשפה ספציפית בשפה אחרת.

החברה אומרת ש-Voice Engine פותחה לראשונה בסוף 2022 וכבר משמשת להפעלת הקולות המוגדרים מראש הזמינים ב-API של טקסט לדיבור של OpenAI, כמו גם בתכונת הקול והקריאה בקול של ChatGPT. עם ההתקדמות האחרונה, החברה אומרת שהיא נזהרת לפני פרסום רחב יותר.

"אנו מקווים להתחיל דיאלוג על פריסה אחראית של קולות סינתטיים וכיצד החברה יכולה להסתגל ליכולות החדשות הללו", כתבה OpenAI, והכירה בפרקטיקה הגורפת של "זיופים עמוקים". קולותיהם של ידוענים, פקידי ממשל ואזרחים פרטיים יותר ויותר מתחזות למטרות נבזיות, מ קמפיינים פוליטיים, מודעות מזויפות ועל הסף פלילית. נשיא ארה"ב ג'ו ביידן היה דוחף לקבלת אמצעי הגנה נוספים מפני שימוש זדוני בהתחזות קול בינה מלאכותית.

למעשה, Meta חשפה בקיץ שעבר שכלי הקול הבינה המלאכותית שלה עוכב במיוחד בגלל "סיכונים אפשריים של שימוש לרעה".

"בהתאם לגישה שלנו לבטיחות בינה מלאכותית ולהתחייבויות הוולונטריות שלנו, אנו בוחרים להציג תצוגה מקדימה אך לא לשחרר באופן נרחב את הטכנולוגיה הזו בשלב זה", הסביר OpenAI.

עוד לפני הפרסום לציבור, OpenAI מציבה הגבלות על Voice Engine - כולל רשימה של אנשים בולטים שהיא לא תחקה.

"אנו מאמינים שכל פריסה רחבה של טכנולוגיית קול סינתטית צריכה להיות מלווה בחוויות אימות קולי המאמתות שהדובר המקורי מוסיף ביודעין את קולו לשירות ורשימת קולות ללא יציאה שמזהה ומונעת יצירת קולות שהם יותר מדי. בדומה לדמויות בולטות", כתב OpenAI.

השותפים הבודקים את Voice Engine היום הסכימו למדיניות השימוש של OpenAI, האוסרת התחזות לאדם אחר או לארגון אחר ללא הסכמה. בנוסף, החברה דורשת הסכמה מפורשת ומדעת מהדובר המקורי, והם לא מאפשרים למפתחים לבנות דרכים למשתמשים בודדים לשבט את הקולות שלהם.

"בהתבסס על השיחות הללו והתוצאות של בדיקות אלה בקנה מידה קטן, נקבל החלטה מושכלת יותר לגבי האם וכיצד לפרוס את הטכנולוגיה הזו בקנה מידה גדול", נכתב בפוסט בבלוג.

בנוסף ל-Voice Engine, Open AI עובד על מספר פרויקטים במקביל. המנכ"ל סם אלטמן חשף כי החברה עובד על שחרור GPT-5 השנה. החברה גם הציגה את כלי הווידאו הגנרטיבי שלה סורה. החברה טוענת כי Sora יהיה מחולל הווידאו המתקדם ביותר בשוק, ויעלה על דגמים כמו Pika, Stable Video Diffusion ו-Runway ML.

סורה זמין כרגע רק ל"צוותים אדומים" שהתגייסו ל-Open AI כדי לוודא שלא ניתן להשתמש בו לרעה.

Voice Engine בהחלט יכול לעלות על כלים אחרים לשיבוט קולי, כולל הצעות של Meta, ElevenLabs, WellSaid Labs ומודלים של קוד פתוח כמו RVC.

Open AI עובד גם על a פרויקט סודי בשם Q* שרק שמו הודלף. סם אלטמן סירב למסור פרטים כלשהם, אך אמר שצוות המחקר היה מרוכז מאוד במציאת טכניקות וגישות שהופכות AI להיגיון טוב יותר.

נערך על ידי ריאן אוזאווה.

הישאר מעודכן בחדשות הקריפטו, קבל עדכונים יומיים בתיבת הדואר הנכנס שלך.

בול זמן:

עוד מ פענוח