يحتاج "المحرك الصوتي" الجديد من OpenAI إلى 15 ثانية فقط لاستنساخ الكلام - فك التشفير

يحتاج "المحرك الصوتي" الجديد من OpenAI إلى 15 ثانية فقط لاستنساخ الكلام - فك التشفير

يحتاج "المحرك الصوتي" الجديد من OpenAI إلى 15 ثانية فقط لاستنساخ الكلام - فك تشفير ذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

كشفت شركة OpenAI، شركة الذكاء الاصطناعي التي تقف وراء أداة الذكاء الاصطناعي المهيمنة ChatGPT، عن تقنية جديدة لاستنساخ الصوت تطلق عليها اسم "Voice Engine". يمكن لهذا النموذج الصوتي أن يكرر صوت الشخص ونغمة صوته وأنماط الكلام البشرية الأخرى المميزة بناءً على عينة صغيرة نسبيًا من الصوت الأصلي.

وتقول الشركة في تقريرها: "من الجدير بالملاحظة أن النموذج الصغير الذي يحتوي على عينة واحدة مدتها 15 ثانية يمكنه إنشاء أصوات عاطفية وواقعية". الجمعة بلوق وظيفة.

للمقارنة، منصة صوتية تعمل بالذكاء الاصطناعي أحد عشر مختبرات يتميز بأداة استنساخ صوت فورية يتطلب عينات لا تقل عن دقيقة واحدة. للحصول على أفضل النتائج، يلزم ما يقرب من 10 دقائق من الكلام المتواصل لمستوى الخدمة الاحترافية.

وأظهرت الشركة أمثلة مختلفة لما تستطيع هذه التكنولوجيا القيام به. في أحد الأمثلة، تم استنساخ صوت مريضة شابة فقدت الكثير من قدرتها على التحدث بسبب ورم في المخ الوعائي باستخدام تسجيل أقدم قامت به لمشروع مدرسي. هذا هو كيف يبدو اليومبحسب موقع OpenAI.

عملت OpenAI مع عمر، وهي منظمة غير ربحية تابعة لكلية الطب بجامعة براون ومبتكري أداة تسمى ليفوكس، "تطبيق تواصل بديل" مصمم للأشخاص ذوي الإعاقة. تمكن الفريق من العمل مع أ التسجيل الذي قامت به المرأة للعرض المدرسي:

تمكن Open AI Voice Engine بعد ذلك من توفير إمكانية تحويل النص إلى كلام بشكل فوري مما يسمح للمريض بذلك بشكل فعال التحدث بصوتها:

عرضت OpenAI أيضًا كيفية القيام بذلك يا الجنرال تستخدم تقنيتها لإنشاء ترجمات تبدو طبيعية للكلام الذي تم تحميله بلغة معينة بلغة أخرى.

تقول الشركة إن Voice Engine تم تطويره لأول مرة في أواخر عام 2022 ويتم استخدامه بالفعل لتشغيل الأصوات المحددة مسبقًا المتوفرة في واجهة برمجة تطبيقات تحويل النص إلى كلام الخاصة بـ OpenAI، بالإضافة إلى ميزة الصوت والقراءة بصوت عالٍ في ChatGPT. ومع أحدث التطورات، تقول الشركة إنها تتوخى الحذر قبل إصدار أوسع.

وكتب OpenAI: "نأمل أن نبدأ حوارًا حول النشر المسؤول للأصوات الاصطناعية وكيف يمكن للمجتمع أن يتكيف مع هذه القدرات الجديدة"، معترفًا بممارسة "التزييف العميق" المدانة على نطاق واسع. يتم انتحال أصوات المشاهير والمسؤولين الحكوميين والمواطنين بشكل متزايد لأغراض شائنة الحملات السياسية, إعلانات مزيفة وصريح الأنشطة الإجرامية. لقد كان الرئيس الأمريكي جو بايدن دفع لمزيد من الضمانات ضد الاستخدام الضار لانتحال الهوية الصوتية باستخدام الذكاء الاصطناعي.

في الواقع، كشفت شركة Meta في الصيف الماضي أن أداتها الصوتية المدعمة بالذكاء الاصطناعي قد تم تجميدها على وجه التحديد بسبب "المخاطر المحتملة لسوء الاستخدام".

وأوضح OpenAI: "تماشيًا مع نهجنا تجاه سلامة الذكاء الاصطناعي والتزاماتنا الطوعية، فإننا نختار معاينة هذه التكنولوجيا ولكن لا نصدرها على نطاق واسع في الوقت الحالي".

حتى قبل الإصدار العام، تضع OpenAI قيودًا على Voice Engine، بما في ذلك قائمة بالأشخاص البارزين الذين لن يحاكواهم.

"نحن نؤمن بأن أي نشر واسع النطاق لتقنية الصوت الاصطناعي يجب أن يكون مصحوبًا بتجارب مصادقة صوتية تتحقق من أن المتحدث الأصلي يضيف صوته إلى الخدمة عن عمد، وقائمة صوتية محظورة تكتشف وتمنع إنشاء الأصوات المزعجة للغاية." كتب OpenAI: "على غرار الشخصيات البارزة".

لقد وافق الشركاء الذين يختبرون Voice Engine اليوم على سياسات استخدام OpenAI، التي تحظر انتحال شخصية فرد أو مؤسسة أخرى دون موافقة. بالإضافة إلى ذلك، تتطلب الشركة موافقة صريحة ومستنيرة من المتحدث الأصلي، ولا تسمح للمطورين ببناء طرق للمستخدمين الفرديين لاستنساخ أصواتهم.

وجاء في منشور المدونة: "استنادًا إلى هذه المحادثات ونتائج هذه الاختبارات صغيرة النطاق، سنتخذ قرارًا أكثر استنارة حول ما إذا كان سيتم نشر هذه التكنولوجيا على نطاق واسع وكيفية نشرها".

بالإضافة إلى Voice Engine، تعمل Open AI على مشاريع متعددة بالتوازي. وكشف الرئيس التنفيذي سام التمان أن الشركة تعمل على إطلاق GPT-5 هذا العام. وأظهرت الشركة أيضًا أداة الفيديو التوليدية الخاصة بها سورا. تدعي الشركة أن Sora سيكون مولد الفيديو الأكثر تقدمًا في السوق، متجاوزًا نماذج مثل Pika وStable Video Diffusion وRunway ML.

Sora متاح حاليًا فقط لـ "أعضاء الفريق الأحمر" المُدرجين بواسطة Open AI للتأكد من عدم إساءة استخدامه.

من المؤكد أن Voice Engine يمكنه أن يتفوق في الأداء على أدوات استنساخ الصوت الأخرى، بما في ذلك العروض المقدمة من Meta وElevenLabs وWellSaid Labs والنماذج مفتوحة المصدر مثل RVC.

يعمل Open AI أيضًا على مشروع سري اسمه س* والتي تم تسريب اسمها فقط. رفض سام ألتمان تقديم أي تفاصيل، لكنه قال إن فريق البحث ركز بشكل كبير على إيجاد التقنيات والأساليب التي تجعل الذكاء الاصطناعي يفكر بشكل أفضل.

حرره ريان أوزاوا.

ابق على اطلاع بأخبار العملات المشفرة ، واحصل على تحديثات يومية في صندوق الوارد الخاص بك.

الطابع الزمني:

اكثر من فك تشفير