يتم استخدام الذكاء الاصطناعي لتوليد كل شيء من صور إلى نص إلى بروتينات اصطناعية، والآن تمت إضافة شيء آخر إلى القائمة: الكلام. باحثون الأسبوع الماضي من أصدرت مايكروسوفت ورقة على ذكاء اصطناعي جديد يسمى VALL-E يمكنه محاكاة صوت أي شخص بدقة بناءً على عينة مدتها ثلاث ثوانٍ فقط. لم يكن VALL-E هو أول محاكي للكلام يتم إنشاؤه ، ولكنه مصمم بطريقة مختلفة عن سابقاتها - ويمكن أن ينطوي على مخاطر أكبر لسوء الاستخدام المحتمل.
تستخدم معظم نماذج تحويل النص إلى كلام الحالية أشكالًا موجية (تمثيلات رسومية للموجات الصوتية أثناء تحركها عبر وسيط بمرور الوقت) لإنشاء أصوات مزيفة ، وتعديل الخصائص مثل النغمة أو درجة الصوت لتقريب صوت معين. على الرغم من ذلك ، يأخذ VALL-E عينة من صوت شخص ما ويقسمها إلى مكونات تسمى الرموز المميزة ، ثم يستخدم تلك الرموز المميزة لإنشاء أصوات جديدة بناءً على "القواعد" التي تعلمها بالفعل عن هذا الصوت. إذا كان الصوت عميقًا بشكل خاص ، أو كان المتحدث يلفظ A بطريقة أنفية ، أو كانت أكثر رتابة من المتوسط ، فهذه كلها سمات يمكن للذكاء الاصطناعي أن يلتقطها ويكون قادرًا على تكرارها.
يعتمد النموذج على تقنية تسمى EnCodec بواسطة Meta، والذي تم إصداره للتو في هذا الجزء من شهر أكتوبر. تستخدم الأداة نظامًا من ثلاثة أجزاء لضغط الصوت إلى 10 مرات أصغر من ملفات MP3 دون فقدان الجودة ؛ قصد منشئوه أن يكون أحد استخداماته هو تحسين جودة الصوت والموسيقى على المكالمات التي يتم إجراؤها عبر اتصالات النطاق الترددي المنخفض.
لتدريب VALL-E ، استخدم منشئوه مكتبة صوتية تسمى ليبري لايت، الذي يتكون من 60,000 ساعة من حديث اللغة الإنجليزية بشكل أساسي من رواية الكتب المسموعة. يعطي النموذج أفضل النتائج عندما يكون الصوت الذي يتم توليفه مشابهًا لأحد الأصوات من مكتبة التدريب (التي يوجد منها أكثر من 7,000 صوت ، لذلك لا ينبغي أن يكون ذلك طويلاً للغاية بالنسبة لطلب).
إلى جانب إعادة إنشاء صوت شخص ما ، تحاكي VALL-E أيضًا بيئة الصوت من عينة مدتها ثلاث ثوانٍ. قد يبدو مقطع الفيديو المسجل عبر الهاتف مختلفًا عن المقطع المصنوع شخصيًا ، وإذا كنت تمشي أو تقود السيارة أثناء التحدث ، فسيتم أخذ الصوتيات الفريدة لتلك السيناريوهات في الاعتبار.
بعض عينات تبدو واقعية إلى حد ما ، في حين أن البعض الآخر لا يزال من الواضح جدًا أنه تم إنشاؤه بواسطة الكمبيوتر. لكن هناك اختلافات ملحوظة بين الأصوات. يمكنك معرفة أنها تستند إلى الأشخاص الذين لديهم أساليب التحدث ونبرات الصوت وأنماط التنغيم المختلفة.
يعرف الفريق الذي أنشأ VALL-E أنه يمكن استخدامه بسهولة من قبل الجهات الفاعلة السيئة ؛ من تزييف المقاطع الصوتية للسياسيين أو المشاهير إلى استخدام الأصوات المألوفة لطلب المال أو المعلومات عبر الهاتف ، هناك طرق لا حصر لها للاستفادة من التكنولوجيا. لقد امتنعوا بحكمة عن إتاحة كود VALL-E للجمهور ، وأدرجوا بيانًا أخلاقيًا في نهاية ورقتهم (والذي لن يفعل الكثير لردع أي شخص يريد استخدام الذكاء الاصطناعي لأغراض شائنة).
من المحتمل أنها مجرد مسألة وقت قبل ظهور أدوات مماثلة وتسقط في الأيدي الخطأ. يقترح الباحثون أن المخاطر التي ستقدمها نماذج مثل VALL-E يمكن تخفيفها من خلال بناء نماذج الكشف لقياس ما إذا كانت المقاطع الصوتية حقيقية أم مركبة. إذا كنا بحاجة إلى الذكاء الاصطناعي لحمايتنا من الذكاء الاصطناعي ، فكيف نعرف ما إذا كانت هذه التقنيات لها تأثير إيجابي صافٍ؟ سيخبرنا الوقت.
الصورة الائتمان: Shutterstock.com/تانشا
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. الوصول هنا.
- المصدر https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/
- 000
- 10
- 7
- a
- ماهرون
- من نحن
- حسابي
- بدقة
- وأضاف
- مميزات
- AI
- الكل
- سابقا
- و
- آخر
- أي شخص
- سمعي
- متاح
- المتوسط
- سيئة
- على أساس
- قبل
- يجري
- أفضل
- ما بين
- فواصل
- ابني
- بنيت
- تسمى
- دعوات
- حمل
- مشاهير
- الخصائص
- مقاطع
- الكود
- مكونات
- مولدة بالحاسوب
- التواصل
- استطاع
- خلق
- خلق
- المبدعين
- ائتمان
- عميق
- كشف
- الخلافات
- مختلف
- إلى أسفل
- قيادة
- بسهولة
- انجليزي
- البيئة
- أخلاق
- كل شىء
- القائمة
- فيسبوك
- بإنصاف
- زائف
- فال
- مألوف
- الاسم الأول
- تبدأ من
- توليد
- GitHub جيثب:
- معطى
- أكبر
- العناية باليد
- وجود
- ساعات العمل
- كيفية
- HTTPS
- التأثير
- تحسين
- in
- شامل
- معلومات
- IT
- علم
- اسم العائلة
- تعلم
- المكتبة
- على الأرجح
- قائمة
- طويل
- خسارة
- صنع
- القيام ب
- أمر
- متوسط
- نموذج
- عارضات ازياء
- مال
- الأكثر من ذلك
- خطوة
- موسيقى
- حاجة
- صاف
- جديد
- شهر اكتوبر
- ONE
- طلب
- أخرى
- ورق
- جزء
- خاصة
- أنماط
- مجتمع
- شخص
- للهواتف
- اختيار
- رمية
- ملاعب
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- الساسة
- إيجابي
- محتمل
- يقدم
- في المقام الأول
- حماية
- علانية
- أغراض
- جودة
- حقيقي
- واقعي
- مسجل
- صدر
- طلب
- الباحثين
- النتائج
- المخاطرة
- المخاطر
- سيناريوهات
- ثواني
- شترستوك
- مماثل
- محاكاة
- الأصغر
- So
- مكبرات الصوت
- تحدث
- خطاب
- الربيع
- ملخص الحساب
- لا يزال
- نظام
- أخذ
- يأخذ
- الحديث
- فريق
- التكنولوجيا
- تكنولوجيا
- النص إلى كلام
- •
- من مشاركة
- شيء
- ثلاثة
- عبر
- الوقت
- مرات
- إلى
- الرموز
- TONE
- جدا
- أداة
- أدوات
- قطار
- قادة الإيمان
- التغيير والتبديل
- فريد من نوعه
- us
- تستخدم
- صوت
- * أصوات
- المشي
- أمواج
- طرق
- أسبوع
- سواء
- التي
- في حين
- من الذى
- سوف
- سوف
- خاطئ
- الأيدي الخطأ
- عائدات
- أنت
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت