الذكاء الاصطناعي الجديد من مايكروسوفت يمكنه استنساخ صوتك في 3 ثوانٍ فقط

أعاد نشره أفلاطون

المتابعون: 0

الذكاء الاصطناعي الجديد من مايكروسوفت يمكنه استنساخ صوتك في 3 ثوانٍ فقط البحث العمودي. منظمة العفو الدولية.

يتم استخدام الذكاء الاصطناعي لتوليد كل شيء من صور إلى نص إلى بروتينات اصطناعية، والآن تمت إضافة شيء آخر إلى القائمة: الكلام. باحثون الأسبوع الماضي من أصدرت مايكروسوفت ورقة على ذكاء اصطناعي جديد يسمى VALL-E يمكنه محاكاة صوت أي شخص بدقة بناءً على عينة مدتها ثلاث ثوانٍ فقط. لم يكن VALL-E هو أول محاكي للكلام يتم إنشاؤه ، ولكنه مصمم بطريقة مختلفة عن سابقاتها - ويمكن أن ينطوي على مخاطر أكبر لسوء الاستخدام المحتمل.

تستخدم معظم نماذج تحويل النص إلى كلام الحالية أشكالًا موجية (تمثيلات رسومية للموجات الصوتية أثناء تحركها عبر وسيط بمرور الوقت) لإنشاء أصوات مزيفة ، وتعديل الخصائص مثل النغمة أو درجة الصوت لتقريب صوت معين. على الرغم من ذلك ، يأخذ VALL-E عينة من صوت شخص ما ويقسمها إلى مكونات تسمى الرموز المميزة ، ثم يستخدم تلك الرموز المميزة لإنشاء أصوات جديدة بناءً على "القواعد" التي تعلمها بالفعل عن هذا الصوت. إذا كان الصوت عميقًا بشكل خاص ، أو كان المتحدث يلفظ A بطريقة أنفية ، أو كانت أكثر رتابة من المتوسط ، فهذه كلها سمات يمكن للذكاء الاصطناعي أن يلتقطها ويكون قادرًا على تكرارها.

يعتمد النموذج على تقنية تسمى EnCodec بواسطة Meta، والذي تم إصداره للتو في هذا الجزء من شهر أكتوبر. تستخدم الأداة نظامًا من ثلاثة أجزاء لضغط الصوت إلى 10 مرات أصغر من ملفات MP3 دون فقدان الجودة ؛ قصد منشئوه أن يكون أحد استخداماته هو تحسين جودة الصوت والموسيقى على المكالمات التي يتم إجراؤها عبر اتصالات النطاق الترددي المنخفض.

لتدريب VALL-E ، استخدم منشئوه مكتبة صوتية تسمى ليبري لايت، الذي يتكون من 60,000 ساعة من حديث اللغة الإنجليزية بشكل أساسي من رواية الكتب المسموعة. يعطي النموذج أفضل النتائج عندما يكون الصوت الذي يتم توليفه مشابهًا لأحد الأصوات من مكتبة التدريب (التي يوجد منها أكثر من 7,000 صوت ، لذلك لا ينبغي أن يكون ذلك طويلاً للغاية بالنسبة لطلب).

إلى جانب إعادة إنشاء صوت شخص ما ، تحاكي VALL-E أيضًا بيئة الصوت من عينة مدتها ثلاث ثوانٍ. قد يبدو مقطع الفيديو المسجل عبر الهاتف مختلفًا عن المقطع المصنوع شخصيًا ، وإذا كنت تمشي أو تقود السيارة أثناء التحدث ، فسيتم أخذ الصوتيات الفريدة لتلك السيناريوهات في الاعتبار.

بعض عينات تبدو واقعية إلى حد ما ، في حين أن البعض الآخر لا يزال من الواضح جدًا أنه تم إنشاؤه بواسطة الكمبيوتر. لكن هناك اختلافات ملحوظة بين الأصوات. يمكنك معرفة أنها تستند إلى الأشخاص الذين لديهم أساليب التحدث ونبرات الصوت وأنماط التنغيم المختلفة.

يعرف الفريق الذي أنشأ VALL-E أنه يمكن استخدامه بسهولة من قبل الجهات الفاعلة السيئة ؛ من تزييف المقاطع الصوتية للسياسيين أو المشاهير إلى استخدام الأصوات المألوفة لطلب المال أو المعلومات عبر الهاتف ، هناك طرق لا حصر لها للاستفادة من التكنولوجيا. لقد امتنعوا بحكمة عن إتاحة كود VALL-E للجمهور ، وأدرجوا بيانًا أخلاقيًا في نهاية ورقتهم (والذي لن يفعل الكثير لردع أي شخص يريد استخدام الذكاء الاصطناعي لأغراض شائنة).

من المحتمل أنها مجرد مسألة وقت قبل ظهور أدوات مماثلة وتسقط في الأيدي الخطأ. يقترح الباحثون أن المخاطر التي ستقدمها نماذج مثل VALL-E يمكن تخفيفها من خلال بناء نماذج الكشف لقياس ما إذا كانت المقاطع الصوتية حقيقية أم مركبة. إذا كنا بحاجة إلى الذكاء الاصطناعي لحمايتنا من الذكاء الاصطناعي ، فكيف نعرف ما إذا كانت هذه التقنيات لها تأثير إيجابي صافٍ؟ سيخبرنا الوقت.

الصورة الائتمان: Shutterstock.com/تانشا

محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. الوصول هنا.
المصدر https://singularityhub.com/2023/01/12/microsofts-new-ai-can-clone-your-voice-in-just-3-seconds/

الطابع الزمني: ٣ فبراير ٢٠٢٤

الطابع الزمني: يونيو 25، 2022

يمكن للذكاء الاصطناعي الجديد من Microsoft استنساخ صوتك في 3 ثوانٍ فقط

أعاد نشره أفلاطون

اكثر من التفرد المحور

القصص التقنية الرائعة لهذا الأسبوع من جميع أنحاء الويب (حتى 8 أبريل)

القصص التقنية الرائعة لهذا الأسبوع من جميع أنحاء الويب (حتى 2 سبتمبر)

يرسم AlphaFold AI الجديد من Google DeepMind الرقص الجزيئي للحياة في دقائق

الذكاء الاصطناعي الجديد الذي يشبه ChatGPT في Meta يتقن لغة البروتينات

تريد هذه الشركة الناشئة ضخ ثاني أكسيد الكربون الملتقط مباشرة في الصخور البركانية في كينيا

قصص فنية رائعة هذا الأسبوع من الويب (حتى 19 أغسطس)

تقرير موجز عن الروبوت CES 2023: روبوتات تجعل حياتنا أفضل أو أسهل أو أكثر متعة

القصص التقنية الرائعة لهذا الأسبوع من جميع أنحاء الويب (حتى 24 سبتمبر)

مثل البشر، هذا الذكاء الاصطناعي الخارق يصنع مفاهيم من الكلمات التي يتعلمها

كان عام 2022 هو العام الذي بدأ فيه الذكاء الاصطناعي أخيرًا الارتقاء إلى مستوى الضجيج

قصص فنية رائعة هذا الأسبوع من الويب (حتى 25 يونيو)

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي