إنشاء فيديو باستخدام الذكاء الاصطناعي وبضع كلمات: تحقق من أداة Meta الجديدة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

اصنع فيديو باستخدام الذكاء الاصطناعي وبضع كلمات: تحقق من أداة Meta الجديدة

يتحسن الذكاء الاصطناعي أكثر فأكثر في إنشاء صورة استجابة لعدد قليل من الكلمات، مع مولدات صور الذكاء الاصطناعي المتاحة للجمهور مثل DALL-E 2 وStable Diffusion. الآن، يأخذ باحثو Meta الذكاء الاصطناعي خطوة أخرى إلى الأمام: فهم يستخدمونه لتلفيق مقاطع فيديو من مطالبة نصية.

الرئيس التنفيذي لشركة Meta Mark Zuckerberg نشرت على الفيسبوك يوم الخميس حول البحثودعا اصنع مقطع فيديو، مع مقطع مدته 20 ثانية يجمع العديد من المطالبات النصية التي استخدمها باحثو Meta ومقاطع الفيديو الناتجة (القصيرة جدًا). تشمل المطالبات "دبدوب يرسم صورة ذاتية"، و"سفينة فضائية تهبط على المريخ"، و"طفل كسلان يرتدي قبعة محبوكة يحاول اكتشاف جهاز كمبيوتر محمول"، و"روبوت يركب موجة في المحيط".

يبلغ طول مقاطع الفيديو الخاصة بكل مطالبة بضع ثوانٍ فقط، وهي تعرض عمومًا ما تقترحه المطالبة (باستثناء حيوان الكسلان الصغير، الذي لا يشبه إلى حد كبير المخلوق الفعلي)، بدقة منخفضة إلى حد ما ومتشنجة إلى حد ما أسلوب. ومع ذلك، فهو يوضح الاتجاه الجديد الذي تسلكه أبحاث الذكاء الاصطناعي حيث أصبحت الأنظمة جيدة بشكل متزايد في توليد الصور من الكلمات. ومع ذلك، إذا تم إطلاق هذه التكنولوجيا على نطاق واسع في نهاية المطاف، فإنها ستثير العديد من المخاوف نفسها التي أثارتها أنظمة تحويل النص إلى صورة، مثل إمكانية استخدامها لنشر معلومات مضللة عبر الفيديو.

صفحة على شبكة الإنترنت يتضمن Make-A-Video هذه المقاطع القصيرة وغيرها، والتي يبدو بعضها واقعيًا إلى حد ما، مثل مقطع فيديو تم إنشاؤه استجابة للمطالبة ""سمكة المهرج تسبح عبر الشعاب المرجانية"" أو واحد يهدف إلى إظهار "زوجان شابان يسيران تحت المطر الغزير".

وفي منشوره على فيسبوك، أشار زوكربيرج إلى مدى صعوبة إنشاء صورة متحركة من حفنة من الكلمات.

وكتب: "إن إنشاء الفيديو أصعب بكثير من إنشاء الصور، لأنه بالإضافة إلى إنشاء كل بكسل بشكل صحيح، يتعين على النظام أيضًا التنبؤ بكيفية تغيرها بمرور الوقت".

ورقة بحث يوضح وصف العمل أن المشروع يستخدم نموذج الذكاء الاصطناعي لتحويل النص إلى صورة لمعرفة كيفية توافق الكلمات مع الصور، وتقنية الذكاء الاصطناعي المعروفة باسم تعليم غير مشرف عليه - حيث تقوم الخوارزميات بدراسة البيانات التي لم يتم تصنيفها لتمييز الأنماط داخلها - للنظر إلى مقاطع الفيديو وتحديد الشكل الذي تبدو عليه الحركة الواقعية.

كما هو الحال مع أنظمة الذكاء الاصطناعي الضخمة والشائعة التي تولد صورًا من النص، أشار الباحثون إلى أن نموذج الذكاء الاصطناعي الخاص بهم لتحويل النص إلى صورة تم تدريبه على بيانات الإنترنت - مما يعني أنه تعلم "ومن المحتمل أن يكون هناك تحيزات اجتماعية مبالغ فيها، بما في ذلك التحيزات الضارة". كتب. لقد لاحظوا أنهم قاموا بتصفية البيانات بحثًا عن "محتوى NSFW والكلمات السامة"، ولكن بما أن مجموعات البيانات يمكن أن تتضمن عدة ملايين من الصور والنصوص، فقد لا يكون من الممكن إزالة كل هذا المحتوى.

كتب زوكربيرج أن ميتا تخطط لمشاركة مشروع Make-A-Video كعرض توضيحي في المستقبل.

The-CNN-Wire ™ & © 2022 Cable News Network، Inc. ، إحدى شركات اكتشاف Warner Bros. كل الحقوق محفوظة.

الطابع الزمني:

اكثر من WRAL تيكواير