المستخدمون منبهرون بأداة تحويل الصور إلى فيديو من Microsoft - VASA-

المستخدمون منبهرون بأداة تحويل الصور إلى فيديو من Microsoft - VASA-

انبهر المستخدمون بأداة تحويل الصور إلى فيديو من Microsoft - VASA- ذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

مع استمرار السباق من أجل تفوق الذكاء الاصطناعي، تريد مايكروسوفت الآن تحويل الصور الشخصية للأشخاص إلى وجوه تتحدث أو مقاطع فيديو باستخدام أحدث أدواتها، VASA-1.

وفقًا لورقة بحثية أعدتها شركة التكنولوجيا العملاقة، فإن مايكروسوفت تنقل سباق الذكاء الاصطناعي إلى مستوى آخر، مع فاسا 1، إطار عمل لإنشاء وجوه ناطقة واقعية لشخصيات افتراضية ذات مهارات بصرية عاطفية (VAS)، كل ذلك من خلال صورة شخصية.

اقرأ أيضا: صناعة ألعاب الفيديو تسارع إلى الاتحاد حول الذكاء الاصطناعي

من الصور الشخصية إلى الوجوه الناطقة

على الرغم من أنها ليست متاحة للجمهور بعد، إلا أن الأداة تلتقط صورة شخصية واحدة وصوتًا للكلام وتنتج فيديو وجهًا يتحدث بشكل واقعي للغاية مع مزامنة دقيقة لصوت الشفاه، وسلوك وجه نابض بالحياة، وحركات رأس طبيعية يتم إنشاؤها في الوقت الفعلي.

لا تزال الأداة في مرحلة معاينة البحث مع فريق أبحاث Microsoft، ومقاطع الفيديو التوضيحية "تبدو مثيرة للإعجاب".

في حين أن شركات مثل Nvidia وRunway لديها بالفعل تقنية مماثلة لحركة الرأس ومزامنة الشفاه، يبدو أن VASA-1 "يتمتع بجودة أعلى بكثير وواقعية"، مما يقلل من عيوب الفم، وفقًا لـ دليل توم.

بالإضافة إلى ذلك، فإن هذا الأسلوب في الرسوم المتحركة التي تعتمد على الصوت هو أيضًا مثل الأسلوب الحديث مدون فيديو منظمة العفو الدولية نموذج من أبحاث جوجل.

وفقًا لمايكروسوفت، في حين أن جميع الصور الموجودة في الأمثلة التوضيحية هي صور اصطناعية تم إنشاؤها بواسطة Dall-E، إلا أن VASA-1 لا يزال بإمكانه تحريك صورة حقيقية.

يُظهر العرض التوضيحي أشخاصًا مختلفين يتحدثون بحركات طبيعية تقريبًا، وتعبيرات الوجه، وحركات العين "لا توجد آثار حول أعلى وأسفل الفم في الأدوات الأخرى".

كما أنها لا تتطلب صورة بنمط عمودي متجهة للأمام حتى تعمل.

VASA-1 جعل الناس يتحدثون

وبالفعل، يبدو أن المتحمسين للذكاء الاصطناعي منبهرون بالتكنولوجيا التي يصفونها بأنها "جامحة" و"مجنونة" على منصة X.

"إن التحسينات التي نحصل عليها بين كل إصدار أمر لا يصدق،" محمد لينوس إيكنستام.

ويرى آخرون أن العالم يشهد "تحولًا زلزاليًا في طريقة إنشاء محتوى الوسائط" وكيفية استهلاكه.

وقال أحد المتحمسين الآخرين وهو سام: "هذا أمر مذهل، والواقعية من الدرجة الأولى".

على الرغم من أن الآخرين يدركون قدرات الأداة، إلا أنهم يعتقدون أيضًا أنه من غير المسؤول إلى حد ما من جانب Microsoft تقديم أداة يمكن التلاعب بها بسهولة التزييف العميق للانتخابات.

"من المتوحش أن نتخلى عن هذا قبل الانتخابات مباشرة" كتب روان تشيونغ على منصة X.

مستخدم آخر إيفان كيرستل علق بتحذير شديد اللهجة: "إن VASA-1 من Microsoft Research سيغير قواعد اللعبة، حيث ينشئ مقاطع فيديو واقعية للغاية تم إنشاؤها بواسطة الذكاء الاصطناعي من مجرد صورة وصوت."

"الاحتمالات لا حصر لها، بدءًا من إحياء أساطير السينما الكلاسيكية وحتى الوسائط المخصصة. ولكن دعونا نبقى متيقظين لمخاطر التزييف العميق.

لقد شهد العالم بالفعل تدفقًا للتزييف العميق للانتخابات، حيث تم التلاعب بأصوات السياسيين أو صورهم باستخدام الذكاء الاصطناعي لنشر الدعاية. يتوجه حوالي ثلث سكان العالم إلى صناديق الاقتراع هذا العام.

ومع ذلك، أشار الباحثون في Microsoft إلى أن هذا مجرد عرض توضيحي، ولا توجد حاليًا أي خطط لإصدار عام أو إتاحته للمطورين.

كيف يعمل فاسا-1؟

وفقًا لدليل توم، تفاجأ الباحثون أنفسهم بقدرة النموذج على "مزامنة الشفاه بشكل مثالي مع الأغنية، مما يعكس كلمات المغني دون مشكلة على الرغم من عدم استخدام الموسيقى في مجموعة بيانات التدريب".

بالإضافة إلى ذلك، تعامل VASA-1 مع أنماط صور مختلفة بما في ذلك الصور التاريخية مثل الصور الشهيرة الموناليزا.

يمكن استخدام الأداة في الألعاب على خلفية قدراتها المتقدمة في مزامنة الشفاه. ويقول الخبراء إن هذا يمكن أن يغير قواعد اللعبة بالنسبة للانغماس.

بالإضافة إلى ذلك، يمكن أن تكون التكنولوجيا مفيدة في إنشاء صور رمزية لمقاطع فيديو الوسائط الاجتماعية، كما هو الحال مع شركات مثل Synthesia وHeyGen.

يمكن أيضًا للأفلام المبنية على الذكاء الاصطناعي وإنتاج مقاطع الفيديو الموسيقية الاستفادة من تقنية VASA-1 لإنتاج مقاطع فيديو أكثر واقعية.

هناك فرص أنه مع امتلاك Microsoft لحصة في OpenAI، يمكن أن يكون VASA-1 جزءًا من "مساعد الطيار المستقبلي" سورا دمج."

الطابع الزمني:

اكثر من ميتا نيوز