المستخدمون منبهرون بأداة تحويل الصورة إلى فيديو من Microsoft

أعاد نشره أفلاطون

المتابعون: 0

انبهر المستخدمون بأداة تحويل الصور إلى فيديو من Microsoft - VASA- ذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

مع استمرار السباق من أجل تفوق الذكاء الاصطناعي، تريد مايكروسوفت الآن تحويل الصور الشخصية للأشخاص إلى وجوه تتحدث أو مقاطع فيديو باستخدام أحدث أدواتها، VASA-1.

وفقًا لورقة بحثية أعدتها شركة التكنولوجيا العملاقة، فإن مايكروسوفت تنقل سباق الذكاء الاصطناعي إلى مستوى آخر، مع فاسا 1، إطار عمل لإنشاء وجوه ناطقة واقعية لشخصيات افتراضية ذات مهارات بصرية عاطفية (VAS)، كل ذلك من خلال صورة شخصية.

من الصور الشخصية إلى الوجوه الناطقة

على الرغم من أنها ليست متاحة للجمهور بعد، إلا أن الأداة تلتقط صورة شخصية واحدة وصوتًا للكلام وتنتج فيديو وجهًا يتحدث بشكل واقعي للغاية مع مزامنة دقيقة لصوت الشفاه، وسلوك وجه نابض بالحياة، وحركات رأس طبيعية يتم إنشاؤها في الوقت الفعلي.

لا تزال الأداة في مرحلة معاينة البحث مع فريق أبحاث Microsoft، ومقاطع الفيديو التوضيحية "تبدو مثيرة للإعجاب".

في حين أن شركات مثل Nvidia وRunway لديها بالفعل تقنية مماثلة لحركة الرأس ومزامنة الشفاه، يبدو أن VASA-1 "يتمتع بجودة أعلى بكثير وواقعية"، مما يقلل من عيوب الفم، وفقًا لـ دليل توم.

بالإضافة إلى ذلك، فإن هذا الأسلوب في الرسوم المتحركة التي تعتمد على الصوت هو أيضًا مثل الأسلوب الحديث مدون فيديو منظمة العفو الدولية نموذج من أبحاث جوجل.

وفقًا لمايكروسوفت، في حين أن جميع الصور الموجودة في الأمثلة التوضيحية هي صور اصطناعية تم إنشاؤها بواسطة Dall-E، إلا أن VASA-1 لا يزال بإمكانه تحريك صورة حقيقية.

يُظهر العرض التوضيحي أشخاصًا مختلفين يتحدثون بحركات طبيعية تقريبًا، وتعبيرات الوجه، وحركات العين "لا توجد آثار حول أعلى وأسفل الفم في الأدوات الأخرى".

كما أنها لا تتطلب صورة بنمط عمودي متجهة للأمام حتى تعمل.

قدمت مايكروسوفت للتو VASA-1.

إنه نموذج جديد للذكاء الاصطناعي يمكنه تحويل صورة واحدة ومقطع صوتي واحد إلى صورة مزيفة بشرية واقعية تمامًا.

البرية لإسقاط هذا الحق قبل الانتخابات 😬pic.twitter.com/MuLkZVOKRM

- روان تشيونغ (rowancheung) 18 نيسان

VASA-1 جعل الناس يتحدثون

وبالفعل، يبدو أن المتحمسين للذكاء الاصطناعي منبهرون بالتكنولوجيا التي يصفونها بأنها "جامحة" و"مجنونة" على منصة X.

"إن التحسينات التي نحصل عليها بين كل إصدار أمر لا يصدق،" محمد لينوس إيكنستام.

ويرى آخرون أن العالم يشهد "تحولًا زلزاليًا في طريقة إنشاء محتوى الوسائط" وكيفية استهلاكه.

وقال أحد المتحمسين الآخرين وهو سام: "هذا أمر مذهل، والواقعية من الدرجة الأولى".

على الرغم من أن الآخرين يدركون قدرات الأداة، إلا أنهم يعتقدون أيضًا أنه من غير المسؤول إلى حد ما من جانب Microsoft تقديم أداة يمكن التلاعب بها بسهولة التزييف العميق للانتخابات.

"من المتوحش أن نتخلى عن هذا قبل الانتخابات مباشرة" كتب روان تشيونغ على منصة X.

مستخدم آخر إيفان كيرستل علق بتحذير شديد اللهجة: "إن VASA-1 من Microsoft Research سيغير قواعد اللعبة، حيث ينشئ مقاطع فيديو واقعية للغاية تم إنشاؤها بواسطة الذكاء الاصطناعي من مجرد صورة وصوت."

"الاحتمالات لا حصر لها، بدءًا من إحياء أساطير السينما الكلاسيكية وحتى الوسائط المخصصة. ولكن دعونا نبقى متيقظين لمخاطر التزييف العميق.

لقد شهد العالم بالفعل تدفقًا للتزييف العميق للانتخابات، حيث تم التلاعب بأصوات السياسيين أو صورهم باستخدام الذكاء الاصطناعي لنشر الدعاية. يتوجه حوالي ثلث سكان العالم إلى صناديق الاقتراع هذا العام.

ومع ذلك، أشار الباحثون في Microsoft إلى أن هذا مجرد عرض توضيحي، ولا توجد حاليًا أي خطط لإصدار عام أو إتاحته للمطورين.

كيف يعمل فاسا-1؟

وفقًا لدليل توم، تفاجأ الباحثون أنفسهم بقدرة النموذج على "مزامنة الشفاه بشكل مثالي مع الأغنية، مما يعكس كلمات المغني دون مشكلة على الرغم من عدم استخدام الموسيقى في مجموعة بيانات التدريب".

بالإضافة إلى ذلك، تعامل VASA-1 مع أنماط صور مختلفة بما في ذلك الصور التاريخية مثل الصور الشهيرة الموناليزا.

يمكن استخدام الأداة في الألعاب على خلفية قدراتها المتقدمة في مزامنة الشفاه. ويقول الخبراء إن هذا يمكن أن يغير قواعد اللعبة بالنسبة للانغماس.

بالإضافة إلى ذلك، يمكن أن تكون التكنولوجيا مفيدة في إنشاء صور رمزية لمقاطع فيديو الوسائط الاجتماعية، كما هو الحال مع شركات مثل Synthesia وHeyGen.

يمكن أيضًا للأفلام المبنية على الذكاء الاصطناعي وإنتاج مقاطع الفيديو الموسيقية الاستفادة من تقنية VASA-1 لإنتاج مقاطع فيديو أكثر واقعية.

هناك فرص أنه مع امتلاك Microsoft لحصة في OpenAI، يمكن أن يكون VASA-1 جزءًا من "مساعد الطيار المستقبلي" سورا دمج."

محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
المصدر https://metanews.com/enthusiasts-smitten-by-image-to-video-tool-vasa-1/

الطابع الزمني: 24 نيسان

الطابع الزمني: فبراير 4، 2024

أعاد نشره أفلاطون

يقول الرئيس التنفيذي لشركة AI Gaming إن الذكاء الاصطناعي يمكن أن يتسبب في انفجار ألعاب Web3

ما هي Hypernetworks؟

Hug Duck Club NFTs تغرق في الفضاء

الخبراء يفكرون في مستقبل Metaverse في مؤتمر الألعاب

شركة صينية تتحول إلى الذكاء الاصطناعي مع تراجع أرباح الألعاب

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي