الرسوم المتحركة للوجه في الوقت الفعلي لذكاء بيانات الصور الرمزية PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

الرسوم المتحركة للوجه في الوقت الحقيقي للصور الرمزية

يعد تعبير الوجه خطوة حاسمة في مسيرة Roblox نحو جعل metaverse جزءًا من حياة الناس اليومية من خلال تفاعلات أفاتار طبيعية ويمكن تصديقها. ومع ذلك ، فإن تحريك وجوه الشخصيات الافتراضية ثلاثية الأبعاد في الوقت الفعلي يمثل تحديًا تقنيًا هائلاً. على الرغم من الإنجازات البحثية العديدة ، إلا أن هناك أمثلة تجارية محدودة لتطبيقات الرسوم المتحركة للوجه في الوقت الفعلي. هذا يمثل تحديًا خاصًا في Roblox ، حيث ندعم مجموعة مذهلة من أجهزة المستخدم ، وظروف العالم الحقيقي ، وحالات الاستخدام المبتكرة للغاية من مطورينا.

الرسوم المتحركة للوجه في الوقت الفعلي لذكاء بيانات الصور الرمزية PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

الرسوم المتحركة للوجه في الوقت الفعلي لذكاء بيانات الصور الرمزية PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

في هذا المنشور ، سنصف إطار عمل التعلم العميق للتراجع عن عناصر التحكم في الرسوم المتحركة للوجه من الفيديو الذي يعالج هذه التحديات ويفتح لنا عددًا من الفرص المستقبلية. تم تقديم إطار العمل الموضح في منشور المدونة هذا أيضًا كملف حديث at سيغراف شنومكس.

الرسوم المتحركة للوجه

هناك العديد من الخيارات للتحكم في جهاز وجه ثلاثي الأبعاد وتحريكه. النظام الذي نستخدمه يسمى نظام ترميز إجراءات الوجه أو FACS، والتي تحدد مجموعة من عناصر التحكم (بناءً على موضع عضلات الوجه) لتشويه شبكة الوجه ثلاثية الأبعاد. على الرغم من كونه أكثر من 3 عامًا ، لا يزال نظام مراقبة الأصول الميدانية هو المعيار الفعلي نظرًا لأن عناصر التحكم في نظام مراقبة الأصول الميدانية سهلة الاستخدام ويمكن نقلها بسهولة بين الحفارات. يمكن رؤية مثال على جهاز FACS الذي يتم ممارسته أدناه.

الرسوم المتحركة للوجه في الوقت الفعلي لذكاء بيانات الصور الرمزية PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

خدمة التوصيل

الفكرة هي أن تقوم طريقتنا القائمة على التعلم العميق بأخذ مقطع فيديو كمدخلات وإخراج مجموعة من FACS لكل إطار. لتحقيق ذلك ، نستخدم بنية من مرحلتين: اكتشاف الوجه وانحدار FACS.

الرسوم المتحركة للوجه في الوقت الفعلي لذكاء بيانات الصور الرمزية PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

كشف الوجه

لتحقيق أفضل أداء ، قمنا بتنفيذ متغير سريع من خوارزمية اكتشاف الوجه MTCNN المعروفة نسبيًا. تعد خوارزمية MTCNN الأصلية دقيقة تمامًا وسريعة ولكنها ليست سريعة بما يكفي لدعم اكتشاف الوجه في الوقت الفعلي على العديد من الأجهزة التي يستخدمها مستخدمونا. وبالتالي لحل هذه المشكلة ، قمنا بتعديل الخوارزمية لحالة الاستخدام المحددة الخاصة بنا حيث بمجرد اكتشاف وجه ما ، فإن تطبيق MTCNN الخاص بنا يعمل فقط على مرحلة O-Net النهائية في الإطارات المتتالية ، مما يؤدي إلى متوسط ​​تسريع 10x. نستخدم أيضًا معالم الوجه (موقع العينين والأنف وزوايا الفم) التي تنبأ بها MTCNN لمحاذاة المربع المحيط بالوجه قبل مرحلة الانحدار اللاحقة. تسمح هذه المحاذاة بإجراء اقتصاص محكم لصور الإدخال ، مما يقلل من حساب شبكة الانحدار FACS.

الرسوم المتحركة للوجه في الوقت الفعلي لذكاء بيانات الصور الرمزية PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

انحدار FACS 

تستخدم بنية الانحدار FACS الخاصة بنا إعدادًا متعدد المهام يشترك في تدريب المعالم وأوزان FACS باستخدام العمود الفقري المشترك (المعروف باسم المشفر) كمستخرج الميزات.

يتيح لنا هذا الإعداد زيادة أوزان FACS المستفادة من تسلسل الرسوم المتحركة الاصطناعية مع الصور الحقيقية التي تلتقط التفاصيل الدقيقة لتعبيرات الوجه. الشبكة الفرعية للانحدار FACS التي يتم تدريبها جنبًا إلى جنب مع استخدامات انحدار المعالم التلافيف السببية؛ تعمل هذه التلافيفات على ميزات بمرور الوقت بدلاً من التلافيفات التي تعمل فقط على السمات المكانية كما يمكن العثور عليها في المشفر. يسمح هذا للنموذج بتعلم الجوانب الزمنية للرسوم المتحركة للوجه ويجعله أقل حساسية للتناقضات مثل الارتعاش.

الرسوم المتحركة للوجه في الوقت الفعلي لذكاء بيانات الصور الرمزية PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

قادة الإيمان

في البداية ، قمنا بتدريب النموذج على الانحدار التاريخي فقط باستخدام الصور الحقيقية والاصطناعية. بعد عدد معين من الخطوات ، نبدأ في إضافة تسلسلات تركيبية لمعرفة أوزان الشبكة الفرعية للانحدار الزمني FACS. تم إنشاء تسلسلات الرسوم المتحركة الاصطناعية من قبل فريقنا متعدد التخصصات من الفنانين والمهندسين. تم إنشاء منصة عادية تستخدم لجميع الهويات المختلفة (شبكات الوجه) من قبل فناننا والتي تم تدريبها وعرضها تلقائيًا باستخدام ملفات الرسوم المتحركة التي تحتوي على أوزان FACS. تم إنشاء ملفات الرسوم المتحركة هذه باستخدام خوارزميات رؤية الكمبيوتر الكلاسيكية التي تعمل على متواليات فيديو تمارين رياضية للوجه وتكملة بتسلسلات متحركة يدويًا لتعبيرات الوجه المتطرفة التي كانت مفقودة من مقاطع فيديو تمارين الجمباز. 

خسائر

لتدريب شبكة التعلم العميق الخاصة بنا ، نجمع خطيًا بين العديد من مصطلحات الخسارة المختلفة لتراجع المعالم وأوزان FACS: 

  • خسائر المركز. بالنسبة للمعالم ، فإن RMSE للمواقف المتراجعة (L.lmks ) ، ولأوزان FACS ، فإن MSE (L.فكس ). 
  • الخسائر الزمنية. بالنسبة لأوزان FACS ، نقوم بتقليل الاهتزازات باستخدام الخسائر الزمنية على تسلسلات الرسوم المتحركة الاصطناعية. خسارة السرعة (Lv ) مستوحاة من [كوديرو وآخرون 2019] هو MSE بين الهدف والسرعات المتوقعة. يشجع على نعومة التعبيرات الديناميكية بشكل عام. بالإضافة إلى ذلك ، فإن مصطلح تسوية التسارع (L.لجنة التنسيق الإدارية ) لتقليل اهتزاز أوزان نظام مراقبة الأصول الميدانية (ظل وزنه منخفضًا للحفاظ على الاستجابة). 
  • فقدان الاتساق. نحن نستخدم صورًا حقيقية بدون تعليقات توضيحية في حالة فقد التناسق غير الخاضع للإشراف (L.c )، مشابه ل [هوناري وآخرون. 2018]. يشجع هذا تنبؤات المعالم على أن تكون متوازنة في ظل عمليات تحويل الصور المختلفة ، مما يؤدي إلى تحسين اتساق موقع المعالم بين الإطارات دون الحاجة إلى تسميات المعالم لمجموعة فرعية من صور التدريب.

الأداء

لتحسين أداء المشفر بدون تقليل الدقة أو زيادة الارتعاش ، استخدمنا بشكل انتقائي التفافات غير مبطنة لتقليل حجم خريطة المعالم. أعطانا هذا مزيدًا من التحكم في أحجام خريطة المعالم أكثر من التلافيفات المتدرجة. للحفاظ على المتبقي ، نقوم بتقطيع خريطة المعالم قبل إضافتها إلى ناتج التفاف غير مبطّن. بالإضافة إلى ذلك ، قمنا بتعيين عمق خرائط الميزات على مضاعفات 8 ، لاستخدام الذاكرة بكفاءة مع مجموعات تعليمات المتجه مثل AVX و Neon FP16 ، مما أدى إلى تعزيز أداء 1.5x.

يحتوي نموذجنا النهائي على 1.1 مليون معلمة ، ويتطلب 28.1 مليون عملية مضاعفة - تتراكم للتنفيذ. كمرجع ، الفانيليا موبيلينت V2 (التي تعتمد عليها هندستنا) تتطلب 300 مليون عملية تكديس مضاعفة للتنفيذ. نحن نستخدم ال سي ان ان يتم سرد إطار عمل لاستدلال النموذج على الجهاز ووقت التنفيذ المترابط الفردي (بما في ذلك اكتشاف الوجه) لإطار الفيديو في الجدول أدناه. يرجى ملاحظة أن وقت التنفيذ البالغ 16 مللي ثانية سيدعم معالجة 60 إطارًا في الثانية (FPS). 

الرسوم المتحركة للوجه في الوقت الفعلي لذكاء بيانات الصور الرمزية PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

ماذا بعد

سمح لنا خط أنابيب البيانات التركيبية لدينا بتحسين التعبيرية والمتانة للنموذج المدرّب بشكل متكرر. أضفنا تسلسلات تركيبية لتحسين الاستجابة للتعبيرات المفقودة ، وكذلك التدريب المتوازن عبر هويات الوجه المتنوعة. نحقق رسومًا متحركة عالية الجودة بأقل قدر من الحوسبة بسبب الصياغة الزمنية للهندسة المعمارية وخسائرنا ، والعمود الفقري المُحسَّن بعناية ، والحقيقة الأساسية الخالية من الأخطاء من البيانات التركيبية. يتيح لنا الترشيح الزمني الذي يتم إجراؤه في الشبكة الفرعية لأوزان FACS تقليل عدد الطبقات وحجمها في العمود الفقري دون زيادة الارتعاش. يتيح لنا فقدان التناسق غير الخاضع للإشراف التدريب باستخدام مجموعة كبيرة من البيانات الحقيقية ، مما يؤدي إلى تحسين التعميم وقوة نموذجنا. نواصل العمل على مزيد من التنقية والتحسين لنماذجنا ، للحصول على نتائج أكثر تعبيرًا وخالية من التشويش والقوة. 

إذا كنت مهتمًا بالعمل على تحديات مماثلة في طليعة تتبع الوجه في الوقت الفعلي والتعلم الآلي ، فيرجى التحقق من بعض المناصب المفتوحة مع فريقنا.

وظيفة الرسوم المتحركة للوجه في الوقت الحقيقي للصور الرمزية ظهرت للمرة الأولى على مدونة Roblox.

الطابع الزمني:

اكثر من Roblox