يمكن أن تقدم البيانات الاصطناعية تحسينات حقيقية في الأداء في التعلم الآلي لذكاء بيانات PlatoBlockchain. البحث العمودي. عاي.

يمكن أن تقدم البيانات التركيبية تحسينات حقيقية في الأداء في التعلم الآلي

لقد تحسن التعرف على الإجراءات بشكل كبير من خلال مجموعات بيانات الفيديو واسعة النطاق. ومع ذلك، فإن مجموعات البيانات هذه مصحوبة بقضايا تتعلق بتكلفة التنظيم، والخصوصية، والأخلاق، والتحيز، وحقوق النشر. لذا، معهد ماساتشوستس للتكنولوجيا يتجه العلماء إلى مجموعات البيانات الاصطناعية.

يتم تصنيعها بواسطة جهاز كمبيوتر يستخدم نماذج ثلاثية الأبعاد للمشاهد والأشياء والبشر لإنتاج العديد من المقاطع المتنوعة لحركات محددة بسرعة - دون مشكلات حقوق الطبع والنشر المحتملة أو المخاوف الأخلاقية التي تأتي مع البيانات الحقيقية.

هل البيانات الاصطناعية جيدة مثل البيانات الحقيقية؟

سعى فريق من العلماء في معهد ماساتشوستس للتكنولوجيا، ومختبر واتسون للذكاء الاصطناعي MIT-IBM، وجامعة بوسطن للإجابة على هذا السؤال. لقد أنشأوا مجموعة بيانات تركيبية مكونة من 150,000 ألف مقطع فيديو تمثل مجموعة متنوعة من الأفعال البشرية وتم تدريبها تعلم الآلة النماذج التي تستخدم مجموعة البيانات هذه. ثم عرضوا ست مجموعات بيانات من الأفلام المأخوذة من العالم الفعلي لهذه النماذج لاختبار مدى قدرتهم على التقاط الأحداث في تلك التسجيلات.

وجد العلماء أن النماذج المدربة صناعيًا كان أداؤها أفضل من النماذج المدربة على البيانات الحقيقية لمقاطع الفيديو التي تحتوي على عدد أقل من الكائنات الخلفية.

قد يساعد هذا الاكتشاف في استخدام مجموعات البيانات الاصطناعية من قبل العلماء لمساعدة النماذج في أداء المهام الفعلية بشكل أكثر دقة. وللحد من بعض المخاوف الأخلاقية والخصوصية وحقوق النشر المرتبطة باستخدام مجموعات البيانات الفعلية، يمكن أن يساعد الباحثون أيضًا في تحديد تطبيقات التعلم الآلي الأكثر ملاءمة للتدريب على البيانات الاصطناعية.

وقال روجيريو فيريس، العالم الرئيسي ومدير مختبر واتسون للذكاء الاصطناعي التابع لمعهد ماساتشوستس للتكنولوجيا وآي بي إم: "الهدف النهائي لبحثنا هو استبدال التدريب المسبق على البيانات الحقيقية بالتدريب المسبق على البيانات الاصطناعية. هناك تكلفة لإنشاء إجراء في البيانات الاصطناعية، ولكن بمجرد الانتهاء من ذلك، يمكنك إنشاء صور أو مقاطع فيديو غير محدودة عن طريق تغيير الوضعية والإضاءة وما إلى ذلك. هذا هو جمال البيانات الاصطناعية.

بدأ العلماء بتجميع تدريب مسبق ونقل جديد للعمل الاصطناعي (SynAPT)، باستخدام ثلاث مجموعات بيانات متاحة للجمهور من مقاطع الفيديو الاصطناعية التي تلتقط الأفعال البشرية. يحتوي على ما يقرب من 150 فئة عمل، مع 1,000 مقطع فيديو لكل فئة.

تم تدريب ثلاثة نماذج للتعلم الآلي مسبقًا للتعرف على الإجراءات باستخدام مجموعة البيانات بعد إنشائها. التدريب المسبق هو عملية تدريس نموذج لمهمة واحدة قبل تدريسه لمهمة أخرى. يمكن للنموذج المُدرب مسبقًا استخدام المعلمات التي تعلمها بالفعل لمساعدته على تعلم مهمة جديدة باستخدام مجموعة بيانات جديدة بشكل أسرع وأكثر كفاءة. تم تصميم هذا على غرار الطريقة التي يتعلم بها الناس، وهي إعادة استخدام المعلومات السابقة عندما نعرف شيئًا جديدًا. تم اختبار النموذج المُدرب مسبقًا باستخدام ست مجموعات بيانات من مقاطع فيديو حقيقية، كل منها يلتقط فئات من الإجراءات التي كانت مختلفة عن تلك الموجودة في بيانات التدريب.

وكان من المفاجئ للعلماء أن يروا أن النماذج الاصطناعية الثلاثة تفوقت على النماذج التي تم تدريبها باستخدام مقاطع فيديو فعلية في أربع من مجموعات البيانات الست. وكانت دقتها أعلى بالنسبة لمجموعات البيانات التي تحتوي على مقاطع فيديو ذات "تحيز منخفض للمشهد والكائن". ويعني ذلك أن النموذج لا يمكنه التعرف على الإجراء من خلال النظر إلى الخلفية أو الكائنات الأخرى في المشهد - ويجب عليه التركيز على الإجراء نفسه.

وقال فيريس "في مقاطع الفيديو ذات التحيز المنخفض للمشهد والكائن، تكون الديناميكيات الزمنية للأحداث أكثر أهمية من مظهر الكائنات أو الخلفية، ويبدو أنه تم التقاطها جيدًا باستخدام البيانات الاصطناعية."

"يمكن أن يكون التحيز العالي بين المشهد والكائن بمثابة عقبة. قد يخطئ النموذج في تصنيف إجراء ما من خلال النظر إلى كائن بدلاً من الإجراء نفسه. يمكن أن يربك النموذج."

وقال رامسوار باندا، المؤلف المشارك وعضو فريق البحث في مختبر واتسون للذكاء الاصطناعي التابع لمعهد ماساتشوستس للتكنولوجيا وآي بي إم: "بناءً على هذه النتائج، يريد الباحثون تضمين المزيد من فئات الحركة ومنصات الفيديو الاصطناعية الإضافية في العمل المستقبلي، وفي النهاية إنشاء كتالوج من النماذج التي تم تدريبها مسبقًا باستخدام البيانات الاصطناعية."

"نريد بناء نماذج ذات أداء مشابه جدًا أو حتى أفضل من النماذج الموجودة في الأدبيات، ولكن دون التقيد بأي من تلك التحيزات أو المخاوف الأمنية."

قالت سويونج جين، مؤلفة مشاركة وباحثة ما بعد الدكتوراه في CSAIL: "إنهم يريدون أيضًا الجمع بين عملهم والأبحاث التي تسعى إلى إنشاء مقاطع فيديو اصطناعية أكثر دقة وواقعية، والتي يمكن أن تعزز أداء النماذج."

"نحن نستخدم مجموعات البيانات الاصطناعية لمنع مشكلات الخصوصية أو التحيز السياقي أو الاجتماعي، ولكن ما الذي يتعلمه النموذج؟ هل يتعلم شيئًا مستقلاً؟

شارك في تأليف سامارث ميشرا، وهو طالب دراسات عليا في جامعة بوسطن (BU)، محمد"على الرغم من انخفاض تكلفة الحصول على بيانات تركيبية مشروحة جيدًا، إلا أنه ليس لدينا حاليًا مجموعة بيانات بالحجم الذي يمكنها من منافسة أكبر مجموعات البيانات المشروحة مع مقاطع الفيديو الحقيقية. ومن خلال مناقشة التكاليف والمخاوف المختلفة المتعلقة بمقاطع الفيديو الحقيقية وإظهار فعالية البيانات الاصطناعية، نأمل في تحفيز الجهود في هذا الاتجاه.

المرجع مجلة:

  1. يو ما كيم وآخرون. ما مدى قابلية تمثيلات الفيديو بناءً على البيانات الاصطناعية؟ ورق

الطابع الزمني:

اكثر من تيك اكسبلورست