يتعلم نظام DeepMind AI بسرعة مهارات جديدة بمجرد مراقبة البشر

يتعلم نظام DeepMind AI بسرعة مهارات جديدة بمجرد مراقبة البشر

يتعلم نظام DeepMind AI بسرعة مهارات جديدة بمجرد مراقبة ذكاء بيانات PlatoBlockchain لدى البشر. البحث العمودي. منظمة العفو الدولية.

يتطلب تدريس الخوارزميات لتقليد البشر عادةً مئات أو آلاف الأمثلة. لكن الذكاء الاصطناعي الجديد من Google DeepMind يمكنه اكتساب مهارات جديدة من المتظاهرين البشريين بسرعة.

واحدة من أعظم الحيل البشرية هي قدرتنا على اكتساب المعرفة بسرعة وكفاءة من بعضنا البعض. هذا النوع من التعلم الاجتماعي، والذي يشار إليه غالبًا باسم النقل الثقافي، هو ما يسمح لنا أن نظهر لزميل كيفية استخدام أداة جديدة أو تعليم أطفالنا أغاني الأطفال.

وليس من المستغرب أن يحاول الباحثون تكرار العملية في الآلات. لقد كان التعلم بالتقليد، حيث يشاهد الذكاء الاصطناعي الإنسان وهو يكمل مهمة ثم يحاول تقليد سلوكه، أسلوبًا شائعًا منذ فترة طويلة لتدريب الروبوتات. ولكن حتى خوارزميات التعلم العميق الأكثر تقدمًا اليوم تحتاج عادةً إلى رؤية العديد من الأمثلة قبل أن تتمكن من نسخ مدربيها بنجاح.

عندما يتعلم البشر من خلال التقليد، يمكنهم في كثير من الأحيان التقاط مهام جديدة بعد عدد قليل من العروض التوضيحية. الآن، اتخذ باحثو Google DeepMind خطوة نحو التعلم الاجتماعي السريع في الذكاء الاصطناعي مع وكلاء يتعلمون التنقل في عالم افتراضي من البشر في الوقت الفعلي.

وكتب الباحثون في مقالة: "ينجح عملاؤنا في تقليد الإنسان في الوقت الفعلي في سياقات جديدة دون استخدام أي بيانات بشرية تم جمعها مسبقًا". الورق في طبيعة الاتصالات. "لقد حددنا مجموعة بسيطة بشكل مدهش من المكونات الكافية لتوليد النقل الثقافي.

وقام الباحثون بتدريب عملائهم في جهاز محاكاة مصمم خصيصًا يسمى GoalCycle3D. يستخدم جهاز المحاكاة خوارزمية لإنشاء عدد لا نهائي تقريبًا من البيئات المختلفة بناءً على قواعد حول كيفية عمل المحاكاة وجوانبها التي يجب أن تختلف.

في كل بيئة، فقاعة صغيرة تشبه وكلاء منظمة العفو الدولية يجب أن تتنقل عبر التضاريس غير المستوية والعقبات المختلفة للمرور عبر سلسلة من المجالات الملونة بترتيب معين. تختلف وعورة التضاريس وكثافة العوائق وتكوين المجالات بين البيئات.

يتم تدريب الوكلاء على التنقل باستخدام تعزيز التعلم. إنهم يحصلون على مكافأة مقابل المرور عبر المجالات بالترتيب الصحيح ويستخدمون هذه الإشارة لتحسين أدائهم خلال العديد من التجارب. ولكن بالإضافة إلى ذلك، تتميز البيئات أيضًا بوجود وكيل خبير - والذي يكون إما مشفرًا أو يتحكم فيه الإنسان - والذي يعرف بالفعل الطريق الصحيح خلال المسار.

من خلال العديد من الدورات التدريبية، يتعلم عملاء الذكاء الاصطناعي ليس فقط أساسيات كيفية عمل البيئات، ولكن أيضًا أن أسرع طريقة لحل كل مشكلة هي تقليد الخبير. للتأكد من أن الوكلاء كانوا يتعلمون التقليد بدلاً من مجرد حفظ الدورات التدريبية، قام الفريق بتدريبهم على مجموعة واحدة من البيئات ثم اختبارهم على مجموعة أخرى. والأهم من ذلك، بعد التدريب، أظهر الفريق أن وكلاءهم يمكنهم تقليد خبير والاستمرار في اتباع المسار حتى بدون الخبير.

يتطلب هذا بعض التعديلات على أساليب التعلم المعزز القياسية.

جعل الباحثون الخوارزمية تركز على الخبير من خلال جعلها تتنبأ بموقع العامل الآخر. لقد أعطوها أيضًا وحدة ذاكرة. أثناء التدريب، كان الخبير يدخل ويخرج من البيئات، مما يجبر الوكيل على حفظ أفعاله عندما لم يعد موجودًا. تم تدريب الذكاء الاصطناعي أيضًا على مجموعة واسعة من البيئات، مما ضمن له رؤية مجموعة واسعة من المهام المحتملة.

قد يكون من الصعب ترجمة هذا النهج إلى مجالات أكثر عملية. أحد القيود الرئيسية هو أنه عندما اختبر الباحثون ما إذا كان الذكاء الاصطناعي يمكنه التعلم من العروض البشرية، كان العميل الخبير يتحكم فيه شخص واحد خلال جميع الدورات التدريبية. وهذا يجعل من الصعب معرفة ما إذا كان بإمكان العملاء التعلم من مجموعة متنوعة من الأشخاص.

والأمر الأكثر إلحاحًا هو أن القدرة على تغيير بيئة التدريب بشكل عشوائي سيكون من الصعب إعادة إنشائها في العالم الحقيقي. وكانت المهمة الأساسية بسيطة، ولا تتطلب تحكمًا حركيًا دقيقًا، وتحدث في بيئات افتراضية يتم التحكم فيها بشكل كبير.

ومع ذلك، لا يزال التقدم في التعلم الاجتماعي في مجال الذكاء الاصطناعي موضع ترحيب. إذا أردنا أن نعيش في عالم به آلات ذكية، فإن إيجاد طرق فعالة وبديهية لمشاركة تجاربنا وخبراتنا معهم سيكون أمرًا بالغ الأهمية.

الصورة الائتمان: جوليانا وماريانا أموريم / Unsplash

الطابع الزمني:

اكثر من التفرد المحور