شاهد الذكاء الاصطناعي من Google 30,000 ألف ساعة من ألعاب الفيديو، والآن يصنع نفسه بنفسه

شاهد الذكاء الاصطناعي من Google 30,000 ألف ساعة من ألعاب الفيديو، والآن يصنع نفسه بنفسه

شاهد الذكاء الاصطناعي من Google 30,000 ساعة من ألعاب الفيديو، وهو الآن يصنع ذكاء بيانات PlatoBlockchain الخاص به. البحث العمودي. منظمة العفو الدولية.

يستمر الذكاء الاصطناعي في توليد الكثير من الضوء والحرارة. إن أفضل النماذج في النصوص والصور - التي تستحوذ الآن على اشتراكات ويتم دمجها في المنتجات الاستهلاكية - تتنافس على البوصات. OpenAI، وGoogle، وAnthropic جميعها متقاربة بشكل أو بآخر.

ليس من المفاجئ إذن أن يتطلع باحثو الذكاء الاصطناعي إلى دفع النماذج التوليدية إلى آفاق جديدة. وبما أن الذكاء الاصطناعي يتطلب كميات هائلة من البيانات، فإن إحدى الطرق للتنبؤ بالوجهة التالية للأمور هي النظر في البيانات المتاحة على نطاق واسع عبر الإنترنت، ولكنها لا تزال غير مستغلة إلى حد كبير.

يعد الفيديو، الذي يوجد به الكثير، خطوة تالية واضحة. في الواقع، في الشهر الماضي، تمت معاينة OpenAI ذكاء اصطناعي جديد لتحويل النص إلى فيديو يسمى Sora الذي أذهل المتفرجين.

ولكن ماذا عن ألعاب الفيديو؟

اسأل واستقبل

اتضح أن هناك عددًا لا بأس به من مقاطع فيديو الألعاب عبر الإنترنت. تقول Google DeepMind إنها قامت بتدريب الذكاء الاصطناعي الجديد، Genie، على 30,000 ألف ساعة من لقطات الفيديو المنسقة التي تظهر لاعبين يلعبون منصات بسيطة - مثل ألعاب نينتندو المبكرة - و الآن يمكنها إنشاء أمثلة خاصة بها.

يقوم Genie بتحويل صورة أو صورة أو رسم بسيط إلى لعبة فيديو تفاعلية.

عند إعطاء توجيه، على سبيل المثال رسم للشخصية والمناطق المحيطة بها، يمكن للذكاء الاصطناعي بعد ذلك أخذ مدخلات من اللاعب لتحريك الشخصية عبر عالمها. في منشور بالمدونة، عرض DeepMind إبداعات Genie وهي تتنقل في مناظر طبيعية ثنائية الأبعاد، أو تتجول أو تقفز بين المنصات. مثل الثعبان الذي يأكل ذيله، تم الحصول على بعض هذه العوالم من الصور التي تم إنشاؤها بواسطة الذكاء الاصطناعي.

وعلى النقيض من ألعاب الفيديو التقليدية، تقوم Genie بإنشاء هذه العوالم التفاعلية إطارًا تلو الآخر. عند إعطاء أمر وأمر للتحرك، فإنه يتنبأ بالإطارات التالية الأكثر احتمالية ويقوم بإنشائها بسرعة. حتى أنها تعلمت تضمين إحساس المنظر، وهي سمة شائعة في ألعاب المنصات حيث تتحرك المقدمة بشكل أسرع من الخلفية.

والجدير بالذكر أن تدريب الذكاء الاصطناعي لم يتضمن تسميات. وبدلاً من ذلك، تعلمت شركة Genie ربط أوامر الإدخال - مثل الانتقال إلى اليسار أو اليمين أو القفز - مع الحركات داخل اللعبة بمجرد ملاحظة الأمثلة في تدريبها. وهذا يعني أنه عندما تحركت شخصية في مقطع فيديو إلى اليسار، لم يكن هناك تسمية تربط الأمر بالحركة. لقد اكتشف الجني هذا الجزء بنفسه. وهذا يعني أنه من المحتمل أن يتم تدريب الإصدارات المستقبلية على أكبر قدر ممكن من مقاطع الفيديو المتوفرة عبر الإنترنت.

يعد الذكاء الاصطناعي دليلاً مثيرًا للإعجاب على المفهوم، ولكنه لا يزال في مرحلة مبكرة جدًا من التطوير، ولا تخطط شركة DeepMind لإعلان النموذج بعد.

الألعاب نفسها عبارة عن عوالم منقطة تتدفق بمعدل إطار واحد في الثانية. وبالمقارنة، يمكن لألعاب الفيديو المعاصرة أن تصل إلى 60 أو 120 إطارًا في الثانية. أيضًا، مثل جميع الخوارزميات التوليدية، يقوم Genie بإنشاء عناصر بصرية غريبة أو غير متناسقة. كما أنه عرضة للهلوسة بـ "المستقبل غير الواقعي" كتب الفريق في ورقته البحثية يصف الذكاء الاصطناعي.

ومع ذلك، هناك عدة أسباب للاعتقاد بأن جيني سوف يتحسن من هنا.

جلد العوالم

نظرًا لأن الذكاء الاصطناعي يمكن أن يتعلم من مقاطع الفيديو غير المسماة عبر الإنترنت ولا يزال حجمه متواضعًا - 11 مليار معلمة فقط - فهناك فرصة كبيرة للتوسع. تميل النماذج الأكبر المدربة على المزيد من المعلومات إلى التحسن بشكل كبير. ومع أ تركز الصناعة المتنامية على الاستدلال- العملية التي من خلالها يقوم الذكاء الاصطناعي المُدرب بأداء المهام، مثل إنشاء الصور أو النصوص - ومن المرجح أن تصبح أسرع.

تقول شركة DeepMind أن شركة Genie يمكنها مساعدة الأشخاص، مثل المطورين المحترفين، في صنع ألعاب الفيديو. ولكن مثل OpenAI - التي تعتقد أن Sora لا يقتصر على مقاطع الفيديو - يفكر الفريق بشكل أكبر. يمكن أن يذهب هذا النهج إلى ما هو أبعد من ألعاب الفيديو.

مثال واحد: الذكاء الاصطناعي الذي يمكنه التحكم في الروبوتات. وقام الفريق بتدريب نموذج منفصل على فيديو لأذرع آلية تكمل مهام مختلفة. تعلم النموذج كيفية التعامل مع الروبوتات والتعامل مع مجموعة متنوعة من الأشياء.

وقالت DeepMind أيضًا إن بيئات ألعاب الفيديو التي تنشئها Genie يمكن استخدامها لتدريب عملاء الذكاء الاصطناعي. إنها ليست استراتيجية جديدة. وفي ورقة 2021 أخرى ابتكر فريق DeepMind لعبة فيديو تسمى XLand التي تم ملؤها من قبل عملاء الذكاء الاصطناعي وقائد الذكاء الاصطناعي الذي يقوم بإنشاء المهام والألعاب لتحديهم. إن الفكرة القائلة بأن الخطوة الكبيرة التالية في الذكاء الاصطناعي ستتطلب خوارزميات يمكنها تدريب بعضها البعض أو إنشاء بيانات تدريب تركيبية هي فكرة صحيحة تكتسب زخما.

كل هذا هو أحدث طلقة في المنافسة الشديدة بين OpenAI وGoogle لإظهار التقدم في مجال الذكاء الاصطناعي. بينما آخرون في الميدان، مثل الأنثروبي، تعمل على تطوير نماذج متعددة الوسائط شبيهة بـ GPT-4، ويبدو أن Google وOpenAI تركزان أيضًا على الخوارزميات التي تحاكي العالم. قد تكون مثل هذه الخوارزميات أفضل في التخطيط والتفاعل. سيكون كلاهما من المهارات الحاسمة لعملاء الذكاء الاصطناعي الذين يبدو أن المنظمتين عازمتان على إنتاجهما.

وكتب الباحثون في مقالهم: "يمكن تحفيز الجني بصور لم يسبق له مثيل من قبل، مثل صور العالم الحقيقي أو الرسومات، مما يمكّن الناس من التفاعل مع عوالمهم الافتراضية المتخيلة، وهو ما يعمل بشكل أساسي كنموذج للعالم الأساسي". مشاركة مدونة الجني. "نحن نركز على مقاطع فيديو لألعاب المنصات ثنائية الأبعاد والروبوتات لكن طريقتنا عامة ويجب أن تعمل مع أي نوع من النطاقات، وقابلة للتطوير لتشمل مجموعات بيانات الإنترنت الأكبر حجمًا."

وبالمثل، عندما استعرضت شركة OpenAI نظام Sora الشهر الماضي، اقترح الباحثون أنه قد يبشر بشيء أكثر أساسية: محاكاة للعالم. وهذا يعني أن كلا الفريقين يبدو أنهما ينظران إلى ذاكرة التخزين المؤقت الهائلة للفيديو عبر الإنترنت كوسيلة لتدريب الذكاء الاصطناعي على إنشاء الفيديو الخاص به، نعم، ولكن أيضًا لفهم العالم والعمل به بشكل أكثر فعالية، سواء عبر الإنترنت أو خارجه.

وسواء كان هذا الأمر يؤتي ثماره، أو أنه مستدام على المدى الطويل، فهو سؤال مفتوح. يعمل العقل البشري بقدرة تعادل طاقة المصباح الكهربائي؛ يستخدم الذكاء الاصطناعي التوليدي مراكز بيانات كاملة. ولكن من الأفضل عدم التقليل من أهمية القوى المؤثرة الآن - فيما يتعلق بالموهبة والتكنولوجيا والأدمغة والأموال - التي لا تهدف إلى تحسين الذكاء الاصطناعي فحسب، بل جعله أكثر كفاءة.

لقد شهدنا تقدمًا مثيرًا للإعجاب في النصوص والصور والصوت وكل هذه العناصر الثلاثة معًا. مقاطع الفيديو هي العنصر التالي الذي يتم طرحه في الوعاء، وقد تؤدي إلى تحضير مشروب أكثر قوة.

الصورة الائتمان: جوجل DeepMind

الطابع الزمني:

اكثر من التفرد المحور