بازی‌های صنایع دستی Genie AI Google از Single Images

بازی‌های صنایع دستی Genie AI Google از Single Images

گوگل اپلیکیشن Genie را به عنوان بخشی از سرمایه گذاری مداوم خود در زمینه هوش مصنوعی معرفی کرده است. 

مدل مولد هوش مصنوعی Genie که توسط استارتاپ هوش مصنوعی گوگل DeepMind توسعه یافته است، یک نسخه نمایشی زنده را به نمایش گذاشت. Genie مکانیک بازی را از صدها هزار ویدیوی گیم‌پلی یاد می‌گیرد و می‌تواند بازی‌های قابل بازی را با کمترین درخواست تولید کند.

همچنین خواندن: تصویر هوش مصنوعی برای جمع آوری 675 میلیون دلار برای رباتیک انسان نما

رونمایی از جن

همانطور که در DeepMind رسمی گوگل بیان شده است پست های وبلاگجن یک مدل جهانی پایه است که با استفاده از ویدیوهای آنلاین آموزش دیده است. «تنوع بی‌پایانی از جهان‌های قابل بازی (قابل کنترل) از تصاویر مصنوعی، عکس‌ها و حتی طرح‌ها» می‌تواند توسط این مدل تولید شود.

Genie، مخفف Generative Interactive Environments، با مشارکت گوگل و دانشگاه بریتیش کلمبیا ایجاد شد. تنها با یک تصویر، می‌تواند پلتفرم‌های دوبعدی اسکرول جانبی مانند Contra و Super Mario Brothers را بر اساس درخواست‌های کاربر ایجاد کند.

با این حال، Google DeepMind در طی این اعلامیه اعلام کرد که در حال معرفی «پارادایمی جدید» برای هوش مصنوعی مولد (AI) در قالب Genie است. علاوه بر این، این شرکت به ظهور مدل‌های هوش مصنوعی مولد که قادر به تولید محتوای بدیع و خلاقانه از طریق زبان، تصاویر و حتی ویدیو هستند، اذعان کرد.

به گفته گوگل، بخش قابل توجهی از 200,000 ساعت ویدیوهای بازی اینترنتی عمومی بدون نظارت که Genie بر روی آنها آموزش دیده است، به جای بازی های واقعیت مجازی کامل، پلتفرم های دو بعدی هستند.

مشخصات جن

وقتی صحبت از ابعاد به میان می آید، Genie در 11 میلیارد پارامتر قرار دارد. یک توکنایزر ویدیوی فضایی-زمانی، یک مدل دینامیک اتورگرسیو، و یک مدل عمل نهفته ساده و مقیاس‌پذیر نیز در این مدل گنجانده شده‌اند. این مشخصات Genie را قادر می‌سازد تا در محیط‌های تولید شده فریم به فریم، حتی بدون برچسب یا سایر الزامات خاص دامنه، هنگام آموزش عمل کند.

به‌علاوه، می‌توان به Genie دستور داد تا مجموعه‌ای متنوع از محیط‌های تعاملی و قابل کنترل را تولید کند، علی‌رغم اینکه بر روی داده‌های فقط ویدیویی آموزش دیده است. Genie می‌تواند محیط‌های قابل پخش را تنها با یک پیام تصویری بسازد، برخلاف مدل‌های متعدد هوش مصنوعی که می‌توانند محتوای خلاقانه با تصاویر زبانی و حتی ویدیو تولید کنند.

با این حال، تیم راکتشل، توسعه‌دهنده Google DeepMind در X (توئیتر سابق) گفت که آنها به‌جای افزودن سوگیری‌های القایی، بر مقیاس تمرکز می‌کنند.

وی افزود که آنها از مجموعه داده ای از بیش از 200 هزار ساعت ویدیو از پلتفرم های دو بعدی استفاده می کنند و یک مدل جهانی 2B را آموزش می دهند. جنی به روشی بدون نظارت، اقدامات پنهان متنوعی را می آموزد که به طور مداوم شخصیت ها را کنترل می کنند.

بازی‌های صنایع دستی Genie AI Google از Single Images
اعتبار عکس: گوگل

قابلیت های جن

مطابق با گوگل محققان، Genie توسط سه مدل هدایت می‌شود: یک مدل پویا که پیش‌بینی می‌کند در فریم بعدی چه اتفاقی می‌افتد، یک توکنایزر ویدیویی که فریم‌های ویدیوی خام را به نشانه‌های مجزا تبدیل می‌کند، و یک مدل عمل پنهان که می‌تواند اعمال بین فریم‌های ویدیو را استنباط کند.

توانایی مدل بنیادی Genie در شناسایی شخصیت اصلی بازی بدون آموزش روی اکشن یا حاشیه نویسی متنی یکی از ویژگی های منحصر به فرد آن است. به لطف مدل هایی که آن را هدایت می کنند، کاربر می تواند بدون زحمت کاراکتر را در یک کنترل کند تولید شده توسط هوش مصنوعی محیط واقعیت مجازی

Rocktäschel همچنین گفت که Genie می تواند رسانه های دیگر را به بازی تبدیل کند. می‌توان از Genie خواسته شد تا از ورودی‌های مختلف در مقاله تحقیقاتی Google DeepMind، جهان‌های مجازی مختلف با قابلیت کنترل عمل ایجاد کند.

علاوه بر این، Rocktäschel گفت که این مدل می تواند هر تصویری را به یک دنیای دو بعدی قابل پخش تبدیل کند. به گفته او، جن می تواند خلاقیت های طراحی شده توسط انسان مانند طرح ها، به عنوان مثال، آثار هنری زیبا از Seneca و Caspian، دو تا از جوان ترین خالقان جهان را زنده کند.

تمبر زمان:

بیشتر از متانیوز