Штучний інтелект Google переглянув 30,000 XNUMX годин відеоігор

Перевидано Платоном

читають: 0

A Google AI Watched 30,000 Hours of Video Games—Now It Makes Its Own PlatoBlockchain Data Intelligence. Vertical Search. Ai.

ШІ продовжує генерувати багато світла та тепла. Найкращі моделі в тексті та зображеннях, які зараз викликають підписку та вплетені в споживчі товари, змагаються за дюйми. OpenAI, Google і Anthropic — усі вони більш-менш схожі.

Тому не дивно, що дослідники штучного інтелекту прагнуть просунути генеративні моделі на нову територію. Оскільки штучному інтелекту потрібен величезний обсяг даних, один із способів передбачити подальший розвиток подій — це подивитися, які дані широко доступні в Інтернеті, але ще значною мірою не використовуються.

Очевидним наступним кроком є відео, якого є чимало. Дійсно, минулого місяця відбувся попередній перегляд OpenAI новий ШІ для перетворення тексту у відео під назвою Sora що приголомшило глядачів.

Але як щодо відео…ігор?

Запитай і отримуй

Виявилося, що в Інтернеті є досить багато геймерських відео. Google DeepMind каже, що навчив новий штучний інтелект, Genie, на 30,000 XNUMX годинах підібраного відеоматеріалу, на якому гравці грають у прості платформери — наприклад, ранні ігри Nintendo — і тепер він може створювати власні приклади.

Genie перетворює просте зображення, фотографію чи ескіз на інтерактивну відеогру.

Отримавши підказку, скажімо, малюнок персонажа та його оточення, ШІ може отримати дані від гравця, щоб перемістити персонажа через його світ. У дописі в блозі DeepMind показав, як творіння Genie переміщуються 2D-ландшафтами, гуляють або стрибають між платформами. Подібно до змії, яка їсть свій хвіст, деякі з цих світів навіть були отримані із зображень, створених ШІ.

На відміну від традиційних відеоігор, Genie створює ці інтерактивні світи кадр за кадром. Отримавши підказку та команду рухатися, він передбачає найімовірніші наступні кадри та створює їх на льоту. Він навіть навчився включати відчуття паралакса, типову особливість платформерів, де передній план рухається швидше, ніж фон.

Примітно, що навчання ШІ не включало міток. Швидше за все, Genie навчився співвідносити команди введення, наприклад, йти ліворуч, праворуч або стрибнути, з рухами в грі, просто спостерігаючи за прикладами під час навчання. Тобто, коли персонаж у відео рухався ліворуч, не було мітки, яка б пов’язувала команду з рухом. Джин зрозумів цю частину сам. Це означає, що потенційно майбутні версії можна навчати на стільки відповідних відео, скільки є в Інтернеті.

Штучний інтелект є вражаючим доказом концепції, але він все ще знаходиться на ранній стадії розробки, і DeepMind поки не планує оприлюднювати модель.

Самі ігри — це піксельні світи, що передаються зі швидкістю один кадр за секунду. Для порівняння, сучасні відеоігри можуть досягати 60 або 120 кадрів в секунду. Крім того, як і всі генеративні алгоритми, Genie генерує дивні або непослідовні візуальні артефакти. Він також схильний до галюцинацій «нереалістичного майбутнього», команда написала у своїй статті, описуючи ШІ.

Тим не менш, є кілька причин вважати, що Genie покращиться з цього моменту.

Збивання світів

Оскільки штучний інтелект може вивчати онлайн-відео без міток і все ще має скромний розмір (лише 11 мільярдів параметрів), є широкі можливості для розширення. Більші моделі, навчені більшій кількості інформації, мають тенденцію до різкого покращення. І з а зростаюча галузь, зосереджена на висновках— процес, за допомогою якого навчений штучний інтелект виконує завдання, як-от генерування зображень або тексту — він, імовірно, стане швидшим.

DeepMind каже, що Genie може допомогти людям, наприклад професійним розробникам, створювати відеоігри. Але, як і OpenAI, яка вважає, що Sora — це щось більше, ніж відео, — команда думає ширше. Цей підхід може вийти далеко за межі відеоігор.

Один приклад: AI, який може керувати роботами. Команда навчила окрему модель на відео роботів, які виконують різні завдання. Модель навчилася маніпулювати роботами і поводитися з різними предметами.

DeepMind також сказав, що створене Genie середовище відеоігор можна використовувати для навчання агентів ШІ. Це не нова стратегія. У документі за 2021 рік ще один Команда DeepMind розробила відеогру під назвою XLand який був населений агентами штучного інтелекту та володарем штучного інтелекту, який створював завдання та ігри, щоб кинути їм виклик. Ідея про те, що для наступного великого кроку в ШІ знадобляться алгоритми, які зможуть навчати один одного або генерувати синтетичні навчальні дані. набирає тягу.

Все це — останній залп у напруженій конкуренції між OpenAI і Google за демонстрацію прогресу в ШІ. Поки інші в полі, як Антропік, просувають мультимодальні моделі, схожі на GPT-4, Google і OpenAI також зосереджені на алгоритмах, які моделюють світ. Такі алгоритми можуть бути кращими в плануванні та взаємодії. Обидва будуть ключовими навичками для агентів штучного інтелекту, які обидві організації мають намір виробляти.

«Genie може отримувати зображення, яких він ніколи раніше не бачив, наприклад фотографії або ескізи реального світу, що дозволяє людям взаємодіяти з їхніми уявними віртуальними світами — по суті, діючи як базова модель світу», — пишуть дослідники в Допис у блозі Genie. «Ми зосереджуємося на відео про 2D-платформер і робототехніку але наш метод є загальним і повинен працювати для будь-якого типу домену, і його можна масштабувати до все більших наборів даних в Інтернеті».

Подібним чином, коли минулого місяця OpenAI попередньо провів Sora, дослідники припустили, що це може стати провісником чогось більш фундаментального: симулятора світу. Тобто обидві команди, схоже, розглядають величезний кеш онлайн-відео як спосіб навчити штучний інтелект створювати власне відео, так, але також для більш ефективного розуміння та роботи у світі, онлайн чи поза ним.

Питання, чи принесе це дивіденди, чи є стійким у довгостроковій перспективі, залишається відкритим. Людський мозок працює на потужність лампочки; генеративний ШІ використовує цілі центри обробки даних. Але краще не недооцінювати сили, які діють зараз — з точки зору таланту, технологій, розуму та грошей — щоб не лише покращити ШІ, але й зробити його ефективнішим.

Ми побачили вражаючий прогрес у тексті, зображеннях, аудіо та всіх трьох разом. Відео є наступним інгредієнтом, який кидають у каструлю, і вони можуть стати ще потужнішим напоєм.

Зображення Фото: Google DeepMind