Искусственный интеллект Google просмотрел 30,000 XNUMX часов видеоигр

Переиздано Платоном

Читают: 0

Искусственный интеллект Google просмотрел 30,000 XNUMX часов видеоигр — теперь он создает собственный анализ данных PlatoBlockchain. Вертикальный поиск. Ай.

ИИ продолжает генерировать много света и тепла. Лучшие модели в области текста и изображений, которые сейчас пользуются подпиской и используются в потребительских продуктах, соревнуются за дюймы. OpenAI, Google и Anthropic — все более или менее идут рука об руку.

Неудивительно, что исследователи ИИ стремятся вывести генеративные модели на новую территорию. Поскольку ИИ требует огромных объемов данных, один из способов спрогнозировать, как будут развиваться события дальше, — это посмотреть, какие данные широко доступны в Интернете, но все еще в значительной степени неиспользованы.

Видео, которых много, является очевидным следующим шагом. Действительно, в прошлом месяце OpenAI анонсировала новый ИИ для преобразования текста в видео под названием Sora это ошеломило зрителей.

А как насчет видео…игр?

Спросите и получите

Оказывается, в сети довольно много геймерских видеороликов. Google DeepMind утверждает, что обучила новый ИИ, Genie, на 30,000 XNUMX часах специально подобранных видеоматериалов, показывающих, как геймеры играют в простые платформеры — вспомните ранние игры Nintendo — и теперь он может создавать собственные примеры.

Genie превращает простое изображение, фотографию или эскиз в интерактивную видеоигру.

Получив подсказку, скажем, рисунок персонажа и его окружения, ИИ может затем принять данные игрока, чтобы переместить персонажа по его миру. В своем блоге DeepMind продемонстрировал творения Genie, которые перемещаются по 2D-пейзажам, ходят или прыгают между платформами. Подобно змее, пожирающей свой хвост, некоторые из этих миров были созданы на основе изображений, созданных ИИ.

В отличие от традиционных видеоигр, Genie создает интерактивные миры кадр за кадром. Получив подсказку и команду двигаться, он прогнозирует наиболее вероятные следующие кадры и создает их на лету. Он даже научился включать ощущение параллакса — распространенную особенность платформеров, где передний план движется быстрее, чем задний.

Примечательно, что обучение ИИ не включало в себя ярлыки. Скорее, Genie научилась соотносить входные команды (например, идти влево, вправо или прыгать) с внутриигровыми движениями, просто наблюдая за примерами в процессе обучения. То есть, когда персонаж в видео двигался влево, не было метки, связывающей команду с движением. Джинн догадался об этом сам. Это означает, что потенциально будущие версии можно будет обучать на таком же количестве подходящих видео, которые есть в Интернете.

ИИ является впечатляющим доказательством концепции, но он все еще находится на очень ранней стадии разработки, и DeepMind пока не планирует обнародовать модель.

Сами игры представляют собой пиксельные миры, движущиеся со скоростью один кадр в секунду. Для сравнения, современные видеоигры могут достигать 60 или 120 кадров в секунду. Кроме того, как и все генеративные алгоритмы, Genie генерирует странные или противоречивые визуальные артефакты. Он также склонен к галлюцинациям «нереалистичного будущего». команда написала в своей статье, описывая ИИ.

Тем не менее, есть несколько причин полагать, что Genie станет лучше.

Взрывные миры

Поскольку ИИ может учиться на неразмеченных онлайн-видео и по-прежнему имеет скромные размеры — всего 11 миллиардов параметров, — у него есть широкие возможности для масштабирования. Более крупные модели, обученные на большем количестве информации, имеют тенденцию значительно улучшаться. И с растущая индустрия, ориентированная на логические выводы— процесс, с помощью которого обученный ИИ выполняет такие задачи, как генерация изображений или текста, — вероятно, станет быстрее.

DeepMind утверждает, что Genie может помочь людям, например, профессиональным разработчикам, создавать видеоигры. Но, как и в случае с OpenAI, которая считает, что Sora — это нечто большее, чем просто видео, команда думает шире. Этот подход может выйти далеко за рамки видеоигр.

Один пример: ИИ, который может управлять роботами. Команда на видео обучила отдельную модель роботизированных рук, выполняющих различные задачи. Модель научилась управлять роботами и обращаться с различными объектами.

DeepMind также заявила, что созданную Genie среду видеоигр можно использовать для обучения агентов искусственного интеллекта. Это не новая стратегия. В статье 2021 года еще один Команда DeepMind представила видеоигру под названием Xland он был населен агентами ИИ и повелителем ИИ, генерирующим задания и игры, чтобы бросить им вызов. Идея о том, что следующий большой шаг в развитии ИИ потребует алгоритмов, которые смогут обучать друг друга или генерировать синтетические обучающие данные, является получение тяги.

Все это — последний залп в напряженной конкуренции между OpenAI и Google за демонстрацию прогресса в области искусственного интеллекта. В то время как другие в этой области, как антропный, продвигают мультимодальные модели, подобные GPT-4, Google и OpenAI, похоже, также сосредоточены на алгоритмах, моделирующих мир. Такие алгоритмы могут быть лучше при планировании и взаимодействии. И то, и другое будет иметь решающее значение для агентов ИИ, которые обе организации, судя по всему, намерены создавать.

«Джинну можно подсказывать изображения, которые он никогда раньше не видел, например, фотографии или эскизы реального мира, что позволяет людям взаимодействовать с воображаемыми виртуальными мирами — по сути, выступая в качестве базовой модели мира», — пишут исследователи в Сообщение в блоге Джина. «Мы ориентируемся на видео 2D платформеров и робототехники но наш метод является общим и должен работать для любого типа домена, а также масштабируется для все более крупных наборов интернет-данных».

Точно так же, когда в прошлом месяце OpenAI анонсировала Sora, исследователи предположили, что она может предвещать нечто более фундаментальное: симулятор мира. То есть обе команды, похоже, рассматривают огромный кеш онлайн-видео как способ научить ИИ генерировать собственное видео, да, но также и более эффективно понимать и действовать в мире, онлайн или оффлайн.

Приносит ли это дивиденды или является устойчивым в долгосрочной перспективе, остается открытым вопросом. Человеческий мозг работает на мощности лампочки; генеративный ИИ использует целые центры обработки данных. Но лучше не недооценивать силы, действующие сейчас – с точки зрения талантов, технологий, умов и денег – стремясь не только улучшить ИИ, но и сделать его более эффективным.

Мы увидели впечатляющий прогресс в тексте, изображениях, аудио и во всех трех вместе взятых. Видео — это следующий ингредиент, который добавляют в котел, и из них может получиться еще более крепкий напиток.

Изображение Фото: Google DeepMind