Uma IA do Google assistiu 30,000 horas de videogames – agora ela faz o seu próprio

Uma IA do Google assistiu 30,000 horas de videogames – agora ela faz o seu próprio

Uma IA do Google assistiu 30,000 horas de videogames – agora ela cria sua própria inteligência de dados PlatoBlockchain. Pesquisa vertical. Ai.

A IA continua a gerar muita luz e calor. Os melhores modelos em texto e imagens – agora comandando assinaturas e sendo integrados em produtos de consumo – estão competindo por centímetros. OpenAI, Google e Anthropic estão todos, mais ou menos, lado a lado.

Não é nenhuma surpresa, então, que os pesquisadores de IA estejam procurando levar os modelos generativos a um novo território. Como a IA requer quantidades prodigiosas de dados, uma forma de prever o futuro é observar quais dados estão amplamente disponíveis online, mas ainda são em grande parte inexplorados.

O vídeo, que existe em abundância, é o próximo passo óbvio. Na verdade, no mês passado, a OpenAI fez uma prévia uma nova IA de texto para vídeo chamada Sora que surpreendeu os espectadores.

Mas e os videogames…games?

Peça e receba

Acontece que existem alguns vídeos de jogadores online. O Google DeepMind diz que treinou uma nova IA, Genie, em 30,000 horas de vídeos selecionados mostrando jogadores jogando plataformas simples – pense nos primeiros jogos da Nintendo – e agora ele pode criar seus próprios exemplos.

Genie transforma uma simples imagem, foto ou esboço em um videogame interativo.

Dada uma solicitação, digamos, o desenho de um personagem e seus arredores, a IA pode então receber informações de um jogador para mover um personagem pelo seu mundo. Em uma postagem no blog, a DeepMind mostrou as criações do Genie navegando em paisagens 2D, andando ou pulando entre plataformas. Como uma cobra comendo o rabo, alguns desses mundos foram originados de imagens geradas por IA.

Em contraste com os videogames tradicionais, o Genie gera esses mundos interativos quadro a quadro. Dado um aviso e um comando para mover, ele prevê os próximos quadros mais prováveis ​​e os cria instantaneamente. Aprendeu até a incluir uma sensação de paralaxe, uma característica comum em jogos de plataforma onde o primeiro plano se move mais rápido que o fundo.

Notavelmente, o treinamento da IA ​​não incluía rótulos. Em vez disso, o Genie aprendeu a correlacionar comandos de entrada – como ir para a esquerda, para a direita ou pular – com os movimentos do jogo simplesmente observando exemplos em seu treinamento. Ou seja, quando um personagem de um vídeo se movia para a esquerda, não havia nenhum rótulo ligando o comando ao movimento. Genie descobriu essa parte sozinha. Isso significa que, potencialmente, versões futuras poderão ser treinadas em tantos vídeos aplicáveis ​​quanto houver online.

A IA é uma prova de conceito impressionante, mas ainda está no início do desenvolvimento e a DeepMind ainda não planeja tornar o modelo público.

Os jogos em si são mundos pixelados transmitidos a uma lenta velocidade de um quadro por segundo. Em comparação, os videogames contemporâneos podem atingir 60 ou 120 quadros por segundo. Além disso, como todos os algoritmos generativos, o Genie gera artefatos visuais estranhos ou inconsistentes. Também é propenso a alucinar “futuros irrealistas”, a equipe escreveu em seu artigo descrevendo a IA.

Dito isto, existem algumas razões para acreditar que o Genie irá melhorar a partir daqui.

Chicoteando Mundos

Como a IA pode aprender com vídeos online não rotulados e ainda tem um tamanho modesto – apenas 11 bilhões de parâmetros – há amplas oportunidades de expansão. Modelos maiores treinados com mais informações tendem a melhorar dramaticamente. E com um indústria em crescimento focada em inferência– o processo pelo qual uma IA treinada executa tarefas, como gerar imagens ou texto – provavelmente ficará mais rápido.

DeepMind diz que Genie poderia ajudar pessoas, como desenvolvedores profissionais, a criar videogames. Mas, assim como a OpenAI – que acredita que Sora envolve mais do que vídeos – a equipe está pensando maior. A abordagem poderia ir muito além dos videogames.

Um exemplo: IA que pode controlar robôs. A equipe treinou um modelo separado em vídeo de braços robóticos completando várias tarefas. O modelo aprendeu a manipular os robôs e manusear uma variedade de objetos.

DeepMind também disse que ambientes de videogame gerados pelo Genie poderiam ser usados ​​para treinar agentes de IA. Não é uma estratégia nova. Em um artigo de 2021, outro A equipe DeepMind descreveu um videogame chamado XLand que foi povoado por agentes de IA e um senhor supremo da IA ​​gerando tarefas e jogos para desafiá-los. A ideia de que o próximo grande passo na IA exigirá algoritmos que possam treinar uns aos outros ou gerar dados de treinamento sintéticos é ganhando tração.

Tudo isso é a última salva em uma intensa competição entre OpenAI e Google para mostrar progresso em IA. Enquanto outros no campo, como antrópico, estão avançando em modelos multimodais semelhantes ao GPT-4, o Google e o OpenAI também parecem focados em algoritmos que simulam o mundo. Esses algoritmos podem ser melhores em planejamento e interação. Ambas serão habilidades cruciais para os agentes de IA que ambas as organizações parecem pretender produzir.

“O Genie pode receber imagens que nunca viu antes, como fotografias ou esboços do mundo real, permitindo que as pessoas interajam com seus mundos virtuais imaginados – essencialmente agindo como um modelo mundial básico”, escreveram os pesquisadores no Postagem do blog do Gênio. “Nós nos concentramos em vídeos de jogos de plataformas 2D e robótica mas nosso método é geral e deve funcionar para qualquer tipo de domínio, além de ser escalável para conjuntos de dados cada vez maiores da Internet.”

Da mesma forma, quando a OpenAI apresentou o Sora no mês passado, os pesquisadores sugeriram que ele poderia anunciar algo mais fundamental: um simulador mundial. Ou seja, ambas as equipas parecem ver a enorme cache de vídeos online como uma forma de treinar a IA para gerar o seu próprio vídeo, sim, mas também para compreender e operar de forma mais eficaz no mundo, online ou offline.

Se isto paga dividendos ou é sustentável a longo prazo, é uma questão em aberto. O cérebro humano funciona com a energia de uma lâmpada; a IA generativa utiliza data centers inteiros. Mas é melhor não subestimar as forças em jogo neste momento – em termos de talento, tecnologia, inteligência e dinheiro – com o objetivo não só de melhorar a IA, mas também de a tornar mais eficiente.

Vimos um progresso impressionante em texto, imagens, áudio e todos os três juntos. Os vídeos são o próximo ingrediente a ser jogado na panela e podem tornar a bebida ainda mais potente.

Crédito de imagem: Google DeepMind

Carimbo de hora:

Mais de Singularity Hub