Uma linguagem que a IA acabou de aprender através dos olhos e ouvidos de uma criança

Uma linguagem que a IA acabou de aprender através dos olhos e ouvidos de uma criança

Uma linguagem que a IA acabou de aprender através dos olhos e ouvidos de uma criança PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Sam tinha seis meses quando prendeu pela primeira vez uma câmera leve na testa.

Durante o próximo ano e meio, a câmera capturou trechos de sua vida. Ele rastejou em volta dos animais de estimação da família, observou seus pais cozinharem e chorou na varanda da frente com a avó. Enquanto isso, a câmera registrava tudo o que ele ouvia.

O que parece ser um vídeo caseiro fofo para uma criança é, na verdade, um conceito ousado: a IA pode aprender línguas como uma criança? Os resultados também podem revelar como as crianças adquirem rapidamente a linguagem e os conceitos desde cedo.

Um novo estudo in Ciência descreve como os pesquisadores usaram as gravações de Sam para treinar uma IA para entender a linguagem. Com apenas uma pequena parte da experiência de vida de uma criança ao longo de um ano, a IA foi capaz de compreender conceitos básicos – por exemplo, uma bola, uma borboleta ou um balde.

A IA, chamada Visão da Criança para Aprendizagem Contrastiva (CVCL), imita aproximadamente como aprendemos quando crianças, combinando a visão com o áudio. É uma abordagem muito diferente daquela adotada por grandes modelos de linguagem como os atrás de ChatGPT ou Bard. A incrível capacidade desses modelos de elaborar ensaios, poesias ou até mesmo roteiros de podcast emocionou o mundo. Mas eles precisam digerir trilhões de palavras de uma ampla variedade de artigos de notícias, roteiros e livros para desenvolver essas habilidades.

As crianças, por outro lado, aprendem com muito menos informações e generalizam rapidamente o que aprenderam à medida que crescem. Os cientistas há muito se perguntam se a IA pode capturar essas habilidades apenas com experiências cotidianas.

“Mostramos, pela primeira vez, que uma rede neural treinada com base nessa informação realista do desenvolvimento de uma única criança pode aprender a vincular palavras a suas contrapartes visuais”, disse o autor do estudo, Dr. Wai Keen Vong, do Centro de Ciência de Dados da NYU. disse em um comunicado de imprensa sobre a pesquisa.

Jogo de criança

As crianças absorvem facilmente as palavras e seus significados a partir da experiência cotidiana.

Com apenas seis meses de idade, eles começam a conectar palavras com o que estão vendo - por exemplo, uma coisa redonda e saltitante é uma “bola”. Aos dois anos de idade, eles conhecem cerca de 300 palavras e seus conceitos.

Os cientistas há muito debatem como isso acontece. Uma teoria diz que as crianças aprendem a combinar o que veem com o que ouvem. Outro sugere que a aprendizagem de línguas requer uma experiência mais ampla do mundo, como interação social e capacidade de raciocínio.

É difícil separar essas ideias com testes cognitivos tradicionais em crianças pequenas. Mas podemos obter uma resposta treinando uma IA através dos olhos e ouvidos de uma criança.

M3GAN?

O novo estudo aproveitou um rico recurso de vídeo chamado SAYCam, que inclui dados coletados de três crianças entre 6 e 32 meses de idade usando câmeras tipo GoPro amarradas em suas testas.

Duas vezes por semana, as câmeras gravavam cerca de uma hora de filmagem e áudio enquanto eles amamentavam, engatinhavam e brincavam. Todo o diálogo audível foi transcrito em “enunciados” – palavras ou frases ditas antes de o orador ou a conversa mudar. O resultado é uma riqueza de dados multimídia da perspectiva de bebês e crianças pequenas.

Para o novo sistema, a equipe projetou duas redes neurais com um “juiz” para coordená-las. Um traduziu os recursos visuais em primeira pessoa para quem e o que é uma cena - é uma mãe cozinhando? Os outros decifraram palavras e significados das gravações de áudio.

Os dois sistemas foram então correlacionados no tempo para que a IA aprendesse a associar imagens corretas a palavras. Por exemplo, a IA aprendeu a combinar a imagem de um bebê com as palavras “Olha, tem um bebê” ou a imagem de uma bola de ioga com “Uau, que bola grande”. Com o treinamento, ela aprendeu gradualmente a separar o conceito de bola de ioga de um bebê.

“Isso fornece ao modelo uma pista sobre quais palavras devem ser associadas a quais objetos”, disse Vong.

A equipe então treinou a IA em vídeos de aproximadamente um ano e meio da vida de Sam. Juntos, totalizaram mais de 600,000 mil quadros de vídeo, combinados com 37,500 declarações transcritas. Embora os números pareçam grandes, eles representam apenas um por cento da vida diária de Sam e uma ninharia em comparação com a quantidade de dados usados ​​para treinar grandes modelos de linguagem.

IA do bebê em ascensão

Para testar o sistema, a equipe adaptou um teste cognitivo comum usado para medir as habilidades linguísticas das crianças. Eles mostraram à IA quatro novas imagens – um gato, um berço, uma bola e um gramado – e perguntaram qual delas era a bola.

No geral, a IA escolheu a imagem correta em cerca de 62% das vezes. O desempenho quase correspondeu a um algoritmo de última geração treinado em 400 milhões de pares de imagens e textos da web – muito mais dados do que os usados ​​para treinar a IA no estudo. Eles descobriram que vincular imagens de vídeo com áudio era crucial. Quando a equipe embaralhou os quadros de vídeo e suas declarações associadas, o modelo quebrou completamente.

A IA também poderia “pensar” fora da caixa e generalizar para novas situações.

Em outro teste, ele foi treinado na perspectiva de Sam de um livro ilustrado quando seu pai disse: “É um pato e uma borboleta”. Mais tarde, ele ergueu uma borboleta de brinquedo quando lhe perguntaram: “Você consegue fazer a borboleta?” Quando desafiado com imagens multicoloridas de borboletas – aquelas que a IA nunca tinha visto antes – detectou três em cada quatro exemplos de “borboleta” com mais de 80% de precisão.

Nem todos os conceitos de palavras tiveram a mesma pontuação. Por exemplo, “colher” era uma luta. Mas vale ressaltar que, como um duro reCAPTCHA, as imagens de treinamento eram difíceis de decifrar até mesmo para um humano.

Dores de crescimento

A A IA baseia-se nos avanços recentes no aprendizado de máquina multimodal, que combina texto, imagens, áudio ou vídeo para treinar o cérebro de uma máquina.

Com base na experiência de apenas uma criança, o algoritmo foi capaz de capturar como as palavras se relacionam entre si e vincular palavras a imagens e conceitos. Ele sugere que, para as crianças, ouvir palavras e combiná-las com o que estão vendo ajuda a construir seu vocabulário.

Isso não quer dizer que outros processos cerebrais, como sinais sociais e raciocínio, não entrem em jogo. Adicionar esses componentes ao algoritmo poderia melhorá-lo, escreveram os autores.

A equipe planeja continuar o experimento. Por enquanto, a IA “bebê” aprende apenas com quadros de imagens estáticas e tem um vocabulário composto principalmente de substantivos. A integração de segmentos de vídeo no treinamento pode ajudar a IA a aprender verbos porque o vídeo inclui movimento.

Adicionar entonação aos dados de fala também pode ajudar. As crianças aprendem desde cedo que o “hmm” da mãe pode ter significados muito diferentes dependendo do tom.

Mas, no geral, combinar IA e experiências de vida é um novo método poderoso para estudar cérebros humanos e de máquinas. Poderia ajudar-nos a desenvolver novos modelos de IA que aprendem como crianças e, potencialmente, remodelar a nossa compreensão de como o nosso cérebro aprende linguagem e conceitos.

Crédito da imagem: Wai Keen Vong

Carimbo de hora:

Mais de Singularity Hub