Nova IA generativa “inspirada na física” supera as expectativas | Revista Quanta

Nova IA generativa “inspirada na física” supera as expectativas | Revista Quanta

Nova IA generativa “inspirada na física” supera as expectativas | Revista Quanta PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Introdução

As ferramentas da inteligência artificial – redes neurais em particular – têm sido boas para os físicos. Durante anos, esta tecnologia ajudou os investigadores a reconstruir trajetórias de partículas em experiências com aceleradores, a procurar evidências de novas partículas e a detetar ondas gravitacionais e exoplanetas. Embora as ferramentas de IA possam claramente fazer muito pelos físicos, a questão agora, de acordo com Max Tegmark, físico do Instituto de Tecnologia de Massachusetts, é: “Podemos retribuir alguma coisa?”

Tegmark acredita que seus colegas físicos podem fazer contribuições significativas para a ciência da IA, e ele fez disso sua principal prioridade de pesquisa. Uma forma de os físicos ajudarem a avançar a tecnologia da IA, disse ele, seria substituir os algoritmos de “caixa negra” das redes neurais, cujo funcionamento é em grande parte inescrutável, por equações bem compreendidas de processos físicos.

A ideia não é totalmente nova. Modelos generativos de IA baseado na difusão — o processo que, por exemplo, faz com que o leite derramado numa chávena de café se espalhe uniformemente — surgiu pela primeira vez em 2015, e a qualidade das imagens que geram melhorou significativamente desde então. Essa tecnologia alimenta softwares populares de produção de imagens, como DALL·E 2 e Midjourney. Agora, Tegmark e seus colegas estão aprendendo se outros modelos generativos inspirados na física podem funcionar tão bem quanto os modelos baseados em difusão, ou até melhor.

No final do ano passado, a equipe de Tegmark introduziu um novo método promissor de produção de imagens chamado Modelo gerador de fluxo de Poisson (PFGM). Nele, os dados são representados por partículas carregadas, que se combinam para criar um campo elétrico cujas propriedades dependem da distribuição das cargas em um determinado momento. É chamado de modelo de fluxo de Poisson porque o movimento das cargas é governado pela equação de Poisson, que deriva do princípio que afirma que a força eletrostática entre duas cargas varia inversamente com o quadrado da distância entre elas (semelhante à formulação da gravidade newtoniana). .

Esse processo físico está no cerne do PFGM. “Nosso modelo pode ser caracterizado quase completamente pela força e direção do campo elétrico em cada ponto do espaço”, disse Yilun Xu, estudante de pós-graduação do MIT e coautor do artigo. “O que a rede neural aprende durante o processo de treinamento é como estimar esse campo elétrico.” E ao fazê-lo, pode aprender a criar imagens porque uma imagem neste modelo pode ser sucintamente descrita por um campo eléctrico.

Introdução

O PFGM pode criar imagens da mesma qualidade daquelas produzidas por abordagens baseadas em difusão e fazê-lo 10 a 20 vezes mais rápido. “Ele utiliza uma construção física, o campo elétrico, de uma forma que nunca vimos antes”, disse Hananel Hazan, cientista da computação da Tufts University. “Isso abre a porta para a possibilidade de outros fenômenos físicos serem aproveitados para melhorar nossas redes neurais.”

Os modelos de difusão e fluxo de Poisson têm muito em comum, além de serem baseados em equações importadas da física. Durante o treinamento, um modelo de difusão projetado para geração de imagens normalmente começa com uma imagem – um cachorro, digamos – e depois adiciona ruído visual, alterando cada pixel de forma aleatória até que suas características fiquem completamente ocultas (embora não completamente eliminadas). O modelo então tenta reverter o processo e gerar um cachorro próximo ao original. Uma vez treinado, o modelo pode criar cães – e outras imagens – com sucesso a partir de uma tela aparentemente em branco.

Os modelos de fluxo de Poisson operam praticamente da mesma maneira. Durante o treinamento, há um processo direto, que envolve adicionar ruído, de forma incremental, a uma imagem antes nítida, e um processo reverso, no qual o modelo tenta remover esse ruído, passo a passo, até que a versão inicial seja quase totalmente recuperada. Tal como acontece com a geração baseada em difusão, o sistema eventualmente aprende a produzir imagens que nunca viu no treinamento.

Mas a física subjacente aos modelos de Poisson é totalmente diferente. A difusão é impulsionada por forças termodinâmicas, enquanto o fluxo de Poisson é impulsionado por forças eletrostáticas. Este último representa uma imagem detalhada utilizando um arranjo de cargas que pode criar um campo elétrico muito complicado. Esse campo, no entanto, faz com que as cargas se distribuam de forma mais uniforme ao longo do tempo – tal como o leite se dispersa naturalmente numa chávena de café. O resultado é que o próprio campo se torna mais simples e uniforme. Mas esse campo uniforme repleto de ruído não é uma folha em branco; ainda contém as sementes de informação a partir das quais as imagens podem ser facilmente montadas.

No início de 2023 a equipe atualizou seu modelo de Poisson estendendo-o para abranger uma família inteira de modelos. A versão aumentada, PFGM++, inclui um novo parâmetro, D, o que permite aos pesquisadores ajustar a dimensionalidade do sistema. Isto pode fazer uma grande diferença: no espaço tridimensional familiar, a intensidade do campo eléctrico produzido por uma carga está inversamente relacionada com o quadrado da distância a essa carga. Mas em quatro dimensões, a intensidade do campo segue uma lei inversa do cubo. E para cada dimensão do espaço, e cada valor de D, essa relação é um pouco diferente.

Introdução

Essa única inovação deu aos modelos de fluxo de Poisson uma variabilidade muito maior, com os casos extremos oferecendo benefícios diferentes. Quando D é baixo, por exemplo, o modelo é mais robusto, ou seja, é mais tolerante aos erros cometidos na estimativa do campo elétrico. “O modelo não consegue prever o campo elétrico perfeitamente”, disse Ziming Liu, outro estudante de pós-graduação do MIT e coautor de ambos os artigos. “Sempre há algum desvio. Mas robustez significa que mesmo que o erro de estimativa seja alto, você ainda pode gerar boas imagens.” Portanto, você pode não acabar com o cachorro dos seus sonhos, mas ainda assim acabará com algo parecido com um cachorro.

No outro extremo, quando D for alto, a rede neural se torna mais fácil de treinar, exigindo menos dados para dominar suas habilidades artísticas. A razão exacta não é fácil de explicar, mas deve-se ao facto de que quando há mais dimensões, o modelo tem menos campos eléctricos para acompanhar – e, portanto, menos dados para assimilar.

O modelo aprimorado, PFGM++, “dá flexibilidade para interpolar entre esses dois extremos”, disse Rosa Yu, cientista da computação da Universidade da Califórnia, em San Diego.

E em algum lugar dentro desta faixa encontra-se um valor ideal para D isso atinge o equilíbrio certo entre robustez e facilidade de treinamento, disse Xu. “Um objetivo do trabalho futuro será descobrir uma maneira sistemática de encontrar esse ponto ideal, para que possamos selecionar o melhor possível D para uma determinada situação sem recorrer a tentativa e erro.”

Outro objetivo dos pesquisadores do MIT envolve encontrar mais processos físicos que possam fornecer a base para novas famílias de modelos generativos. Através de um projeto chamado GenPhys, a equipe já identificou um candidato promissor: o potencial Yukawa, que está relacionado à força nuclear fraca. “É diferente dos modelos de fluxo e difusão de Poisson, onde o número de partículas é sempre conservado”, disse Liu. “O potencial Yukawa permite aniquilar partículas ou dividir uma partícula em duas. Tal modelo poderia, por exemplo, simular sistemas biológicos onde o número de células não precisa permanecer o mesmo.”

Esta pode ser uma linha de investigação frutífera, disse Yu. “Isso poderia levar a novos algoritmos e novos modelos generativos com aplicações potenciais que vão além da geração de imagens.”

E o PFGM++ por si só já excedeu as expectativas originais dos seus inventores. Eles não perceberam a princípio que quando D está definido para o infinito, seu modelo de fluxo de Poisson ampliado torna-se indistinguível de um modelo de difusão. Liu descobriu isso em cálculos que realizou no início deste ano.

Mert Pilanci, cientista da computação da Universidade de Stanford, considera essa “unificação” o resultado mais importante decorrente do trabalho do grupo do MIT. “O artigo PFGM++”, disse ele, “revela que ambos os modelos fazem parte de uma classe mais ampla, [o que] levanta uma questão intrigante: poderão existir outros modelos físicos para IA generativa aguardando descoberta, sugerindo uma unificação ainda maior? ”

Carimbo de hora:

Mais de Quantagazine