La nueva IA generativa 'inspirada en la física' supera las expectativas | Revista Quanta

La nueva IA generativa 'inspirada en la física' supera las expectativas | Revista Quanta

La nueva IA generativa 'inspirada en la física' supera las expectativas | Revista Quanta PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Introducción

Las herramientas de la inteligencia artificial (en particular las redes neuronales) han sido buenas para los físicos. Durante años, esta tecnología ha ayudado a los investigadores a reconstruir trayectorias de partículas en experimentos con aceleradores, buscar evidencia de nuevas partículas y detectar ondas gravitacionales y exoplanetas. Si bien las herramientas de inteligencia artificial claramente pueden hacer mucho por los físicos, la pregunta ahora, según Max Tegmark, físico del Instituto Tecnológico de Massachusetts, es: "¿Podemos devolver algo?".

Tegmark cree que sus pares físicos pueden hacer contribuciones significativas a la ciencia de la IA y ha hecho de esto su principal prioridad de investigación. Dijo que una forma en que los físicos podrían ayudar a avanzar en la tecnología de IA sería reemplazar los algoritmos de "caja negra" de las redes neuronales, cuyo funcionamiento es en gran medida inescrutable, con ecuaciones de procesos físicos bien entendidas.

La idea no es nueva. Modelos de IA generativa basado en la difusión (el proceso que, por ejemplo, hace que la leche vertida en una taza de café se esparza uniformemente) surgió por primera vez en 2015 y la calidad de las imágenes que generan ha mejorado significativamente desde entonces. Esa tecnología impulsa software de producción de imágenes populares como DALL·E 2 y Midjourney. Ahora, Tegmark y sus colegas están aprendiendo si otros modelos generativos inspirados en la física podrían funcionar tan bien como los modelos basados ​​en difusión, o incluso mejor.

A finales del año pasado, el equipo de Tegmark introdujo un nuevo y prometedor método para producir imágenes llamado Modelo generativo de flujo de Poisson (PFGM). En él, los datos están representados por partículas cargadas, que se combinan para crear un campo eléctrico cuyas propiedades dependen de la distribución de las cargas en un momento dado. Se llama modelo de flujo de Poisson porque el movimiento de las cargas se rige por la ecuación de Poisson, que se deriva del principio que establece que la fuerza electrostática entre dos cargas varía inversamente con el cuadrado de la distancia entre ellas (similar a la formulación de la gravedad newtoniana). .

Ese proceso físico está en el corazón de PFGM. "Nuestro modelo se puede caracterizar casi por completo por la intensidad y dirección del campo eléctrico en cada punto del espacio", dijo Yilun Xu, estudiante de posgrado en el MIT y coautor del artículo. "Lo que la red neuronal aprende durante el proceso de entrenamiento es cómo estimar ese campo eléctrico". Y al hacerlo, puede aprender a crear imágenes porque una imagen en este modelo puede describirse sucintamente mediante un campo eléctrico.

Introducción

PFGM puede crear imágenes de la misma calidad que las producidas por enfoques basados ​​en difusión y hacerlo de 10 a 20 veces más rápido. "Utiliza una construcción física, el campo eléctrico, de una manera que nunca antes habíamos visto", dijo Hananel Hazan, científico informático de la Universidad de Tufts. "Eso abre la puerta a la posibilidad de que se aprovechen otros fenómenos físicos para mejorar nuestras redes neuronales".

Los modelos de difusión y flujo de Poisson tienen mucho en común, además de estar basados ​​en ecuaciones importadas de la física. Durante el entrenamiento, un modelo de difusión diseñado para la generación de imágenes generalmente comienza con una imagen (un perro, digamos) y luego agrega ruido visual, alterando cada píxel de forma aleatoria hasta que sus características quedan completamente ocultas (aunque no eliminadas por completo). Luego, el modelo intenta revertir el proceso y generar un perro cercano al original. Una vez entrenado, el modelo puede crear con éxito perros (y otras imágenes) a partir de un lienzo aparentemente en blanco.

Los modelos de flujo de Poisson funcionan prácticamente de la misma manera. Durante el entrenamiento, hay un proceso directo, que implica agregar ruido, de forma incremental, a una imagen que alguna vez fue nítida, y un proceso inverso en el que el modelo intenta eliminar ese ruido, paso a paso, hasta que la versión inicial se recupere en su mayor parte. Al igual que con la generación basada en difusión, el sistema eventualmente aprende a crear imágenes que nunca vio durante el entrenamiento.

Pero la física que subyace a los modelos de Poisson es completamente diferente. La difusión está impulsada por fuerzas termodinámicas, mientras que el flujo de Poisson está impulsado por fuerzas electrostáticas. Este último representa una imagen detallada utilizando una disposición de cargas que puede crear un campo eléctrico muy complicado. Ese campo, sin embargo, hace que las cargas se distribuyan de manera más uniforme con el tiempo, tal como la leche se dispersa naturalmente en una taza de café. El resultado es que el campo mismo se vuelve más simple y uniforme. Pero este campo uniforme plagado de ruido no es una pizarra en blanco; todavía contiene las semillas de información a partir de las cuales se pueden ensamblar imágenes fácilmente.

A principios de 2023, el equipo actualizó su modelo Poisson. extendiéndolo para abarcar toda una familia de modelos. La versión aumentada, PFGM++, incluye un nuevo parámetro, D, lo que permite a los investigadores ajustar la dimensionalidad del sistema. Esto puede marcar una gran diferencia: en un espacio tridimensional familiar, la intensidad del campo eléctrico producido por una carga está inversamente relacionada con el cuadrado de la distancia desde esa carga. Pero en cuatro dimensiones, la intensidad del campo sigue una ley cúbica inversa. Y para cada dimensión del espacio y cada valor de D, esa relación es algo diferente.

Introducción

Esa única innovación dio a los modelos de flujo de Poisson una variabilidad mucho mayor, y los casos extremos ofrecieron diferentes beneficios. Cuando D es bajo, por ejemplo, el modelo es más robusto, lo que significa que es más tolerante a los errores cometidos al estimar el campo eléctrico. "El modelo no puede predecir perfectamente el campo eléctrico", dijo Ziming Liu, otro estudiante de posgrado del MIT y coautor de ambos artículos. “Siempre hay alguna desviación. Pero la solidez significa que incluso si el error de estimación es alto, aún se pueden generar buenas imágenes”. Por lo tanto, es posible que no termines con el perro de tus sueños, pero aun así terminarás con algo parecido a un perro.

En el otro extremo, cuando D es alto, la red neuronal se vuelve más fácil de entrenar y requiere menos datos para dominar sus habilidades artísticas. La razón exacta no es fácil de explicar, pero se debe al hecho de que cuando hay más dimensiones, el modelo tiene menos campos eléctricos de los que realizar un seguimiento y, por tanto, menos datos que asimilar.

El modelo mejorado, PFGM++, "le brinda la flexibilidad de interpolar entre esos dos extremos", dijo rosa yu, científico informático de la Universidad de California, San Diego.

Y en algún lugar dentro de este rango se encuentra un valor ideal para D que logra el equilibrio adecuado entre robustez y facilidad de entrenamiento, dijo Xu. “Uno de los objetivos del trabajo futuro será encontrar una forma sistemática de encontrar ese punto óptimo, de modo que podamos seleccionar el mejor producto posible. D para una situación determinada sin recurrir al ensayo y error”.

Otro objetivo de los investigadores del MIT consiste en encontrar más procesos físicos que puedan servir de base para nuevas familias de modelos generativos. A través de un proyecto llamado GenPhysEl equipo ya ha identificado un candidato prometedor: el potencial Yukawa, relacionado con la fuerza nuclear débil. "Es diferente de los modelos de flujo y difusión de Poisson, donde el número de partículas siempre se conserva", dijo Liu. “El potencial de Yukawa permite aniquilar partículas o dividir una partícula en dos. Un modelo de este tipo podría, por ejemplo, simular sistemas biológicos en los que el número de células no tiene por qué ser el mismo”.

Esta puede ser una línea de investigación fructífera, afirmó Yu. "Podría conducir a nuevos algoritmos y nuevos modelos generativos con aplicaciones potenciales que van más allá de la generación de imágenes".

Y PFGM++ por sí solo ya ha superado las expectativas originales de sus inventores. Al principio no se dieron cuenta de que cuando D se establece en infinito, su modelo de flujo de Poisson amplificado se vuelve indistinguible de un modelo de difusión. Liu descubrió esto en los cálculos que realizó a principios de este año.

Mert Pilanci, informático de la Universidad de Stanford, considera que esta “unificación” es el resultado más importante del trabajo del grupo del MIT. “El artículo de PFGM++”, dijo, “revela que ambos modelos son parte de una clase más amplia, [lo que] plantea una pregunta intrigante: ¿Podría haber otros modelos físicos para la IA generativa en espera de ser descubiertos, lo que sugiere una unificación aún mayor? "

Sello de tiempo:

Mas de Revista Quanta