Cómo los transformadores parecen imitar partes del cerebro Inteligencia de datos PlatoBlockchain. Búsqueda vertical. Ai.

Cómo los transformadores parecen imitar partes del cerebro

Comprender cómo el cerebro organiza y accede a la información espacial (dónde estamos, qué hay a la vuelta de la esquina, cómo llegar allí) sigue siendo un desafío exquisito. El proceso implica recuperar una red completa de recuerdos y datos espaciales almacenados de decenas de miles de millones de neuronas, cada una conectada a miles de otras. Los neurocientíficos han identificado elementos clave como celdas de cuadrícula, neuronas que mapean ubicaciones. Pero ir más profundo resultará complicado: no es como si los investigadores pudieran extraer y estudiar rebanadas de materia gris humana para observar cómo los recuerdos de imágenes, sonidos y olores basados ​​en la ubicación fluyen y se conectan entre sí.

La inteligencia artificial ofrece otra forma de entrar. Durante años, los neurocientíficos han aprovechado muchos tipos de redes neuronales, los motores que impulsan la mayoría de las aplicaciones de aprendizaje profundo, para modelar la activación de las neuronas en el cerebro. En un trabajo reciente, los investigadores han demostrado que el hipocampo, una estructura del cerebro fundamental para la memoria, es básicamente un tipo especial de red neuronal, conocida como red neuronal. transformador, disfrazada. Su nuevo modelo rastrea la información espacial de una manera paralela al funcionamiento interno del cerebro. Han tenido un éxito notable.

“El hecho de que sepamos que estos modelos del cerebro son equivalentes al transformador significa que nuestros modelos funcionan mucho mejor y son más fáciles de entrenar”, dijo. james whitington, un neurocientífico cognitivo que divide su tiempo entre la Universidad de Stanford y el laboratorio de Tim Behren en la Universidad de Oxford.

Los estudios de Whittington y otros insinúan que los transformadores pueden mejorar en gran medida la capacidad de los modelos de redes neuronales para imitar los tipos de cálculos realizados por las células de la red y otras partes del cerebro. Dichos modelos podrían impulsar nuestra comprensión de cómo funcionan las redes neuronales artificiales y, aún más probable, cómo se llevan a cabo los cálculos en el cerebro, dijo Whittington.

“No estamos tratando de recrear el cerebro”, dijo david ha, un informático de Google Brain que también trabaja en modelos de transformadores. “Pero, ¿podemos crear un mecanismo que pueda hacer lo que hace el cerebro?”

Los transformadores aparecieron por primera vez hace cinco años como una nueva forma para que la IA procese el lenguaje. Son la salsa secreta en esos programas que completan oraciones que acaparan los titulares como BERTI y GPT-3, que puede generar letras de canciones convincentes, componer sonetos de Shakespeare y hacerse pasar por representantes de servicio al cliente.

Los transformadores funcionan mediante un mecanismo llamado autoatención, en el que cada entrada (una palabra, un píxel, un número en una secuencia) siempre está conectada a todas las demás entradas. (Otras redes neuronales conectan entradas solo a otras entradas determinadas). Pero si bien los transformadores se diseñaron para tareas de lenguaje, desde entonces se han destacado en otras tareas, como clasificar imágenes y, ahora, modelar el cerebro.

En 2020, un grupo liderado por Sepp Hochreiter, un científico informático de la Universidad Johannes Kepler de Linz en Austria, usó un transformador para reestructurar un modelo poderoso y antiguo de recuperación de memoria llamado red Hopfield. Presentadas por primera vez hace 40 años por el físico de Princeton John Hopfield, estas redes siguen una regla general: las neuronas que están activas al mismo tiempo construyen fuertes conexiones entre sí.

Hochreiter y sus colaboradores, notando que los investigadores han estado buscando mejores modelos de recuperación de memoria, vieron una conexión entre cómo las redes de Hopfield recuperan recuerdos y cómo los transformadores prestan atención. Actualizaron la red de Hopfield, esencialmente convirtiéndola en un transformador. Ese cambio permitió que el modelo almacenara y recuperara más recuerdos debido a conexiones más efectivas, dijo Whittington. Hopfield mismo, junto con Dmitry Krotov en el MIT-IBM Watson AI Lab, demostró que una red de Hopfield basada en transformadores era biológicamente plausible.

Entonces, a principios de este año, Whittington y Behrens ayudaron a modificar aún más el enfoque de Hochreiter, modificando el transformador para que, en lugar de tratar los recuerdos como una secuencia lineal, como una cadena de palabras en una oración, los codificara como coordenadas en espacios de dimensiones superiores. Ese "giro", como lo llamaron los investigadores, mejoró aún más el desempeño del modelo en tareas de neurociencia. También demostraron que el modelo era matemáticamente equivalente a los modelos de patrones de activación de celdas de cuadrícula que los neurocientíficos ven en las exploraciones de IRMf.

“Las celdas de la cuadrícula tienen este tipo de estructura emocionante, hermosa y regular, y con patrones sorprendentes que es poco probable que aparezcan al azar”, dijo Caswell Barry, neurocientífico del University College London. El nuevo trabajo mostró cómo los transformadores replican exactamente esos patrones observados en el hipocampo. "Reconocieron que un transformador puede averiguar dónde está en función de los estados anteriores y cómo se mueve, y de una manera que se integra en los modelos tradicionales de celdas de red".

Otro trabajo reciente sugiere que los transformadores también podrían mejorar nuestra comprensión de otras funciones cerebrales. El año pasado, Martin Schrimpf, neurocientífico computacional del Instituto Tecnológico de Massachusetts, analizó 43 modelos diferentes de redes neuronales para ver qué tan bien predijeron las mediciones de la actividad neuronal humana según lo informado por fMRI y electrocorticografía. Descubrió que los transformadores son las redes neuronales de última generación líderes en la actualidad, que predicen casi todas las variaciones encontradas en las imágenes.

Y Ha, junto con un compañero informático yujin-tang, diseñó recientemente un modelo que podría enviar intencionalmente grandes cantidades de datos a través de un transformador de forma aleatoria y desordenada, imitando la forma en que el cuerpo humano transmite las observaciones sensoriales al cerebro. Su transformador, como nuestros cerebros, podría manejar con éxito un flujo desordenado de información.

“Las redes neuronales están cableadas para aceptar una entrada en particular”, dijo Tang. Pero en la vida real, los conjuntos de datos a menudo cambian rápidamente y la mayoría de la IA no tiene forma de ajustarse. “Queríamos experimentar con una arquitectura que pudiera adaptarse muy rápidamente”.

A pesar de estos signos de progreso, Behrens considera que los transformadores son solo un paso hacia un modelo preciso del cerebro, no el final de la búsqueda. "Tengo que ser un neurocientífico escéptico aquí", dijo. “No creo que los transformadores terminen siendo como pensamos sobre el lenguaje en el cerebro, por ejemplo, a pesar de que tienen el mejor modelo actual de oraciones”.

“¿Es esta la base más eficiente para hacer predicciones sobre dónde estoy y qué veré a continuación? Si soy honesto, es demasiado pronto para decirlo”, dijo Barry.

Schrimpf también señaló que incluso los transformadores de mejor rendimiento son limitados y funcionan bien para palabras y frases cortas, por ejemplo, pero no para tareas de lenguaje a gran escala como contar historias.

“Mi sensación es que esta arquitectura, este transformador, lo coloca en el espacio adecuado para comprender la estructura del cerebro y se puede mejorar con capacitación”, dijo Schrimpf. “Esta es una buena dirección, pero el campo es súper complejo”.

Sello de tiempo:

Mas de Revista Quanta