La IA autodidacta muestra similitudes con el funcionamiento del cerebro PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

La IA autodidacta muestra similitudes con el funcionamiento del cerebro

Desde hace una década, muchos de los sistemas de inteligencia artificial más impresionantes se han enseñado utilizando un enorme inventario de datos etiquetados. Una imagen puede etiquetarse como "gato atigrado" o "gato tigre", por ejemplo, para "entrenar" una red neuronal artificial para distinguir correctamente un gato atigrado de un tigre. La estrategia ha sido espectacularmente exitosa y lamentablemente deficiente.

Tal entrenamiento "supervisado" requiere datos laboriosamente etiquetados por humanos, y las redes neuronales a menudo toman atajos, aprendiendo a asociar las etiquetas con información mínima y, a veces, superficial. Por ejemplo, una red neuronal podría usar la presencia de hierba para reconocer una foto de una vaca, porque las vacas suelen fotografiarse en los campos.

“Estamos creando una generación de algoritmos que son como estudiantes universitarios [que] no asistieron a clases en todo el semestre y luego, la noche antes de la final, se están abarrotando”, dijo alexei efros, científico informático de la Universidad de California, Berkeley. “Realmente no aprenden el material, pero les va bien en el examen”.

Además, para los investigadores interesados ​​en la intersección de la inteligencia animal y la de las máquinas, este "aprendizaje supervisado" podría estar limitado en lo que puede revelar sobre los cerebros biológicos. Los animales, incluidos los humanos, no usan conjuntos de datos etiquetados para aprender. En su mayor parte, exploran el entorno por su cuenta y, al hacerlo, obtienen una comprensión rica y sólida del mundo.

Ahora, algunos neurocientíficos computacionales han comenzado a explorar redes neuronales que han sido entrenadas con pocos o ningún dato etiquetado por humanos. Estos algoritmos de “aprendizaje autosupervisado” han resultado enormemente exitosos en modelado del lenguaje humano y, más recientemente, el reconocimiento de imágenes. En trabajos recientes, los modelos computacionales de los sistemas visual y auditivo de los mamíferos construidos utilizando modelos de aprendizaje autosupervisado han mostrado una correspondencia más estrecha con la función cerebral que sus contrapartes de aprendizaje supervisado. Para algunos neurocientíficos, parece que las redes artificiales están comenzando a revelar algunos de los métodos reales que usa nuestro cerebro para aprender.

Supervisión defectuosa

Los modelos cerebrales inspirados en redes neuronales artificiales llegaron a la mayoría de edad hace unos 10 años, casi al mismo tiempo que una red neuronal llamada AlexNet revolucionó la tarea de clasificar imágenes desconocidas. Esa red, como todas las redes neuronales, estaba hecha de capas de neuronas artificiales, unidades computacionales que forman conexiones entre sí que pueden variar en fuerza o "peso". Si una red neuronal no logra clasificar una imagen correctamente, el algoritmo de aprendizaje actualiza los pesos de las conexiones entre las neuronas para hacer que esa clasificación errónea sea menos probable en la siguiente ronda de entrenamiento. El algoritmo repite este proceso muchas veces con todas las imágenes de entrenamiento, modificando los pesos, hasta que la tasa de errores de la red es aceptablemente baja.

Casi al mismo tiempo, los neurocientíficos desarrollaron los primeros modelos computacionales de la sistema visual de los primates, utilizando redes neuronales como AlexNet y sus sucesores. La unión parecía prometedora: cuando a los monos y las redes neuronales artificiales se les mostraron las mismas imágenes, por ejemplo, la actividad de las neuronas reales y las neuronas artificiales mostró una correspondencia intrigante. Siguieron modelos artificiales de audición y detección de olores.

Pero a medida que avanzaba el campo, los investigadores se dieron cuenta de las limitaciones del entrenamiento supervisado. Por ejemplo, en 2017, Leon Gatys, científico informático de la Universidad de Tübingen en Alemania, y sus colegas tomaron una imagen de un Ford Modelo T, luego superpusieron un patrón de piel de leopardo en la foto, generando una imagen extraña pero fácilmente reconocible. . Una red neuronal artificial líder clasificó correctamente la imagen original como un Modelo T, pero consideró la imagen modificada como un leopardo. Se había fijado en la textura y no entendía la forma de un automóvil (o un leopardo, para el caso).

Las estrategias de aprendizaje autosupervisado están diseñadas para evitar tales problemas. En este enfoque, los humanos no etiquetan los datos. Más bien, "las etiquetas provienen de los propios datos", dijo Friedemann Zenke, neurocientífico computacional del Instituto Friedrich Miescher para la Investigación Biomédica en Basilea, Suiza. Los algoritmos autosupervisados ​​esencialmente crean brechas en los datos y le piden a la red neuronal que complete los espacios en blanco. En el llamado modelo de lenguaje grande, por ejemplo, el algoritmo de entrenamiento le mostrará a la red neuronal las primeras palabras de una oración y le pedirá que prediga la siguiente palabra. Cuando se entrenó con un corpus masivo de texto extraído de Internet, el modelo parece aprender la estructura sintáctica del idioma, demostrando una habilidad lingüística impresionante, todo sin etiquetas externas ni supervisión.

Un esfuerzo similar está en marcha en la visión artificial. A finales de 2021, Kaiming él y colegas revelaron su “codificador automático enmascarado”, que se basa en un la técnica iniciado por el equipo de Efros en 2016. El algoritmo de aprendizaje autosupervisado enmascara aleatoriamente las imágenes, oscureciendo casi las tres cuartas partes de cada una. El codificador automático enmascarado convierte las partes no enmascaradas en representaciones latentes: descripciones matemáticas comprimidas que contienen información importante sobre un objeto. (En el caso de una imagen, la representación latente puede ser una descripción matemática que captura, entre otras cosas, la forma de un objeto en la imagen). Luego, un decodificador convierte esas representaciones nuevamente en imágenes completas.

El algoritmo de aprendizaje autosupervisado entrena la combinación codificador-decodificador para convertir imágenes enmascaradas en sus versiones completas. Cualquier diferencia entre las imágenes reales y las reconstruidas se retroalimenta al sistema para ayudarlo a aprender. Este proceso se repite para un conjunto de imágenes de entrenamiento hasta que la tasa de errores del sistema sea lo suficientemente baja. En un ejemplo, cuando a un codificador automático enmascarado entrenado se le mostró una imagen nunca antes vista de un autobús con casi el 80% oscurecido, el sistema reconstruyó con éxito la estructura del autobús.

“Este es un resultado muy, muy impresionante”, dijo Efros.

Las representaciones latentes creadas en un sistema como este parecen contener información sustancialmente más profunda que la que podían incluir las estrategias anteriores. El sistema podría aprender la forma de un automóvil, por ejemplo, o un leopardo, y no solo sus patrones. “Y esta es realmente la idea fundamental del aprendizaje autosupervisado: construyes tu conocimiento de abajo hacia arriba”, dijo Efros. Sin abarrotar de última hora para pasar las pruebas.

Cerebros autosupervisados

En sistemas como este, algunos neurocientíficos ven ecos de cómo aprendemos. “Creo que no hay duda de que el 90 % de lo que hace el cerebro es un aprendizaje autosupervisado”, dijo blake richards, neurocientífico computacional de la Universidad McGill y Mila, del Instituto de Inteligencia Artificial de Quebec. Se cree que los cerebros biológicos predicen continuamente, por ejemplo, la ubicación futura de un objeto a medida que se mueve, o la siguiente palabra en una oración, al igual que un algoritmo de aprendizaje autosupervisado intenta predecir el espacio en una imagen o un segmento de texto. Y los cerebros también aprenden de sus errores por sí mismos: solo una pequeña parte de la retroalimentación de nuestro cerebro proviene de una fuente externa que dice, esencialmente, "respuesta incorrecta".

Por ejemplo, considere los sistemas visuales de los humanos y otros primates. Estos son los sistemas sensoriales animales mejor estudiados, pero los neurocientíficos se han esforzado por explicar por qué incluyen dos vías separadas: el flujo visual ventral, que es responsable de reconocer objetos y rostros, y el flujo visual dorsal, que procesa el movimiento (el " vías qué” y “dónde”, respectivamente).

Richards y su equipo crearon un modelo autosupervisado que insinúa una respuesta. Ellos entrenado una IA que combinaba dos redes neuronales diferentes: la primera, llamada arquitectura ResNet, fue diseñada para procesar imágenes; la segunda, conocida como red recurrente, podría realizar un seguimiento de una secuencia de entradas anteriores para hacer predicciones sobre la siguiente entrada esperada. Para entrenar la IA combinada, el equipo comenzó con una secuencia de, digamos, 10 fotogramas de un video y dejó que ResNet los procesara uno por uno. La red recurrente luego predijo la representación latente del cuadro 11, sin simplemente hacer coincidir los primeros 10 cuadros. El algoritmo de aprendizaje autosupervisado comparó la predicción con el valor real e indicó a las redes neuronales que actualizaran sus pesos para mejorar la predicción.

El equipo de Richards descubrió que una IA entrenada con un solo ResNet era buena para el reconocimiento de objetos, pero no para categorizar el movimiento. Pero cuando dividieron la única ResNet en dos, creando dos vías (sin cambiar la cantidad total de neuronas), la IA desarrolló representaciones para los objetos en una y para el movimiento en la otra, lo que permitió la categorización posterior de estas propiedades, al igual que nuestros cerebros. hacer.

Para probar más la IA, el equipo le mostró una serie de videos que los investigadores del Instituto Allen para la Ciencia del Cerebro en Seattle habían mostrado previamente a ratones. Al igual que los primates, los ratones tienen regiones cerebrales especializadas en imágenes estáticas y en movimiento. Los investigadores de Allen registraron la actividad neuronal en la corteza visual del ratón mientras los animales miraban los videos.

Aquí también, el equipo de Richards encontró similitudes en la forma en que la IA y los cerebros vivos reaccionaron a los videos. Durante el entrenamiento, una de las vías en la red neuronal artificial se volvió más similar a las regiones ventrales de detección de objetos del cerebro del ratón, y la otra vía se volvió similar a las regiones dorsales enfocadas en el movimiento.

Los resultados sugieren que nuestro sistema visual tiene dos vías especializadas porque ayudan a predecir el futuro visual, dijo Richards; un solo camino no es lo suficientemente bueno.

Los modelos del sistema auditivo humano cuentan una historia similar. En junio, un equipo dirigido por Jean-Rémi Rey, científico investigador de Meta AI, entrenó una IA llamada Wav2Vec 2.0, que utiliza una red neuronal para transformar el audio en representaciones latentes. Los investigadores enmascaran algunas de estas representaciones, que luego alimentan a otro componente de la red neuronal llamado transformador. Durante el entrenamiento, el transformador predice la información enmascarada. En el proceso, toda la IA aprende a convertir los sonidos en representaciones latentes; nuevamente, no se necesitan etiquetas. El equipo usó alrededor de 600 horas de datos de voz para entrenar la red, “que es aproximadamente lo que un niño obtendría en [los] primeros dos años de experiencia”, dijo King.

Una vez que se entrenó el sistema, los investigadores reprodujeron secciones de audiolibros en inglés, francés y mandarín. Luego, los investigadores compararon el rendimiento de la IA con los datos de 412 personas, una mezcla de hablantes nativos de los tres idiomas que habían escuchado los mismos tramos de audio mientras se les tomaban imágenes de sus cerebros en un escáner fMRI. King dijo que su red neuronal y los cerebros humanos, a pesar de las imágenes fMRI ruidosas y de baja resolución, "no solo se correlacionan entre sí, sino que se correlacionan de manera sistemática": la actividad en las primeras capas de la IA se alinea con la actividad en la corteza auditiva primaria, mientras que la actividad de las capas más profundas de la IA se alinea con la actividad en las capas superiores del cerebro, en este caso la corteza prefrontal. “Son datos realmente hermosos”, dijo Richards. "No es concluyente, pero [es] otra prueba convincente que sugiere que, de hecho, la forma en que aprendemos un idioma es en gran parte tratando de predecir las próximas cosas que se dirán".

Patologías no curadas

No todo el mundo está convencido. Josh McDermott, un neurocientífico computacional del Instituto de Tecnología de Massachusetts, ha trabajado en modelos de visión y percepción auditiva utilizando aprendizaje supervisado y autosupervisado. Su laboratorio ha diseñado lo que él llama "metámeros", señales de audio y visuales sintetizadas que, para un ser humano, son solo ruido inescrutable. Sin embargo, para una red neuronal artificial, los metámeros parecen indistinguibles de las señales reales. Esto sugiere que las representaciones que se forman en las capas más profundas de la red neuronal, incluso con el aprendizaje autosupervisado, no coinciden con las representaciones en nuestros cerebros. Estos enfoques de aprendizaje autosupervisado “son un progreso en el sentido de que puede aprender representaciones que pueden respaldar muchos comportamientos de reconocimiento sin necesidad de todas estas etiquetas”, dijo McDermott. “Pero todavía tienen muchas de las patologías de los modelos supervisados”.

Los propios algoritmos también necesitan más trabajo. Por ejemplo, en Wav2Vec 2.0 de Meta AI, la IA solo predice representaciones latentes durante unas pocas decenas de milisegundos de sonido, menos tiempo del que se tarda en pronunciar un ruido perceptiblemente distinto, y mucho menos una palabra. “Hay muchas cosas por hacer para hacer algo similar a lo que hace el cerebro”, dijo King.

Comprender verdaderamente la función cerebral requerirá más que un aprendizaje autosupervisado. Por un lado, el cerebro está lleno de conexiones de retroalimentación, mientras que los modelos actuales tienen pocas conexiones de este tipo, si es que tienen alguna. Un próximo paso obvio sería usar el aprendizaje autosupervisado para entrenar redes altamente recurrentes, un proceso difícil, y ver cómo la actividad en tales redes se compara con la actividad cerebral real. El otro paso crucial sería hacer coincidir la actividad de las neuronas artificiales en modelos de aprendizaje autosupervisado con la actividad de las neuronas biológicas individuales. “Con suerte, en el futuro, [nuestros] resultados también se confirmarán con grabaciones unicelulares”, dijo King.

Si las similitudes observadas entre los cerebros y los modelos de aprendizaje autosupervisado se mantienen para otras tareas sensoriales, será una indicación aún más fuerte de que cualquier magia de la que sean capaces nuestros cerebros requiere un aprendizaje autosupervisado de alguna forma. “Si encontramos similitudes sistemáticas entre sistemas muy diferentes, [sugeriría] que tal vez no haya muchas formas de procesar la información de manera inteligente”, dijo King. "Al menos, esa es una especie de hermosa hipótesis con la que nos gustaría trabajar".

Sello de tiempo:

Mas de Revista Quanta