El pionero de la informática que ayuda a la IA a ver | Revista Quanta

El pionero de la informática que ayuda a la IA a ver | Revista Quanta

El pionero de la informática que ayuda a la IA a ver | Revista Quanta PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Introducción

Cuándo alexei efros Cuando se mudó con su familia de Rusia a California cuando era adolescente en la década de 1980, trajo su computadora personal de fabricación soviética, una Elektronika BK-0010. La máquina no tenía almacenamiento externo y se sobrecalentaba cada pocas horas, por lo que para poder jugar videojuegos, tenía que escribir código, solucionar problemas y jugar rápido, antes de que la máquina se apagara. Ese ciclo, repetido la mayoría de los días, aceleró su aprendizaje.

"¡Tuve mucha suerte de que esta computadora soviética no fuera muy buena!" dijo Efros, quien se ríe fácilmente y habla con un suave acento ruso. Hoy en día no juega tantos juegos, pero esa voluntad de explorar y aprovechar al máximo sus herramientas permanece.

En la escuela de posgrado de la Universidad de California, Berkeley, Efros comenzó a hacer caminatas y a explorar la belleza natural del Área de la Bahía. No pasó mucho tiempo antes de que comenzara a combinar su pasión por las computadoras con el disfrute de estos lugares. Desarrolló una manera de tapar agujeros en fotografías sin problemas; por ejemplo, reemplazando un contenedor de basura errante en una foto de un bosque de secuoyas con árboles de aspecto natural. Posteriormente, Adobe Photoshop adoptó una versión de la técnica para su herramienta de "relleno según el contenido".

Efros, ahora científico informático en el Laboratorio de Investigación de Inteligencia Artificial de Berkeley, combina conjuntos masivos de datos en línea con algoritmos de aprendizaje automático para comprender, modelar y recrear el mundo visual. En 2016, la Asociación de Maquinaria de Computación le otorgó su Premio en Computación por su trabajo creando imágenes sintéticas realistas, llamándolo un "alquimista de la imagen."

Introducción

Efros dice que, a pesar de los mejores esfuerzos de los investigadores, las máquinas todavía ven de manera fundamentalmente diferente a como lo hacemos nosotros. "Las manchas de color y brillo requieren que conectemos lo que estamos viendo ahora con nuestra memoria de dónde hemos visto estas cosas antes", dijo Efros. "Esta conexión da significado a lo que estamos viendo". Con demasiada frecuencia, las máquinas ven lo que hay en el momento sin conectarlo con lo que han visto antes.

Pero la diferencia puede tener ventajas. En visión por computadora, Efros valora la inmediatez de saber si un algoritmo diseñado para reconocer objetos y escenas funciona en una imagen. Algunas de sus preguntas sobre visión por computadora, como "¿Qué hace que París parezca París?”- tienen una inclinación filosófica. Otros, como cómo abordar los problemas persistentes sesgo en conjuntos de datos, son prácticos y apremiantes.

"En este momento hay mucha gente haciendo IA con lenguaje", dijo Efros. "Quiero observar los patrones totalmente visuales que quedan atrás". Al mejorar la visión por computadora, no solo espera mejores aplicaciones prácticas, como autos sin conductor; también quiere aprovechar esos conocimientos para comprender mejor lo que él llama “inteligencia visual humana”: cómo las personas dan sentido a lo que ven.

Quanta revista Se reunió con Efros en su oficina de Berkeley para hablar sobre los superpoderes científicos, la dificultad de describir imágenes y lo peligrosa que es realmente la inteligencia artificial. La entrevista ha sido condensada y editada para mayor claridad.

Introducción

¿Cómo ha mejorado la visión por computadora desde que eras estudiante?

Cuando comencé mi doctorado, no había casi nada útil. Algunos robots estaban atornillando algunos tornillos usando visión por computadora, pero esto se limitaba a este tipo de entorno industrial muy controlado. Entonces, de repente, mi cámara detectó rostros y los hizo más nítidos.

Hoy en día, la visión por computadora se encuentra en una gran cantidad de aplicaciones, como los vehículos autónomos. Está llevando más tiempo de lo que algunas personas pensaban inicialmente, pero aun así hay avances. Para alguien que no conduce, esto es muy emocionante.

Espera, ¿no conduces?

¡No, no veo lo suficientemente bien como para conducir! [Risas.] Para mí, esto sería un gran cambio: tener un automóvil que me llevaría a lugares.

No me di cuenta de que tu vista te impedía conducir. ¿Puedes ver las imágenes con las que trabajas en un monitor de computadora?

Si los hago lo suficientemente grandes. Puedes ver que mis fuentes son bastante grandes. Nací sin ver bien. Creo que todos los demás son raros por tener una visión increíblemente buena.

¿Tu condición de no bicho raro influyó en la dirección de tu investigación?

¿Quién sabe? Definitivamente no había ninguna sensación de "Oh, no veo bien, así que voy a fabricar computadoras que vean mejor". No, nunca tuve eso como motivación.

Para ser un buen científico, necesitas un superpoder secreto. Necesitas hacer algo mejor que los demás. Lo bueno de la ciencia es que no todos tenemos el mismo superpoder. Tal vez mi superpoder haya sido que, como no veo muy bien, podría tener una mejor comprensión del problema de la visión.

Introducción

Comprendí desde el principio la importancia de los datos previos al mirar el mundo. Yo mismo no podía ver muy bien, pero mis recuerdos de experiencias anteriores llenaron los agujeros lo suficiente como para poder funcionar básicamente tan bien como una persona normal. La mayoría de la gente no sabe que no veo bien. Eso me dio, creo, esta intuición única de que podría tratarse menos de los píxeles y más de la memoria.

Las computadoras sólo ven lo que hay ahora, mientras que nosotros vemos el momento conectado al tapiz de todo lo que hemos visto antes.

¿Es siquiera posible expresar con palabras los sutiles patrones visuales que, por ejemplo, hacen que París parezca París?

Cuando estás en una ciudad en particular, a veces simplemente sabes en qué ciudad estás: hay esto je ne sais quoi, aunque nunca hayas estado en esa esquina en particular. Esto es extremadamente difícil de describir con palabras, pero está ahí, en los píxeles.

[Para París], se podría hablar de que normalmente son edificios de seis pisos y que normalmente hay balcones en el cuarto piso. Se podría expresar algo de esto con palabras, pero mucho no es lingüístico. Para mí eso es emocionante.

Su trabajo reciente implica enseñar a las computadoras a ingerir datos visuales de maneras que imitan la vista humana. ¿Cómo funciona?

En este momento, las computadoras tienen un conjunto de datos descomunal: miles de millones de imágenes aleatorias extraídas de Internet. Toman imágenes aleatorias, procesan una imagen, luego toman otra imagen aleatoria, la procesan, etc. Usted entrena su sistema [visual de computadora] repasando una y otra vez este conjunto de datos.

La forma en que nosotros, los agentes biológicos, ingerimos datos es muy diferente. Cuando nos enfrentamos a una situación nueva, es la única vez que estos datos estarán ahí para nosotros. Nunca hemos estado exactamente en esta situación, en esta habitación, con esta iluminación, vestidos de esta manera. Primero, utilizamos estos datos para hacer lo que tenemos que hacer: comprender el mundo. Luego, utilizamos estos datos para aprender de ellos, [para predecir] el futuro.

Introducción

Además, los datos que vemos no son aleatorios. Lo que ves ahora está muy correlacionado con lo que viste hace unos segundos. Puedes considerarlo como un vídeo. Todos los fotogramas del vídeo están correlacionados entre sí, lo que es muy diferente a cómo las computadoras procesan los datos.

Estoy interesado en lograr que nuestro enfoque de aprendizaje sea uno en el que las computadoras vean los datos a medida que llegan, los procesen y aprendan de ellos a medida que avanzan.

Me imagino que no es tan simple como hacer que las computadoras vean videos en lugar de imágenes fijas.

No, todavía necesitas [computadoras] para adaptarte. Me interesa aprender enfoques que vean los datos a medida que llegan y luego los procesen y aprendan de ellos a medida que avanzan. Un enfoque que tenemos se conoce como entrenamiento en el momento del examen. La idea es que, a medida que miras una secuencia de imágenes como si fuera un vídeo, las cosas podrían estar cambiando. Entonces no quieres que arreglen tu modelo. Así como un agente biológico siempre se adapta a su entorno, queremos que la computadora se adapte continuamente.

El paradigma estándar es que primero se entrena en un gran conjunto de datos y luego se implementa. Dall·E y ChatGPT se entrenaron en Internet alrededor de 2021 y luego [sus conocimientos] se congelaron. Luego arroja lo que ya sabe. Una forma más natural es [la capacitación en el momento de la prueba], para intentar que absorba los datos y aprenda en el trabajo, no tener fases separadas de capacitación e implementación.

Definitivamente hay un problema con las computadoras, llamado cambio de dominio o sesgo del conjunto de datos: esta idea de que, si tus datos de entrenamiento son muy diferentes de los datos que estás usando cuando implementas el sistema, las cosas no van a funcionar. muy bien. Estamos logrando algunos avances, pero todavía no hemos llegado a ese punto.

Introducción

¿Es el problema similar a cómo los bancos advierten a los inversores que el desempeño pasado puede no predecir las ganancias futuras?

Ese es exactamente el problema. En el mundo real las cosas cambian. Por ejemplo, si un ratón de campo termina en una casa, estará bien. ¡Nunca te librarás de ese ratón! [Risas.] Nació en un campo, nunca antes había estado en una casa y, sin embargo, encontrará y se comerá todos sus suministros. Se adapta muy rápidamente, aprende y se adapta al nuevo entorno.

Esa capacidad no existe en los sistemas [de visión por computadora] actuales. Con la conducción autónoma, si entrenas un coche en California y luego lo pruebas en Minnesota, ¡boom! - hay nieve. Nunca ha visto nieve. Se confunde.

Ahora la gente aborda esto obteniendo tantos datos que [el sistema] básicamente lo ha visto todo. Entonces no necesita adaptarse. Pero eso todavía pasa por alto eventos raros.

Entonces, parece que los sistemas de inteligencia artificial son el camino a seguir. ¿Dónde deja eso a los humanos?

El trabajo que surge de OpenAI tanto en el frente de texto (ChatGPT) como en el de imágenes (Dall·E) ha sido increíblemente emocionante y sorprendente. Reafirma esta idea de que, una vez que se tienen suficientes datos, métodos razonablemente simples pueden producir resultados sorprendentemente buenos.

Introducción

Pero ChatGPT me hizo darme cuenta de que los humanos no somos tan creativos y excepcionales como nos gustaría vernos. La mayoría de las veces, los reconocedores de patrones que hay en nosotros podrían estar tomando el control. Hablamos con oraciones formadas a partir de frases u oraciones que hemos escuchado antes. Por supuesto, tenemos vuelos de fantasía y creatividad. Podemos hacer cosas que las computadoras no pueden hacer, al menos por ahora. Pero la mayoría de las veces, ChatGPT podría reemplazarnos y la mayoría de la gente no se daría cuenta.

Es humillante. Pero también es un motivador para romper con esos patrones, para tratar de tener más fantasías, para no quedar atrapados en clichés y pastiches.

Algunos científicos han expresado su preocupación por los riesgos que representa la IA para la humanidad. ¿Estás preocupado?

Muchos investigadores a los que tengo un gran respeto han estado advirtiendo sobre la inteligencia artificial. No quiero minimizar esas palabras. Muchos de esos son puntos válidos. Pero hay que poner las cosas en perspectiva.

En este momento, el mayor peligro para la civilización no proviene de las computadoras sino de los humanos. El Armagedón nuclear y el cambio climático son preocupaciones mucho más apremiantes. La Federación de Rusia ha atacado a su vecino completamente inocente. Nací en Rusia y es particularmente horripilante que mis antiguos compatriotas puedan estar haciendo esto. Estoy haciendo todo lo que puedo para asegurarme de que este siga siendo el tema número uno.

Podemos pensar que la revolución de la IA es el acontecimiento más importante de nuestra vida. Pero la revolución de la IA no será nada si no salvamos al mundo libre.

¿Entonces no te preocupas en absoluto por la IA?

No. Sabes, me encanta preocuparme. ¡Soy un gran preocupado! Pero si Putin está destruyendo el mundo [se lleva la mano a la cabeza] y el cambio climático está aquí [se lleva la mano a los hombros], entonces la IA está aquí abajo [se lleva la mano a los pies]. Son fracciones de un porcentaje de mi preocupación en comparación con Putin y el cambio climático.

Sello de tiempo:

Mas de Revista Quanta