Google enseña a los robots a servir a los humanos: con grandes modelos de lenguaje, la clave PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Google enseña a los robots a servir a los humanos: la clave son los grandes modelos de lenguaje

Video El modelo de lenguaje de inteligencia artificial más grande de Google está ayudando a los robots a ser más flexibles en la comprensión e interpretación de los comandos humanos, según la última investigación del gigante web.

Por lo general, las máquinas responden mejor a demandas muy específicas: las solicitudes abiertas a veces pueden descartarlas y generar resultados que los usuarios no tenían en mente. Las personas aprenden a interactuar con los robots de forma rígida, como hacer preguntas de una manera particular para obtener la respuesta deseada.

Sin embargo, el último sistema de Google, denominado PaLM-SayCan, promete ser más inteligente. El dispositivo físico de Everyday Robots, una startup derivada de Google X, tiene cámaras en lugar de ojos en la cabeza y un brazo con una pinza metida detrás de su cuerpo largo y recto, que se asienta sobre un juego de ruedas.  

Puedes ver el robot en acción en el siguiente video:

Youtube Video

Preguntarle al robot, algo como "Acabo de hacer ejercicio, ¿puedes traerme un refrigerio saludable?" lo empujará a buscar una manzana. "PaLM-SayCan [es] un enfoque general e interpretable para aprovechar el conocimiento de los modelos de lenguaje que permite a un robot seguir instrucciones textuales de alto nivel para realizar tareas físicamente fundamentadas", científicos investigadores del equipo Brain de Google. explicado.

Google presentó su modelo de lenguaje más grande Palmera en abril de este año. PaLM se entrenó con datos extraídos de Internet, pero en lugar de arrojar respuestas de texto abiertas, el sistema se adaptó para generar una lista de instrucciones a seguir por el robot.

Decir "Derramé mi Coca-Cola en la mesa, ¿cómo la tirarías y me traerías algo para ayudar a limpiar?", incita a PaLM a comprender la pregunta y generar una lista de pasos que el robot puede seguir para completar la tarea, como pasar por encima. recoger la lata, tirarla a la papelera y sacar una esponja.

Sin embargo, los modelos de lenguaje extenso (LLM) como PaLM no entienden el significado de nada de lo que dicen. Por esta razón, los investigadores entrenaron un modelo separado utilizando el aprendizaje por refuerzo para convertir el lenguaje abstracto en representaciones y acciones visuales. De esa forma, el robot aprende a asociar la palabra “Coca-Cola” con la imagen de una lata de bebida gaseosa.

PaLM-SayCan también aprende las llamadas "funciones de rendimiento", un método que clasifica la posibilidad de completar una acción específica dados los objetos en su entorno. Es más probable que el robot recoja una esponja que una aspiradora, por ejemplo, si detecta una esponja pero ninguna aspiradora cerca de ella. 

“Nuestro método, SayCan, extrae y aprovecha el conocimiento dentro de los LLM en tareas basadas físicamente”, explicó el equipo en un trabajo de investigación. “El LLM (Say) proporciona una base de tareas para determinar acciones útiles para un objetivo de alto nivel y las funciones de asequibilidad aprendidas (Can) proporcionan una base mundial para determinar qué es posible ejecutar según el plan. Utilizamos el aprendizaje por refuerzo (RL, por sus siglas en inglés) como una forma de aprender funciones de valor condicionadas por el lenguaje que brindan posibilidades de lo que es posible en el mundo”.

Para evitar que el robot se desvíe de la tarea, está entrenado para seleccionar acciones solo de 101 instrucciones diferentes. Google lo entrenó para adaptarse a una cocina: PaLM-SayCan puede obtener bocadillos, bebidas y realizar tareas de limpieza simples. Los investigadores creen que los LLM son el primer paso para lograr que los robots realicen tareas más complejas de manera segura con instrucciones abstractas.

“Nuestros experimentos en una serie de tareas robóticas del mundo real demuestran la capacidad de planificar y completar instrucciones de lenguaje natural, abstractas y de largo plazo con una alta tasa de éxito. Creemos que la interpretabilidad de PaLM-SayCan permite una interacción segura del usuario en el mundo real con los robots”, concluyeron. ®

Sello de tiempo:

Mas de El registro