Los datos sintéticos pueden ofrecer mejoras reales en el rendimiento del aprendizaje automático

Reeditado por Platón

seguidores: 0

El reconocimiento de acciones ha mejorado drásticamente con conjuntos de datos de vídeo a gran escala. Sin embargo, estos conjuntos de datos van acompañados de cuestiones relacionadas con el costo de curación, la privacidad, la ética, el sesgo y los derechos de autor. Entonces, MIT Los científicos están recurriendo a conjuntos de datos sintéticos.

Estos se crean mediante una computadora que utiliza modelos 3D de escenas, objetos y humanos para producir rápidamente muchos clips variados de acciones específicas, sin los posibles problemas de derechos de autor o preocupaciones éticas que conllevan los datos reales.

¿Los datos sintéticos son tan buenos como los datos reales?

Un equipo de científicos del MIT, el MIT-IBM Watson AI Lab y la Universidad de Boston intentaron responder a esta pregunta. Crearon un conjunto de datos sintéticos de 150,000 videoclips que representaban una variedad de acciones humanas y entrenaron aprendizaje automático modelos que utilizan este conjunto de datos. Luego mostraron seis conjuntos de datos de películas tomadas del mundo real a estos modelos para probar qué tan bien podían captar las acciones en esas grabaciones.

Los científicos descubrieron que los modelos entrenados sintéticamente funcionaron incluso mejor que los modelos entrenados con datos reales para videos que tienen menos objetos de fondo.

Este descubrimiento puede ayudar a los científicos a utilizar conjuntos de datos sintéticos para ayudar a los modelos a realizar tareas reales con mayor precisión. Para reducir algunas de las preocupaciones éticas, de privacidad y de derechos de autor asociadas con el uso de conjuntos de datos reales, también puede ayudar a los investigadores a determinar qué aplicaciones de aprendizaje automático son más adecuadas para el entrenamiento con datos sintéticos.

Rogerio Feris, científico principal y director del Laboratorio de IA Watson del MIT-IBM, dijo: “El objetivo final de nuestra investigación es reemplazar el entrenamiento previo con datos reales por un entrenamiento previo con datos sintéticos. Crear una acción con datos sintéticos tiene un costo, pero una vez hecho esto, puedes generar imágenes o videos ilimitados cambiando la pose, la iluminación, etc. Esa es la belleza de los datos sintéticos”.

Los científicos comenzaron compilando un nuevo preentrenamiento y transferencia de acciones sintéticas (SynAPT), utilizando tres conjuntos de datos disponibles públicamente de videoclips sintéticos que capturaban acciones humanas. Contiene casi 150 categorías de acción, con 1,000 videoclips por categoría.

Se entrenaron previamente tres modelos de aprendizaje automático para reconocer las acciones que utilizan el conjunto de datos una vez creado. El preentrenamiento es el proceso de enseñarle a un modelo una tarea antes de enseñarle otra. El modelo previamente entrenado puede utilizar los parámetros que ya ha aprendido para ayudarle a aprender una nueva tarea con un nuevo conjunto de datos de forma más rápida y eficiente. Esto sigue el modelo de cómo aprende la gente, que consiste en reutilizar información pasada cuando sabemos algo nuevo. El modelo previamente entrenado se probó utilizando seis conjuntos de datos de videoclips reales, cada uno de los cuales captura clases de acciones diferentes a las de los datos de entrenamiento.

Para los científicos fue sorprendente ver que los tres modelos sintéticos superaron a los modelos entrenados con videoclips reales en cuatro de los seis conjuntos de datos. Su precisión fue mayor para los conjuntos de datos que contenían videoclips con "bajo sesgo escena-objeto". Significa que el modelo no puede reconocer la acción mirando el fondo u otros objetos de la escena; debe centrarse en la acción misma.

Feris dijo, "En vídeos con un bajo sesgo escena-objeto, la dinámica temporal de las acciones es más importante que la apariencia de los objetos o el fondo, y eso parece quedar bien capturado con datos sintéticos".

“El alto sesgo escena-objeto puede actuar como un obstáculo. El modelo podría clasificar erróneamente una acción al observar un objeto en lugar de la acción en sí. Puede confundir el modelo”.

El coautor Rameswar Panda, miembro del personal de investigación del Laboratorio de IA Watson del MIT-IBM, dijo: "A partir de estos resultados, los investigadores quieren incluir más clases de acción y plataformas de vídeo sintético adicionales en trabajos futuros, y eventualmente crear un catálogo de modelos que hayan sido entrenados previamente utilizando datos sintéticos".

"Queremos construir modelos que tengan un rendimiento muy similar o incluso mejor que los modelos existentes en la literatura, pero sin estar sujetos a ninguno de esos sesgos o preocupaciones de seguridad".

Sooyoung Jin, coautor y postdoctorado de CSAIL, dijo: “También quieren combinar su trabajo con investigaciones que busquen generar vídeos sintéticos más precisos y realistas, lo que podría mejorar el rendimiento de los modelos”.

“Utilizamos conjuntos de datos sintéticos para evitar problemas de privacidad o sesgos contextuales o sociales, pero ¿qué aprende el modelo? ¿Aprende algo que sea imparcial?

El coautor Samarth Mishra, estudiante de posgrado de la Universidad de Boston (BU), dijo, “A pesar de que obtener datos sintéticos bien anotados tiene un costo menor, actualmente no tenemos un conjunto de datos con la escala para rivalizar con los conjuntos de datos anotados más grandes con videos reales. Al discutir los diferentes costos y preocupaciones con videos reales y mostrar la eficacia de los datos sintéticos, esperamos motivar los esfuerzos en esta dirección”.

Referencia de la revista: