Visión por computadora usando conjuntos de datos sintéticos con etiquetas personalizadas de Amazon Rekognition y Dassault Systèmes 3DEXCITE

Reeditado por Platón

seguidores: 0

Esta es una publicación coescrita con Bernard Paques, CTO de Storm Reply, y Karl Herkt, estratega sénior de Dassault Systèmes 3DExcite.

Si bien la visión por computadora puede ser crucial para el mantenimiento industrial, la fabricación, la logística y las aplicaciones de consumo, su adopción está limitada por la creación manual de conjuntos de datos de capacitación. La creación de imágenes etiquetadas en un contexto industrial se realiza principalmente de forma manual, lo que crea capacidades de reconocimiento limitadas, no se escala y genera costos de mano de obra y demoras en la realización del valor comercial. Esto va en contra de la agilidad empresarial proporcionada por las iteraciones rápidas en el diseño, la ingeniería y la configuración del producto. Este proceso no se adapta a productos complejos como automóviles, aviones o edificios modernos, porque en esos escenarios cada proyecto de etiquetado es único (relacionado con productos únicos). Como resultado, la tecnología de visión por computadora no se puede aplicar fácilmente a proyectos únicos a gran escala sin un gran esfuerzo en la preparación de datos, lo que a veces limita la entrega de casos de uso.

En esta publicación, presentamos un enfoque novedoso en el que se crean sistemas de visión por computadora altamente especializados a partir de archivos de diseño y CAD. Comenzamos con la creación de gemelos digitales visualmente correctos y la generación de imágenes etiquetadas sintéticas. Luego empujamos estas imágenes a Etiquetas personalizadas de Amazon Rekognition para entrenar un modelo de detección de objetos personalizado. Al utilizar la propiedad intelectual existente con el software, estamos haciendo que la visión por computadora sea asequible y relevante para una variedad de contextos industriales.

La personalización de los sistemas de reconocimiento ayuda a impulsar los resultados comerciales

Los sistemas de visión por computadora especializados que se producen a partir de gemelos digitales tienen méritos específicos, que se pueden ilustrar en los siguientes casos de uso:

Trazabilidad para productos únicos – Airbus, Boeing y otros fabricantes de aeronaves asignan Números de serie del fabricante (MSN) a cada avión que producen. Este se gestiona a lo largo de todo el proceso productivo, con el fin de generar documentación de aeronavegabilidad y obtener permisos para volar. A gemelo digital (un modelo 3D virtual que representa un producto físico) se puede derivar de la configuración de cada MSN y genera un sistema de visión por computadora distribuido que rastrea el progreso de este MSN en las instalaciones industriales. El reconocimiento personalizado automatiza la transparencia otorgada a las aerolíneas y reemplaza la mayoría de los puntos de control realizados manualmente por las aerolíneas. La garantía de calidad automatizada en productos únicos se puede aplicar a aviones, automóviles, edificios e incluso producciones artesanales.
Realidad aumentada contextualizada – Los sistemas de visión por computadora de nivel profesional pueden abarcar paisajes limitados, pero con mayores capacidades de discriminación. Por ejemplo, en el mantenimiento industrial, encontrar un destornillador en un cuadro no sirve de nada; necesita identificar el modelo de destornillador o incluso su número de serie. En contextos tan limitados, los sistemas de reconocimiento personalizados superan a los sistemas de reconocimiento genéricos porque son más relevantes en sus hallazgos. Los sistemas de reconocimiento personalizados permiten bucles de retroalimentación precisos a través de realidad aumentada dedicada entregado en HMI o en dispositivos móviles.
Control de calidad de principio a fin - Con Ingeniería de sistemas, puede crear gemelos digitales de construcciones parciales y generar sistemas de visión por computadora que se adapten a las diversas fases de los procesos de fabricación y producción. Los controles visuales se pueden entrelazar con las estaciones de trabajo de fabricación, lo que permite la inspección de extremo a extremo y la detección temprana de defectos. Reconocimiento personalizado para la inspección de extremo a extremo previene efectivamente la cascada de defectos a las líneas de montaje. Reducir la tasa de rechazo y maximizar la producción es el objetivo final.
Inspección de calidad flexible – La inspección de calidad moderna tiene que adaptarse a las variaciones de diseño y la fabricación flexible. Las variaciones en el diseño provienen de circuitos de retroalimentación sobre el uso y el mantenimiento del producto. Fabricación flexible es una capacidad clave para una estrategia de fabricación bajo pedido y se alinea con el principio de optimización de costos de manufactura esbelta. Al integrar variaciones de diseño y opciones de configuración en gemelos digitales, el reconocimiento personalizado permite la adaptación dinámica de los sistemas de visión artificial a los planes de producción y variaciones de diseño.

Mejore la visión artificial con Dassault Systèmes 3DEXCITE con tecnología de Amazon Rekognition

Dentro de Dassault Systèmes, una empresa con gran experiencia en gemelos digitales que también es el segundo mayor editor de software europeo, el equipo de 3DEXCITE está explorando un camino diferente. Como explicó Karl Herkt, "¿Qué pasaría si un modelo neuronal entrenado a partir de imágenes sintéticas pudiera reconocer un producto físico?" 3DEXCITE ha resuelto este problema combinando su tecnología con la infraestructura de AWS, demostrando la viabilidad de este peculiar enfoque. También se conoce como detección de objetos entre dominios, donde el modelo de detección aprende de las imágenes etiquetadas del dominio de origen (imágenes sintéticas) y hace predicciones al dominio de destino sin etiquetar (componentes físicos).

Dassault Systèmes 3DEXCITE y el equipo de creación de prototipos de AWS se han unido para construir un sistema de demostración que reconoce partes de una caja de cambios industrial. Este prototipo se construyó en 3 semanas y el modelo entrenado logró una puntuación F98 del 1 %. El modelo de reconocimiento ha sido entrenado completamente a partir de una canalización de software, que no presenta imágenes de una pieza real. A partir del diseño y los archivos CAD de una caja de cambios industrial, 3DEXCITE ha creado gemelos digitales visualmente correctos. También generaron miles de imágenes etiquetadas sintéticas a partir de los gemelos digitales. Luego, usaron etiquetas personalizadas de Rekognition para entrenar un modelo neuronal altamente especializado a partir de estas imágenes y proporcionaron una API de reconocimiento relacionada. Crearon un sitio web para permitir el reconocimiento desde cualquier cámara web de una parte física de la caja de cambios.

Reconocimiento de amazonas es un servicio de inteligencia artificial que utiliza tecnología de aprendizaje profundo para permitirle extraer metadatos significativos de imágenes y videos, incluida la identificación de objetos, personas, texto, escenas, actividades y contenido potencialmente inapropiado, sin necesidad de experiencia en aprendizaje automático (ML). Amazon Rekognition también proporciona análisis faciales de alta precisión y capacidades de búsqueda facial que puede usar para detectar, analizar y comparar rostros para una amplia variedad de casos de uso de verificación de usuarios, conteo de personas y seguridad. Por último, con las etiquetas personalizadas de Rekognition, puede usar sus propios datos para crear modelos de detección de objetos y clasificación de imágenes.

La combinación de la tecnología de Dassault Systèmes para la generación de imágenes etiquetadas sintéticas con las etiquetas personalizadas de Rekognition para visión por computadora proporciona un flujo de trabajo escalable para los sistemas de reconocimiento. La facilidad de uso es un factor positivo significativo aquí porque agregar etiquetas personalizadas de Rekognition a la canalización general del software no es difícil: es tan simple como integrar una API en un flujo de trabajo. No es necesario ser un científico de ML; simplemente envíe fotogramas capturados a AWS y reciba un resultado que puede ingresar en una base de datos o mostrar en un navegador web.

Esto subraya aún más la gran mejora con respecto a la creación manual de conjuntos de datos de entrenamiento. Puede lograr mejores resultados más rápido y con mayor precisión, sin necesidad de horas de trabajo costosas e innecesarias. Con tantos casos de uso potenciales, la combinación de Dassault Systèmes y Rekognition Custom Labels tiene el potencial de proporcionar a las empresas de hoy un retorno de la inversión significativo e inmediato.

Resumen de la solución

El primer paso en esta solución es renderizar las imágenes que crean el conjunto de datos de entrenamiento. Esto lo hace la plataforma 3DEXCITE. Podemos generar los datos de etiquetado mediante programación mediante scripts. Verdad fundamental de Amazon SageMaker proporciona una herramienta de anotación para etiquetar fácilmente imágenes y videos para tareas de clasificación y detección de objetos. Para entrenar un modelo en Amazon Rekognition, el archivo de etiquetado debe cumplir con el formato Ground Truth. Estas etiquetas están en JSON e incluyen información como el tamaño de la imagen, las coordenadas del cuadro delimitador y los ID de clase.

Luego cargue las imágenes sintéticas y el manifiesto a Servicio de almacenamiento simple de Amazon (Amazon S3), donde las etiquetas personalizadas de Rekognition pueden importarlas como componentes del conjunto de datos de entrenamiento.

Para permitir que las etiquetas personalizadas de Rekognition prueben los modelos en comparación con un conjunto de imágenes de componentes reales, proporcionamos un conjunto de imágenes de las piezas reales del motor tomadas con una cámara y las subimos a Amazon S3 para usarlas como conjunto de datos de prueba.

Finalmente, Rekognition Custom Labels entrena el mejor modelo de detección de objetos utilizando el conjunto de datos de entrenamiento sintético y el conjunto de datos de prueba compuestos por imágenes de objetos reales, y crea el punto final con el modelo que podemos usar para ejecutar el reconocimiento de objetos en nuestra aplicación.

El siguiente diagrama ilustra el flujo de trabajo de nuestra solución:

Crear imágenes sintéticas

Las imágenes sintéticas se generan a partir de la plataforma 3Dexperience, que es un producto de Dassault Systèmes. Esta plataforma le permite crear y renderizar imágenes fotorrealistas basadas en el archivo CAD (diseño asistido por computadora) del objeto. Podemos generar miles de variantes en pocas horas cambiando las configuraciones de transformación de imágenes en la plataforma.

En este prototipo, seleccionamos las siguientes cinco piezas de caja de cambios visualmente distintas para la detección de objetos. Incluyen una carcasa de engranajes, una relación de engranajes, una cubierta de cojinete, una brida y un engranaje helicoidal.

Utilizamos los siguientes métodos de aumento de datos para aumentar la diversidad de imágenes y hacer que los datos sintéticos sean más fotorrealistas. Ayuda a reducir el error de generalización del modelo.

Zoom in / out – Este método acerca o aleja aleatoriamente el objeto en las imágenes.
Rotación – Este método gira el objeto en imágenes y parece que una cámara virtual toma fotografías aleatorias del objeto desde ángulos de 360 grados.
Mejorar el aspecto y la sensación del material. – Identificamos que, para algunas piezas de engranajes, el aspecto del material es menos realista en el renderizado inicial. Agregamos un efecto metálico para mejorar las imágenes sintéticas.
Usa diferentes configuraciones de iluminación – En este prototipo, simulamos dos condiciones de iluminación:
- Manejo de – Una distribución luminosa realista. Las sombras y los reflejos son posibles.
- creativo – Se pone una luz homogénea alrededor del objeto. Esto no es realista, pero no hay sombras ni reflejos.
Use una posición realista de cómo se ve el objeto en tiempo real – En la vida real, algunos objetos, como una brida y una cubierta de cojinete, generalmente se colocan en una superficie, y el modelo detecta los objetos en función de las facetas superior e inferior. Por lo tanto, eliminamos las imágenes de entrenamiento que muestran el borde delgado de las piezas, también llamado posición del borde, y aumentamos las imágenes de los objetos en una posición plana.
Agregar varios objetos en una imagen – En escenarios de la vida real, múltiples piezas de engranajes podrían aparecer en una sola vista, por lo que preparamos imágenes que contienen múltiples piezas de engranajes.

En la plataforma 3Dexperience, podemos aplicar diferentes fondos a las imágenes, lo que puede ayudar a aumentar aún más la diversidad de imágenes. Debido a limitaciones de tiempo, no implementamos esto en este prototipo.

Importar el conjunto de datos de entrenamiento sintético

En ML, los datos etiquetados significan que los datos de entrenamiento se anotan para mostrar el objetivo, que es la respuesta que desea que prediga su modelo de ML. Los datos etiquetados que pueden consumir las etiquetas personalizadas de Rekognition deben cumplir con los requisitos del archivo de manifiesto de Ground Truth. Un archivo de manifiesto está compuesto por una o más líneas JSON; cada línea contiene la información de una sola imagen. Para los datos de entrenamiento sintéticos, la información de etiquetado se puede generar mediante programación en función del archivo CAD y las configuraciones de transformación de imágenes que mencionamos anteriormente, lo que ahorra un esfuerzo manual significativo del trabajo de etiquetado. Para obtener más información sobre los requisitos para el etiquetado de formatos de archivo, consulte Crea un archivo de manifiesto y Localización de objetos en archivos de manifiesto. El siguiente es un ejemplo de etiquetado de imágenes:

{ "source-ref": "s3://<bucket>/<prefix>/multiple_objects.png", "bounding-box": { "image_size": [ { "width": 1024, "height": 1024, "depth": 3 } ], "annotations": [ { "class_id": 1, "top": 703, "left": 606, "width": 179, "height": 157 }, { "class_id": 4, "top": 233, "left": 533, "width": 118, "height": 139 }, { "class_id": 0, "top": 592, "left": 154, "width": 231, "height": 332 }, { "class_id": 3, "top": 143, "left": 129, "width": 268, "height": 250 } ] }, "bounding-box-metadata": { "objects": [ { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 } ], "class-map": { "0": "Gear_Housing", "1": "Gear_Ratio", "3": "Flange", "4": "Worm_Gear" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2021-06-18T11:56:01", "job-name": "3DEXCITE" }
}

Una vez que se prepara el archivo de manifiesto, lo cargamos en un depósito S3 y luego creamos un conjunto de datos de entrenamiento en Etiquetas personalizadas de Rekognition seleccionando la opción Importar imágenes etiquetadas por Amazon SageMaker Ground Truth.

Después de importar el archivo de manifiesto, podemos ver la información de etiquetado visualmente en la consola de Amazon Rekognition. Esto nos ayuda a confirmar que el archivo de manifiesto se genera e importa. Más específicamente, los cuadros delimitadores deben alinearse con los objetos en las imágenes y los ID de clase de los objetos deben asignarse correctamente.

Crear el conjunto de datos de prueba

Las imágenes de prueba se capturan en la vida real con un teléfono o una cámara desde diferentes ángulos y condiciones de iluminación, porque queremos validar la precisión del modelo, que entrenamos con datos sintéticos, frente a los escenarios de la vida real. Puede cargar estas imágenes de prueba en un depósito de S3 y luego importarlas como conjuntos de datos en las etiquetas personalizadas de Rekognition. O puede cargarlos directamente en conjuntos de datos desde su máquina local.

Las etiquetas personalizadas de Rekognition proporcionan una capacidad de anotación de imágenes integrada, que tiene una experiencia similar a Ground Truth. Puede comenzar el trabajo de etiquetado cuando se importan los datos de prueba. Para un caso de uso de detección de objetos, los cuadros delimitadores deben crearse estrechamente alrededor de los objetos de interés, lo que ayuda al modelo a aprender con precisión las regiones y los píxeles que pertenecen a los objetos de destino. Además, debe etiquetar cada instancia de los objetos de destino en todas las imágenes, incluso aquellas que están parcialmente fuera de la vista u ocluidas por otros objetos, de lo contrario, el modelo predice más falsos negativos.

Crear el modelo de detección de objetos entre dominios

Rekognition Custom Labels es un servicio completamente administrado; solo necesita proporcionar los conjuntos de datos de tren y prueba. Entrena un conjunto de modelos y elige el de mejor rendimiento en función de los datos proporcionados. En este prototipo, preparamos los conjuntos de datos de entrenamiento sintéticos de manera iterativa al experimentar con diferentes combinaciones de los métodos de aumento de imágenes que mencionamos anteriormente. Se crea un modelo para cada conjunto de datos de entrenamiento en las etiquetas personalizadas de Rekognition, lo que nos permite comparar y encontrar el conjunto de datos de entrenamiento óptimo para este caso de uso específico. Cada modelo tiene la cantidad mínima de imágenes de entrenamiento, contiene una buena diversidad de imágenes y proporciona la mejor precisión del modelo. Después de 15 iteraciones, logramos una puntuación F1 del 98 % de precisión del modelo utilizando alrededor de 10,000 2,000 imágenes de entrenamiento sintéticas, lo que representa un promedio de XNUMX imágenes por objeto.

Resultados de la inferencia del modelo

La siguiente imagen muestra el uso del modelo de Amazon Rekognition en una aplicación de inferencia en tiempo real. Todos los componentes se detectan correctamente con alta confianza.

Visión artificial utilizando conjuntos de datos sintéticos con Amazon Rekognition Custom Labels y Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Conclusión

En esta publicación, demostramos cómo entrenar un modelo de visión por computadora en imágenes puramente sintéticas y cómo el modelo aún puede reconocer de manera confiable objetos del mundo real. Esto ahorra un esfuerzo manual significativo al recopilar y etiquetar los datos de entrenamiento. Con esta exploración, Dassault Systèmes está ampliando el valor comercial de los modelos de productos 3D creados por diseñadores e ingenieros, porque ahora puede usar datos CAD, CAE y PLM en sistemas de reconocimiento de imágenes en el mundo físico.

Para obtener más información sobre las funciones clave y los casos de uso de las etiquetas personalizadas de Rekognition, consulte Etiquetas personalizadas de Amazon Rekognition. Si sus imágenes no están etiquetadas de forma nativa con Ground Truth, como fue el caso de este proyecto, consulte Crear un archivo de manifiesto para convertir sus datos de etiquetado al formato que pueden consumir las etiquetas personalizadas de Rekognition.

Acerca de los autores

Woody Borraccino Actualmente es arquitecto de soluciones especialista en aprendizaje automático sénior en AWS. Con sede en Milán, Italia, Woody trabajó en el desarrollo de software antes de unirse a AWS en 2015, donde su pasión por las tecnologías de visión artificial y computación espacial (AR/VR/XR) es su crecimiento. Su pasión ahora se centra en la innovación del metaverso. Síguelo en LinkedIn.

Ying Hou, PhD, es arquitecto de creación de prototipos de aprendizaje automático en AWS. Sus principales áreas de interés son Deep Learning, Computer Vision, NLP y predicción de datos de series temporales. En su tiempo libre, le gusta leer novelas y caminar por los parques nacionales del Reino Unido.

Bernardo Paques Actualmente es CTO de Storm Reply enfocada en soluciones industriales implementadas en AWS. Con sede en París, Francia, Bernard trabajó anteriormente como arquitecto principal de soluciones y consultor principal en AWS. Sus contribuciones a la modernización de la empresa abarcan AWS para la industria, AWS CDK, y ahora se derivan de TI verde y sistemas basados en voz. Síguelo en Twitter.

Karl Herkt Actualmente es estratega sénior en Dassault Systèmes 3DExcite. Con sede en Munich, Alemania, crea implementaciones innovadoras de visión por computadora que brindan resultados tangibles. Síguelo en Etiqueta LinkedIn.

Sello de tiempo: Marzo 14, 2022

Mas de Aprendizaje automático de AWS

Obtenga información sobre el comportamiento de búsqueda de su usuario de Amazon Kendra utilizando una pila sin servidor basada en ML | Servicios web de Amazon

Clúster de origen:

Aprendizaje automático de AWS

Nodo de origen: 1840291

Sello de tiempo: 25 de mayo de 2023

Medir el impacto empresarial de las recomendaciones de Amazon Personalize

Aprendizaje automático de AWS

Nodo de origen: 1820243

Sello de tiempo: 30 de marzo, 2023

Visión artificial utilizando conjuntos de datos sintéticos con Amazon Rekognition Custom Labels y Dassault Systèmes 3DEXCITE

Reeditado por Platón

La personalización de los sistemas de reconocimiento ayuda a impulsar los resultados comerciales

Mejore la visión artificial con Dassault Systèmes 3DEXCITE con tecnología de Amazon Rekognition

Resumen de la solución

Crear imágenes sintéticas

Importar el conjunto de datos de entrenamiento sintético

Crear el conjunto de datos de prueba

Crear el modelo de detección de objetos entre dominios

Resultados de la inferencia del modelo

Conclusión

Acerca de los autores

Mas de Aprendizaje automático de AWS

Medir el impacto empresarial de las recomendaciones de Amazon Personalize

Las empresas emergentes de AWS Accelerators utilizan IA y ML para resolver los desafíos de misión crítica de los clientes

Proteja las URL prefirmadas de Amazon SageMaker Studio Parte 2: API privada con autenticación JWT

Acelere el tiempo de obtención de información empresarial con la conexión directa de Amazon SageMaker Data Wrangler a Snowflake | Servicios web de Amazon

Cree una segmentación contextual basada en taxonomía con AWS Media Intelligence y Hugging Face BERT

Recomendaciones de potencia y búsqueda usando un gráfico de conocimiento de IMDb - Parte 2

Mejore la investigación de alto valor con Hugging Face y los puntos finales de inferencia asíncrona de Amazon SageMaker

Amazon SageMaker Automatic Model Tuning ahora es compatible con SageMaker Training Instance Fallbacks

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta