Consejos para mejorar su modelo de etiquetas personalizadas de Amazon Rekognition

Reeditado por Platón

seguidores: 0

En esta publicación, discutimos las mejores prácticas para mejorar el rendimiento de sus modelos de visión por computadora usando Etiquetas personalizadas de Amazon Rekognition. Rekognition Custom Labels es un servicio completamente administrado para crear modelos de visión por computadora personalizados para casos de uso de clasificación de imágenes y detección de objetos. Las etiquetas personalizadas de Rekognition se basan en modelos preentrenados en Reconocimiento de amazonas, que ya están capacitados en decenas de millones de imágenes en muchas categorías. En lugar de miles de imágenes, puede comenzar con un pequeño conjunto de imágenes de entrenamiento (algunos cientos o menos) que son específicas para su caso de uso. Rekognition Custom Labels abstrae la complejidad involucrada en la construcción de un modelo personalizado. Inspecciona automáticamente los datos de entrenamiento, selecciona los algoritmos de ML correctos, selecciona el tipo de instancia, entrena múltiples modelos candidatos con varias configuraciones de hiperparámetros y genera el modelo mejor entrenado. Rekognition Custom Labels también proporciona una interfaz fácil de usar desde el Consola de administración de AWS para administrar todo el flujo de trabajo de ML, incluido el etiquetado de imágenes, la capacitación del modelo, la implementación del modelo y la visualización de los resultados de las pruebas.

Hay momentos en que la precisión de un modelo no es la mejor y no tiene muchas opciones para ajustar los parámetros de configuración del modelo. Detrás de escena hay múltiples factores que juegan un papel clave para construir un modelo de alto rendimiento, como los siguientes:

ángulo de imagen
Resolucion de imagen
Relación de aspecto de la imagen
Exposición a la luz
Claridad y viveza de fondo.
Contraste de color
Tamaño de datos de muestra

Los siguientes son los pasos generales que se deben seguir para entrenar un modelo de etiquetas personalizadas Rekognition de grado de producción:

Revisar taxonomía – Esto define la lista de atributos/elementos que desea identificar en una imagen.
Recopilar datos relevantes – Este es el paso más importante, en el que debe recopilar imágenes relevantes que deberían parecerse a lo que vería en un entorno de producción. Esto podría involucrar imágenes de objetos con diferentes fondos, iluminación o ángulos de cámara. A continuación, crea conjuntos de datos de entrenamiento y prueba dividiendo las imágenes recopiladas. Solo debe incluir imágenes del mundo real como parte del conjunto de datos de prueba y no debe incluir imágenes generadas sintéticamente. Las anotaciones de los datos que recopiló son cruciales para el rendimiento del modelo. Asegúrese de que los cuadros delimitadores estén ajustados alrededor de los objetos y que las etiquetas sean precisas. Discutimos algunos consejos que puede considerar al crear un conjunto de datos apropiado más adelante en esta publicación.
Revisar métricas de entrenamiento – Utilice los conjuntos de datos anteriores para entrenar un modelo y revisar las métricas de entrenamiento para la puntuación, la precisión y la recuperación de F1. Discutiremos en detalle cómo analizar las métricas de entrenamiento más adelante en esta publicación.
Evaluar el modelo entrenado – Utilice un conjunto de imágenes no vistas (no utilizadas para entrenar el modelo) con etiquetas conocidas para evaluar las predicciones. Este paso siempre debe realizarse para asegurarse de que el modelo funciona como se espera en un entorno de producción.
Reentrenamiento (opcional) – En general, entrenar cualquier modelo de aprendizaje automático es un proceso iterativo para lograr los resultados deseados, un modelo de visión por computadora no es diferente. Revise los resultados en el Paso 4 para ver si es necesario agregar más imágenes a los datos de entrenamiento y repita los Pasos 3 a 5 anteriores.

En esta publicación, nos enfocamos en las mejores prácticas para recopilar datos relevantes (Paso 2) y evaluar sus métricas entrenadas (Paso 3) para mejorar el rendimiento de su modelo.

Recopilar datos relevantes

Esta es la etapa más crítica del entrenamiento de un modelo de etiquetas personalizadas Rekognition de nivel de producción. Específicamente, hay dos conjuntos de datos: entrenamiento y prueba. Los datos de entrenamiento se usan para entrenar el modelo, y usted debe dedicar el esfuerzo a crear un conjunto de entrenamiento adecuado. Los modelos de etiquetas personalizadas de Rekognition están optimizados para Puntuación F1 en el conjunto de datos de prueba para seleccionar el modelo más preciso para su proyecto. Por lo tanto, es esencial seleccionar un conjunto de datos de prueba que se asemeje al mundo real.

Numero de imagenes

Recomendamos tener un mínimo de 15-20 imágenes por etiqueta. Tener más imágenes con más variaciones que reflejen su caso de uso mejorará el rendimiento del modelo.

Conjunto de datos equilibrado

Idealmente, cada etiqueta en el conjunto de datos debería tener una cantidad similar de muestras. No debería haber una gran disparidad en la cantidad de imágenes por etiqueta. Por ejemplo, un conjunto de datos en el que la mayor cantidad de imágenes para una etiqueta es 1,000 frente a 50 imágenes para otra etiqueta se parece a un conjunto de datos desequilibrado. Recomendamos evitar escenarios con una relación desequilibrada de 1:50 entre la etiqueta con la menor cantidad de imágenes frente a la etiqueta con la mayor cantidad de imágenes.

Diferentes tipos de imágenes

Incluya imágenes en el conjunto de datos de prueba y entrenamiento que se asemeje a lo que usará en el mundo real. Por ejemplo, si desea clasificar imágenes de salas de estar frente a dormitorios, debe incluir imágenes vacías y amuebladas de ambas habitaciones.

La siguiente es una imagen de ejemplo de una sala de estar amueblada.

Por el contrario, el siguiente es un ejemplo de una sala de estar sin amueblar.

La siguiente es una imagen de ejemplo de un dormitorio amueblado.

La siguiente es una imagen de ejemplo de un dormitorio sin amueblar.

Diversos fondos

Incluye imágenes con diferentes fondos. Las imágenes con contexto natural pueden proporcionar mejores resultados que un fondo simple.

La siguiente es una imagen de ejemplo del patio delantero de una casa.

La siguiente es una imagen de ejemplo del patio delantero de una casa diferente con un fondo diferente.

Condiciones de iluminación variables

Incluya imágenes con iluminación variable para que cubra las diferentes condiciones de iluminación que se producen durante la inferencia (por ejemplo, con y sin flash). También puede incluir imágenes con saturación, tono y brillo variables.

La siguiente es una imagen de ejemplo de una flor bajo luz normal.

En contraste, la siguiente imagen es de la misma flor bajo una luz brillante.

Ángulos variables

Incluya imágenes tomadas desde varios ángulos del objeto. Esto ayuda al modelo a aprender diferentes características de los objetos.

Las siguientes imágenes son del mismo dormitorio desde diferentes ángulos.

Sugerencias para mejorar su modelo de etiquetas personalizadas de Amazon Rekognition PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Puede haber ocasiones en las que no sea posible adquirir imágenes de diferentes tipos. En esos escenarios, se pueden generar imágenes sintéticas como parte del conjunto de datos de entrenamiento. Para obtener más información acerca de las técnicas comunes de aumento de imágenes, consulte Aumento de datos.

Agregar etiquetas negativas

Para la clasificación de imágenes, agregar etiquetas negativas puede ayudar a aumentar la precisión del modelo. Por ejemplo, puede agregar una etiqueta negativa, que no coincide con ninguna de las etiquetas requeridas. La siguiente imagen representa las diferentes etiquetas utilizadas para identificar las flores completamente desarrolladas.

Agregar la etiqueta negativa not_fully_grown ayuda al modelo a aprender características que no son parte del fully_grown etiqueta.

Manejar la confusión de etiquetas

Analice los resultados en el conjunto de datos de prueba para reconocer cualquier patrón que se pierda en el conjunto de datos de entrenamiento o prueba. A veces es fácil detectar esos patrones examinando visualmente las imágenes. En la siguiente imagen, el modelo está luchando por resolver entre una etiqueta de patio trasero o patio.

En este escenario, agregar más imágenes a estas etiquetas en el conjunto de datos y también redefinir las etiquetas para que cada etiqueta sea distinta puede ayudar a aumentar la precisión del modelo.

Aumento de datos

Dentro de las etiquetas personalizadas de Rekognition, realizamos varios aumentos de datos para el entrenamiento de modelos, incluido el recorte aleatorio de la imagen, la fluctuación de color, los ruidos gaussianos aleatorios y más. Según sus casos de uso específicos, también podría ser beneficioso agregar aumentos de datos más explícitos a sus datos de entrenamiento. Por ejemplo, si está interesado en detectar animales en imágenes en color y en blanco y negro, podría obtener una mayor precisión agregando versiones en blanco y negro y en color de las mismas imágenes a los datos de entrenamiento.

No recomendamos aumentos en los datos de prueba a menos que los aumentos reflejen sus casos de uso de producción.

Revisar métricas de entrenamiento

La puntuación F1, la precisión, la recuperación y el umbral supuesto son los métrica que se generan como resultado del entrenamiento de un modelo mediante etiquetas personalizadas de Rekognition. Los modelos están optimizados para obtener la mejor puntuación de F1 en función del conjunto de datos de prueba que se proporciona. El umbral supuesto también se genera en función del conjunto de datos de prueba. Puede ajustar el umbral en función de los requisitos de su negocio en términos de precisión o recuperación.

Debido a que los umbrales asumidos se establecen en el conjunto de datos de prueba, un conjunto de prueba apropiado debe reflejar el caso de uso de producción del mundo real. Si el conjunto de datos de prueba no es representativo del caso de uso, es posible que vea puntajes F1 artificialmente altos y un rendimiento deficiente del modelo en sus imágenes del mundo real.

Estas métricas son útiles cuando se realiza una evaluación inicial del modelo. Para un sistema de nivel de producción, recomendamos evaluar el modelo con un conjunto de datos externo (500–1,000 imágenes no vistas) representativo del mundo real. Esto ayuda a evaluar cómo se desempeñaría el modelo en un sistema de producción y también a identificar cualquier patrón faltante y corregirlo volviendo a entrenar el modelo. Si ve una discrepancia entre los puntajes de F1 y la evaluación externa, le sugerimos que examine si los datos de su prueba reflejan el caso de uso del mundo real.

Conclusión

En esta publicación, lo guiamos a través de las mejores prácticas para mejorar los modelos de etiquetas personalizadas de Rekognition. Te animamos a conocer más sobre Etiquetas personalizadas de reconocimiento y pruébelo para los conjuntos de datos específicos de su negocio.

Sobre los autores

Amit Gupta es arquitecto sénior de soluciones de servicios de IA en AWS. Le apasiona brindar a los clientes soluciones de aprendizaje automático bien diseñadas a escala.

Yogesh Chaturvedi es Arquitecto de Soluciones en AWS con un enfoque en visión artificial. Trabaja con los clientes para abordar sus desafíos comerciales utilizando tecnologías en la nube. Fuera del trabajo, le gusta caminar, viajar y ver deportes.

hao yang es científico aplicado sénior en el equipo de etiquetas personalizadas de Amazon Rekognition. Sus principales intereses de investigación son la detección de objetos y el aprendizaje con anotaciones limitadas. Fuera del trabajo, Hao disfruta viendo películas, fotografía y actividades al aire libre.

misterio pashmeen es el gerente sénior de productos de etiquetas personalizadas de Amazon Rekognition. Fuera del trabajo, Pashmeen disfruta de caminatas aventureras, fotografía y pasar tiempo con su familia.

Sello de tiempo: 9 de septiembre de 202210 de septiembre de 2022

Mas de Aprendizaje automático de AWS

Cómo Mendix está transformando las experiencias de los clientes con IA generativa y Amazon Bedrock | Servicios web de Amazon

Aprendizaje automático de AWS

Nodo de origen: 1913698

Sello de tiempo: Nov 15, 2023

Escalar LLM con PyTorch 2.0 FSDP en Amazon EKS - Parte 2 | Servicios web de Amazon

Clúster de origen:

Aprendizaje automático de AWS

Nodo de origen: 1960833

Sello de tiempo: Apr 1, 2024

Consejos para mejorar su modelo de etiquetas personalizadas de Amazon Rekognition

Reeditado por Platón

Recopilar datos relevantes

Numero de imagenes

Conjunto de datos equilibrado

Diferentes tipos de imágenes

Diversos fondos

Condiciones de iluminación variables

Ángulos variables

Agregar etiquetas negativas

Manejar la confusión de etiquetas

Aumento de datos

Revisar métricas de entrenamiento

Conclusión

Sobre los autores

Mas de Aprendizaje automático de AWS

Transferir aprendizaje para modelos de clasificación de imágenes de TensorFlow en Amazon SageMaker

Vuelva a entrenar automáticamente las redes neuronales con Renate

Reduzca el desperdicio de alimentos para mejorar la sostenibilidad y los resultados financieros en el comercio minorista con Amazon Forecast

Prepare datos de Amazon EMR para el aprendizaje automático con Amazon SageMaker Data Wrangler

Ejecute modelos ML de conjunto en Amazon SageMaker

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta