Etiquetado de máscara de segmentación con pocos clics en Amazon SageMaker Ground Truth Plus

Etiquetado de máscara de segmentación con pocos clics en Amazon SageMaker Ground Truth Plus

Amazon SageMaker Tierra Verdad Plus es un servicio de etiquetado de datos administrado que facilita el etiquetado de datos para aplicaciones de aprendizaje automático (ML). Un caso de uso común es la segmentación semántica, que es una técnica de ML de visión por computadora que implica asignar etiquetas de clase a píxeles individuales en una imagen. Por ejemplo, en cuadros de video capturados por un vehículo en movimiento, las etiquetas de clase pueden incluir vehículos, peatones, caminos, señales de tránsito, edificios o fondos. Proporciona una comprensión de alta precisión de las ubicaciones de diferentes objetos en la imagen y, a menudo, se usa para construir sistemas de percepción para vehículos autónomos o robótica. Para construir un modelo ML para la segmentación semántica, primero es necesario etiquetar un gran volumen de datos a nivel de píxel. Este proceso de etiquetado es complejo. Requiere etiquetadores expertos y mucho tiempo: ¡algunas imágenes pueden tardar hasta 2 horas o más en etiquetarse con precisión!

En 2019, lanzamos una herramienta de etiquetado interactivo impulsada por ML llamada Auto-segment for Ground Truth que le permite crear rápida y fácilmente máscaras de segmentación de alta calidad. Para más información, ver Herramienta de segmentación automática. Esta función funciona al permitirle hacer clic en los "puntos extremos" superior, izquierdo, inferior y derecho de un objeto. Un modelo ML que se ejecuta en segundo plano incorporará esta entrada del usuario y devolverá una máscara de segmentación de alta calidad que se representa inmediatamente en la herramienta de etiquetado Ground Truth. Sin embargo, esta característica solo le permite colocar cuatro clics. En ciertos casos, la máscara generada por ML puede pasar inadvertidamente por alto ciertas partes de una imagen, como alrededor del límite del objeto donde los bordes son borrosos o donde el color, la saturación o las sombras se mezclan con el entorno.

Clic en puntos extremos con un número flexible de clics correctivos

Ahora hemos mejorado la herramienta para permitir clics adicionales en los puntos límite, lo que proporciona información en tiempo real al modelo de ML. Esto le permite crear una máscara de segmentación más precisa. En el siguiente ejemplo, el resultado de la segmentación inicial no es preciso debido a los límites débiles cerca de la sombra. Es importante destacar que esta herramienta funciona en un modo que permite comentarios en tiempo real, no requiere que especifique todos los puntos a la vez. En cambio, primero puede hacer cuatro clics del mouse, lo que activará el modelo ML para producir una máscara de segmentación. Luego, puede inspeccionar esta máscara, localizar posibles imprecisiones y, posteriormente, hacer clic adicionales según corresponda para "empujar" el modelo hacia el resultado correcto.

Etiquetado de máscaras de segmentación con pocos clics en Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Nuestra herramienta de etiquetado anterior le permitía colocar exactamente cuatro clics del mouse (puntos rojos). El resultado de la segmentación inicial (área roja sombreada) no es preciso debido a los límites débiles cerca de la sombra (parte inferior izquierda de la máscara roja).

Con nuestra herramienta de etiquetado mejorada, el usuario nuevamente primero hace cuatro clics con el mouse (puntos rojos en la figura superior). Luego tiene la oportunidad de inspeccionar la máscara de segmentación resultante (área sombreada en rojo en la figura superior). Puede hacer clics adicionales con el mouse (puntos verdes en la figura inferior) para que el modelo refine la máscara (área sombreada en rojo en la figura inferior).

Etiquetado de máscaras de segmentación con pocos clics en Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

En comparación con la versión original de la herramienta, la versión mejorada proporciona un resultado mejorado cuando los objetos son deformables, no convexos y varían en forma y apariencia.

Simulamos el rendimiento de esta herramienta mejorada en datos de muestra ejecutando primero la herramienta de referencia (con solo cuatro clics extremos) para generar una máscara de segmentación y evaluamos su Intersección media sobre unión (mIoU), una medida común de precisión para las máscaras de segmentación. Luego aplicamos clics correctivos simulados y evaluamos la mejora en mIoU después de cada clic simulado. La siguiente tabla resume estos resultados. La primera fila muestra el mIoU y la segunda fila muestra el error (que viene dado por 100% menos el mIoU). ¡Con solo cinco clics adicionales del mouse, podemos reducir el error en un 9% para esta tarea!

. . Número de clics correctivos .
. Base 1 2 3 4 5
MIOU 72.72 76.56 77.62 78.89 80.57 81.73
Error 27% 23% 22% 21% 19% 18%

Integración con Ground Truth y perfiles de rendimiento

Para integrar este modelo con Ground Truth, seguimos un patrón de arquitectura estándar como se muestra en el siguiente diagrama. Primero, construimos el modelo ML en una imagen de Docker y lo implementamos en Registro de contenedores elásticos de Amazon (Amazon ECR), un registro de contenedores de Docker totalmente administrado que facilita el almacenamiento, el intercambio y la implementación de imágenes de contenedores. Utilizando el Kit de herramientas de inferencia de SageMaker en la construcción de la imagen de Docker nos permite usar fácilmente las mejores prácticas para el servicio de modelos y lograr una inferencia de baja latencia. Entonces creamos un Amazon SageMaker punto final en tiempo real para alojar el modelo. Introducimos un AWS Lambda funcione como un proxy frente al extremo de SageMaker para ofrecer varios tipos de transformación de datos. Finalmente, usamos Puerta de enlace API de Amazon como una forma de integración con nuestro front-end, la aplicación de etiquetado Ground Truth, para proporcionar una autenticación segura a nuestro back-end.

Etiquetado de máscaras de segmentación con pocos clics en Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

Puede seguir este patrón genérico para sus propios casos de uso de herramientas de aprendizaje automático especialmente diseñadas e integrarlas con las IU de tareas de Ground Truth personalizadas. Para obtener más información, consulte Cree un flujo de trabajo de etiquetado de datos personalizado con Amazon SageMaker Ground Truth.

Después de aprovisionar esta arquitectura e implementar nuestro modelo usando el Kit de desarrollo en la nube de AWS (AWS CDK), evaluamos las características de latencia de nuestro modelo con diferentes tipos de instancias de SageMaker. Esto es muy sencillo de hacer porque usamos puntos finales de inferencia en tiempo real de SageMaker para servir nuestro modelo. Los terminales de inferencia en tiempo real de SageMaker se integran a la perfección con Reloj en la nube de Amazon y emitir métricas como la utilización de la memoria y la latencia del modelo sin necesidad de configuración (ver Métricas de invocación de puntos finales de SageMaker para más detalles).

En la siguiente figura, mostramos la métrica ModelLatency emitida de forma nativa por los extremos de inferencia en tiempo real de SageMaker. Podemos usar fácilmente varias funciones matemáticas métricas en CloudWatch para mostrar los percentiles de latencia, como la latencia p50 o p90.

Etiquetado de máscaras de segmentación con pocos clics en Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

La siguiente tabla resume estos resultados para nuestra herramienta de clic extremo mejorada para la segmentación semántica para tres tipos de instancias: p2.xlarge, p3.2xlarge y g4dn.xlarge. Aunque la instancia p3.2xlarge proporciona la latencia más baja, la instancia g4dn.xlarge proporciona la mejor relación costo-rendimiento. La instancia g4dn.xlarge es solo un 8 % más lenta (35 milisegundos) que la instancia p3.2xlarge, pero es un 81 % menos costosa por hora que la p3.2xlarge (ver Precios de Amazon SageMaker para obtener más detalles sobre los tipos de instancias y precios de SageMaker).

Tipo de instancia de SageMaker p90 Latencia (ms)
1 p2.xgrande 751
2 p3.2xgrande 424
3 g4dn.xgrande 459

Conclusión

En esta publicación, presentamos una extensión de la función de segmento automático de Ground Truth para tareas de anotación de segmentación semántica. Mientras que la versión original de la herramienta le permite hacer exactamente cuatro clics del mouse, lo que activa un modelo para proporcionar una máscara de segmentación de alta calidad, la extensión le permite hacer clics correctivos y, por lo tanto, actualizar y guiar el modelo ML para hacer mejores predicciones. También presentamos un patrón arquitectónico básico que puede usar para implementar e integrar herramientas interactivas en las IU de etiquetado de Ground Truth. Por último, resumimos la latencia del modelo y mostramos cómo el uso de puntos finales de inferencia en tiempo real de SageMaker facilita la supervisión del rendimiento del modelo.

Para obtener más información sobre cómo esta herramienta puede reducir los costos de etiquetado y aumentar la precisión, visite Etiquetado de datos de Amazon SageMaker para iniciar una consulta hoy.


Sobre los autores

Etiquetado de máscaras de segmentación con pocos clics en Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.jonathan dólar es ingeniero de software en Amazon Web Services y trabaja en la intersección del aprendizaje automático y los sistemas distribuidos. Su trabajo implica la producción de modelos de aprendizaje automático y el desarrollo de aplicaciones de software novedosas impulsadas por el aprendizaje automático para poner las capacidades más recientes en manos de los clientes.

Etiquetado de máscaras de segmentación con pocos clics en Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.Li Erran Li es el gerente de ciencias aplicadas en humain-in-the-loop services, AWS AI, Amazon. Sus intereses de investigación son el aprendizaje profundo en 3D y el aprendizaje de la representación de la visión y el lenguaje. Anteriormente, fue científico sénior en Alexa AI, jefe de aprendizaje automático en Scale AI y científico jefe en Pony.ai. Antes de eso, estuvo con el equipo de percepción de Uber ATG y el equipo de plataforma de aprendizaje automático de Uber trabajando en aprendizaje automático para conducción autónoma, sistemas de aprendizaje automático e iniciativas estratégicas de IA. Comenzó su carrera en Bell Labs y fue profesor adjunto en la Universidad de Columbia. Co-enseñó tutoriales en ICML'17 e ICCV'19, y coorganizó varios talleres en NeurIPS, ICML, CVPR, ICCV sobre aprendizaje automático para conducción autónoma, visión 3D y robótica, sistemas de aprendizaje automático y aprendizaje automático adversario. Tiene un doctorado en informática en la Universidad de Cornell. Es miembro de ACM y miembro de IEEE.

Sello de tiempo:

Mas de Aprendizaje automático de AWS