Étiquetage de masque de segmentation en quelques clics dans Amazon SageMaker Ground Truth Plus

Étiquetage de masque de segmentation en quelques clics dans Amazon SageMaker Ground Truth Plus

Amazon SageMaker Vérité au sol Plus est un service d'étiquetage de données géré qui facilite l'étiquetage des données pour les applications d'apprentissage automatique (ML). Un cas d'utilisation courant est la segmentation sémantique, qui est une technique de vision par ordinateur ML qui consiste à attribuer des étiquettes de classe à des pixels individuels dans une image. Par exemple, dans les images vidéo capturées par un véhicule en mouvement, les étiquettes de classe peuvent inclure des véhicules, des piétons, des routes, des feux de circulation, des bâtiments ou des arrière-plans. Il fournit une compréhension de haute précision des emplacements des différents objets dans l'image et est souvent utilisé pour construire des systèmes de perception pour les véhicules autonomes ou la robotique. Pour construire un modèle ML pour la segmentation sémantique, il est d'abord nécessaire d'étiqueter un grand volume de données au niveau du pixel. Ce processus de labellisation est complexe. Cela nécessite des étiqueteurs qualifiés et beaucoup de temps - certaines images peuvent prendre jusqu'à 2 heures ou plus pour être étiquetées avec précision !

En 2019, nous avons lancé un outil d'étiquetage interactif alimenté par ML appelé Auto-segment for Ground Truth qui vous permet de créer rapidement et facilement des masques de segmentation de haute qualité. Pour plus d'informations, voir Outil de segmentation automatique. Cette fonction fonctionne en vous permettant de cliquer sur les "points extrêmes" en haut, à gauche, en bas et à droite d'un objet. Un modèle ML s'exécutant en arrière-plan ingère cette entrée utilisateur et renvoie un masque de segmentation de haute qualité qui s'affiche immédiatement dans l'outil d'étiquetage Ground Truth. Cependant, cette fonctionnalité ne vous permet de placer que quatre clics. Dans certains cas, le masque généré par ML peut manquer par inadvertance certaines parties d'une image, comme autour de la limite de l'objet où les bords sont indistincts ou où la couleur, la saturation ou les ombres se fondent dans l'environnement.

Clic de point extrême avec un nombre flexible de clics correctifs

Nous avons maintenant amélioré l'outil pour permettre des clics supplémentaires sur les points de délimitation, ce qui fournit une rétroaction en temps réel au modèle ML. Cela vous permet de créer un masque de segmentation plus précis. Dans l'exemple suivant, le résultat de la segmentation initiale n'est pas précis en raison des limites faibles près de l'ombre. Surtout, cet outil fonctionne dans un mode qui permet une rétroaction en temps réel - il ne vous oblige pas à spécifier tous les points à la fois. Au lieu de cela, vous pouvez d'abord effectuer quatre clics de souris, ce qui déclenchera le modèle ML pour produire un masque de segmentation. Ensuite, vous pouvez inspecter ce masque, localiser les inexactitudes potentielles, puis placer des clics supplémentaires, le cas échéant, pour "pousser" le modèle vers le résultat correct.

Étiquetage du masque de segmentation en quelques clics dans Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Notre précédent outil d'étiquetage vous permettait de placer exactement quatre clics de souris (points rouges). Le résultat de la segmentation initiale (zone rouge ombrée) n'est pas précis en raison des limites faibles près de l'ombre (en bas à gauche du masque rouge).

Avec notre outil d'étiquetage amélioré, l'utilisateur effectue à nouveau quatre clics de souris (points rouges dans la figure du haut). Ensuite, vous avez la possibilité d'inspecter le masque de segmentation résultant (zone rouge ombrée dans la figure du haut). Vous pouvez effectuer des clics de souris supplémentaires (points verts dans la figure du bas) pour que le modèle affine le masque (zone rouge ombrée dans la figure du bas).

Étiquetage du masque de segmentation en quelques clics dans Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Par rapport à la version originale de l'outil, la version améliorée fournit un meilleur résultat lorsque les objets sont déformables, non convexes et varient en forme et en apparence.

Nous avons simulé les performances de cet outil amélioré sur des exemples de données en exécutant d'abord l'outil de base (avec seulement quatre clics extrêmes) pour générer un masque de segmentation et évalué son intersection moyenne sur l'union (mIoU), une mesure courante de précision pour les masques de segmentation. Ensuite, nous avons appliqué des clics correctifs simulés et évalué l'amélioration en mIoU après chaque clic simulé. Le tableau suivant résume ces résultats. La première ligne montre le mIoU et la deuxième ligne montre l'erreur (qui est donnée par 100 % moins le mIoU). Avec seulement cinq clics de souris supplémentaires, nous pouvons réduire l'erreur de 9 % pour cette tâche !

. . Nombre de clics correctifs .
. Baseline 1 2 3 4 5
mioU 72.72 76.56 77.62 78.89 80.57 81.73
Erreur 27% 23% 22% 21% 19% 18%

Intégration avec Ground Truth et profilage des performances

Pour intégrer ce modèle à Ground Truth, nous suivons un modèle d'architecture standard, comme illustré dans le diagramme suivant. Tout d'abord, nous construisons le modèle ML dans une image Docker et le déployons sur Registre des conteneurs élastiques Amazon (Amazon ECR), un registre de conteneurs Docker entièrement géré qui facilite le stockage, le partage et le déploiement d'images de conteneurs. En utilisant le Boîte à outils d'inférence SageMaker dans la création de l'image Docker nous permet d'utiliser facilement les meilleures pratiques pour la diffusion de modèles et d'obtenir une inférence à faible latence. Nous créons ensuite un Amazon Sage Maker point de terminaison en temps réel pour héberger le modèle. Nous introduisons un AWS Lambda fonctionnent comme un proxy devant le point de terminaison SageMaker pour offrir différents types de transformation de données. Enfin, nous utilisons Passerelle d'API Amazon comme moyen d'intégration avec notre frontal, l'application d'étiquetage Ground Truth, pour fournir une authentification sécurisée à notre backend.

Étiquetage du masque de segmentation en quelques clics dans Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Vous pouvez suivre ce modèle générique pour vos propres cas d'utilisation d'outils ML spécialement conçus et pour les intégrer à des interfaces utilisateur de tâche Ground Truth personnalisées. Pour plus d'informations, reportez-vous à Créez un flux de travail d'étiquetage de données personnalisé avec Amazon SageMaker Ground Truth.

Après avoir provisionné cette architecture et déployé notre modèle à l'aide du Kit de développement AWS Cloud (AWS CDK), nous avons évalué les caractéristiques de latence de notre modèle avec différents types d'instances SageMaker. C'est très simple à faire car nous utilisons les points de terminaison d'inférence en temps réel SageMaker pour servir notre modèle. Les points de terminaison d'inférence en temps réel SageMaker s'intègrent de manière transparente avec Amazon Cloud Watch et émettre des métriques telles que l'utilisation de la mémoire et la latence du modèle sans configuration requise (voir Métriques d'appel de point de terminaison SageMaker pour plus de détails).

Dans la figure suivante, nous montrons la métrique ModelLatency émise nativement par les points de terminaison d'inférence en temps réel SageMaker. Nous pouvons facilement utiliser diverses fonctions mathématiques de métrique dans CloudWatch pour afficher les centiles de latence, tels que la latence p50 ou p90.

Étiquetage du masque de segmentation en quelques clics dans Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Le tableau suivant résume ces résultats pour notre outil de clic extrême amélioré pour la segmentation sémantique pour trois types d'instance : p2.xlarge, p3.2xlarge et g4dn.xlarge. Bien que l'instance p3.2xlarge offre la latence la plus faible, l'instance g4dn.xlarge offre le meilleur rapport coût/performance. L'instance g4dn.xlarge est seulement 8 % plus lente (35 millisecondes) que l'instance p3.2xlarge, mais elle est 81 % moins chère sur une base horaire que la p3.2xlarge (voir Tarification d'Amazon SageMaker pour plus de détails sur les types d'instances et les tarifs de SageMaker).

Type d'instance SageMaker p90 Latence (ms)
1 p2.xlarge 751
2 p3.2xlarge 424
3 g4dn.xlarge 459

Conclusion

Dans cet article, nous avons introduit une extension de la fonctionnalité de segmentation automatique Ground Truth pour les tâches d'annotation de segmentation sémantique. Alors que la version originale de l'outil vous permet de faire exactement quatre clics de souris, ce qui déclenche un modèle pour fournir un masque de segmentation de haute qualité, l'extension vous permet de faire des clics correctifs et ainsi de mettre à jour et de guider le modèle ML pour faire de meilleures prédictions. Nous avons également présenté un modèle architectural de base que vous pouvez utiliser pour déployer et intégrer des outils interactifs dans les interfaces utilisateur d'étiquetage Ground Truth. Enfin, nous avons résumé la latence du modèle et montré comment l'utilisation des points de terminaison d'inférence en temps réel SageMaker facilite la surveillance des performances du modèle.

Pour en savoir plus sur la façon dont cet outil peut réduire les coûts d'étiquetage et augmenter la précision, visitez Étiquetage des données Amazon SageMaker pour commencer une consultation aujourd'hui.


À propos des auteurs

Étiquetage du masque de segmentation en quelques clics dans Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Jonathan Buck est un ingénieur logiciel chez Amazon Web Services travaillant à l'intersection de l'apprentissage automatique et des systèmes distribués. Son travail consiste à produire des modèles d'apprentissage automatique et à développer de nouvelles applications logicielles alimentées par l'apprentissage automatique pour mettre les dernières fonctionnalités entre les mains des clients.

Étiquetage du masque de segmentation en quelques clics dans Amazon SageMaker Ground Truth Plus PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Li Erran Li est responsable des sciences appliquées chez humain-in-the-loop services, AWS AI, Amazon. Ses intérêts de recherche sont l'apprentissage profond 3D et l'apprentissage de la vision et de la représentation du langage. Auparavant, il était scientifique principal chez Alexa AI, responsable de l'apprentissage automatique chez Scale AI et scientifique en chef chez Pony.ai. Auparavant, il faisait partie de l'équipe de perception d'Uber ATG et de l'équipe de la plateforme d'apprentissage automatique d'Uber, travaillant sur l'apprentissage automatique pour la conduite autonome, les systèmes d'apprentissage automatique et les initiatives stratégiques de l'IA. Il a commencé sa carrière aux Bell Labs et a été professeur adjoint à l'Université de Columbia. Il a co-enseigné des tutoriels à ICML'17 et ICCV'19, et co-organisé plusieurs ateliers à NeurIPS, ICML, CVPR, ICCV sur l'apprentissage automatique pour la conduite autonome, la vision 3D et la robotique, les systèmes d'apprentissage automatique et l'apprentissage automatique contradictoire. Il est titulaire d'un doctorat en informatique de l'Université Cornell. Il est membre ACM et membre IEEE.

Horodatage:

Plus de Apprentissage automatique AWS