Conseils pour améliorer votre modèle d'étiquettes personnalisées Amazon Rekognition

Republié par Platon

Suiveurs: 0

Dans cet article, nous discutons des meilleures pratiques pour améliorer les performances de vos modèles de vision par ordinateur en utilisant Étiquettes personnalisées Amazon Rekognition. Rekognition Custom Labels est un service entièrement géré permettant de créer des modèles de vision par ordinateur personnalisés pour les cas d'utilisation de classification d'images et de détection d'objets. Rekognition Custom Labels s'appuie sur les modèles pré-formés dans Amazon Reconnaissance, qui sont déjà formés sur des dizaines de millions d'images dans de nombreuses catégories. Au lieu de milliers d'images, vous pouvez commencer avec un petit ensemble d'images de formation (quelques centaines ou moins) spécifiques à votre cas d'utilisation. Les étiquettes personnalisées de Rekognition éliminent la complexité liée à la création d'un modèle personnalisé. Il inspecte automatiquement les données de formation, sélectionne les bons algorithmes ML, sélectionne le type d'instance, forme plusieurs modèles candidats avec divers paramètres d'hyperparamètres et génère le meilleur modèle formé. Rekognition Custom Labels fournit également une interface facile à utiliser à partir du Console de gestion AWS pour gérer l'ensemble du flux de travail ML, y compris l'étiquetage des images, la formation du modèle, le déploiement du modèle et la visualisation des résultats des tests.

Il y a des moments où la précision d'un modèle n'est pas la meilleure, et vous n'avez pas beaucoup d'options pour ajuster les paramètres de configuration du modèle. Dans les coulisses, plusieurs facteurs jouent un rôle clé dans la création d'un modèle performant, tels que les suivants :

Angle d'image
Résolution de l'image
Format d'image
Exposition à la lumière
Clarté et vivacité de l'arrière-plan
Contraste de couleur
Taille des données d'échantillon

Voici les étapes générales à suivre pour former un modèle d'étiquettes personnalisées Rekognition de qualité production :

Examiner la taxonomie – Cela définit la liste des attributs/éléments que vous souhaitez identifier dans une image.
Recueillir des données pertinentes - C'est l'étape la plus importante, où vous devez collecter des images pertinentes qui devraient ressembler à ce que vous verriez dans un environnement de production. Cela peut impliquer des images d'objets avec des arrière-plans, des éclairages ou des angles de caméra variés. Vous créez ensuite des ensembles de données d'entraînement et de test en divisant les images collectées. Vous ne devez inclure que des images du monde réel dans le cadre de l'ensemble de données de test et ne devez inclure aucune image générée de manière synthétique. Les annotations des données que vous avez collectées sont cruciales pour les performances du modèle. Assurez-vous que les cadres de délimitation sont serrés autour des objets et que les étiquettes sont précises. Nous discutons de quelques conseils que vous pouvez prendre en compte lors de la création d'un ensemble de données approprié plus loin dans cet article.
Examiner les métriques de formation – Utilisez les ensembles de données précédents pour former un modèle et passer en revue les métriques de formation pour le score F1, la précision et le rappel. Nous discuterons en détail de la façon d'analyser les métriques de formation plus loin dans cet article.
Évaluer le modèle entraîné – Utilisez un ensemble d'images invisibles (non utilisées pour la formation du modèle) avec des étiquettes connues pour évaluer les prédictions. Cette étape doit toujours être effectuée pour s'assurer que le modèle fonctionne comme prévu dans un environnement de production.
Re-formation (facultatif) - En général, la formation de tout modèle d'apprentissage automatique est un processus itératif pour obtenir les résultats souhaités, un modèle de vision par ordinateur n'est pas différent. Examinez les résultats à l'étape 4, pour voir si d'autres images doivent être ajoutées aux données de formation et répétez les étapes 3 à 5 ci-dessus.

Dans cet article, nous nous concentrons sur les meilleures pratiques concernant la collecte de données pertinentes (étape 2) et l'évaluation de vos métriques formées (étape 3) pour améliorer les performances de votre modèle.

Recueillir des données pertinentes

Il s'agit de l'étape la plus critique de la formation d'un modèle d'étiquettes personnalisées Rekognition de qualité production. Plus précisément, il existe deux ensembles de données : la formation et les tests. Les données de formation sont utilisées pour former le modèle, et vous devez vous consacrer à la création d'un ensemble de formation approprié. Les modèles d'étiquettes personnalisées de Rekognition sont optimisés pour Score F1 sur le jeu de données de test pour sélectionner le modèle le plus précis pour votre projet. Par conséquent, il est essentiel de conserver un ensemble de données de test qui ressemble au monde réel.

Nombre d'images

Nous vous recommandons d'avoir un minimum de 15 à 20 images par étiquette. Avoir plus d'images avec plus de variations qui reflètent votre cas d'utilisation améliorera les performances du modèle.

Ensemble de données équilibré

Idéalement, chaque étiquette de l'ensemble de données devrait avoir un nombre similaire d'échantillons. Il ne devrait pas y avoir une énorme disparité dans le nombre d'images par étiquette. Par exemple, un ensemble de données où le nombre le plus élevé d'images pour une étiquette est de 1,000 50 contre 1 images pour une autre étiquette ressemble à un ensemble de données déséquilibré. Nous vous recommandons d'éviter les scénarios avec un rapport déséquilibré de 50:XNUMX entre l'étiquette avec le moins d'images et l'étiquette avec le plus grand nombre d'images.

Différents types d'images

Incluez des images dans l'ensemble de données d'entraînement et de test qui ressemblent à ce que vous utiliserez dans le monde réel. Par exemple, si vous souhaitez classer les images des salons par rapport aux chambres, vous devez inclure des images vides et meublées des deux pièces.

Voici un exemple d'image d'un salon meublé.

En revanche, voici un exemple de salon non meublé.

Voici un exemple d'image d'une chambre meublée.

Voici un exemple d'image d'une chambre non meublée.

Des origines variées

Inclure des images avec des arrière-plans différents. Les images avec un contexte naturel peuvent fournir de meilleurs résultats qu'un arrière-plan uni.

Voici un exemple d'image de la cour avant d'une maison.

Voici un exemple d'image de la cour avant d'une maison différente avec un arrière-plan différent.

Conditions d'éclairage variables

Incluez des images avec un éclairage variable afin qu'il couvre les différentes conditions d'éclairage qui se produisent pendant l'inférence (par exemple, avec et sans flash). Vous pouvez également inclure des images avec une saturation, une teinte et une luminosité variables.

Ce qui suit est un exemple d'image d'une fleur sous une lumière normale.

En revanche, l'image suivante est de la même fleur sous une lumière vive.

Angles variables

Inclure des images prises sous différents angles de l'objet. Cela aide le modèle à apprendre différentes caractéristiques des objets.

Les images suivantes montrent la même chambre sous différents angles.

Conseils pour améliorer votre modèle d'étiquettes personnalisées Amazon Rekognition PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Il peut y avoir des occasions où il n'est pas possible d'acquérir des images de différents types. Dans ces scénarios, des images synthétiques peuvent être générées dans le cadre de l'ensemble de données de formation. Pour plus d'informations sur les techniques courantes d'augmentation d'image, reportez-vous à Augmentation des données.

Ajouter des étiquettes négatives

Pour la classification des images, l'ajout d'étiquettes négatives peut aider à augmenter la précision du modèle. Par exemple, vous pouvez ajouter un libellé négatif, qui ne correspond à aucun des libellés requis. L'image suivante représente les différentes étiquettes utilisées pour identifier les fleurs adultes.

Ajout de l'étiquette négative not_fully_grown aide le modèle à apprendre des caractéristiques qui ne font pas partie du fully_grown étiquette.

Gestion de la confusion des étiquettes

Analysez les résultats sur l'ensemble de données de test pour reconnaître les modèles manquants dans l'ensemble de données d'apprentissage ou de test. Parfois, il est facile de repérer de tels modèles en examinant visuellement les images. Dans l'image suivante, le modèle a du mal à faire la différence entre une étiquette de jardin et une étiquette de terrasse.

Dans ce scénario, l'ajout d'images supplémentaires à ces étiquettes dans le jeu de données et la redéfinition des étiquettes afin que chaque étiquette soit distincte peuvent aider à augmenter la précision du modèle.

Augmentation des données

Dans Rekognition Custom Labels, nous effectuons diverses augmentations de données pour la formation de modèles, y compris le recadrage aléatoire de l'image, la gigue des couleurs, les bruits gaussiens aléatoires, etc. En fonction de vos cas d'utilisation spécifiques, il peut également être avantageux d'ajouter des augmentations de données plus explicites à vos données d'entraînement. Par exemple, si vous souhaitez détecter des animaux dans des images en couleur et en noir et blanc, vous pouvez potentiellement obtenir une meilleure précision en ajoutant des versions en noir et blanc et en couleur des mêmes images aux données d'entraînement.

Nous ne recommandons pas les augmentations sur les données de test à moins que les augmentations reflètent vos cas d'utilisation de production.

Examiner les métriques de formation

Le score F1, la précision, le rappel et le seuil supposé sont les métrique qui sont générés à la suite de la formation d'un modèle à l'aide des étiquettes personnalisées Rekognition. Les modèles sont optimisés pour le meilleur score F1 basé sur l'ensemble de données de test fourni. Le seuil supposé est également généré sur la base de l'ensemble de données de test. Vous pouvez ajuster le seuil en fonction des besoins de votre entreprise en termes de précision ou de rappel.

Étant donné que les seuils supposés sont définis sur l'ensemble de données de test, un ensemble de tests approprié doit refléter le cas d'utilisation de la production réelle. Si l'ensemble de données de test n'est pas représentatif du cas d'utilisation, vous pouvez voir des scores F1 artificiellement élevés et des performances de modèle médiocres sur vos images du monde réel.

Ces métriques sont utiles lors de l'exécution d'une évaluation initiale du modèle. Pour un système de qualité production, nous vous recommandons d'évaluer le modèle par rapport à un ensemble de données externe (500 à 1,000 1 images inédites) représentatif du monde réel. Cela permet d'évaluer les performances du modèle dans un système de production, d'identifier les modèles manquants et de les corriger en réentraînant le modèle. Si vous constatez une incohérence entre les scores FXNUMX et l'évaluation externe, nous vous suggérons d'examiner si vos données de test reflètent le cas d'utilisation réel.

Conclusion

Dans cet article, nous vous avons présenté les meilleures pratiques pour améliorer les modèles d'étiquettes personnalisées de Rekognition. Nous vous encourageons à en savoir plus sur Étiquettes personnalisées de reconnaissance et essayez-le pour vos ensembles de données spécifiques à votre entreprise.

À propos des auteurs

Amit Gupta est architecte senior de solutions de services d'IA chez AWS. Il est passionné par l'offre aux clients de solutions d'apprentissage automatique bien architecturées à grande échelle.

Yogesh Chaturvedi est un architecte de solutions chez AWS avec une spécialisation en vision par ordinateur. Il travaille avec les clients pour relever leurs défis commerciaux en utilisant les technologies cloud. En dehors du travail, il aime faire de la randonnée, voyager et regarder des sports.

Hao Yang est scientifique appliquée senior au sein de l'équipe Amazon Rekognition Custom Labels. Ses principaux intérêts de recherche sont la détection d'objets et l'apprentissage avec des annotations limitées. En dehors des travaux, Hao aime regarder des films, la photographie et les activités de plein air.

Pashmeen Mistry est le chef de produit senior pour les étiquettes personnalisées Amazon Rekognition. En dehors du travail, Pashmeen aime les randonnées aventureuses, la photographie et passer du temps avec sa famille.

Horodatage: 9 septembre 202210 septembre 2022

Plus de Apprentissage automatique AWS

Comment Mendix transforme les expériences client grâce à l'IA générative et à Amazon Bedrock | Services Web Amazon

Apprentissage automatique AWS

Nœud source: 1913698

Horodatage: Le 15 novembre 2023

Faites évoluer les LLM avec PyTorch 2.0 FSDP sur Amazon EKS – Partie 2 | Services Web Amazon

Cluster source:

Apprentissage automatique AWS

Nœud source: 1960833

Horodatage: 1 avril 2024

Conseils pour améliorer votre modèle d'étiquettes personnalisées Amazon Rekognition

Republié par Platon

Recueillir des données pertinentes

Nombre d'images

Ensemble de données équilibré

Différents types d'images

Des origines variées

Conditions d'éclairage variables

Angles variables

Ajouter des étiquettes négatives

Gestion de la confusion des étiquettes

Augmentation des données

Examiner les métriques de formation

Conclusion

À propos des auteurs

Plus de Apprentissage automatique AWS

Transfert d'apprentissage pour les modèles de classification d'images TensorFlow dans Amazon SageMaker

Retrainez automatiquement les réseaux de neurones avec Renate

Réduisez le gaspillage alimentaire pour améliorer la durabilité et les résultats financiers dans le commerce de détail avec Amazon Forecast

Préparer les données d'Amazon EMR pour l'apprentissage automatique à l'aide d'Amazon SageMaker Data Wrangler

Exécuter des modèles ML d'ensemble sur Amazon SageMaker

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte