Vision par ordinateur à l'aide d'ensembles de données synthétiques avec Amazon Rekognition Custom Labels et Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Vision par ordinateur utilisant des ensembles de données synthétiques avec Amazon Rekognition Custom Labels et Dassault Systèmes 3DEXCITE

Ceci est un article co-écrit avec Bernard Paques, CTO de Storm Reply, et Karl Herkt, Senior Strategist chez Dassault Systèmes 3DExcite.

Alors que la vision par ordinateur peut être cruciale pour la maintenance industrielle, la fabrication, la logistique et les applications grand public, son adoption est limitée par la création manuelle d'ensembles de données de formation. La création d'images étiquetées dans un contexte industriel est principalement effectuée manuellement, ce qui crée des capacités de reconnaissance limitées, n'est pas évolutive et entraîne des coûts de main-d'œuvre et des retards dans la réalisation de la valeur commerciale. Cela va à l'encontre de l'agilité commerciale fournie par des itérations rapides dans la conception de produits, l'ingénierie de produits et la configuration de produits. Ce processus ne s'adapte pas aux produits complexes tels que les voitures, les avions ou les bâtiments modernes, car dans ces scénarios, chaque projet d'étiquetage est unique (lié à des produits uniques). Par conséquent, la technologie de vision par ordinateur ne peut pas être facilement appliquée à des projets uniques à grande échelle sans un gros effort de préparation des données, ce qui limite parfois la livraison des cas d'utilisation.

Dans cet article, nous présentons une nouvelle approche dans laquelle des systèmes de vision par ordinateur hautement spécialisés sont créés à partir de fichiers de conception et de CAO. Nous commençons par la création de jumeaux numériques visuellement corrects et la génération d'images synthétiques étiquetées. Ensuite, nous poussons ces images vers Étiquettes personnalisées Amazon Rekognition pour former un modèle de détection d'objet personnalisé. En utilisant la propriété intellectuelle existante avec des logiciels, nous rendons la vision par ordinateur abordable et adaptée à une variété de contextes industriels.

La personnalisation des systèmes de reconnaissance aide à générer des résultats commerciaux

Les systèmes de vision par ordinateur spécialisés produits à partir de jumeaux numériques ont des mérites spécifiques, qui peuvent être illustrés dans les cas d'utilisation suivants :

  • Traçabilité pour des produits uniques – Airbus, Boeing et d'autres constructeurs d'avions attribuent des Numéros de série du fabricant (MSN) à chaque avion qu'ils produisent. Ceci est géré tout au long du processus de production, afin de générer documentation de navigabilité et obtenir des permis de vol. UNE jumeau numérique (un modèle 3D virtuel représentant un produit physique) peut être dérivé de la configuration de chaque MSN et génère un système de vision par ordinateur distribué qui suit la progression de ce MSN dans les installations industrielles. La reconnaissance personnalisée automatise la transparence accordée aux compagnies aériennes et remplace la plupart des points de contrôle effectués manuellement par les compagnies aériennes. L'assurance qualité automatisée sur des produits uniques peut s'appliquer aux avions, aux voitures, aux bâtiments et même aux productions artisanales.
  • Réalité augmentée contextualisée – Les systèmes de vision par ordinateur de qualité professionnelle peuvent couvrir des paysages limités, mais avec des capacités de discrimination plus élevées. Par exemple, en maintenance industrielle, trouver un tournevis sur une photo ne sert à rien ; vous devez identifier le modèle de tournevis ou même son numéro de série. Dans de tels contextes limités, les systèmes de reconnaissance personnalisés surpassent les systèmes de reconnaissance génériques car ils sont plus pertinents dans leurs résultats. Les systèmes de reconnaissance personnalisés permettent des boucles de rétroaction précises via réalité augmentée dédiée livrés dans l'IHM ou dans les appareils mobiles.
  • Contrôle qualité de bout en bout - Avec ingénierie système, vous pouvez créer des jumeaux numériques de constructions partielles et générer des systèmes de vision par ordinateur qui s'adaptent aux différentes phases des processus de fabrication et de production. Les contrôles visuels peuvent être entrelacés avec les postes de travail de fabrication, permettant une inspection de bout en bout et une détection précoce des défauts. Reconnaissance personnalisée pour une inspection de bout en bout empêche efficacement la cascade de défauts sur les chaînes de montage. Réduire le taux de rejet et maximiser le rendement de production est l'objectif ultime.
  • Contrôle de qualité flexible – Le contrôle qualité moderne doit s'adapter aux variations de conception et à la fabrication flexible. Les variations de conception proviennent de boucles de rétroaction sur l'utilisation et la maintenance du produit. Fabrication flexible est une capacité clé pour une stratégie de fabrication à la commande et s'aligne sur le principe de fabrication au plus juste d'optimisation des coûts. En intégrant les variations de conception et les options de configuration dans les jumeaux numériques, la reconnaissance personnalisée permet l'adaptation dynamique des systèmes de vision par ordinateur aux plans de production et aux variations de conception.

Améliorez la vision par ordinateur avec Dassault Systèmes 3DEXCITE optimisé par Amazon Rekognition

Au sein de Dassault Systèmes, société experte des jumeaux numériques et deuxième éditeur européen de logiciels, l'équipe 3DEXCITE explore une autre voie. Comme l'explique Karl Herkt, "Et si un modèle neuronal formé à partir d'images synthétiques pouvait reconnaître un produit physique ?" 3DEXCITE a résolu ce problème en combinant sa technologie avec l'infrastructure AWS, prouvant la faisabilité de cette approche particulière. Il est également connu sous le nom détection d'objets inter-domaines, où le modèle de détection apprend à partir d'images étiquetées du domaine source (images synthétiques) et effectue des prédictions sur le domaine cible non étiqueté (composants physiques).

Dassault Systèmes 3DEXCITE et l'équipe AWS Prototyping ont uni leurs forces pour créer un système de démonstration qui reconnaît les pièces d'une boîte de vitesses industrielle. Ce prototype a été construit en 3 semaines et le modèle formé a obtenu un score F98 de 1 %. Le modèle de reconnaissance a été formé entièrement à partir d'un pipeline logiciel, qui ne comporte aucune image d'une pièce réelle. À partir des fichiers de conception et de CAO d'un réducteur industriel, 3DEXCITE a créé des jumeaux numériques visuellement corrects. Ils ont également généré des milliers d'images synthétiques étiquetées à partir des jumeaux numériques. Ensuite, ils ont utilisé Rekognition Custom Labels pour former un modèle neuronal hautement spécialisé à partir de ces images et ont fourni une API de reconnaissance associée. Ils ont créé un site Web pour permettre la reconnaissance à partir de n'importe quelle webcam d'une partie physique de la boîte de vitesses.

Amazon Reconnaissance est un service d'intelligence artificielle qui utilise une technologie d'apprentissage en profondeur pour vous permettre d'extraire des métadonnées significatives à partir d'images et de vidéos, y compris l'identification d'objets, de personnes, de textes, de scènes, d'activités et de contenus potentiellement inappropriés, sans aucune expertise en apprentissage automatique (ML). Amazon Rekognition fournit également des fonctionnalités d'analyse faciale et de recherche faciale très précises que vous pouvez utiliser pour détecter, analyser et comparer les visages pour une grande variété de cas d'utilisation de vérification des utilisateurs, de comptage de personnes et de sécurité. Enfin, avec Rekognition Custom Labels, vous pouvez utiliser vos propres données pour créer des modèles de détection d'objets et de classification d'images.

La combinaison de la technologie Dassault Systèmes pour la génération d'images synthétiques étiquetées avec Rekognition Custom Labels pour la vision par ordinateur fournit un flux de travail évolutif pour les systèmes de reconnaissance. La facilité d'utilisation est ici un facteur positif important, car l'ajout d'étiquettes personnalisées Rekognition au pipeline logiciel global n'est pas difficile - c'est aussi simple que d'intégrer une API dans un flux de travail. Pas besoin d'être un scientifique ML ; envoyez simplement les images capturées à AWS et recevez un résultat que vous pouvez entrer dans une base de données ou afficher dans un navigateur Web.

Cela souligne encore l'amélioration spectaculaire par rapport à la création manuelle d'ensembles de données de formation. Vous pouvez obtenir de meilleurs résultats plus rapidement et avec une plus grande précision, sans avoir besoin d'heures de travail coûteuses et inutiles. Avec autant de cas d'utilisation potentiels, la combinaison de Dassault Systèmes et Rekognition Custom Labels a le potentiel de fournir aux entreprises d'aujourd'hui un retour sur investissement significatif et immédiat.

Vue d'ensemble de la solution

La première étape de cette solution consiste à restituer les images qui créent l'ensemble de données d'apprentissage. Ceci est fait par la plate-forme 3DEXCITE. Nous pouvons générer les données d'étiquetage par programmation en utilisant des scripts. Vérité au sol Amazon SageMaker fournit un outil d'annotation pour étiqueter facilement les images et les vidéos pour les tâches de classification et de détection d'objets. Pour former un modèle dans Amazon Rekognition, le fichier d'étiquetage doit être conforme au format Ground Truth. Ces étiquettes sont au format JSON, y compris des informations telles que la taille de l'image, les coordonnées du cadre de délimitation et les ID de classe.

Téléchargez ensuite les images de synthèse et le manifeste sur Service de stockage simple Amazon (Amazon S3), où Rekognition Custom Labels peut les importer en tant que composants de l'ensemble de données de formation.

Pour permettre à Rekognition Custom Labels de tester les modèles par rapport à un ensemble d'images de composants réels, nous fournissons un ensemble d'images des pièces réelles du moteur prises avec un appareil photo et les téléchargeons sur Amazon S3 pour les utiliser comme ensemble de données de test.

Enfin, Rekognition Custom Labels forme le meilleur modèle de détection d'objets à l'aide de l'ensemble de données de formation synthétique et de l'ensemble de données de test composé d'images d'objets réels, et crée le point de terminaison avec le modèle que nous pouvons utiliser pour exécuter la reconnaissance d'objets dans notre application.

Le diagramme suivant illustre le flux de travail de notre solution :
Vision par ordinateur à l'aide d'ensembles de données synthétiques avec Amazon Rekognition Custom Labels et Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Créer des images de synthèse

Les images de synthèse sont générées à partir de la plateforme 3Dexperience, qui est un produit de Dassault Systèmes. Cette plate-forme vous permet de créer et de restituer des images photoréalistes basées sur le fichier CAO (conception assistée par ordinateur) de l'objet. Nous pouvons générer des milliers de variantes en quelques heures en changeant les configurations de transformation d'image sur la plateforme.

Dans ce prototype, nous avons sélectionné les cinq pièces de boîte de vitesses visuellement distinctes suivantes pour la détection d'objets. Ils comprennent un boîtier d'engrenage, un rapport d'engrenage, un couvercle de roulement, une bride et un engrenage à vis sans fin.
Vision par ordinateur à l'aide d'ensembles de données synthétiques avec Amazon Rekognition Custom Labels et Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Nous avons utilisé les méthodes d'augmentation de données suivantes pour augmenter la diversité des images et rendre les données synthétiques plus photoréalistes. Cela permet de réduire l'erreur de généralisation du modèle.

  • Zoom avant / arrière – Cette méthode effectue un zoom avant ou arrière aléatoire sur l'objet dans les images.
  • de mot de passe - Cette méthode fait pivoter l'objet dans les images, et il semble qu'une caméra virtuelle prenne des photos aléatoires de l'objet à partir d'angles de 360 ​​degrés.
  • Améliorer l'aspect et la sensation du matériau – Nous avons identifié que pour certaines pièces d'équipement, l'aspect du matériau est moins réaliste dans le rendu initial. Nous avons ajouté un effet métallique pour améliorer les images synthétiques.
  • Utiliser différents paramètres d'éclairage – Dans ce prototype, nous avons simulé deux conditions d'éclairage :
    • Entrepots – Une répartition lumineuse réaliste. Les ombres et les reflets sont possibles.
    • Studio – Une lumière homogène est placée tout autour de l'objet. Ce n'est pas réaliste mais il n'y a pas d'ombres ni de reflets.
  • Utilisez une position réaliste de la façon dont l'objet est visualisé en temps réel – Dans la vie réelle, certains objets, tels qu'une bride et un couvercle de palier, sont généralement placés sur une surface, et le modèle détecte les objets en fonction des facettes supérieure et inférieure. Par conséquent, nous avons supprimé les images d'entraînement qui montrent le bord fin des pièces, également appelé la position du bord, et avons augmenté les images d'objets en position plate.
  • Ajouter plusieurs objets dans une image - Dans des scénarios réels, plusieurs pièces d'engrenage peuvent toutes apparaître dans une seule vue, nous avons donc préparé des images contenant plusieurs pièces d'engrenage.

Sur la plate-forme 3Dexperience, nous pouvons appliquer différents arrière-plans aux images, ce qui peut aider à augmenter encore la diversité des images. En raison d'un manque de temps, nous ne l'avons pas implémenté dans ce prototype.
Vision par ordinateur à l'aide d'ensembles de données synthétiques avec Amazon Rekognition Custom Labels et Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Importer l'ensemble de données d'entraînement synthétique

En ML, les données étiquetées signifient que les données d'entraînement sont annotées pour afficher la cible, qui est la réponse que votre modèle ML doit prédire. Les données étiquetées pouvant être consommées par les étiquettes personnalisées Rekognition doivent être conformes aux exigences du fichier manifeste Ground Truth. Un fichier manifeste est constitué d'une ou plusieurs lignes JSON ; chaque ligne contient les informations d'une seule image. Pour les données d'entraînement synthétiques, les informations d'étiquetage peuvent être générées par programmation en fonction des configurations de fichier CAO et de transformation d'image que nous avons mentionnées précédemment, ce qui permet d'économiser des efforts manuels importants de travail d'étiquetage. Pour plus d'informations sur les exigences d'étiquetage des formats de fichier, reportez-vous à Créer un fichier manifeste ainsi que Localisation d'objets dans les fichiers manifestes. Voici un exemple d'étiquetage d'image :

{ "source-ref": "s3://<bucket>/<prefix>/multiple_objects.png", "bounding-box": { "image_size": [ { "width": 1024, "height": 1024, "depth": 3 } ], "annotations": [ { "class_id": 1, "top": 703, "left": 606, "width": 179, "height": 157 }, { "class_id": 4, "top": 233, "left": 533, "width": 118, "height": 139 }, { "class_id": 0, "top": 592, "left": 154, "width": 231, "height": 332 }, { "class_id": 3, "top": 143, "left": 129, "width": 268, "height": 250 } ] }, "bounding-box-metadata": { "objects": [ { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 } ], "class-map": { "0": "Gear_Housing", "1": "Gear_Ratio", "3": "Flange", "4": "Worm_Gear" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2021-06-18T11:56:01", "job-name": "3DEXCITE" }
}

Une fois le fichier manifeste préparé, nous le téléchargeons dans un compartiment S3, puis créons un ensemble de données de formation dans Rekognition Custom Labels en sélectionnant l'option Importer des images étiquetées par Amazon SageMaker Ground Truth.
Vision par ordinateur à l'aide d'ensembles de données synthétiques avec Amazon Rekognition Custom Labels et Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Une fois le fichier manifeste importé, nous pouvons afficher visuellement les informations d'étiquetage sur la console Amazon Rekognition. Cela nous aide à confirmer que le fichier manifeste est généré et importé. Plus précisément, les cadres de délimitation doivent s'aligner sur les objets dans les images et les ID de classe des objets doivent être attribués correctement.
Vision par ordinateur à l'aide d'ensembles de données synthétiques avec Amazon Rekognition Custom Labels et Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Créer le jeu de données de test

Les images de test sont capturées dans la vie réelle avec un téléphone ou un appareil photo sous différents angles et conditions d'éclairage, car nous voulons valider la précision du modèle, que nous avons formé à l'aide de données synthétiques, par rapport aux scénarios réels. Vous pouvez télécharger ces images de test dans un compartiment S3, puis les importer en tant qu'ensembles de données dans Rekognition Custom Labels. Ou vous pouvez les télécharger directement dans des ensembles de données à partir de votre ordinateur local.
Vision par ordinateur à l'aide d'ensembles de données synthétiques avec Amazon Rekognition Custom Labels et Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Rekognition Custom Labels fournit une capacité d'annotation d'image intégrée, qui a une expérience similaire à Ground Truth. Vous pouvez commencer le travail d'étiquetage lorsque les données de test sont importées. Pour un cas d'utilisation de détection d'objets, les cadres de délimitation doivent être créés étroitement autour des objets d'intérêt, ce qui aide le modèle à apprendre précisément les régions et les pixels qui appartiennent aux objets cibles. En outre, vous devez étiqueter chaque instance des objets cibles dans toutes les images, même celles qui sont partiellement hors de vue ou masquées par d'autres objets, sinon le modèle prédit davantage de faux négatifs.
Vision par ordinateur à l'aide d'ensembles de données synthétiques avec Amazon Rekognition Custom Labels et Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Créer le modèle de détection d'objets inter-domaines

Rekognition Custom Labels est un service entièrement géré ; il vous suffit de fournir les ensembles de données d'entraînement et de test. Il forme un ensemble de modèles et choisit le plus performant en fonction des données fournies. Dans ce prototype, nous préparons les ensembles de données d'entraînement synthétiques de manière itérative en expérimentant différentes combinaisons des méthodes d'augmentation d'image que nous avons mentionnées précédemment. Un modèle est créé pour chaque ensemble de données d'entraînement dans Rekognition Custom Labels, ce qui nous permet de comparer et de trouver l'ensemble de données d'entraînement optimal pour ce cas d'utilisation en particulier. Chaque modèle a le nombre minimum d'images d'entraînement, contient une bonne diversité d'images et offre la meilleure précision de modèle. Après 15 itérations, nous avons obtenu un score F1 de 98 % de précision du modèle en utilisant environ 10,000 2,000 images d'entraînement synthétiques, soit XNUMX XNUMX images par objet en moyenne.
Vision par ordinateur à l'aide d'ensembles de données synthétiques avec Amazon Rekognition Custom Labels et Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Résultats de l'inférence du modèle

L'image suivante montre le modèle Amazon Rekognition utilisé dans une application d'inférence en temps réel. Tous les composants sont détectés correctement avec une grande confiance.

Vision par ordinateur à l'aide d'ensembles de données synthétiques avec Amazon Rekognition Custom Labels et Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Conclusion

Dans cet article, nous avons montré comment entraîner un modèle de vision par ordinateur sur des images purement synthétiques et comment le modèle peut toujours reconnaître de manière fiable des objets du monde réel. Cela permet d'économiser beaucoup d'efforts manuels pour collecter et étiqueter les données de formation. Avec cette exploration, Dassault Systèmes étend la valeur commerciale des modèles de produits 3D créés par les concepteurs et les ingénieurs, car vous pouvez désormais utiliser les données CAO, CAE et PLM dans les systèmes de reconnaissance d'images dans le monde physique.

Pour plus d'informations sur les fonctionnalités clés et les cas d'utilisation des étiquettes personnalisées de Rekognition, consultez Étiquettes personnalisées Amazon Rekognition. Si vos images ne sont pas étiquetées nativement avec Ground Truth, ce qui était le cas pour ce projet, consultez Créer un fichier manifeste pour convertir vos données d'étiquetage au format que Rekognition Custom Labels peut utiliser.


À propos des auteurs

Vision par ordinateur à l'aide d'ensembles de données synthétiques avec Amazon Rekognition Custom Labels et Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Boisé Borraccino est actuellement architecte principal de solutions spécialisées en apprentissage machine chez AWS. Basé à Milan, en Italie, Woody a travaillé sur le développement de logiciels avant de rejoindre AWS en 2015, où il se passionne pour les technologies de vision par ordinateur et d'informatique spatiale (AR/VR/XR). Sa passion est désormais centrée sur l'innovation métaverse. Suivez-le sur LinkedIn.

Vision par ordinateur à l'aide d'ensembles de données synthétiques avec Amazon Rekognition Custom Labels et Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Ying Hou, PhD, est architecte de prototypage d'apprentissage automatique chez AWS. Ses principaux domaines d'intérêt sont l'apprentissage en profondeur, la vision par ordinateur, la PNL et la prédiction de données de séries chronologiques. Dans ses temps libres, elle aime lire des romans et faire de la randonnée dans les parcs nationaux du Royaume-Uni.

Vision par ordinateur à l'aide d'ensembles de données synthétiques avec Amazon Rekognition Custom Labels et Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Bernard Paques est actuellement CTO de Storm Reply, spécialisé dans les solutions industrielles déployées sur AWS. Basé à Paris, en France, Bernard a travaillé auparavant en tant qu'architecte principal de solutions et en tant que consultant principal chez AWS. Ses contributions à la modernisation de l'entreprise couvrent AWS pour l'industrie, AWS CDK, et celles-ci découlent désormais de l'informatique verte et des systèmes basés sur la voix. Suivez-le sur Twitter.

Vision par ordinateur à l'aide d'ensembles de données synthétiques avec Amazon Rekognition Custom Labels et Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Karl Herkt est actuellement Senior Strategist chez Dassault Systèmes 3DExcite. Basé à Munich, en Allemagne, il crée des implémentations innovantes de la vision par ordinateur qui donnent des résultats tangibles. Suivez-le sur LinkedIn.

Horodatage:

Plus de Apprentissage automatique AWS