Computervisie met synthetische datasets met aangepaste Amazon Rekognition-labels en Dassault-systemen 3DEXCITE

Heruitgegeven door Plato

volgers: 0

Dit is een bericht geschreven in samenwerking met Bernard Paques, CTO van Storm Reply, en Karl Herkt, Senior Strategist bij Dassault Systèmes 3DExcite.

Hoewel computervisie cruciaal kan zijn voor industrieel onderhoud, productie, logistiek en consumententoepassingen, wordt de acceptatie ervan beperkt door het handmatig creëren van trainingsdatasets. Het creëren van gelabelde afbeeldingen in een industriële context gebeurt voornamelijk handmatig, wat beperkte herkenningsmogelijkheden creëert, niet schaalt en resulteert in arbeidskosten en vertragingen bij het realiseren van bedrijfswaarde. Dit druist in tegen de zakelijke flexibiliteit die wordt geboden door snelle iteraties in productontwerp, productengineering en productconfiguratie. Dit proces schaalt niet voor complexe producten zoals auto's, vliegtuigen of moderne gebouwen, omdat in die scenario's elk labelproject uniek is (gerelateerd aan unieke producten). Als gevolg hiervan kan computer vision-technologie niet eenvoudig worden toegepast op grootschalige unieke projecten zonder een grote inspanning bij het voorbereiden van gegevens, waardoor de levering van use-cases soms wordt beperkt.

In dit bericht presenteren we een nieuwe benadering waarbij zeer gespecialiseerde computervisiesystemen worden gemaakt op basis van ontwerp- en CAD-bestanden. We beginnen met het creëren van visueel correcte digitale tweelingen en het genereren van synthetisch gelabelde afbeeldingen. Dan pushen we deze afbeeldingen naar Aangepaste labels voor Amazon-herkenning om een aangepast objectdetectiemodel te trainen. Door bestaande intellectuele eigendom met software te gebruiken, maken we computervisie betaalbaar en relevant voor verschillende industriële contexten.

Het aanpassen van herkenningssystemen helpt de bedrijfsresultaten te verbeteren

Gespecialiseerde computervisiesystemen die zijn geproduceerd uit digitale tweelingen hebben specifieke voordelen, die kunnen worden geïllustreerd in de volgende gebruikssituaties:

Traceerbaarheid voor unieke producten – Airbus, Boeing en andere vliegtuigbouwers kennen uniek toe Serienummers van de fabrikant (MSN's) voor elk vliegtuig dat ze produceren. Dit wordt gedurende het hele productieproces beheerd, om luchtwaardigheidsdocumentatie en vliegvergunningen krijgen. EEN digitale tweeling (een virtueel 3D-model dat een fysiek product vertegenwoordigt) kan worden afgeleid uit de configuratie van elk MSN en genereert een gedistribueerd computervisiesysteem dat de voortgang van dit MSN in industriële faciliteiten bijhoudt. Aangepaste herkenning automatiseert de transparantie die luchtvaartmaatschappijen krijgen en vervangt de meeste controlepunten die handmatig door luchtvaartmaatschappijen worden uitgevoerd. Geautomatiseerde kwaliteitsborging op unieke producten kan van toepassing zijn op vliegtuigen, auto's, gebouwen en zelfs ambachtelijke producties.
Gecontextualiseerde augmented reality – Computervisiesystemen van professionele kwaliteit kunnen beperkte landschappen bestrijken, maar met een groter onderscheidingsvermogen. Bij industrieel onderhoud is het bijvoorbeeld zinloos om een schroevendraaier op een foto te vinden; u moet het schroevendraaiermodel of zelfs het serienummer identificeren. In dergelijke begrensde contexten presteren aangepaste herkenningssystemen beter dan generieke herkenningssystemen omdat ze relevanter zijn in hun bevindingen. Aangepaste herkenningssystemen maken nauwkeurige feedbacklussen mogelijk via toegewijde augmented reality geleverd in HMI of in mobiele apparaten.
End-to-end kwaliteitscontrole - Met systeemtechniek, kunt u digitale tweelingen van gedeeltelijke constructies maken en computervisiesystemen genereren die zich aanpassen aan de verschillende fasen van productie- en productieprocessen. Visuele controles kunnen worden verweven met productiewerkstations, waardoor end-to-end inspectie en vroege detectie van defecten mogelijk wordt. Aangepaste herkenning voor end-to-end inspectie voorkomt effectief de cascadering van defecten naar assemblagelijnen. Het verminderen van het afkeurpercentage en het maximaliseren van de productie-output is het uiteindelijke doel.
Flexibele kwaliteitscontrole – Moderne kwaliteitscontrole moet zich aanpassen aan ontwerpvariaties en flexibele productie. Variaties in het ontwerp komen voort uit feedbackloops over productgebruik en productonderhoud. Flexibele productie is een belangrijke mogelijkheid voor een make-to-order-strategie en sluit aan bij het lean manufacturing-principe van kostenoptimalisatie. Door ontwerpvariaties en configuratie-opties in digitale tweelingen te integreren, maakt aangepaste herkenning de dynamische aanpassing van computervisiesystemen aan de productieplannen en ontwerpvariaties mogelijk.

Verbeter computervisie met Dassault Systèmes 3DEXCITE, mogelijk gemaakt door Amazon Rekognition

Binnen Dassault Systèmes, een bedrijf met diepgaande expertise in digitale tweelingen en tevens de op één na grootste Europese software-editor, verkent het 3DEXCITE-team een ander pad. Zoals Karl Herkt uitlegt: "Wat als een neuraal model, getraind op basis van synthetische afbeeldingen, een fysiek product zou kunnen herkennen?" 3DEXCITE heeft dit probleem opgelost door hun technologie te combineren met de AWS-infrastructuur, wat de haalbaarheid van deze eigenaardige aanpak aantoont. Het is ook bekend als detectie van objecten tussen domeinen, waarbij het detectiemodel leert van gelabelde afbeeldingen uit het brondomein (synthetische afbeeldingen) en voorspellingen doet naar het ongelabelde doeldomein (fysieke componenten).

Dassault Systèmes 3DEXCITE en het AWS Prototyping-team hebben hun krachten gebundeld om een demonstratiesysteem te bouwen dat onderdelen van een industriële versnellingsbak herkent. Dit prototype werd in 3 weken gebouwd en het getrainde model behaalde een F98-score van 1%. Het herkenningsmodel is volledig getraind vanuit een softwarepijplijn, die geen afbeeldingen van een echt onderdeel bevat. Van ontwerp en CAD-bestanden van een industriële versnellingsbak heeft 3DEXCITE visueel correcte digitale tweelingen gecreëerd. Ze genereerden ook duizenden synthetische gelabelde afbeeldingen van de digitale tweeling. Vervolgens gebruikten ze Rekognition Custom Labels om een zeer gespecialiseerd neuraal model van deze afbeeldingen te trainen en leverden ze een gerelateerde herkennings-API. Ze bouwden een website om vanaf elke webcam een fysiek onderdeel van de versnellingsbak te kunnen herkennen.

Amazon Rekognition is een AI-service die gebruikmaakt van deep learning-technologie waarmee u zinvolle metadata kunt extraheren uit afbeeldingen en video's, inclusief het identificeren van objecten, mensen, tekst, scènes, activiteiten en mogelijk ongepaste inhoud, zonder dat er expertise op het gebied van machine learning (ML) nodig is. Amazon Rekognition biedt ook zeer nauwkeurige gezichtsanalyse- en gezichtszoekmogelijkheden die u kunt gebruiken om gezichten te detecteren, analyseren en vergelijken voor een breed scala aan gebruikersverificatie, mensentelling en veiligheidstoepassingen. Ten slotte kunt u met Rekognition Custom Labels uw eigen gegevens gebruiken om modellen voor objectdetectie en beeldclassificatie te bouwen.

De combinatie van Dassault Systèmes-technologie voor het genereren van synthetische gelabelde afbeeldingen met Rekognition Custom Labels voor computervisie biedt een schaalbare workflow voor herkenningssystemen. Gebruiksgemak is hier een belangrijke positieve factor, omdat het toevoegen van Rekognition Custom Labels aan de algehele softwarepijplijn niet moeilijk is - het is net zo eenvoudig als het integreren van een API in een workflow. U hoeft geen ML-wetenschapper te zijn; stuur eenvoudig vastgelegde frames naar AWS en ontvang een resultaat dat u in een database kunt invoeren of in een webbrowser kunt weergeven.

Dit onderstreept nog eens de dramatische verbetering ten opzichte van het handmatig aanmaken van trainingsdatasets. U kunt sneller en nauwkeuriger betere resultaten behalen, zonder dure, onnodige werkuren. Met zoveel potentiële gebruiksscenario's heeft de combinatie van Dassault Systèmes en Rekognition Custom Labels het potentieel om bedrijven van vandaag een aanzienlijke en onmiddellijke ROI te bieden.

Overzicht oplossingen

De eerste stap in deze oplossing is het renderen van de afbeeldingen die de trainingsgegevensset maken. Dit wordt gedaan door het 3DEXCITE platform. We kunnen de labelgegevens programmatisch genereren met behulp van scripts. Amazon SageMaker Grondwaarheid biedt een annotatietool om eenvoudig afbeeldingen en video's te labelen voor classificatie- en objectdetectietaken. Om een model in Amazon Rekognition te trainen, moet het labelbestand voldoen aan het Ground Truth-formaat. Deze labels zijn in JSON, inclusief informatie zoals afbeeldingsgrootte, coördinaten van begrenzingsvakken en klasse-ID's.

Upload vervolgens de synthetische afbeeldingen en het manifest naar Amazon eenvoudige opslagservice (Amazon S3), waar Rekognition Custom Labels ze kan importeren als componenten van de trainingsdataset.

Om Rekognition Custom Labels de modellen te laten testen ten opzichte van een set afbeeldingen van echte componenten, bieden we een set foto's van de echte motoronderdelen die met een camera zijn gemaakt en uploaden deze naar Amazon S3 om te gebruiken als testdataset.

Ten slotte traint Rekognition Custom Labels het beste objectdetectiemodel met behulp van de synthetische trainingsdataset en testdataset bestaande uit afbeeldingen van echte objecten, en creëert het eindpunt met het model dat we kunnen gebruiken om objectherkenning in onze applicatie uit te voeren.

Het volgende diagram illustreert onze oplossingsworkflow:

Maak synthetische afbeeldingen

De synthetische beelden worden gegenereerd vanuit het 3Dexperience-platform, een product van Dassault Systèmes. Met dit platform kunt u fotorealistische afbeeldingen maken en weergeven op basis van het CAD-bestand (computer-aided design) van het object. We kunnen in een paar uur duizenden varianten genereren door configuraties voor beeldtransformatie op het platform te wijzigen.

In dit prototype hebben we de volgende vijf visueel verschillende versnellingsbakonderdelen geselecteerd voor objectdetectie. Ze omvatten een tandwielkast, overbrengingsverhouding, lagerdeksel, flens en wormwiel.

We hebben de volgende methoden voor gegevensvergroting gebruikt om de beelddiversiteit te vergroten en de synthetische gegevens fotorealistischer te maken. Het helpt de modelgeneralisatiefout te verminderen.

Zoom in / out - Deze methode zoomt willekeurig in of uit op het object in afbeeldingen.
Rotatie - Deze methode roteert het object in afbeeldingen en het lijkt alsof een virtuele camera willekeurige foto's van het object maakt vanuit 360-graden hoeken.
Verbeter de look en feel van het materiaal - We hebben vastgesteld dat voor sommige tandwielonderdelen het uiterlijk van het materiaal minder realistisch is in de eerste weergave. We hebben een metaaleffect toegevoegd om de synthetische afbeeldingen te verbeteren.
Verschillende verlichtingsinstellingen gebruiken – In dit prototype hebben we twee lichtomstandigheden gesimuleerd:
- Magazijn – Een realistische lichtverdeling. Schaduwen en reflecties zijn mogelijk.
- studio – Een homogeen licht wordt rondom het object geplaatst. Dit is niet realistisch, maar er zijn geen schaduwen of reflecties.
Gebruik een realistische positie van hoe het object in realtime wordt bekeken – In het echte leven worden sommige objecten, zoals een flens en lagerdeksel, over het algemeen op een oppervlak geplaatst en het model detecteert de objecten op basis van de boven- en onderfacetten. Daarom hebben we de trainingsafbeeldingen verwijderd die de dunne rand van de onderdelen laten zien, ook wel de randpositie genoemd, en hebben we de afbeeldingen van objecten in een platte positie vergroot.
Voeg meerdere objecten toe in één afbeelding - In real-life scenario's kunnen meerdere versnellingsonderdelen allemaal in één weergave verschijnen, dus hebben we afbeeldingen gemaakt die meerdere versnellingsonderdelen bevatten.

Op het 3Dexperience platform kunnen we verschillende achtergronden toepassen op de afbeeldingen, wat kan helpen de beelddiversiteit verder te vergroten. Vanwege tijdgebrek hebben we dit niet geïmplementeerd in dit prototype.

Importeer de synthetische trainingsdataset

In ML betekent gelabelde gegevens dat de trainingsgegevens zijn geannoteerd om het doel te tonen, wat het antwoord is dat u wilt dat uw ML-model voorspelt. De gelabelde gegevens die door Rekognition Custom Labels kunnen worden gebruikt, moeten voldoen aan de vereisten van het Ground Truth-manifestbestand. Een manifestbestand is gemaakt van een of meer JSON-regels; elke regel bevat de informatie voor een enkele afbeelding. Voor synthetische trainingsgegevens kan de labelinformatie programmatisch worden gegenereerd op basis van het CAD-bestand en de beeldtransformatieconfiguraties die we eerder noemden, wat aanzienlijke handmatige inspanning van labelingswerk bespaart. Voor meer informatie over de vereisten voor het labelen van bestandsformaten, zie: Een manifestbestand maken en Lokalisatie van objecten in manifestbestanden. Het volgende is een voorbeeld van het labelen van afbeeldingen:

{ "source-ref": "s3://<bucket>/<prefix>/multiple_objects.png", "bounding-box": { "image_size": [ { "width": 1024, "height": 1024, "depth": 3 } ], "annotations": [ { "class_id": 1, "top": 703, "left": 606, "width": 179, "height": 157 }, { "class_id": 4, "top": 233, "left": 533, "width": 118, "height": 139 }, { "class_id": 0, "top": 592, "left": 154, "width": 231, "height": 332 }, { "class_id": 3, "top": 143, "left": 129, "width": 268, "height": 250 } ] }, "bounding-box-metadata": { "objects": [ { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 } ], "class-map": { "0": "Gear_Housing", "1": "Gear_Ratio", "3": "Flange", "4": "Worm_Gear" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2021-06-18T11:56:01", "job-name": "3DEXCITE" }
}

Nadat het manifestbestand is voorbereid, uploaden we het naar een S3-bucket en maken we vervolgens een trainingsgegevensset in Rekognition Custom Labels door de optie te selecteren Importeer afbeeldingen gelabeld door Amazon SageMaker Ground Truth.

Nadat het manifestbestand is geïmporteerd, kunnen we de labelinformatie visueel bekijken op de Amazon Rekognition-console. Dit helpt ons te bevestigen dat het manifestbestand is gegenereerd en geïmporteerd. Meer specifiek moeten de begrenzingsvakken worden uitgelijnd met de objecten in afbeeldingen en moeten de klasse-ID's van de objecten correct worden toegewezen.

De testdataset maken

De testbeelden worden in het echt vastgelegd met een telefoon of camera vanuit verschillende hoeken en lichtomstandigheden, omdat we de modelnauwkeurigheid, die we hebben getraind met synthetische gegevens, willen valideren tegen de real-life scenario's. U kunt deze testafbeeldingen uploaden naar een S3-bucket en ze vervolgens importeren als datasets in Rekognition Custom Labels. Of u kunt ze rechtstreeks uploaden naar datasets vanaf uw lokale computer.

Rekognition Custom Labels biedt ingebouwde beeldannotatiemogelijkheden, die een vergelijkbare ervaring hebben als Ground Truth. U kunt het etiketteringswerk starten wanneer testgegevens zijn geïmporteerd. Voor een gebruikssituatie voor objectdetectie moeten de begrenzingsvakken strak rond de objecten van belang worden gemaakt, waardoor het model precies de regio's en pixels leert die bij de doelobjecten horen. Bovendien moet u elk exemplaar van de doelobjecten in alle afbeeldingen labelen, zelfs diegene die gedeeltelijk uit het zicht zijn of worden afgedekt door andere objecten, anders voorspelt het model meer valse negatieven.

Het objectdetectiemodel voor meerdere domeinen maken

Rekognition Custom Labels is een volledig beheerde service; u hoeft alleen de trein- en testdatasets aan te leveren. Het traint een reeks modellen en kiest de best presterende op basis van de verstrekte gegevens. In dit prototype bereiden we de synthetische trainingsdatasets iteratief voor door te experimenteren met verschillende combinaties van de eerder genoemde methoden voor beeldvergroting. Voor elke trainingsdataset wordt één model gemaakt in Rekognition Custom Labels, waardoor we de optimale trainingsdataset voor deze specifieke use case kunnen vergelijken en vinden. Elk model heeft het minimum aantal trainingsbeelden, bevat een goede beelddiversiteit en biedt de beste modelnauwkeurigheid. Na 15 iteraties behaalden we een F1-score van 98% modelnauwkeurigheid met behulp van ongeveer 10,000 synthetische trainingsafbeeldingen, wat gemiddeld 2,000 afbeeldingen per object is.

Resultaten van modelinferentie

De volgende afbeelding toont het Amazon Rekognition-model dat wordt gebruikt in een realtime inferentietoepassing. Alle componenten worden met een hoog vertrouwen correct gedetecteerd.

Computervisie met synthetische datasets met Amazon Rekognition Custom Labels en Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Conclusie

In dit bericht hebben we laten zien hoe je een computervisiemodel kunt trainen op puur synthetische afbeeldingen en hoe het model nog steeds op betrouwbare wijze objecten uit de echte wereld kan herkennen. Dit bespaart veel handmatige inspanning bij het verzamelen en labelen van de trainingsgegevens. Met deze verkenning vergroot Dassault Systèmes de zakelijke waarde van de 3D-productmodellen die zijn gemaakt door ontwerpers en ingenieurs, omdat u nu CAD-, CAE- en PLM-gegevens kunt gebruiken in herkenningssystemen voor afbeeldingen in de fysieke wereld.

Voor meer informatie over de belangrijkste kenmerken en gebruiksscenario's van Rekognition Custom Labels, zie: Aangepaste labels voor Amazon-herkenning. Als je afbeeldingen niet native zijn gelabeld met Ground Truth, wat het geval was voor dit project, zie Een manifestbestand maken om uw labelgegevens om te zetten naar het formaat dat Rekognition Custom Labels kan gebruiken.

Over de auteurs

Woody Borraccino is momenteel Senior Machine Learning Specialist Solution Architect bij AWS. Woody, gevestigd in Milaan, Italië, werkte aan softwareontwikkeling voordat hij in 2015 bij AWS in dienst trad, waar hij groeit door zijn passie voor Computer Vision en Spatial Computing (AR/VR/XR)-technologieën. Zijn passie is nu gericht op de metaverse innovatie. Volg hem op Linkedin.

Ying Hou, PhD, is een Machine Learning Prototyping Architect bij AWS. Haar belangrijkste interessegebieden zijn Deep Learning, Computer Vision, NLP en het voorspellen van tijdreeksgegevens. In haar vrije tijd leest ze graag romans en wandelt ze in nationale parken in het Verenigd Koninkrijk.

Bernard Pasques is momenteel CTO van Storm Reply gericht op industriële oplossingen die op AWS worden ingezet. Bernard, gevestigd in Parijs, Frankrijk, werkte eerder als Principal Solution Architect en als Principal Consultant bij AWS. Zijn bijdragen aan de modernisering van ondernemingen omvatten AWS for Industrial, AWS CDK, en deze komen nu voort uit groene IT en spraakgebaseerde systemen. Volg hem op Twitter.

Karel Herkt is momenteel Senior Strategist bij Dassault Systèmes 3DExcite. Hij is gevestigd in München, Duitsland, en creëert innovatieve implementaties van computervisie die tastbare resultaten opleveren. Volg hem op LinkedIn.

Tijdstempel: 14 maart 2022

Tijdstempel: December 6, 2023

Computervisie met synthetische datasets met Amazon Rekognition Custom Labels en Dassault Systèmes 3DEXCITE

Heruitgegeven door Plato

Het aanpassen van herkenningssystemen helpt de bedrijfsresultaten te verbeteren

Verbeter computervisie met Dassault Systèmes 3DEXCITE, mogelijk gemaakt door Amazon Rekognition

Overzicht oplossingen

Maak synthetische afbeeldingen

Importeer de synthetische trainingsdataset

De testdataset maken

Het objectdetectiemodel voor meerdere domeinen maken

Resultaten van modelinferentie

Conclusie

Over de auteurs

Meer van AWS-machine learning

Schaal YOLOv5-inferentie met Amazon SageMaker-eindpunten en AWS Lambda

Doorbreek taalbarrières met Amazon Transcribe, Amazon Translate en Amazon Polly

Train, tune en implementeer op efficiënte wijze aangepaste ensembles met Amazon SageMaker | Amazon-webservices

Organiseer de ontwikkeling van machine learning met behulp van gedeelde ruimtes in SageMaker Studio voor realtime samenwerking

Maak willekeurige en gestratificeerde voorbeelden van gegevens met Amazon SageMaker Data Wrangler

Genereer aangepaste, compatibele IaC-applicatiescripts voor AWS Landing Zone met Amazon Bedrock | Amazon-webservices

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account