Computersyn ved hjælp af syntetiske datasæt med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Computersyn ved hjælp af syntetiske datasæt med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE

Dette er et indlæg skrevet sammen med Bernard Paques, CTO for Storm Reply, og Karl Herkt, seniorstrateg hos Dassault Systèmes 3DExcite.

Selvom computersyn kan være afgørende for industriel vedligeholdelse, fremstilling, logistik og forbrugerapplikationer, er dets vedtagelse begrænset af manuel oprettelse af træningsdatasæt. Oprettelse af mærkede billeder i en industriel sammenhæng sker hovedsageligt manuelt, hvilket skaber begrænsede genkendelsesmuligheder, skaleres ikke og resulterer i lønomkostninger og forsinkelser i realisering af forretningsværdi. Dette strider imod den forretningsmæssige smidighed, som hurtige iterationer i produktdesign, produktudvikling og produktkonfiguration giver. Denne proces skalerer ikke for komplekse produkter såsom biler, fly eller moderne bygninger, fordi i disse scenarier er hvert mærkningsprojekt unikt (relateret til unikke produkter). Som følge heraf kan computervisionsteknologi ikke nemt anvendes til store unikke projekter uden en stor indsats i dataforberedelse, hvilket nogle gange begrænser leveringen af ​​use case.

I dette indlæg præsenterer vi en ny tilgang, hvor højt specialiserede computervisionssystemer skabes ud fra design og CAD-filer. Vi starter med skabelsen af ​​visuelt korrekte digitale tvillinger og genereringen af ​​syntetiske mærkede billeder. Så skubber vi disse billeder til Tilpassede etiketter til Amazon-genkendelse at træne en brugerdefineret objektdetekteringsmodel. Ved at bruge eksisterende intellektuel ejendom med software, gør vi computersyn overkommelig og relevant for en række industrielle sammenhænge.

Tilpasningen af ​​genkendelsessystemer hjælper med at drive forretningsresultater

Specialiserede computersynssystemer, der er produceret af digitale tvillinger, har særlige fordele, som kan illustreres i følgende anvendelsessager:

  • Sporbarhed for unikke produkter – Airbus, Boeing og andre flyproducenter tildeler unikke Producentens serienumre (MSN'er) til hvert fly, de producerer. Dette styres gennem hele produktionsprocessen, for at generere luftdygtighedsdokumentation og få tilladelser til at flyve. EN digital tvilling (en virtuel 3D-model, der repræsenterer et fysisk produkt) kan udledes af konfigurationen af ​​hvert MSN og genererer et distribueret computervisionssystem, der sporer udviklingen af ​​dette MSN på tværs af industrielle faciliteter. Brugerdefineret anerkendelse automatiserer den gennemsigtighed, der gives til flyselskaber, og erstatter de fleste kontrolpunkter, der udføres manuelt af flyselskaber. Automatiseret kvalitetssikring af unikke produkter kan gælde for fly, biler, bygninger og endda håndværksproduktioner.
  • Kontekstualiseret augmented reality – Computervisionsystemer af professionel kvalitet kan omfatte begrænsede landskaber, men med højere diskriminationsevner. For eksempel ved industriel vedligeholdelse er det nytteløst at finde en skruetrækker på et billede; du skal identificere skruetrækkermodellen eller endda dens serienummer. I sådanne afgrænsede sammenhænge udkonkurrerer tilpassede genkendelsessystemer generiske genkendelsessystemer, fordi de er mere relevante i deres resultater. Brugerdefinerede genkendelsessystemer muliggør præcise feedback-loops via dedikeret augmented reality leveret i HMI eller i mobile enheder.
  • End-to-end kvalitetskontrol - Med systemteknik, kan du skabe digitale tvillinger af delvise konstruktioner og generere computervisionssystemer, der tilpasser sig de forskellige faser af fremstillings- og produktionsprocesser. Visuelle kontroller kan flettes sammen med produktionsarbejdsstationer, hvilket muliggør ende-til-ende inspektion og tidlig detektering af defekter. Brugerdefineret genkendelse til ende-til-ende inspektion forhindrer effektivt kaskade af defekter til samlebånd. Reduktion af afvisningsraten og maksimering af produktionsoutput er det ultimative mål.
  • Fleksibel kvalitetskontrol – Moderne kvalitetsinspektioner skal tilpasses designvariationer og fleksibel fremstilling. Variationer i design kommer fra feedback-loops om produktbrug og produktvedligeholdelse. Fleksibel fremstilling er en nøgleegenskab for en make-to-order-strategi og stemmer overens med lean manufacturing-princippet om omkostningsoptimering. Ved at integrere designvariationer og konfigurationsmuligheder i digitale tvillinger muliggør brugerdefineret genkendelse den dynamiske tilpasning af computervisionssystemer til produktionsplanerne og designvariationerne.

Forbedre computersyn med Dassault Systèmes 3DEXCITE drevet af Amazon Rekognition

Inden for Dassault Systèmes, en virksomhed med dyb ekspertise inden for digitale tvillinger, som også er den næststørste europæiske softwareredaktør, er 3DEXCITE-teamet ved at udforske en anden vej. Som forklaret af Karl Herkt, "Hvad nu hvis en neural model trænet ud fra syntetiske billeder kunne genkende et fysisk produkt?" 3DEXCITE har løst dette problem ved at kombinere deres teknologi med AWS-infrastrukturen, hvilket beviser gennemførligheden af ​​denne ejendommelige tilgang. Det er også kendt som genkendelse af objekter på tværs af domæner, hvor detektionsmodellen lærer af mærkede billeder fra kildedomænet (syntetiske billeder) og foretager forudsigelser til det umærkede måldomæne (fysiske komponenter).

Dassault Systèmes 3DEXCITE og AWS Prototyping-teamet er gået sammen om at bygge et demonstrationssystem, der genkender dele af en industriel gearkasse. Denne prototype blev bygget på 3 uger, og den trænede model opnåede en F98-score på 1 %. Genkendelsesmodellen er blevet trænet udelukkende fra en softwarepipeline, som ikke indeholder nogen billeder af en rigtig del. Fra design og CAD-filer af en industriel gearkasse har 3DEXCITE skabt visuelt korrekte digitale tvillinger. De genererede også tusindvis af syntetisk mærkede billeder fra de digitale tvillinger. Derefter brugte de Rekognition Custom Labels til at træne en højt specialiseret neural model fra disse billeder og leverede en relateret genkendelses-API. De byggede et websted for at muliggøre genkendelse fra ethvert webcam af en fysisk del af gearkassen.

Amazon-anerkendelse er en AI-tjeneste, der bruger deep learning-teknologi til at give dig mulighed for at udtrække meningsfulde metadata fra billeder og videoer – inklusive identifikation af objekter, personer, tekst, scener, aktiviteter og potentielt upassende indhold – uden at kræve maskinlæringsekspertise (ML). Amazon Rekognition giver også meget nøjagtige funktioner til ansigtsanalyse og ansigtssøgning, som du kan bruge til at detektere, analysere og sammenligne ansigter til en bred vifte af brugerverifikation, personoptælling og sikkerhedsbrug. Endelig kan du med Rekognition Custom Labels bruge dine egne data til at bygge objektdetekterings- og billedklassificeringsmodeller.

Kombinationen af ​​Dassault Systèmes-teknologi til generering af syntetiske mærkede billeder med Rekognition Custom Labels til computervision giver en skalerbar arbejdsgang til genkendelsessystemer. Brugervenlighed er en væsentlig positiv faktor her, fordi det ikke er svært at tilføje Rekognition Custom Labels til den overordnede softwarepipeline – det er så enkelt som at integrere en API i en arbejdsgang. Ingen grund til at være en ML-forsker; send blot opfangede rammer til AWS og modtag et resultat, som du kan indtaste i en database eller vise i en webbrowser.

Dette understreger yderligere den dramatiske forbedring i forhold til manuel oprettelse af træningsdatasæt. Du kan opnå bedre resultater hurtigere og med større nøjagtighed uden behov for dyre, unødvendige arbejdstimer. Med så mange potentielle use cases har kombinationen af ​​Dassault Systèmes og Rekognition Custom Labels potentialet til at give nutidens virksomheder et betydeligt og øjeblikkeligt investeringsafkast.

Løsningsoversigt

Det første trin i denne løsning er at gengive de billeder, der skaber træningsdatasættet. Dette gøres af 3DEXCITE platformen. Vi kan generere mærkningsdata programmatisk ved at bruge scripts. Amazon SageMaker Ground Truth giver et anmærkningsværktøj til nemt at mærke billeder og videoer til klassificerings- og objektdetekteringsopgaver. For at træne en model i Amazon Rekognition skal mærkningsfilen overholde Ground Truth-formatet. Disse etiketter er i JSON, inklusive oplysninger såsom billedstørrelse, afgrænsningsrammekoordinater og klasse-id'er.

Upload derefter de syntetiske billeder og manifestet til Amazon Simple Storage Service (Amazon S3), hvor Rekognition Custom Labels kan importere dem som komponenter i træningsdatasættet.

For at lade Rekognition Custom Labels teste modellerne i forhold til et sæt af rigtige komponentbilleder, leverer vi et sæt billeder af de rigtige motordele taget med et kamera og uploader dem til Amazon S3 for at bruge som testdatasæt.

Endelig træner Rekognition Custom Labels den bedste objektdetektionsmodel ved hjælp af det syntetiske træningsdatasæt og testdatasæt, der er sammensat af billeder af rigtige objekter, og opretter slutpunktet med den model, vi kan bruge til at køre objektgenkendelse i vores applikation.

Følgende diagram illustrerer vores løsnings workflow:
Computersyn ved hjælp af syntetiske datasæt med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Lav syntetiske billeder

De syntetiske billeder er genereret fra 3Dexperience platformen, som er et produkt af Dassault Systèmes. Denne platform giver dig mulighed for at skabe og gengive fotorealistiske billeder baseret på objektets CAD-fil (computer-aided design). Vi kan generere tusindvis af varianter på få timer ved at ændre billedtransformationskonfigurationer på platformen.

I denne prototype valgte vi følgende fem visuelt adskilte gearkassedele til objektdetektering. De inkluderer et gearhus, gearforhold, lejedæksel, flange og snekkegear.
Computersyn ved hjælp af syntetiske datasæt med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Vi brugte følgende dataforøgelsesmetoder for at øge billeddiversiteten og gøre de syntetiske data mere fotorealistiske. Det hjælper med at reducere modellens generaliseringsfejl.

  • Zoom ind / ud – Denne metode zoomer tilfældigt ind eller ud af objektet i billeder.
  • Rotation – Denne metode roterer objektet i billeder, og det ser ud som om et virtuelt kamera tager tilfældige billeder af objektet fra 360-graders vinkler.
  • Forbedre udseendet og følelsen af ​​materialet – Vi identificerede, at for nogle geardele er materialets udseende mindre realistisk i den indledende gengivelse. Vi tilføjede en metallisk effekt for at forbedre de syntetiske billeder.
  • Brug forskellige lysindstillinger – I denne prototype simulerede vi to lysforhold:
    • Warehouse – En realistisk lysfordeling. Skygger og refleksioner er mulige.
    • studie – Et homogent lys sættes rundt om genstanden. Dette er ikke realistisk, men der er ingen skygger eller refleksioner.
  • Brug en realistisk position af, hvordan objektet ses i realtid – I det virkelige liv er nogle genstande, såsom en flange og lejedæksel, generelt placeret på en overflade, og modellen registrerer genstandene ud fra de øverste og nederste facetter. Derfor fjernede vi træningsbillederne, der viser delenes tynde kant, også kaldet kantpositionen, og øgede billederne af objekter i en flad position.
  • Tilføj flere objekter i ét billede – I virkelige scenarier kunne flere geardele alle vises i én visning, så vi forberedte billeder, der indeholder flere geardele.

På 3Dexperience platformen kan vi anvende forskellige baggrunde på billederne, hvilket kan være med til at øge billeddiversiteten yderligere. På grund af tidsbegrænsning implementerede vi ikke dette i denne prototype.
Computersyn ved hjælp af syntetiske datasæt med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Importer det syntetiske træningsdatasæt

I ML betyder mærkede data, at træningsdataene er kommenteret for at vise målet, som er det svar, du vil have din ML-model til at forudsige. De mærkede data, der kan forbruges af Rekognition Custom Labels, skal overholde Ground Truth-manifestfilkravene. En manifestfil er lavet af en eller flere JSON-linjer; hver linje indeholder oplysningerne for et enkelt billede. For syntetiske træningsdata kan mærkningsinformationen genereres programmatisk baseret på de CAD-fil- og billedtransformationskonfigurationer, vi nævnte tidligere, hvilket sparer betydelig manuel indsats ved mærkningsarbejde. For mere information om kravene til mærkning af filformater, se Opret en manifestfil , Objektlokalisering i manifestfiler. Følgende er et eksempel på billedmærkning:

{ "source-ref": "s3://<bucket>/<prefix>/multiple_objects.png", "bounding-box": { "image_size": [ { "width": 1024, "height": 1024, "depth": 3 } ], "annotations": [ { "class_id": 1, "top": 703, "left": 606, "width": 179, "height": 157 }, { "class_id": 4, "top": 233, "left": 533, "width": 118, "height": 139 }, { "class_id": 0, "top": 592, "left": 154, "width": 231, "height": 332 }, { "class_id": 3, "top": 143, "left": 129, "width": 268, "height": 250 } ] }, "bounding-box-metadata": { "objects": [ { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 } ], "class-map": { "0": "Gear_Housing", "1": "Gear_Ratio", "3": "Flange", "4": "Worm_Gear" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2021-06-18T11:56:01", "job-name": "3DEXCITE" }
}

Når manifestfilen er forberedt, uploader vi den til en S3-bøtte og opretter derefter et træningsdatasæt i Rekognition Custom Labels ved at vælge muligheden Importer billeder mærket af Amazon SageMaker Ground Truth.
Computersyn ved hjælp af syntetiske datasæt med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Efter at manifestfilen er importeret, kan vi se mærkningsoplysningerne visuelt på Amazon Rekognition-konsollen. Dette hjælper os med at bekræfte, at manifestfilen er genereret og importeret. Mere specifikt skal afgrænsningsfelterne flugte med objekterne i billeder, og objekternes klasse-id'er skal tildeles korrekt.
Computersyn ved hjælp af syntetiske datasæt med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Opret testdatasættet

Testbillederne er taget i det virkelige liv med en telefon eller et kamera fra forskellige vinkler og lysforhold, fordi vi ønsker at validere modelnøjagtigheden, som vi trænede ved hjælp af syntetiske data, i forhold til de virkelige scenarier. Du kan uploade disse testbilleder til en S3-bøtte og derefter importere dem som datasæt i tilpassede etiketter for anerkendelse. Eller du kan uploade dem direkte til datasæt fra din lokale maskine.
Computersyn ved hjælp af syntetiske datasæt med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Rekognition Custom Labels giver indbygget billedannoteringsfunktion, som har en lignende oplevelse som Ground Truth. Du kan starte mærkningsarbejdet, når testdata importeres. For en objektdetektering skal afgrænsningsfelterne oprettes tæt omkring objekterne af interesse, hvilket hjælper modellen med at lære præcist de områder og pixels, der hører til målobjekterne. Derudover bør du mærke hver forekomst af målobjekterne i alle billeder, også dem, der er delvist ude af syne eller lukket af andre objekter, ellers forudsiger modellen flere falske negativer.
Computersyn ved hjælp af syntetiske datasæt med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Opret modellen til registrering af objekter på tværs af domæner

Rekognition Custom Labels er en fuldt administreret tjeneste; du skal blot levere tog- og testdatasættene. Den træner et sæt modeller og vælger den bedst ydende baseret på de leverede data. I denne prototype forbereder vi de syntetiske træningsdatasæt iterativt ved at eksperimentere med forskellige kombinationer af billedforstærkningsmetoderne, som vi nævnte tidligere. Der oprettes én model for hvert træningsdatasæt i Rekognition Custom Labels, som giver os mulighed for at sammenligne og finde det optimale træningsdatasæt specifikt til denne use case. Hver model har det mindste antal træningsbilleder, indeholder god billeddiversitet og giver den bedste modelnøjagtighed. Efter 15 iterationer opnåede vi en F1-score på 98 % modelnøjagtighed ved at bruge omkring 10,000 syntetiske træningsbilleder, hvilket er 2,000 billeder pr. objekt i gennemsnit.
Computersyn ved hjælp af syntetiske datasæt med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Resultater af modelslutning

Følgende billede viser Amazon Rekognition-modellen, der bruges i en realtids-inferensapplikation. Alle komponenter detekteres korrekt med høj sikkerhed.

Computersyn ved hjælp af syntetiske datasæt med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Konklusion

I dette indlæg demonstrerede vi, hvordan man træner en computervisionsmodel på rent syntetiske billeder, og hvordan modellen stadig pålideligt kan genkende objekter fra den virkelige verden. Dette sparer betydelig manuel indsats ved at indsamle og mærke træningsdataene. Med denne udforskning udvider Dassault Systèmes forretningsværdien af ​​3D-produktmodellerne skabt af designere og ingeniører, fordi du nu kan bruge CAD-, CAE- og PLM-data i genkendelsessystemer til billeder i den fysiske verden.

For mere information om Rekognition Custom Labels nøglefunktioner og brugssituationer, se Tilpassede etiketter til Amazon-genkendelse. Hvis dine billeder ikke er indbygget mærket med Ground Truth, hvilket var tilfældet for dette projekt, se Oprettelse af en manifestfil at konvertere dine etiketdata til det format, som Rekognition Custom Labels kan bruge.


Om forfatterne

Computersyn ved hjælp af syntetiske datasæt med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Woody Borraccino er i øjeblikket Senior Machine Learning Specialist Solution Architect hos AWS. Med base i Milano, Italien, arbejdede Woody med softwareudvikling, før han kom til AWS tilbage i 2015, hvor hans vækst er passion for Computer Vision og Spatial Computing (AR/VR/XR) teknologier. Hans passion er nu fokuseret på den metaverse innovation. Følg ham videre Linkedin.

Computersyn ved hjælp af syntetiske datasæt med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Ying Hou, PhD, er Machine Learning Prototyping Architect hos AWS. Hendes hovedinteresseområder er Deep Learning, Computer Vision, NLP og tidsseriedataforudsigelse. I sin fritid nyder hun at læse romaner og vandre i nationalparker i Storbritannien.

Computersyn ved hjælp af syntetiske datasæt med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Bernard Paques er i øjeblikket CTO for Storm Reply med fokus på industrielle løsninger implementeret på AWS. Baseret i Paris, Frankrig, arbejdede Bernard tidligere som Principal Solution Architect og som Principal Consultant hos AWS. Hans bidrag til modernisering af virksomheder dækker AWS for Industrial, AWS CDK, og disse stammer nu fra grøn it og stemmebaserede systemer. Følg ham videre Twitter.

Computersyn ved hjælp af syntetiske datasæt med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Karl Herkt er i øjeblikket seniorstrateg hos Dassault Systèmes 3DExcite. Baseret i München, Tyskland, skaber han innovative implementeringer af computervision, der leverer håndgribelige resultater. Følg ham videre LinkedIn.

Tidsstempel:

Mere fra AWS maskinindlæring