Datasyn ved bruk av syntetiske datasett med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Datasyn ved bruk av syntetiske datasett med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE

Dette er et innlegg skrevet sammen med Bernard Paques, CTO for Storm Reply, og Karl Herkt, seniorstrateg ved Dassault Systèmes 3DExcite.

Mens datasyn kan være avgjørende for industrielt vedlikehold, produksjon, logistikk og forbrukerapplikasjoner, er bruken begrenset av manuell opprettelse av opplæringsdatasett. Opprettelsen av merkede bilder i en industriell kontekst gjøres hovedsakelig manuelt, noe som skaper begrensede gjenkjennelsesmuligheter, ikke skaleres, og resulterer i arbeidskostnader og forsinkelser på realisering av forretningsverdi. Dette strider mot forretningssmidigheten som tilbys av raske iterasjoner i produktdesign, produktutvikling og produktkonfigurasjon. Denne prosessen skalerer ikke for komplekse produkter som biler, fly eller moderne bygninger, fordi i disse scenariene er hvert merkeprosjekt unikt (relatert til unike produkter). Som et resultat kan datasynsteknologi ikke enkelt brukes på store, unike prosjekter uten en stor innsats i dataforberedelse, noe som noen ganger begrenser levering av use case.

I dette innlegget presenterer vi en ny tilnærming der høyt spesialiserte datasynssystemer lages fra design og CAD-filer. Vi starter med å lage visuelt korrekte digitale tvillinger og generering av syntetiske merkede bilder. Så skyver vi disse bildene til Amazon Rekognition Egendefinerte etiketter å trene en tilpasset objektdeteksjonsmodell. Ved å bruke eksisterende åndsverk med programvare, gjør vi datasyn rimelig og relevant for en rekke industrielle sammenhenger.

Tilpasningen av gjenkjenningssystemer bidrar til å drive forretningsresultater

Spesialiserte datasynssystemer som er produsert fra digitale tvillinger har spesifikke fordeler, som kan illustreres i følgende brukstilfeller:

  • Sporbarhet for unike produkter – Airbus, Boeing og andre flyprodusenter tildeler unike Produsentens serienumre (MSN) til hvert fly de produserer. Dette styres gjennom hele produksjonsprosessen, for å generere luftdyktighetsdokumentasjon og få tillatelse til å fly. EN digital tvilling (en virtuell 3D-modell som representerer et fysisk produkt) kan utledes fra konfigurasjonen av hvert MSN, og genererer et distribuert datasynssystem som sporer fremdriften til dette MSN på tvers av industrianlegg. Tilpasset gjenkjennelse automatiserer åpenheten som gis til flyselskapene, og erstatter de fleste sjekkpunkter som utføres manuelt av flyselskapene. Automatisert kvalitetssikring av unike produkter kan gjelde for fly, biler, bygninger og til og med håndverksproduksjoner.
  • Kontekstualisert utvidet virkelighet – Datasynssystemer av profesjonell kvalitet kan omfatte begrensede landskap, men med høyere diskrimineringsevne. For eksempel, i industrielt vedlikehold, er det ubrukelig å finne en skrutrekker i et bilde; du må identifisere skrutrekkermodellen eller til og med serienummeret. I slike avgrensede sammenhenger utkonkurrerer tilpassede gjenkjenningssystemer generiske gjenkjenningssystemer fordi de er mer relevante i sine funn. Egendefinerte gjenkjenningssystemer muliggjør presise tilbakemeldingssløyfer via dedikert utvidet virkelighet leveres i HMI eller i mobile enheter.
  • End-to-end kvalitetskontroll - Med systemteknikk, kan du lage digitale tvillinger av delvise konstruksjoner, og generere datasynssystemer som tilpasser seg de ulike fasene av produksjons- og produksjonsprosesser. Visuelle kontroller kan flettes sammen med produksjonsarbeidsstasjoner, noe som muliggjør ende-til-ende inspeksjon og tidlig oppdagelse av defekter. Egendefinert gjenkjennelse for ende-til-ende inspeksjon forhindrer effektivt kaskade av defekter til samlebånd. Å redusere avvisningsraten og maksimere produksjonen er det endelige målet.
  • Fleksibel kvalitetskontroll – Moderne kvalitetskontroll må tilpasses designvariasjoner og fleksibel produksjon. Variasjoner i design kommer fra tilbakemeldingssløyfer om produktbruk og produktvedlikehold. Fleksibel produksjon er en nøkkelfunksjon for en bestillingsstrategi, og er i tråd med prinsippet om kostnadsoptimalisering av lean manufacturing. Ved å integrere designvariasjoner og konfigurasjonsalternativer i digitale tvillinger, muliggjør tilpasset gjenkjenning dynamisk tilpasning av datasynssystemer til produksjonsplanene og designvariasjonene.

Forbedre datasyn med Dassault Systèmes 3DEXCITE drevet av Amazon Rekognition

Innen Dassault Systèmes, et selskap med dyp ekspertise innen digitale tvillinger som også er den nest største europeiske programvareredaktøren, utforsker 3DEXCITE-teamet en annen vei. Som forklart av Karl Herkt, "Hva om en nevral modell trent fra syntetiske bilder kunne gjenkjenne et fysisk produkt?" 3DEXCITE har løst dette problemet ved å kombinere teknologien deres med AWS-infrastrukturen, noe som beviser gjennomførbarheten av denne særegne tilnærmingen. Det er også kjent som gjenkjenning av objekter på tvers av domener, hvor deteksjonsmodellen lærer av merkede bilder fra kildedomenet (syntetiske bilder) og gjør spådommer til det umerkede måldomenet (fysiske komponenter).

Dassault Systèmes 3DEXCITE og AWS Prototyping-teamet har gått sammen om å bygge et demonstrasjonssystem som gjenkjenner deler av en industriell girkasse. Denne prototypen ble bygget på 3 uker, og den trente modellen oppnådde en F98-score på 1 %. Gjenkjenningsmodellen har blitt trent helt fra en programvarepipeline, som ikke inneholder noen bilder av en ekte del. Fra design og CAD-filer til en industriell girkasse har 3DEXCITE skapt visuelt korrekte digitale tvillinger. De genererte også tusenvis av syntetisk merkede bilder fra de digitale tvillingene. Deretter brukte de Rekognition Custom Labels for å trene en høyspesialisert nevrale modell fra disse bildene og ga en relatert gjenkjennings-API. De bygde et nettsted for å muliggjøre gjenkjenning fra et hvilket som helst webkamera av én fysisk del av girkassen.

Amazon-anerkjennelse er en AI-tjeneste som bruker dyplæringsteknologi for å tillate deg å trekke ut meningsfulle metadata fra bilder og videoer – inkludert identifisering av objekter, personer, tekst, scener, aktiviteter og potensielt upassende innhold – uten behov for maskinlæring (ML) ekspertise. Amazon Rekognition gir også svært nøyaktige funksjoner for ansiktsanalyse og ansiktssøk som du kan bruke til å oppdage, analysere og sammenligne ansikter for et bredt utvalg av brukerverifisering, persontelling og sikkerhetsbruk. Til slutt, med Rekognition Custom Labels, kan du bruke dine egne data til å bygge objektdeteksjons- og bildeklassifiseringsmodeller.

Kombinasjonen av Dassault Systèmes-teknologi for generering av syntetisk merkede bilder med Rekognition Custom Labels for datasyn gir en skalerbar arbeidsflyt for gjenkjenningssystemer. Brukervennlighet er en betydelig positiv faktor her fordi det ikke er vanskelig å legge til egendefinerte etiketter for anerkjennelse til den generelle programvarepipelinen – det er så enkelt som å integrere en API i en arbeidsflyt. Du trenger ikke å være en ML-forsker; bare send fangede rammer til AWS og motta et resultat som du kan legge inn i en database eller vise i en nettleser.

Dette understreker ytterligere den dramatiske forbedringen i forhold til manuell oppretting av opplæringsdatasett. Du kan oppnå bedre resultater raskere og med større nøyaktighet, uten at du trenger kostbare, unødvendige arbeidstimer. Med så mange potensielle brukstilfeller har kombinasjonen av Dassault Systèmes og Rekognition Custom Labels potensialet til å gi dagens virksomheter betydelig og umiddelbar avkastning.

Løsningsoversikt

Det første trinnet i denne løsningen er å gjengi bildene som skaper opplæringsdatasettet. Dette gjøres av 3DEXCITE-plattformen. Vi kan generere merkedataene programmatisk ved å bruke skript. Amazon SageMaker Ground Truth gir et merknadsverktøy for enkelt å merke bilder og videoer for klassifiserings- og objektgjenkjenningsoppgaver. For å trene en modell i Amazon Rekognition, må merkefilen samsvare med Ground Truth-formatet. Disse etikettene er i JSON, inkludert informasjon som bildestørrelse, grensebokskoordinater og klasse-ID-er.

Last deretter opp de syntetiske bildene og manifestet til Amazon enkel lagringstjeneste (Amazon S3), hvor Rekognition Custom Labels kan importere dem som komponenter i opplæringsdatasettet.

For å la Rekognition Custom Labels teste modellene kontra et sett med ekte komponentbilder, gir vi et sett med bilder av de virkelige motordelene tatt med et kamera og laster dem opp til Amazon S3 for å bruke som testdatasettet.

Til slutt trener Rekognition Custom Labels opp den beste objektdeteksjonsmodellen ved å bruke det syntetiske treningsdatasettet og testdatasettet sammensatt av bilder av virkelige objekter, og skaper endepunktet med modellen vi kan bruke til å kjøre objektgjenkjenning i applikasjonen vår.

Følgende diagram illustrerer arbeidsflyten vår for løsning:
Datasyn ved bruk av syntetiske datasett med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Lag syntetiske bilder

De syntetiske bildene er generert fra 3Dexperience-plattformen, som er et produkt av Dassault Systèmes. Denne plattformen lar deg lage og gjengi fotorealistiske bilder basert på objektets CAD-fil (computer-aided design). Vi kan generere tusenvis av varianter på noen få timer ved å endre konfigurasjoner for bildetransformasjon på plattformen.

I denne prototypen valgte vi følgende fem visuelt distinkte girkassedeler for gjenstandsdeteksjon. De inkluderer et girhus, girforhold, lagerdeksel, flens og snekkegir.
Datasyn ved bruk av syntetiske datasett med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Vi brukte følgende dataforsterkningsmetoder for å øke bildemangfoldet, og gjøre de syntetiske dataene mer fotorealistiske. Det bidrar til å redusere modellens generaliseringsfeil.

  • Zoom inn / ut – Denne metoden zoomer tilfeldig inn eller ut objektet i bilder.
  • Rotasjon – Denne metoden roterer objektet i bilder, og det ser ut som et virtuelt kamera tar tilfeldige bilder av objektet fra 360-graders vinkler.
  • Forbedre utseendet og følelsen av materialet – Vi identifiserte at for noen utstyrsdeler er utseendet til materialet mindre realistisk i den første gjengivelsen. Vi la til en metallisk effekt for å forbedre de syntetiske bildene.
  • Bruk forskjellige lysinnstillinger – I denne prototypen simulerte vi to lysforhold:
    • Warehouse – En realistisk lysfordeling. Skygger og refleksjoner er mulig.
    • studie – Et homogent lys settes rundt hele objektet. Dette er ikke realistisk, men det er ingen skygger eller refleksjoner.
  • Bruk en realistisk posisjon av hvordan objektet ses i sanntid – I det virkelige liv er noen gjenstander, for eksempel en flens og lagerdeksel, vanligvis plassert på en overflate, og modellen oppdager gjenstandene basert på topp- og bunnfasettene. Derfor fjernet vi treningsbildene som viser den tynne kanten av delene, også kalt kantposisjonen, og økte bildene av objekter i flat posisjon.
  • Legg til flere objekter i ett bilde – I virkelige scenarier kan flere girdeler vises i én visning, så vi forberedte bilder som inneholder flere girdeler.

På 3Dexperience-plattformen kan vi bruke ulike bakgrunner på bildene, noe som kan bidra til å øke bildemangfoldet ytterligere. På grunn av tidsbegrensning implementerte vi ikke dette i denne prototypen.
Datasyn ved bruk av syntetiske datasett med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Importer det syntetiske treningsdatasettet

I ML betyr merkede data at treningsdataene er kommentert for å vise målet, som er svaret du vil at ML-modellen din skal forutsi. De merkede dataene som kan konsumeres av Rekognition Custom Labels skal overholdes Ground Truth-manifestfilkrav. En manifestfil er laget av én eller flere JSON-linjer; hver linje inneholder informasjonen for et enkelt bilde. For syntetiske treningsdata kan merkeinformasjonen genereres programmatisk basert på CAD-filen og bildetransformasjonskonfigurasjonene vi nevnte tidligere, noe som sparer betydelig manuell innsats med merkearbeid. For mer informasjon om kravene til merking av filformater, se Opprett en manifestfil og Objektlokalisering i manifestfiler. Følgende er et eksempel på bildemerking:

{ "source-ref": "s3://<bucket>/<prefix>/multiple_objects.png", "bounding-box": { "image_size": [ { "width": 1024, "height": 1024, "depth": 3 } ], "annotations": [ { "class_id": 1, "top": 703, "left": 606, "width": 179, "height": 157 }, { "class_id": 4, "top": 233, "left": 533, "width": 118, "height": 139 }, { "class_id": 0, "top": 592, "left": 154, "width": 231, "height": 332 }, { "class_id": 3, "top": 143, "left": 129, "width": 268, "height": 250 } ] }, "bounding-box-metadata": { "objects": [ { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 } ], "class-map": { "0": "Gear_Housing", "1": "Gear_Ratio", "3": "Flange", "4": "Worm_Gear" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2021-06-18T11:56:01", "job-name": "3DEXCITE" }
}

Etter at manifestfilen er klargjort, laster vi den opp til en S3-bøtte, og lager deretter et opplæringsdatasett i Rekognition Custom Labels ved å velge alternativet Importer bilder merket av Amazon SageMaker Ground Truth.
Datasyn ved bruk av syntetiske datasett med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Etter at manifestfilen er importert, kan vi se merkeinformasjonen visuelt på Amazon Rekognition-konsollen. Dette hjelper oss å bekrefte at manifestfilen er generert og importert. Mer spesifikt bør avgrensningsboksene justeres med objektene i bilder, og objektenes klasse-IDer bør tildeles riktig.
Datasyn ved bruk av syntetiske datasett med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Opprett testdatasettet

Testbildene er tatt i det virkelige liv med en telefon eller et kamera fra forskjellige vinkler og lysforhold, fordi vi ønsker å validere modellnøyaktigheten, som vi har trent ved hjelp av syntetiske data, mot de virkelige scenariene. Du kan laste opp disse testbildene til en S3-bøtte, og deretter importere dem som datasett i egendefinerte etiketter for anerkjennelse. Eller du kan laste dem opp direkte til datasett fra din lokale maskin.
Datasyn ved bruk av syntetiske datasett med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Rekognition Custom Labels gir innebygd bildekommentarfunksjon, som har en lignende opplevelse som Ground Truth. Du kan starte merkearbeidet når testdata importeres. For et brukstilfelle for gjenkjenning av objekter, bør avgrensningsboksene opprettes tett rundt objektene av interesse, noe som hjelper modellen å lære nøyaktig områdene og piksler som tilhører målobjektene. I tillegg bør du merke alle forekomster av målobjektene i alle bilder, også de som er delvis ute av syne eller blokkert av andre objekter, ellers forutsier modellen flere falske negativer.
Datasyn ved bruk av syntetiske datasett med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Opprett objektdeteksjonsmodellen på tvers av domener

Rekognition Custom Labels er en fullstendig administrert tjeneste; du trenger bare å oppgi tog- og testdatasettene. Den trener et sett med modeller og velger den som gir best ytelse basert på dataene som er oppgitt. I denne prototypen forbereder vi de syntetiske treningsdatasettene iterativt ved å eksperimentere med forskjellige kombinasjoner av bildeforstørrelsesmetodene som vi nevnte tidligere. En modell er laget for hvert opplæringsdatasett i Rekognition Custom Labels, som lar oss sammenligne og finne det optimale opplæringsdatasettet spesifikt for denne brukssaken. Hver modell har minimum antall treningsbilder, inneholder god bildediversitet og gir best modellnøyaktighet. Etter 15 iterasjoner oppnådde vi en F1-score på 98 % modellnøyaktighet ved å bruke rundt 10,000 2,000 syntetiske treningsbilder, som er XNUMX bilder per objekt i gjennomsnitt.
Datasyn ved bruk av syntetiske datasett med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Resultater av modellslutning

Følgende bilde viser Amazon Rekognition-modellen som brukes i en slutningsapplikasjon i sanntid. Alle komponenter oppdages riktig med høy sikkerhet.

Datasyn ved bruk av syntetiske datasett med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

konklusjonen

I dette innlegget demonstrerte vi hvordan man trener en datasynsmodell på rent syntetiske bilder, og hvordan modellen fortsatt kan gjenkjenne objekter fra den virkelige verden. Dette sparer betydelig manuell innsats for å samle inn og merke treningsdataene. Med denne utforskningen utvider Dassault Systèmes forretningsverdien til 3D-produktmodellene laget av designere og ingeniører, fordi du nå kan bruke CAD-, CAE- og PLM-data i gjenkjenningssystemer for bilder i den fysiske verden.

For mer informasjon om Rekognition Custom Labels nøkkelfunksjoner og brukstilfeller, se Amazon Rekognition Egendefinerte etiketter. Hvis bildene dine ikke er merket med Ground Truth, som var tilfellet for dette prosjektet, se Oppretter en manifestfil for å konvertere merkedataene dine til formatet som Rekognition Custom Labels kan bruke.


Om forfatterne

Datasyn ved bruk av syntetiske datasett med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Woody Borraccino er for tiden Senior Machine Learning Specialist Solution Architect ved AWS. Med base i Milano, Italia, jobbet Woody med programvareutvikling før han begynte i AWS tilbake i 2015, hvor hans vekst er lidenskap for Computer Vision og Spatial Computing (AR/VR/XR) teknologier. Hans lidenskap er nå fokusert på den metaverse innovasjonen. Følg ham videre Linkedin.

Datasyn ved bruk av syntetiske datasett med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Ying Hou, PhD, er Machine Learning Prototyping Architect ved AWS. Hennes hovedinteresseområder er Deep Learning, Computer Vision, NLP og tidsseriedataprediksjon. På fritiden liker hun å lese romaner og vandre i nasjonalparker i Storbritannia.

Datasyn ved bruk av syntetiske datasett med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Bernard Paques er for tiden CTO for Storm Reply med fokus på industrielle løsninger distribuert på AWS. Basert i Paris, Frankrike, jobbet Bernard tidligere som Principal Solution Architect og som Principal Consultant hos AWS. Hans bidrag til bedriftsmodernisering dekker AWS for Industrial, AWS CDK, og disse stammer nå fra grønn IT og stemmebaserte systemer. Følg ham videre Twitter.

Datasyn ved bruk av syntetiske datasett med Amazon Rekognition Custom Labels og Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Karl Herkt er for tiden seniorstrateg hos Dassault Systèmes 3DExcite. Basert i München, Tyskland, skaper han innovative implementeringer av datasyn som gir håndgripelige resultater. Følg ham videre Linkedin.

Tidstempel:

Mer fra AWS maskinlæring