Datorseende med syntetiska datauppsättningar med Amazon Rekognition Custom Labels och Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Datorseende med syntetiska datauppsättningar med Amazon Rekognition Custom Labels och Dassault Systèmes 3DEXCITE

Det här är ett inlägg som skrivits tillsammans med Bernard Paques, CTO för Storm Reply, och Karl Herkt, seniorstrateg på Dassault Systèmes 3DExcite.

Även om datorseende kan vara avgörande för industriellt underhåll, tillverkning, logistik och konsumenttillämpningar, begränsas dess användning av manuellt skapande av utbildningsdatauppsättningar. Skapandet av märkta bilder i industriella sammanhang görs huvudsakligen manuellt, vilket skapar begränsade igenkänningsmöjligheter, skalas inte och resulterar i arbetskostnader och förseningar i affärsvärdeförverkligandet. Detta strider mot affärsflexibiliteten som tillhandahålls av snabba iterationer i produktdesign, produktutveckling och produktkonfiguration. Denna process skalas inte för komplexa produkter som bilar, flygplan eller moderna byggnader, eftersom i dessa scenarier är varje märkningsprojekt unikt (relaterat till unika produkter). Som ett resultat kan datorseendeteknik inte enkelt tillämpas på storskaliga unika projekt utan en stor ansträngning för att förbereda data, vilket ibland begränsar leveransen av användningsfall.

I det här inlägget presenterar vi ett nytt tillvägagångssätt där högspecialiserade datorseendesystem skapas från design och CAD-filer. Vi börjar med skapandet av visuellt korrekta digitala tvillingar och genereringen av syntetiska märkta bilder. Sedan skjuter vi dessa bilder till Amazon Rekognition anpassade etiketter för att träna en anpassad objektdetekteringsmodell. Genom att använda befintliga immateriella rättigheter med mjukvara, gör vi datorseende överkomligt och relevant för en mängd olika industriella sammanhang.

Anpassningen av igenkänningssystem hjälper till att driva affärsresultat

Specialiserade datorseendesystem som produceras av digitala tvillingar har specifika fördelar, vilket kan illustreras i följande användningsfall:

  • Spårbarhet för unika produkter – Airbus, Boeing och andra flygplanstillverkare tilldelar unika Tillverkarens serienummer (MSN) till varje flygplan de tillverkar. Detta hanteras genom hela produktionsprocessen, för att generera luftvärdighetsdokumentation och få flygtillstånd. A digital tvilling (en virtuell 3D-modell som representerar en fysisk produkt) kan härledas från konfigurationen av varje MSN och genererar ett distribuerat datorseendesystem som spårar framstegen för detta MSN över industriella anläggningar. Anpassad igenkänning automatiserar den transparens som ges till flygbolagen och ersätter de flesta kontrollpunkter som utförs manuellt av flygbolag. Automatiserad kvalitetssäkring av unika produkter kan gälla flygplan, bilar, byggnader och till och med hantverksproduktion.
  • Kontextualiserad förstärkt verklighet – Datorseendesystem av professionell kvalitet kan omfånga begränsade landskap, men med högre diskrimineringsförmåga. Till exempel, vid industriellt underhåll, är det värdelöst att hitta en skruvmejsel i en bild; du måste identifiera skruvmejselmodellen eller till och med dess serienummer. I sådana avgränsade sammanhang överträffar anpassade igenkänningssystem bättre generiska igenkänningssystem eftersom de är mer relevanta i sina resultat. Anpassade igenkänningssystem möjliggör exakta återkopplingsslingor via dedikerad förstärkt verklighet levereras i HMI eller i mobila enheter.
  • End-to-end kvalitetskontroll - Med systemteknik, kan du skapa digitala tvillingar av partiella konstruktioner och generera datorseende system som anpassar sig till de olika faserna av tillverknings- och produktionsprocesser. Visuella kontroller kan sammanflätas med tillverkningsarbetsstationer, vilket möjliggör end-to-end-inspektion och tidig upptäckt av defekter. Anpassad igenkänning för end-to-end-inspektion förhindrar effektivt kaskad av defekter till monteringslinjer. Att minska avvisningsfrekvensen och maximera produktionen är det ultimata målet.
  • Flexibel kvalitetskontroll – Modern kvalitetskontroll måste anpassas till designvariationer och flexibel tillverkning. Variationer i design kommer från återkopplingsslingor om produktanvändning och produktunderhåll. Flexibel tillverkning är en nyckelförmåga för en beställningsstrategi och ligger i linje med principen om lean manufacturing för kostnadsoptimering. Genom att integrera designvariationer och konfigurationsalternativ i digitala tvillingar, möjliggör anpassad igenkänning dynamisk anpassning av datorseendesystem till produktionsplanerna och designvariationerna.

Förbättra datorseendet med Dassault Systèmes 3DEXCITE som drivs av Amazon Rekognition

Inom Dassault Systèmes, ett företag med djup expertis inom digitala tvillingar som också är den näst största europeiska programvaruredigeraren, utforskar 3DEXCITE-teamet en annan väg. Som förklarat av Karl Herkt, "Tänk om en neural modell tränad från syntetiska bilder kunde känna igen en fysisk produkt?" 3DEXCITE har löst detta problem genom att kombinera sin teknologi med AWS-infrastrukturen, vilket bevisar genomförbarheten av denna speciella strategi. Det är också känt som objektdetektering över flera domäner, där detektionsmodellen lär sig från märkta bilder från källdomänen (syntetiska bilder) och gör förutsägelser till den omärkta måldomänen (fysiska komponenter).

Dassault Systèmes 3DEXCITE och AWS Prototyping-teamet har gått samman för att bygga ett demonstrationssystem som känner igen delar av en industriell växellåda. Denna prototyp byggdes på 3 veckor och den tränade modellen uppnådde 98 % F1-poäng. Igenkänningsmodellen har tränats helt från en mjukvarupipeline, som inte innehåller några bilder av en verklig del. Från design och CAD-filer för en industriell växellåda har 3DEXCITE skapat visuellt korrekta digitala tvillingar. De genererade också tusentals syntetiskt märkta bilder från de digitala tvillingarna. Sedan använde de Rekognition Custom Labels för att träna en högspecialiserad neural modell från dessa bilder och tillhandahöll ett relaterat igenkännings-API. De byggde en webbplats för att möjliggöra igenkänning från vilken webbkamera som helst av en fysisk del av växellådan.

Amazon-erkännande är en AI-tjänst som använder djupinlärningsteknik för att låta dig extrahera meningsfull metadata från bilder och videor – inklusive identifiering av objekt, personer, text, scener, aktiviteter och potentiellt olämpligt innehåll – utan att behöva expertis inom maskininlärning (ML). Amazon Rekognition tillhandahåller också mycket exakta funktioner för ansiktsanalys och ansiktssökning som du kan använda för att upptäcka, analysera och jämföra ansikten för en mängd olika användarverifiering, personräkning och säkerhetsanvändning. Slutligen, med Rekognition Custom Labels kan du använda din egen data för att bygga objektdetekterings- och bildklassificeringsmodeller.

Kombinationen av Dassault Systèmes-teknologi för generering av syntetiskt märkta bilder med Rekognition Custom Labels för datorseende ger ett skalbart arbetsflöde för igenkänningssystem. Användarvänlighet är en betydande positiv faktor här eftersom det inte är svårt att lägga till Rekognition Custom Labels till den övergripande mjukvarupipelinen – det är lika enkelt som att integrera ett API i ett arbetsflöde. Inget behov av att vara en ML-forskare; skicka helt enkelt infångade ramar till AWS och få ett resultat som du kan lägga in i en databas eller visa i en webbläsare.

Detta understryker ytterligare den dramatiska förbättringen jämfört med manuellt skapande av utbildningsdatauppsättningar. Du kan uppnå bättre resultat snabbare och med större noggrannhet, utan att behöva ta kostsamma, onödiga arbetstimmar. Med så många potentiella användningsfall har kombinationen av Dassault Systèmes och Rekognition Custom Labels potential att ge dagens företag betydande och omedelbar avkastning på investeringen.

Lösningsöversikt

Det första steget i den här lösningen är att rendera bilderna som skapar träningsdatauppsättningen. Detta görs av 3DEXCITE-plattformen. Vi kan generera märkningsdata programmatiskt genom att använda skript. Amazon SageMaker Ground Sannhet tillhandahåller ett anteckningsverktyg för att enkelt märka bilder och videor för klassificering och objektdetekteringsuppgifter. För att träna en modell i Amazon Rekognition måste märkningsfilen överensstämma med Ground Truth-formatet. Dessa etiketter finns i JSON, inklusive information som bildstorlek, gränslinjekoordinater och klass-ID:n.

Ladda sedan upp de syntetiska bilderna och manifestet till Amazon enkel lagringstjänst (Amazon S3), där Rekognition Custom Labels kan importera dem som komponenter i träningsdatauppsättningen.

För att låta Rekognition Custom Labels testa modellerna kontra en uppsättning riktiga komponentbilder tillhandahåller vi en uppsättning bilder av de riktiga motordelarna tagna med en kamera och laddar upp dem till Amazon S3 för att använda som testdatauppsättning.

Slutligen tränar Rekognition Custom Labels den bästa objektdetekteringsmodellen med hjälp av den syntetiska träningsdatauppsättningen och testdatauppsättningen som består av bilder av verkliga objekt, och skapar slutpunkten med modellen vi kan använda för att köra objektigenkänning i vår applikation.

Följande diagram illustrerar vårt lösningsarbetsflöde:
Datorseende med syntetiska datauppsättningar med Amazon Rekognition Custom Labels och Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Skapa syntetiska bilder

De syntetiska bilderna genereras från plattformen 3Dexperience, som är en produkt från Dassault Systèmes. Denna plattform låter dig skapa och återge fotorealistiska bilder baserat på objektets CAD-fil (computer-aided design). Vi kan generera tusentals varianter på några timmar genom att ändra bildtransformationskonfigurationer på plattformen.

I den här prototypen valde vi följande fem visuellt distinkta växellådsdelar för objektdetektering. De inkluderar ett växelhus, utväxling, lagerkåpa, fläns och snäckväxel.
Datorseende med syntetiska datauppsättningar med Amazon Rekognition Custom Labels och Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Vi använde följande dataförstärkningsmetoder för att öka bildmångfalden och göra syntetiska data mer fotorealistiska. Det hjälper till att minska modellens generaliseringsfel.

  • Zooma in / ut – Den här metoden zoomar slumpmässigt in eller ut objektet i bilder.
  • Rotation – Den här metoden roterar objektet i bilder, och det ser ut som att en virtuell kamera tar slumpmässiga bilder av objektet från 360-graders vinklar.
  • Förbättra utseendet och känslan av materialet – Vi identifierade att för vissa redskapsdelar är utseendet på materialet mindre realistiskt i den initiala återgivningen. Vi har lagt till en metallisk effekt för att förbättra de syntetiska bilderna.
  • Använd olika ljusinställningar – I den här prototypen simulerade vi två ljusförhållanden:
    • Warehouse – En realistisk ljusfördelning. Skuggor och reflektioner är möjliga.
    • Studio – Ett homogent ljus sätts runt hela föremålet. Detta är inte realistiskt men det finns inga skuggor eller reflektioner.
  • Använd en realistisk position av hur objektet ses i realtid – I det verkliga livet placeras vissa föremål, som en fläns och lagerkåpa, vanligtvis på en yta, och modellen upptäcker föremålen baserat på de övre och nedre aspekterna. Därför tog vi bort träningsbilderna som visar delarnas tunna kant, även kallad kantposition, och ökade bilderna på objekt i platt läge.
  • Lägg till flera objekt i en bild – I verkliga scenarier kan flera växeldelar alla visas i en vy, så vi förberedde bilder som innehåller flera växeldelar.

På plattformen 3Dexperience kan vi applicera olika bakgrunder på bilderna, vilket kan bidra till att öka bildmångfalden ytterligare. På grund av tidsbegränsning implementerade vi inte detta i den här prototypen.
Datorseende med syntetiska datauppsättningar med Amazon Rekognition Custom Labels och Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Importera den syntetiska träningsdatauppsättningen

I ML betyder märkta data att träningsdata är kommenterade för att visa målet, vilket är svaret du vill att din ML-modell ska förutsäga. Den märkta informationen som kan konsumeras av Rekognition Custom Labels bör uppfylla Ground Truth-manifestfilkraven. En manifestfil är gjord av en eller flera JSON-rader; varje rad innehåller informationen för en enda bild. För syntetisk träningsdata kan märkningsinformationen genereras programmatiskt baserat på CAD-filen och bildtransformationskonfigurationer som vi nämnde tidigare, vilket sparar betydande manuell ansträngning av märkningsarbete. För mer information om kraven för märkning av filformat, se Skapa en manifestfil och Objektlokalisering i manifestfiler. Följande är ett exempel på bildmärkning:

{ "source-ref": "s3://<bucket>/<prefix>/multiple_objects.png", "bounding-box": { "image_size": [ { "width": 1024, "height": 1024, "depth": 3 } ], "annotations": [ { "class_id": 1, "top": 703, "left": 606, "width": 179, "height": 157 }, { "class_id": 4, "top": 233, "left": 533, "width": 118, "height": 139 }, { "class_id": 0, "top": 592, "left": 154, "width": 231, "height": 332 }, { "class_id": 3, "top": 143, "left": 129, "width": 268, "height": 250 } ] }, "bounding-box-metadata": { "objects": [ { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 } ], "class-map": { "0": "Gear_Housing", "1": "Gear_Ratio", "3": "Flange", "4": "Worm_Gear" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2021-06-18T11:56:01", "job-name": "3DEXCITE" }
}

När manifestfilen har förberetts laddar vi upp den till en S3-bucket och skapar sedan en träningsdatauppsättning i Rekognition Custom Labels genom att välja alternativet Importera bilder märkta av Amazon SageMaker Ground Truth.
Datorseende med syntetiska datauppsättningar med Amazon Rekognition Custom Labels och Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Efter att manifestfilen har importerats kan vi se märkningsinformationen visuellt på Amazon Rekognition-konsolen. Detta hjälper oss att bekräfta att manifestfilen har genererats och importerats. Mer specifikt bör begränsningsrutorna anpassas till objekten i bilder, och objektens klass-ID bör tilldelas korrekt.
Datorseende med syntetiska datauppsättningar med Amazon Rekognition Custom Labels och Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Skapa testdatauppsättningen

Testbilderna tas i verkligheten med en telefon eller kamera från olika vinklar och ljusförhållanden, eftersom vi vill validera modellnoggrannheten, som vi tränade med hjälp av syntetiska data, mot verkliga scenarier. Du kan ladda upp dessa testbilder till en S3-bucket och sedan importera dem som datauppsättningar i Rekognition Custom Labels. Eller så kan du ladda upp dem direkt till datauppsättningar från din lokala dator.
Datorseende med syntetiska datauppsättningar med Amazon Rekognition Custom Labels och Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Rekognition Custom Labels ger inbyggd bildkommentarfunktion, som har en liknande upplevelse som Ground Truth. Du kan starta märkningsarbetet när testdata importeras. För ett användningsfall för objektdetektering bör begränsningsrutorna skapas tätt runt objekten av intresse, vilket hjälper modellen att lära sig exakt de regioner och pixlar som hör till målobjekten. Dessutom bör du märka varje instans av målobjekten i alla bilder, även de som är delvis osynliga eller blockerade av andra objekt, annars förutsäger modellen fler falska negativ.
Datorseende med syntetiska datauppsättningar med Amazon Rekognition Custom Labels och Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Skapa objektdetektionsmodellen över flera domäner

Rekognition Custom Labels är en helt hanterad tjänst; du behöver bara tillhandahålla tåg- och testdatauppsättningarna. Den tränar en uppsättning modeller och väljer den som ger bäst resultat baserat på den information som tillhandahålls. I denna prototyp förbereder vi de syntetiska träningsdataseten iterativt genom att experimentera med olika kombinationer av de bildförstärkningsmetoder som vi nämnde tidigare. En modell skapas för varje träningsdatauppsättning i Rekognition Custom Labels, vilket gör att vi kan jämföra och hitta den optimala träningsdatauppsättningen specifikt för detta användningsfall. Varje modell har det minsta antalet träningsbilder, innehåller god bilddiversitet och ger bästa modellnoggrannhet. Efter 15 iterationer uppnådde vi ett F1-poäng på 98 % modellnoggrannhet med cirka 10,000 2,000 syntetiska träningsbilder, vilket är XNUMX XNUMX bilder per objekt i genomsnitt.
Datorseende med syntetiska datauppsättningar med Amazon Rekognition Custom Labels och Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Resultat av modellinferens

Följande bild visar Amazon Rekognition-modellen som används i en realtidsinferensapplikation. Alla komponenter detekteras korrekt med hög säkerhet.

Datorseende med syntetiska datauppsättningar med Amazon Rekognition Custom Labels och Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Slutsats

I det här inlägget demonstrerade vi hur man tränar en datorseendemodell på rent syntetiska bilder, och hur modellen fortfarande kan känna igen verkliga objekt på ett tillförlitligt sätt. Detta sparar betydande manuell ansträngning att samla in och märka träningsdata. Med denna utforskning utökar Dassault Systèmes affärsvärdet av 3D-produktmodellerna skapade av designers och ingenjörer, eftersom du nu kan använda CAD-, CAE- och PLM-data i igenkänningssystem för bilder i den fysiska världen.

För mer information om Rekognition Custom Labels nyckelfunktioner och användningsfall, se Amazon Rekognition anpassade etiketter. Om dina bilder inte är märkta med Ground Truth, vilket var fallet för det här projektet, se Skapa en manifestfil för att konvertera dina etikettdata till det format som Rekognition Custom Labels kan använda.


Om författarna

Datorseende med syntetiska datauppsättningar med Amazon Rekognition Custom Labels och Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Woody Borraccino är för närvarande Senior Machine Learning Specialist Solution Architect på AWS. Baserad i Milano, Italien, arbetade Woody med mjukvaruutveckling innan han började på AWS redan 2015, där hans tillväxt är passion för datorseende och spatial computing (AR/VR/XR)-teknologier. Hans passion är nu fokuserad på metaversinnovationen. Följ honom vidare LinkedIn.

Datorseende med syntetiska datauppsättningar med Amazon Rekognition Custom Labels och Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Ying Hou, PhD, är Machine Learning Prototyping Architect på AWS. Hennes huvudsakliga intresseområden är Deep Learning, Computer Vision, NLP och tidsseriedataprediktion. På fritiden tycker hon om att läsa romaner och vandra i nationalparker i Storbritannien.

Datorseende med syntetiska datauppsättningar med Amazon Rekognition Custom Labels och Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Bernard Paques är för närvarande CTO för Storm Reply, fokuserad på industriella lösningar utplacerade på AWS. Baserad i Paris, Frankrike, arbetade Bernard tidigare som Principal Solution Architect och som Principal Consultant på AWS. Hans bidrag till företagsmodernisering omfattar AWS for Industrial, AWS CDK, och dessa härrör nu från grön IT och röstbaserade system. Följ honom vidare Twitter.

Datorseende med syntetiska datauppsättningar med Amazon Rekognition Custom Labels och Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Karl Herkt är för närvarande seniorstrateg på Dassault Systèmes 3DExcite. Baserad i München, Tyskland, skapar han innovativa implementeringar av datorseende som ger påtagliga resultat. Följ honom vidare LinkedIn.

Tidsstämpel:

Mer från AWS maskininlärning