Computer Vision Using Synthetic Datasets With Amazon Rekognition Custom Labels And Dassault Systèmes 3DEXCITE

Republicat de Platon

Urmaritori: 0

Aceasta este o postare scrisă împreună cu Bernard Paques, CTO al Storm Reply și Karl Herkt, Strategist senior la Dassault Systèmes 3DExcite.

În timp ce viziunea computerizată poate fi esențială pentru întreținerea industrială, producție, logistică și aplicațiile de consum, adoptarea sa este limitată de crearea manuală a seturilor de date de instruire. Crearea de imagini etichetate într-un context industrial se face în principal manual, ceea ce creează capacități de recunoaștere limitate, nu se scalează și are ca rezultat costuri cu forța de muncă și întârzieri în realizarea valorii afacerii. Acest lucru contravine agilității afacerii oferite de iterațiile rapide în proiectarea produsului, ingineria produsului și configurarea produsului. Acest proces nu se extinde pentru produse complexe, cum ar fi mașini, avioane sau clădiri moderne, deoarece în acele scenarii fiecare proiect de etichetare este unic (legat de produse unice). Ca rezultat, tehnologia de viziune computerizată nu poate fi aplicată cu ușurință la proiecte unice la scară largă fără un efort mare în pregătirea datelor, limitând uneori livrarea cazurilor de utilizare.

În această postare, prezentăm o abordare nouă în care sistemele de viziune computerizată înalt specializate sunt create din fișiere de proiectare și CAD. Începem cu crearea de gemeni digitali corecti vizual și generarea de imagini sintetice etichetate. Apoi împingem aceste imagini la Etichete personalizate Amazon Rekognition pentru a antrena un model personalizat de detectare a obiectelor. Prin utilizarea proprietății intelectuale existente cu software, facem viziunea computerizată accesibilă și relevantă pentru o varietate de contexte industriale.

Personalizarea sistemelor de recunoaștere ajută la obținerea rezultatelor afacerii

Sistemele specializate de viziune computerizată care sunt produse din gemeni digitali au merite specifice, care pot fi ilustrate în următoarele cazuri de utilizare:

Trasabilitate pentru produse unice – Airbus, Boeing și alți producători de avioane atribuie unic Numerele de serie ale producătorului (MSN) la fiecare aeronavă pe care o produc. Acesta este gestionat de-a lungul întregului proces de producție, pentru a genera documentația de navigabilitate și obțineți permise de zbor. A digital twin (un model 3D virtual reprezentând un produs fizic) poate fi derivat din configurația fiecărui MSN și generează un sistem distribuit de viziune computerizată care urmărește progresul acestui MSN în instalațiile industriale. Recunoașterea personalizată automatizează transparența acordată companiilor aeriene și înlocuiește majoritatea punctelor de control efectuate manual de companiile aeriene. Asigurarea automată a calității pentru produse unice se poate aplica aeronavelor, mașinilor, clădirilor și chiar producțiilor artizanale.
Realitatea augmentată contextualizată – Sistemele de viziune pe computer de calitate profesională pot acoperi peisaje limitate, dar cu capacități de discriminare mai mari. De exemplu, în întreținerea industrială, găsirea unei șurubelnițe într-o poză este inutilă; trebuie să identificați modelul șurubelniței sau chiar numărul de serie al acesteia. În astfel de contexte limitate, sistemele de recunoaștere personalizate depășesc sistemele de recunoaștere generice, deoarece sunt mai relevante în constatările lor. Sistemele de recunoaștere personalizate permit bucle de feedback precise prin intermediul realitate augmentată dedicată livrat în HMI sau în dispozitive mobile.
Controlul calității de la capăt la capăt - Cu ingineria sistemului, puteți crea gemeni digitale de construcții parțiale și puteți genera sisteme de viziune computerizată care se adaptează diferitelor faze ale proceselor de producție și producție. Controalele vizuale pot fi împletite cu stațiile de lucru de producție, permițând inspecția completă și detectarea timpurie a defectelor. Recunoaștere personalizată pentru inspecția de la capăt la capăt previne eficient cascada defectelor pe liniile de asamblare. Reducerea ratei de respingere și maximizarea producției este scopul final.
Inspecție flexibilă a calității – Inspecția modernă a calității trebuie să se adapteze la variațiile de proiectare și la fabricarea flexibilă. Variațiile în design provin din buclele de feedback privind utilizarea și întreținerea produsului. Fabricare flexibilă este o capacitate cheie pentru o strategie de fabricare la comandă și se aliniază cu principiul de producție lean de optimizare a costurilor. Prin integrarea variațiilor de design și a opțiunilor de configurare în gemenii digitali, recunoașterea personalizată permite adaptarea dinamică a sistemelor de viziune computerizată la planurile de producție și la variațiile de proiectare.

Îmbunătățiți vederea computerizată cu Dassault Systèmes 3DEXCITE dezvoltat de Amazon Rekognition

În cadrul Dassault Systèmes, o companie cu experiență profundă în gemeni digitali, care este și al doilea cel mai mare editor de software european, echipa 3DEXCITE explorează o altă cale. După cum a explicat Karl Herkt, „Dar dacă un model neuronal antrenat din imagini sintetice ar putea recunoaște un produs fizic?” 3DEXCITE a rezolvat această problemă combinând tehnologia lor cu infrastructura AWS, dovedind fezabilitatea acestei abordări deosebite. Este cunoscut și ca detectarea obiectelor pe mai multe domenii, unde modelul de detectare învață din imagini etichetate din domeniul sursă (imagini sintetice) și face predicții către domeniul țintă neetichetat (componente fizice).

Dassault Systèmes 3DEXCITE și echipa AWS Prototyping și-au unit forțele pentru a construi un sistem demonstrativ care recunoaște părți ale unei cutii de viteze industriale. Acest prototip a fost construit în 3 săptămâni, iar modelul antrenat a obținut un scor F98 de 1%. Modelul de recunoaștere a fost antrenat în întregime dintr-o conductă de software, care nu conține nicio imagine a unei piese reale. Din fișierele de proiectare și CAD ale unei cutii de viteze industriale, 3DEXCITE a creat gemeni digitali corecti vizual. De asemenea, au generat mii de imagini sintetice etichetate de la gemenii digitali. Apoi au folosit etichetele personalizate Rekognition pentru a antrena un model neuronal foarte specializat din aceste imagini și au furnizat un API de recunoaștere aferent. Au creat un site web pentru a permite recunoașterea de la orice cameră web a unei părți fizice a cutiei de viteze.

Amazon Rekognition este un serviciu de inteligență artificială care utilizează tehnologia de învățare profundă pentru a vă permite să extrageți metadate semnificative din imagini și videoclipuri, inclusiv identificarea obiectelor, a persoanelor, a textului, a scenelor, a activităților și a conținutului potențial neadecvat, fără a fi necesară expertiza în învățarea automată (ML). Amazon Rekognition oferă, de asemenea, analiză facială extrem de precisă și capabilități de căutare facială pe care le puteți utiliza pentru a detecta, analiza și compara fețe pentru o mare varietate de verificări ale utilizatorilor, numărare a persoanelor și cazuri de utilizare în siguranță. În cele din urmă, cu Rekognition Custom Labels, puteți folosi propriile date pentru a construi modele de detectare a obiectelor și clasificare a imaginilor.

Combinația dintre tehnologia Dassault Systèmes pentru generarea de imagini etichetate sintetice cu Rekognition Custom Labels pentru viziune computerizată oferă un flux de lucru scalabil pentru sistemele de recunoaștere. Ușurința de utilizare este un factor pozitiv semnificativ aici, deoarece adăugarea etichetelor personalizate Rekognition la conducta generală de software nu este dificilă - este la fel de simplă ca și integrarea unui API într-un flux de lucru. Nu este nevoie să fii un om de știință ML; pur și simplu trimiteți cadre capturate către AWS și primiți un rezultat pe care îl puteți introduce într-o bază de date sau îl puteți afișa într-un browser web.

Acest lucru subliniază și mai mult îmbunătățirea dramatică față de crearea manuală a seturilor de date de antrenament. Puteți obține rezultate mai bune mai rapid și cu o mai mare acuratețe, fără a fi nevoie de ore de lucru costisitoare și inutile. Cu atât de multe cazuri de utilizare potențiale, combinația dintre Dassault Systèmes și etichetele personalizate Rekognition are potențialul de a oferi afacerilor de astăzi un ROI semnificativ și imediat.

Prezentare generală a soluțiilor

Primul pas în această soluție este redarea imaginilor care creează setul de date de antrenament. Acest lucru este realizat de platforma 3DEXCITE. Putem genera datele de etichetare în mod programatic utilizând scripturi. Amazon SageMaker Ground Adevăr oferă un instrument de adnotare pentru a eticheta cu ușurință imaginile și videoclipurile pentru sarcini de clasificare și de detectare a obiectelor. Pentru a antrena un model în Amazon Rekognition, fișierul de etichetare trebuie să respecte formatul Ground Truth. Aceste etichete sunt în JSON, inclusiv informații precum dimensiunea imaginii, coordonatele casetei de delimitare și ID-urile clasei.

Apoi încărcați imaginile sintetice și manifestul în Serviciul Amazon de stocare simplă (Amazon S3), unde etichetele personalizate Rekognition le pot importa ca componente ale setului de date de antrenament.

Pentru a permite Rekognition Custom Labels să testeze modelele în comparație cu un set de imagini componente reale, oferim un set de imagini ale pieselor reale ale motorului realizate cu o cameră și le încărcăm pe Amazon S3 pentru a le folosi ca set de date de testare.

În cele din urmă, Rekognition Custom Labels antrenează cel mai bun model de detectare a obiectelor folosind setul de date de antrenament sintetic și setul de date de testare compus din imagini ale obiectelor reale și creează punctul final cu modelul pe care îl putem folosi pentru a rula recunoașterea obiectelor în aplicația noastră.

Următoarea diagramă ilustrează fluxul de lucru al soluției noastre:

Creați imagini sintetice

Imaginile sintetice sunt generate de platforma 3Dexperience, care este un produs al Dassault Systèmes. Această platformă vă permite să creați și să randați imagini fotorealiste pe baza fișierului CAD (computer-aided design) al obiectului. Putem genera mii de variante în câteva ore prin schimbarea configurațiilor de transformare a imaginii pe platformă.

În acest prototip, am selectat următoarele cinci părți ale cutiei de viteze distincte vizual pentru detectarea obiectelor. Acestea includ carcasa angrenajului, raportul de transmisie, capacul rulmentului, flanșa și angrenajul melcat.

Am folosit următoarele metode de creștere a datelor pentru a crește diversitatea imaginii și a face datele sintetice mai fotorealiste. Ajută la reducerea erorii de generalizare a modelului.

Zoom in / out – Această metodă mărește sau micșorează aleatoriu obiectul din imagini.
Rotație – Această metodă rotește obiectul în imagini și se pare că o cameră virtuală face fotografii aleatorii ale obiectului din unghiuri de 360 de grade.
Îmbunătățiți aspectul și senzația materialului – Am identificat că pentru unele piese de angrenaj aspectul materialului este mai puțin realist în redarea inițială. Am adăugat un efect metalic pentru a îmbunătăți imaginile sintetice.
Utilizați diferite setări de iluminare – În acest prototip, am simulat două condiții de iluminare:
- Depozit – O distribuție realistă a luminii. Umbrele și reflexiile sunt posibile.
- Studio – O lumină omogenă este pusă în jurul obiectului. Acest lucru nu este realist, dar nu există umbre sau reflexii.
Utilizați o poziție realistă a modului în care obiectul este vizualizat în timp real – În viața reală, unele obiecte, cum ar fi flanșa și capacul rulmentului, sunt în general plasate pe o suprafață, iar modelul detectează obiectele pe baza fațetelor de sus și de jos. Prin urmare, am eliminat imaginile de antrenament care arată marginea subțire a pieselor, numită și poziția marginii, și am mărit imaginile obiectelor într-o poziție plată.
Adăugați mai multe obiecte într-o singură imagine – În scenariile din viața reală, mai multe părți ale angrenajului ar putea apărea toate într-o singură vizualizare, așa că am pregătit imagini care conțin mai multe părți ale angrenajului.

Pe platforma 3Dexperience, putem aplica imagini diferite fundaluri, ceea ce poate ajuta la creșterea diversității imaginii în continuare. Din cauza limitării de timp, nu am implementat acest lucru în acest prototip.

Importați setul de date de antrenament sintetic

În ML, datele etichetate înseamnă că datele de antrenament sunt adnotate pentru a afișa ținta, care este răspunsul pe care doriți să îl prezică modelul dvs. ML. Datele etichetate care pot fi consumate de etichetele personalizate Rekognition ar trebui să respecte cerințele fișierului manifest Ground Truth. Un fișier manifest este format din una sau mai multe linii JSON; fiecare rând conține informațiile pentru o singură imagine. Pentru datele de antrenament sintetice, informațiile de etichetare pot fi generate programatic pe baza fișierului CAD și a configurațiilor de transformare a imaginii pe care le-am menționat mai devreme, ceea ce economisește efort manual semnificativ de lucru de etichetare. Pentru mai multe informații despre cerințele pentru etichetarea formatelor de fișiere, consultați Creați un fișier manifest și Localizarea obiectelor în fișiere manifest. Următorul este un exemplu de etichetare a imaginilor:

{ "source-ref": "s3://<bucket>/<prefix>/multiple_objects.png", "bounding-box": { "image_size": [ { "width": 1024, "height": 1024, "depth": 3 } ], "annotations": [ { "class_id": 1, "top": 703, "left": 606, "width": 179, "height": 157 }, { "class_id": 4, "top": 233, "left": 533, "width": 118, "height": 139 }, { "class_id": 0, "top": 592, "left": 154, "width": 231, "height": 332 }, { "class_id": 3, "top": 143, "left": 129, "width": 268, "height": 250 } ] }, "bounding-box-metadata": { "objects": [ { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 }, { "confidence": 1 } ], "class-map": { "0": "Gear_Housing", "1": "Gear_Ratio", "3": "Flange", "4": "Worm_Gear" }, "type": "groundtruth/object-detection", "human-annotated": "yes", "creation-date": "2021-06-18T11:56:01", "job-name": "3DEXCITE" }
}

După ce fișierul manifest este pregătit, îl încărcăm într-o găleată S3 și apoi creăm un set de date de antrenament în Rekognition Custom Labels selectând opțiunea Importați imagini etichetate de Amazon SageMaker Ground Truth.

După ce fișierul manifest este importat, putem vizualiza informațiile de etichetare vizual pe consola Amazon Rekognition. Acest lucru ne ajută să confirmăm că fișierul manifest este generat și importat. Mai precis, casetele de delimitare ar trebui să se alinieze cu obiectele din imagini, iar ID-urile clasei obiectelor ar trebui să fie alocate corect.

Creați setul de date de testare

Imaginile de testare sunt surprinse în viața reală cu un telefon sau o cameră din diferite unghiuri și condiții de iluminare, deoarece dorim să validăm acuratețea modelului, pe care l-am antrenat folosind date sintetice, față de scenariile din viața reală. Puteți încărca aceste imagini de testare într-un compartiment S3 și apoi le puteți importa ca seturi de date în Etichetele personalizate Rekognition. Sau le puteți încărca direct în seturile de date de pe mașina dvs. locală.

Etichetele personalizate Rekognition oferă o capacitate încorporată de adnotare a imaginilor, care are o experiență similară cu Ground Truth. Puteți începe munca de etichetare atunci când datele de testare sunt importate. Pentru un caz de utilizare pentru detectarea obiectelor, casetele de delimitare trebuie create strâns în jurul obiectelor de interes, ceea ce ajută modelul să învețe cu precizie regiunile și pixelii care aparțin obiectelor țintă. În plus, ar trebui să etichetați fiecare instanță a obiectelor țintă din toate imaginile, chiar și cele care sunt parțial îndepărtate sau ascunse de alte obiecte, altfel modelul prezice mai multe negative false.

Creați modelul de detectare a obiectelor pe mai multe domenii

Rekognition Custom Labels este un serviciu complet gestionat; trebuie doar să furnizați trenul și seturile de date de testare. Antrenează un set de modele și îl alege pe cel mai performant pe baza datelor furnizate. În acest prototip, pregătim seturile de date de antrenament sintetice în mod iterativ, experimentând diferite combinații ale metodelor de creștere a imaginii pe care le-am menționat mai devreme. Este creat un model pentru fiecare set de date de antrenament în Rekognition Custom Labels, ceea ce ne permite să comparăm și să găsim setul de date de antrenament optim pentru acest caz de utilizare în mod specific. Fiecare model are numărul minim de imagini de antrenament, conține o diversitate bună de imagine și oferă cea mai bună acuratețe a modelului. După 15 iterații, am obținut un scor F1 de 98% precizie a modelului folosind aproximativ 10,000 de imagini sintetice de antrenament, adică 2,000 de imagini per obiect în medie.

Rezultatele inferenței modelului

Următoarea imagine arată modelul Amazon Rekognition utilizat într-o aplicație de inferență în timp real. Toate componentele sunt detectate corect cu mare încredere.

Viziune computerizată folosind seturi de date sintetice cu Amazon Rekognition Custom Labels și Dassault Systèmes 3DEXCITE PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Concluzie

În această postare, am demonstrat cum să antrenăm un model de viziune computerizată pe imagini pur sintetice și cum modelul poate recunoaște în continuare în mod fiabil obiectele din lumea reală. Acest lucru economisește efort manual semnificativ de colectare și etichetare a datelor de antrenament. Prin această explorare, Dassault Systèmes extinde valoarea de afaceri a modelelor de produse 3D create de designeri și ingineri, deoarece acum puteți utiliza date CAD, CAE și PLM în sistemele de recunoaștere a imaginilor din lumea fizică.

Pentru mai multe informații despre caracteristicile cheie și cazurile de utilizare ale etichetelor personalizate Rekognition, consultați Etichete personalizate Amazon Rekognition. Dacă imaginile dvs. nu sunt etichetate nativ cu Ground Truth, ceea ce a fost cazul pentru acest proiect, consultați Crearea unui fișier manifest pentru a vă converti datele de etichetare în formatul pe care Rekognition Custom Labels îl poate consuma.

Despre Autori

Woody Borraccino este în prezent arhitect de soluții Senior Machine Learning Specialist la AWS. Cu sediul în Milano, Italia, Woody a lucrat la dezvoltarea de software înainte de a se alătura AWS în 2015, unde a crescut pasiunea pentru tehnologiile Computer Vision și Spatial Computing (AR/VR/XR). Pasiunea lui este acum concentrată pe inovația metaversului. Urmărește-l mai departe LinkedIn.

Ying Hou, PhD, este arhitect de prototipare a învățării automate la AWS. Principalele ei domenii de interes sunt Deep Learning, Computer Vision, NLP și predicția datelor în serie de timp. În timpul liber, îi place să citească romane și să facă drumeții în parcurile naționale din Marea Britanie.

Bernard Paques este în prezent CTO al Storm Reply, concentrat pe soluții industriale implementate pe AWS. Cu sediul la Paris, Franța, Bernard a lucrat anterior ca arhitect principal de soluții și ca consultant principal la AWS. Contribuțiile sale la modernizarea întreprinderilor acoperă AWS for Industrial, AWS CDK, iar acestea provin acum în Green IT și sisteme bazate pe voce. Urmărește-l mai departe Twitter.

Karl Herkt este în prezent Senior Strategist la Dassault Systèmes 3DExcite. Cu sediul în Munchen, Germania, el creează implementări inovatoare de viziune computerizată care oferă rezultate tangibile. Urmărește-l mai departe LinkedIn.

Timestamp-ul: Martie 14, 2022

Timestamp-ul: Decembrie 6, 2023

Viziunea computerizată folosind seturi de date sintetice cu Amazon Rekognition Custom Labels și Dassault Systèmes 3DEXCITE

Republicat de Platon

Personalizarea sistemelor de recunoaștere ajută la obținerea rezultatelor afacerii

Îmbunătățiți vederea computerizată cu Dassault Systèmes 3DEXCITE dezvoltat de Amazon Rekognition

Prezentare generală a soluțiilor

Creați imagini sintetice

Importați setul de date de antrenament sintetic

Creați setul de date de testare

Creați modelul de detectare a obiectelor pe mai multe domenii

Rezultatele inferenței modelului

Concluzie

Despre Autori

Mai mult de la Învățare automată AWS

Scalați inferența YOLOv5 cu punctele finale Amazon SageMaker și AWS Lambda

Depășiți barierele lingvistice cu Amazon Transcribe, Amazon Translate și Amazon Polly

Antrenați, reglați și implementați eficient ansambluri personalizate folosind Amazon SageMaker | Amazon Web Services

Organizați dezvoltarea învățării automate folosind spații partajate în SageMaker Studio pentru colaborare în timp real

Creați mostre aleatorii și stratificate de date cu Amazon SageMaker Data Wrangler

Generați scripturi IaC de aplicații personalizate și conforme pentru AWS Landing Zone folosind Amazon Bedrock | Amazon Web Services

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont