Create High-quality Data For ML Models With Amazon SageMaker Ground Truth

Republicat de Platon

Urmaritori: 0

Învățarea automată (ML) a îmbunătățit afacerile în toate industriile în ultimii ani, din sistemul de recomandare de pe dvs Prime Video cont, pentru rezumarea documentelor și căutarea eficientă cu Alexaasistenta vocala a lui. Cu toate acestea, rămâne întrebarea cum să încorporați această tehnologie în afacerea dvs. Spre deosebire de metodele tradiționale bazate pe reguli, ML deduce automat modele din date pentru a vă îndeplini sarcina de interes. Deși acest lucru ocolește nevoia de a stabili reguli pentru automatizare, înseamnă, de asemenea, că modelele ML pot fi la fel de bune ca și datele pe care sunt instruiți. Cu toate acestea, crearea datelor este adesea o sarcină dificilă. La Laboratorul de soluții Amazon Machine Learning Solutions, ne-am confruntat în mod repetat cu această problemă și dorim să ușurăm această călătorie pentru clienții noștri. Dacă doriți să descărcați acest proces, puteți utiliza Amazon SageMaker Ground Truth Plus.

Până la sfârșitul acestei postări, veți putea realiza următoarele:

Înțelegeți procesele de afaceri implicate în crearea unei conducte de achiziție de date
Identificați serviciile AWS Cloud pentru susținerea și accelerarea conductei dvs. de etichetare a datelor
Rulați o activitate de achiziție și etichetare a datelor pentru cazuri de utilizare personalizate
Creați date de înaltă calitate urmând cele mai bune practici de afaceri și tehnice

Pe parcursul acestei postări, ne concentrăm pe procesul de creare a datelor și ne bazăm pe serviciile AWS pentru a gestiona infrastructura și componentele procesului. Și anume, folosim Amazon SageMaker Ground Adevăr pentru a gestiona conducta infrastructurii de etichetare și interfața cu utilizatorul. Acest serviciu folosește o abordare punct-and-go pentru a vă colecta datele de la Serviciul Amazon de stocare simplă (Amazon S3) și configurați un flux de lucru de etichetare. Pentru etichetare, vă oferă flexibilitatea încorporată de a achiziționa etichete de date folosind echipa dvs. privată, an Amazon Mechanical Turk forță sau furnizorul dvs. de etichetare preferat de la Piața AWS. În cele din urmă, puteți folosi AWS Lambdas și Notebook-uri Amazon SageMaker pentru a procesa, vizualiza sau controla calitatea datelor – fie înainte, fie după etichetare.

Acum că toate piesele au fost așezate, să începem procesul!

Procesul de creare a datelor

Contrar intuiției comune, primul pas pentru crearea datelor nu este colectarea datelor. Este crucial să lucrezi înapoi de la utilizatori pentru a articula problema. De exemplu, ce le pasă utilizatorilor în artefactul final? Unde cred experții că semnalele relevante pentru cazul de utilizare se află în date? Ce informații despre mediul cazului de utilizare ar putea fi furnizate modelului? Dacă nu știți răspunsurile la aceste întrebări, nu vă faceți griji. Acordați-vă timp pentru a vorbi cu utilizatorii și experții din domeniu pentru a înțelege nuanțele. Această înțelegere inițială te va orienta în direcția corectă și te va pregăti pentru succes.

Pentru această postare, presupunem că ați acoperit acest proces inițial de specificare a cerințelor utilizatorului. Următoarele trei secțiuni vă ghidează prin procesul ulterior de creare a datelor de calitate: planificare, crearea datelor sursă și adnotarea datelor. Pilotarea buclelor la etapele de creare a datelor și de adnotare sunt vitale pentru a asigura crearea eficientă a datelor etichetate. Aceasta implică iterarea între crearea de date, adnotare, asigurarea calității și actualizarea conductei, după cum este necesar.

Următoarea figură oferă o prezentare generală a pașilor necesari într-o conductă tipică de creare a datelor. Puteți lucra înapoi de la cazul de utilizare pentru a identifica datele de care aveți nevoie (Specificație de cerințe), puteți construi un proces pentru a obține datele (Planificare), implementați procesul real de achiziție a datelor (Colectarea și adnotarea datelor) și să evaluați rezultatele. Execuțiile pilot, evidențiate cu linii întrerupte, vă permit să repetați procesul până când a fost dezvoltată o conductă de achiziție de date de înaltă calitate.

Prezentare generală a pașilor necesari într-o conductă tipică de creare a datelor.

Planificare

Un proces standard de creare a datelor poate fi consumator de timp și o risipă de resurse umane valoroase dacă este realizat ineficient. De ce ar fi consumatoare de timp? Pentru a răspunde la această întrebare, trebuie să înțelegem domeniul de aplicare al procesului de creare a datelor. Pentru a vă ajuta, am colectat o listă de verificare la nivel înalt și o descriere a componentelor cheie și a părților interesate pe care trebuie să le luați în considerare. Răspunsul la aceste întrebări poate fi dificil la început. În funcție de cazul dvs. de utilizare, doar unele dintre acestea pot fi aplicabile.

Identificați punctul legal de contact pentru aprobările necesare – Utilizarea datelor pentru aplicația dvs. poate necesita revizuirea licenței sau a contractului furnizorului pentru a asigura conformitatea cu politicile companiei și cu cazurile de utilizare. Este important să vă identificați suportul juridic pe parcursul etapelor de achiziție a datelor și de adnotare ai procesului.
Identificați punctul de contact de securitate pentru prelucrarea datelor – Scurgerea datelor achiziționate poate duce la amenzi grave și repercusiuni pentru compania dumneavoastră. Este important să vă identificați suportul de securitate pe parcursul etapelor de achiziție a datelor și de adnotare pentru a asigura practici sigure.
Detaliați cerințele privind cazurile de utilizare și definiți datele sursă și liniile directoare de adnotare – Crearea și adnotarea datelor este dificilă din cauza specificității ridicate cerute. Părțile interesate, inclusiv generatorii de date și adnotatorii, trebuie să fie complet aliniați pentru a evita risipa de resurse. În acest scop, este o practică obișnuită să folosiți un document de ghid care specifică fiecare aspect al sarcinii de adnotare: instrucțiuni exacte, cazuri marginale, un exemplu de prezentare și așa mai departe.
Aliniați-vă așteptărilor pentru colectarea datelor sursă – Luați în considerare următoarele:
- Efectuați cercetări asupra potențialelor surse de date – De exemplu, seturi de date publice, seturi de date existente de la alte echipe interne, date auto-colectate sau achiziționate de la furnizori.
- Efectuați evaluarea calității – Creați o conductă de analiză în raport cu cazul final de utilizare.
Aliniați-vă așteptărilor pentru crearea adnotărilor de date – Luați în considerare următoarele:
- Identificați părțile interesate tehnice – Acesta este de obicei o persoană sau o echipă din compania dumneavoastră capabilă să folosească documentația tehnică referitoare la Ground Truth pentru a implementa o conductă de adnotări. Aceste părți interesate sunt, de asemenea, responsabile pentru evaluarea calității datelor adnotate pentru a se asigura că acestea îndeplinesc nevoile aplicației dvs. de ML din aval.
- Identificați adnotatorii de date – Aceste persoane folosesc instrucțiuni predeterminate pentru a adăuga etichete la datele dumneavoastră sursă în Ground Truth. Este posibil ca aceștia să aibă nevoie de cunoștințe de domeniu, în funcție de cazul dvs. de utilizare și de regulile de adnotare. Puteți folosi o forță de muncă internă a companiei dvs. sau puteți plăti pentru a forța de muncă gestionată de un furnizor extern.
Asigurați supravegherea procesului de creare a datelor – După cum puteți vedea din punctele precedente, crearea datelor este un proces detaliat care implică numeroase părți interesate specializate. Prin urmare, este esențial să se monitorizeze cap la cap spre rezultatul dorit. A avea o persoană sau o echipă dedicată care supraveghează procesul vă poate ajuta să asigurați un proces coerent și eficient de creare a datelor.

În funcție de traseul pe care decideți să o luați, trebuie să luați în considerare și următoarele:

Creați setul de date sursă – Aceasta se referă la cazurile în care datele existente nu sunt potrivite pentru sarcina în cauză sau când constrângerile legale vă împiedică să le utilizați. Trebuie folosite echipe interne sau furnizori externi (punctul următor). Acesta este adesea cazul domeniilor înalt specializate sau zonelor cu cercetare publică scăzută. De exemplu, întrebările obișnuite ale unui medic, îmbrăcămintea întinsă sau experții în sport. Poate fi intern sau extern.
Cercetați furnizorii și desfășurați un proces de onboarding – Atunci când sunt utilizați furnizori externi, trebuie stabilit un proces de contractare și de onboarding între ambele entități.

În această secțiune, am trecut în revistă componentele și părțile interesate pe care trebuie să le luăm în considerare. Cu toate acestea, cum arată procesul real? În figura următoare, schițăm un flux de lucru de proces pentru crearea și adnotarea datelor. Abordarea iterativă utilizează loturi mici de date numite pilot pentru a reduce timpul de răspuns, a detecta erorile de la început și a evita risipa de resurse în crearea de date de calitate scăzută. Descriem aceste runde pilot mai târziu în această postare. De asemenea, acoperim câteva bune practici pentru crearea de date, adnotare și controlul calității.

Următoarea figură ilustrează dezvoltarea iterativă a unei conducte de creare de date. Pe verticală, găsim blocul de sursă de date (verde) și blocul de adnotări (albastru). Ambele blocuri au runde pilot independente (Crearea de date/Adnotare, QAQC și Actualizare). Sunt create date din ce în ce mai mari și pot fi folosite pentru a construi adnotări de calitate din ce în ce mai ridicată.

În timpul dezvoltării iterative a unei conducte de creare de date sau de adnotare, se utilizează loturi mici de date pentru piloți independenți. Fiecare rundă pilot are o fază de creare a datelor sau de adnotare, o anumită asigurare a calității și control al calității rezultatelor și un pas de actualizare pentru a perfecționa procesul. După ce aceste procese sunt perfecționate prin piloți succesivi, puteți trece la crearea și adnotarea datelor la scară largă.

Prezentare generală a dezvoltării iterative într-o conductă de creare de date.

Crearea datelor sursă

Procesul de creare a intrărilor se învârte în jurul punerii în scenă a articolelor dvs. de interes, care depind de tipul dvs. de sarcină. Acestea pot fi imagini (scanări de ziare), videoclipuri (scene de trafic), nori de puncte 3D (scanări medicale) sau pur și simplu text (melodii de subtitrare, transcripții). În general, atunci când puneți în scenă elementele legate de sarcini, asigurați-vă de următoarele:

Reflectați cazul de utilizare din lumea reală pentru eventualul sistem AI/ML – Configurația pentru colectarea de imagini sau videoclipuri pentru datele dvs. de antrenament ar trebui să se potrivească îndeaproape cu configurația pentru datele dvs. de intrare în aplicația din lumea reală. Aceasta înseamnă să aveți suprafețe de plasare, surse de lumină sau unghiuri ale camerei consecvente.
Luați în considerare și minimizați sursele de variabilitate – Luați în considerare următoarele:
- Dezvoltați cele mai bune practici pentru menținerea standardelor de colectare a datelor – În funcție de granularitatea cazului dvs. de utilizare, poate fi necesar să specificați cerințe pentru a garanta coerența între punctele dvs. de date. De exemplu, dacă colectați date de imagine sau video de la punctele individuale ale camerei, poate fi necesar să vă asigurați de poziționarea consecventă a obiectelor dvs. de interes sau să solicitați o verificare a calității camerei înainte de o rundă de captare a datelor. Acest lucru poate evita probleme precum înclinarea sau încețoșarea camerei și poate minimiza costurile din aval, cum ar fi eliminarea imaginilor în afara cadrului sau neclare, precum și nevoia de a centra manual cadrul imaginii pe zona dvs. de interes.
- Preemptează sursele de variabilitate ale timpului de testare – Dacă anticipați variabilitate în oricare dintre atributele menționate până acum în timpul testului, asigurați-vă că puteți captura acele surse de variabilitate în timpul creării datelor de antrenament. De exemplu, dacă vă așteptați ca aplicația dvs. ML să funcționeze în mai multe setări de lumină diferite, ar trebui să urmăriți să creați imagini și videoclipuri de antrenament la diferite setări de lumină. În funcție de cazul de utilizare, variabilitatea poziționării camerei poate influența și calitatea etichetelor dvs.
Încorporați cunoștințele anterioare de domeniu atunci când sunt disponibile – Luați în considerare următoarele:
- Intrări despre sursele de eroare – Practicienii domeniului pot oferi informații despre sursele de eroare pe baza anilor lor de experiență. Aceștia pot oferi feedback cu privire la cele mai bune practici pentru cele două puncte anterioare: Ce setări reflectă cel mai bine cazul de utilizare din lumea reală? Care sunt posibilele surse de variabilitate în timpul colectării datelor sau în momentul utilizării?
- Cele mai bune practici de colectare a datelor specifice domeniului – Deși părțile interesate tehnice pot avea deja o idee bună despre aspectele tehnice pe care să se concentreze în imaginile sau videoclipurile colectate, practicienii din domeniu pot oferi feedback cu privire la modul cel mai bun de a pune în scenă sau de a colecta datele astfel încât aceste nevoi să fie satisfăcute.

Controlul calității și asigurarea calității datelor create

Acum că ați configurat canalul de colectare a datelor, ar putea fi tentant să mergeți mai departe și să colectați cât mai multe date posibil. Așteptaţi un minut! Mai întâi trebuie să verificăm dacă datele colectate prin configurare sunt potrivite pentru cazul tău de utilizare real. Putem folosi câteva mostre inițiale și îmbunătăți în mod iterativ configurația prin informațiile pe care le-am obținut în urma analizării acestor date eșantion. Lucrați îndeaproape cu părțile interesate tehnice, de afaceri și de adnotări în timpul procesului pilot. Acest lucru vă va asigura că conducta dvs. rezultată satisface nevoile afacerii, generând în același timp date etichetate pregătite pentru ML cu cheltuieli generale minime.

Adnotări

Adnotarea intrărilor este locul în care adăugăm atingerea magică datelor noastre - etichetele! În funcție de tipul sarcinii și de procesul de creare a datelor, este posibil să aveți nevoie de adnotatori manuali sau puteți utiliza metode automate disponibile. Conducta de adnotare a datelor în sine poate fi o sarcină dificilă din punct de vedere tehnic. Ground Truth ușurează această călătorie pentru părțile interesate tehnice cu ajutorul acestuia repertoriu încorporat de fluxuri de lucru de etichetare pentru surse de date comune. Cu câțiva pași suplimentari, vă permite, de asemenea, să construiți fluxuri de lucru personalizate de etichetare dincolo de opțiunile preconfigurate.

Puneți-vă următoarele întrebări atunci când dezvoltați un flux de lucru de adnotare adecvat:

Am nevoie de un proces manual de adnotare pentru datele mele? În unele cazuri, serviciile de etichetare automată pot fi suficiente pentru sarcina în cauză. Examinarea documentației și a instrumentelor disponibile vă poate ajuta să identificați dacă adnotarea manuală este necesară pentru cazul dvs. de utilizare (pentru mai multe informații, consultați Ce este etichetarea datelor?). Procesul de creare a datelor poate permite diferite niveluri de control cu privire la granularitatea adnotărilor dvs. de date. În funcție de acest proces, uneori puteți ocoli nevoia de adnotare manuală. Pentru mai multe informații, consultați Creați un set de date personalizat de întrebări și răspunsuri folosind Amazon SageMaker Ground Truth pentru a antrena un model NLU de întrebări și răspunsuri Hugging Face.
Ce formează adevărul meu de bază? În cele mai multe cazuri, adevărul de bază va veni din procesul dvs. de adnotare - acesta este ideea! În altele, utilizatorul poate avea acces la etichetele de adevăr de bază. Acest lucru vă poate accelera în mod semnificativ procesul de asigurare a calității sau poate reduce costul general necesar pentru mai multe adnotări manuale.
Care este limita superioară pentru cantitatea de abatere de la starea mea fundamentală de adevăr? Colaborați cu utilizatorii finali pentru a înțelege erorile tipice din jurul acestor etichete, sursele unor astfel de erori și reducerea dorită a erorilor. Acest lucru vă va ajuta să identificați care aspecte ale sarcinii de etichetare sunt cele mai dificile sau care sunt susceptibile de a avea erori de adnotare.
Există reguli preexistente folosite de utilizatori sau practicieni de teren pentru a eticheta aceste articole? Utilizați și îmbunătățiți aceste instrucțiuni pentru a crea un set de instrucțiuni pentru adnotatorii dvs. manuali.

Pilotarea procesului de adnotare de intrare

Când pilotați procesul de adnotare de intrare, luați în considerare următoarele:

Consultați instrucțiunile cu adnotatorii și practicienii de teren – Instrucțiunile trebuie să fie concise și specifice. Solicitați feedback de la utilizatori (sunt instrucțiunile corecte? Putem revizui orice instrucțiuni pentru a ne asigura că sunt înțelese de către practicieni care nu sunt în domeniu?) și adnotatori (Este totul de înțeles? Sarcina este clară?). Dacă este posibil, adăugați un exemplu de date etichetate bune și rele pentru a ajuta adnotatorii să identifice ceea ce se așteaptă și cum ar putea arăta erorile comune de etichetare.
Colectați date pentru adnotări – Examinați datele împreună cu clientul pentru a vă asigura că îndeplinesc standardele așteptate și pentru a vă alinia la rezultatele așteptate din adnotarea manuală.
Furnizați exemple pentru grupul dvs. de adnotatori manuali ca o rulare de probă – Care este variația tipică între adnotatorii din acest set de exemple? Studiați varianța pentru fiecare adnotare dintr-o anumită imagine pentru a identifica tendințele de consistență în rândul adnotatorilor. Apoi comparați variațiile dintre imagini sau cadre video pentru a identifica etichetele care sunt dificil de plasat.

Controlul calității adnotărilor

Controlul calității adnotărilor are două componente principale: evaluarea coerenței dintre adnotători și evaluarea calității adnotărilor în sine.

Puteți atribui mai mulți adnotatori aceleiași sarcini (de exemplu, trei adnotatori etichetează punctele cheie pe aceeași imagine) și puteți măsura valoarea medie alături de abaterea standard a acestor etichete printre adnotatori. Procedând astfel, vă ajută să identificați orice adnotări aberante (etichetă incorectă utilizată sau etichetă departe de adnotarea medie), care poate ghida rezultate acționabile, cum ar fi rafinarea instrucțiunilor sau formarea suplimentară anumitor adnotatori.

Evaluarea calității adnotărilor în sine este legată de variabilitatea adnotatorilor și (dacă sunt disponibile) de disponibilitatea experților din domeniu sau a informațiilor de adevăr de la bază. Există anumite etichete (în toate imaginile dvs.) în care variația medie între adnotatori este constant ridicată? Sunt etichete departe de așteptările tale cu privire la locul în care ar trebui să fie sau cum ar trebui să arate?

Pe baza experienței noastre, o buclă tipică de control al calității pentru adnotarea datelor poate arăta astfel:

Repetați instrucțiunile sau montarea imaginii pe baza rezultatelor testului – Sunt obiecte ascunse sau punerea în scenă a imaginilor nu corespunde așteptărilor adnotatorilor sau utilizatorilor? Sunt instrucțiunile înșelătoare sau ați omis vreo etichetă sau erori comune în imaginile dvs. exemplare? Puteți rafina instrucțiunile pentru adnotatorii dvs.?
Dacă sunteți mulțumit că ați rezolvat orice problemă din timpul testului, faceți o serie de adnotări – Pentru testarea rezultatelor din lot, urmați aceeași abordare de evaluare a calității de evaluare a variabilităților între adnotatori și etichete între imagini.

Concluzie

Această postare servește drept ghid pentru părțile interesate de afaceri pentru a înțelege complexitățile creării de date pentru aplicațiile AI/ML. Procesele descrise servesc, de asemenea, drept ghid pentru practicienii tehnici pentru a genera date de calitate, optimizând în același timp constrângerile de afaceri, cum ar fi personalul și costurile. Dacă nu este făcută bine, o conductă de creare și etichetare a datelor poate dura până la 4-6 luni.

Cu liniile directoare și sugestiile prezentate în această postare, puteți preveni blocajele, puteți reduce timpul până la finalizare și puteți minimiza costurile în călătoria dvs. spre crearea de date de înaltă calitate.

Despre autori

Jasleen Grewal este un om de știință aplicat la Amazon Web Services, unde lucrează cu clienții AWS pentru a rezolva problemele din lumea reală folosind învățarea automată, cu accent special pe medicina de precizie și genomica. Ea are o experiență solidă în bioinformatică, oncologie și genomică clinică. Este pasionată de utilizarea AI/ML și a serviciilor cloud pentru a îmbunătăți îngrijirea pacienților.

Boris Aronchik este manager în Laboratorul de soluții de învățare automată Amazon AI, unde conduce o echipă de oameni de știință și ingineri ML pentru a ajuta clienții AWS să-și realizeze obiectivele de afaceri utilizând soluțiile AI/ML.

Miguel Romero Calvo este un om de știință aplicat la Laboratorul Amazon ML Solutions unde colaborează cu echipe interne AWS și cu clienți strategici pentru a-și accelera afacerea prin ML și adoptarea cloud.

Lin Lee Cheong este om de știință senior și manager cu echipa Amazon ML Solutions Lab la Amazon Web Services. Ea lucrează cu clienți strategici AWS pentru a explora și aplica inteligența artificială și învățarea automată pentru a descoperi noi perspective și pentru a rezolva probleme complexe.

Timestamp-ul: Octombrie 3, 2022Octombrie 3, 2022

Timestamp-ul: Noiembrie 17, 2022

Creați date de înaltă calitate pentru modelele ML cu Amazon SageMaker Ground Truth

Republicat de Platon

Procesul de creare a datelor

Planificare

Crearea datelor sursă

Controlul calității și asigurarea calității datelor create

Adnotări

Pilotarea procesului de adnotare de intrare

Controlul calității adnotărilor

Concluzie

Despre autori

Mai mult de la Învățare automată AWS

Amazon SageMaker JumpStart oferă acum notebook-uri Amazon Comprehend pentru clasificare personalizată și detectarea entităților personalizate

Oferiți asistență agenților live utilizatorilor dvs. de chatbot cu ajutorul centrului de contact în cloud Amazon Lex și Talkdesk | Amazon Web Services

Îmbunătățiți acuratețea căutării cu Verificatorul ortografic din Amazon Kendra

Identificați locația anomaliilor folosind Amazon Lookout for Vision la margine fără a utiliza un GPU

Inginerie de funcții la scară largă cu protecție a datelor sensibile folosind sesiuni interactive AWS Glue și Amazon SageMaker Studio

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont