Looge ML-mudelite jaoks kvaliteetseid andmeid rakendusega Amazon SageMaker Ground Truth

Taasavaldanud Platon

järgijaid: 0

Masinõpe (ML) on viimastel aastatel parandanud äritegevust erinevates tööstusharudes – teie soovitussüsteemist lähtudes Prime Video konto, et dokumenteerida kokkuvõte ja tõhus otsing Alexahäälabi. Siiski jääb küsimus, kuidas seda tehnoloogiat oma ettevõttesse kaasata. Erinevalt traditsioonilistest reeglipõhistest meetoditest järeldab ML automaatselt andmetest mustreid, et täita teie huvipakkuvat ülesannet. Kuigi see läheb mööda automatiseerimise reeglite kureerimise vajadusest, tähendab see ka seda, et ML-mudelid saavad olla ainult nii head kui andmed, mille põhjal neid koolitatakse. Andmete loomine on aga sageli keeruline ülesanne. Juures Amazoni masinõppelahenduste labor, oleme selle probleemiga korduvalt kokku puutunud ja soovime oma klientide jaoks seda teekonda hõlbustada. Kui soovite selle protsessi maha laadida, saate seda kasutada Amazon SageMaker Ground Truth Plus.

Selle postituse lõpuks saate saavutada järgmise:

Mõistke andmehõive torustiku seadistamisega seotud äriprotsesse
Tuvastage AWS-i pilveteenused, mis toetavad ja kiirendavad teie andmete märgistamise torujuhtmeid
Käivitage kohandatud kasutusjuhtude jaoks andmete hankimise ja märgistamise ülesanne
Looge kvaliteetseid andmeid, järgides parimaid äri- ja tehnilisi tavasid

Kogu selle postituse jooksul keskendume andmete loomise protsessile ja toetume infrastruktuuri ja protsessikomponentide haldamisel AWS-i teenustele. Nimelt kasutame Amazon SageMaker Ground Truth märgistamise infrastruktuuri torustiku ja kasutajaliidese haldamiseks. See teenus kasutab teie andmete kogumiseks otsest lähenemist Amazoni lihtne salvestusteenus (Amazon S3) ja seadistage märgistamise töövoog. Märgistamise jaoks pakub see teile sisseehitatud paindlikkust andmesiltide hankimiseks oma erameeskonna abil Amazon Mehaaniline Türk jõu või teie eelistatud märgistusmüüjalt AWS Marketplace. Lõpuks võite kasutada AWS Lambda ja Amazon SageMakeri sülearvutid andmete töötlemiseks, visualiseerimiseks või kvaliteedi kontrollimiseks – kas enne või pärast märgistamist.

Nüüd, kui kõik tükid on maha pandud, alustame protsessi!

Andmete loomise protsess

Vastupidiselt levinud intuitsioonile ei ole andmete loomise esimene samm andmete kogumine. Probleemi sõnastamise nimel kasutajate poolt tagasi töötamine on ülioluline. Näiteks millest hoolivad kasutajad lõplikus artefaktis? Kus on andmetes ekspertide arvates kasutusjuhtumiga seotud signaalid? Millist teavet kasutusjuhtumi keskkonna kohta võiks modelleerimiseks anda? Kui te ei tea neile küsimustele vastuseid, ärge muretsege. Andke endale aega kasutajate ja valdkonnaekspertidega rääkimiseks, et mõista nüansse. See esialgne arusaam suunab teid õiges suunas ja paneb teid edu saavutama.

Selle postituse puhul eeldame, et olete katnud selle esialgse kasutajanõuete spetsifikatsiooni protsessi. Järgmised kolm jaotist juhatavad teid läbi kvaliteetsete andmete loomise protsessi: planeerimine, lähteandmete loomine ja andmete märkimine. Pilotsilmused andmete loomise ja märkuste tegemise etapis on märgistatud andmete tõhusa loomise tagamiseks üliolulised. See hõlmab andmete loomise, annotatsiooni, kvaliteedi tagamise ja vajaduse korral konveieri värskendamise vahelist kordamist.

Järgmine joonis annab ülevaate tüüpilise andmeloome konveieri jaoks vajalikest sammudest. Saate töötada tagasi kasutusjuhtumist, et tuvastada vajalikud andmed (nõuete spetsifikatsioon), luua andmete hankimise protsess (planeerimine), rakendada tegelikku andmete kogumise protsessi (andmete kogumine ja märkimine) ja hinnata tulemusi. Katkendjoontega esile tõstetud pilootkäigud võimaldavad teil protsessi korrata, kuni on välja töötatud kvaliteetne andmehõive konveier.

Tüüpilise andmete loomise konveieri jaoks vajalike sammude ülevaade.

Planeerimine

Tavaline andmete loomise protsess võib ebatõhusa läbiviimise korral olla aeganõudev ja väärtusliku inimressursi raiskamine. Miks see aeganõudev oleks? Sellele küsimusele vastamiseks peame mõistma andmete loomise protsessi ulatust. Teie abistamiseks oleme kogunud kõrgetasemelise kontrollnimekirja ja kirjelduse peamistest komponentidest ja sidusrühmadest, millega peate arvestama. Nendele küsimustele vastamine võib alguses olla keeruline. Olenevalt teie kasutusjuhtumist võivad kehtida ainult mõned neist.

Määrake nõutavate kinnituste saamiseks juriidiline kontaktpunkt – Andmete kasutamine rakenduse jaoks võib nõuda litsentsi või müüjalepingu läbivaatamist, et tagada vastavus ettevõtte eeskirjadele ja kasutusjuhtudele. Oluline on tuvastada oma juriidiline tugi kogu protsessi andmete kogumise ja märkuste tegemise etapis.
Määrake andmete töötlemiseks turvakontakt – Ostetud andmete lekkimine võib teie ettevõttele kaasa tuua tõsiseid trahve ja tagajärgi. Turvaliste tavade tagamiseks on oluline tuvastada oma turvatugi kogu andmete hankimise ja märkuste tegemise etapis.
Täpsustage kasutusjuhtumi nõudeid ning määratlege lähteandmed ja märkuste tegemise juhised – Andmete loomine ja märkuste tegemine on nõutava suure spetsiifilisuse tõttu keeruline. Sidusrühmad, sealhulgas andmegeneraatorid ja annotaatorid, peavad olema täielikult kooskõlastatud, et vältida ressursside raiskamist. Sel eesmärgil on levinud tavaks kasutada juhenddokumenti, mis täpsustab märkuste tegemise ülesande kõiki aspekte: täpsed juhised, äärmuslikud juhtumid, näidisülevaade jne.
Järgige lähteandmete kogumise ootusi – Kaaluge järgmist:
- Tehke uuringuid võimalike andmeallikate kohta – Näiteks avalikud andmekogumid, olemasolevad andmestikud teistelt sisemistelt tiimidelt, ise kogutud või hankijatelt ostetud andmed.
- Tehke kvaliteedihindamine – Looge lõppkasutusega seotud analüüsikonveier.
Joondage andmete annotatsioonide loomise ootustega – Kaaluge järgmist:
- Tehke kindlaks tehnilised sidusrühmad – Tavaliselt on see teie ettevõtte üksikisik või meeskond, kes on võimeline kasutama Ground Truthi tehnilist dokumentatsiooni annotatsioonitorustiku rakendamiseks. Need sidusrühmad vastutavad ka annoteeritud andmete kvaliteedihindamise eest, et tagada nende vastavus teie alljärgneva ML-rakenduse vajadustele.
- Tuvastage andmete annotaatorid – Need isikud kasutavad Ground Truthis teie lähteandmetele siltide lisamiseks etteantud juhiseid. Sõltuvalt teie kasutusjuhtumist ja märkuste tegemise juhistest võivad nad vajada domeeniteadmisi. Võite kasutada oma ettevõttesisest tööjõudu või maksta a tööjõud, mida haldab väline müüja.
Tagada andmete loomise protsessi järelevalve – Nagu eelmistest punktidest näha, on andmete loomine üksikasjalik protsess, mis hõlmab paljusid spetsialiseerunud sidusrühmi. Seetõttu on soovitud tulemuse saavutamiseks ülioluline seda otsast lõpuni jälgida. Protsessi üle järelevalvet teostav pühendunud inimene või meeskond aitab teil tagada ühtse ja tõhusa andmete loomise protsessi.

Sõltuvalt marsruudist, mille otsustate valida, peate arvestama ka järgmisega:

Looge lähteandmestik – See viitab juhtudele, kui olemasolevad andmed ei sobi antud ülesande täitmiseks või kui õiguslikud piirangud takistavad teil neid kasutada. Kasutada tuleb sisemisi meeskondi või väliseid tarnijaid (järgmine punkt). See kehtib sageli kõrgelt spetsialiseerunud valdkondade või madala avaliku sektori uurimistööga valdkondade puhul. Näiteks arsti sagedased küsimused, pikali rõivad või spordieksperdid. See võib olla sisemine või välimine.
Uurige tarnijaid ja viige läbi liitumisprotsess – Kui kasutatakse väliseid tarnijaid, tuleb mõlema üksuse vahel paika panna lepingute sõlmimise ja liitumise protsess.

Selles jaotises vaatasime üle komponendid ja sidusrühmad, millega peame arvestama. Kuidas aga tegelik protsess välja näeb? Järgmisel joonisel kirjeldame andmete loomise ja märkuste lisamise protsessi töövoogu. Iteratiivne lähenemine kasutab väikeseid andmekogumeid, mida nimetatakse pilootprogrammideks, et lühendada tööaega, tuvastada varakult vigu ja vältida ressursside raiskamist madala kvaliteediga andmete loomisel. Kirjeldame neid pilootringe hiljem selles postituses. Samuti käsitleme mõningaid andmete loomise, märkuste tegemise ja kvaliteedikontrolli häid tavasid.

Järgmine joonis illustreerib andmete loomise konveieri iteratiivset arendamist. Vertikaalselt leiame andmeallika ploki (roheline) ja märkuste ploki (sinine). Mõlemal plokil on sõltumatud pilootvoorud (andmete loomine/märkimine, QAQC ja Update). Luuakse järjest kõrgema allikaga andmeid ja neid saab kasutada järjest kvaliteetsemate annotatsioonide koostamiseks.

Andmete loomise või annotatsioonikonveieri iteratiivse arendamise käigus kasutatakse sõltumatute pilootprojektide jaoks väikeseid andmekoguseid. Igal pilootvoorul on andmete loomise või annotatsiooni faas, mõningane kvaliteedi tagamine ja tulemuste kvaliteedikontroll ning protsessi täpsustamiseks uuendamise etapp. Pärast seda, kui need protsessid on järjestikuste pilootprojektide abil viimistletud, saate jätkata suuremahuliste andmete loomise ja märkuste lisamisega.

Andmete loomise konveieri iteratiivse arendamise ülevaade.

Lähteandmete loomine

Sisendite loomise protsess keerleb teie huvipakkuvate üksuste lavastamise ümber, mis sõltuvad teie ülesande tüübist. Need võivad olla pildid (ajalehtede skaneeringud), videod (liiklusstseenid), 3D-punktipilved (meditsiinilised skaneeringud) või lihtsalt tekst (subtiitrite rajad, transkriptsioonid). Üldiselt veenduge ülesandega seotud üksuste lavastamisel järgmises.

Peegeldage võimaliku AI/ML-süsteemi tegelikku kasutusjuhtumit – Treeningandmete jaoks piltide või videote kogumise seadistus peaks täpselt ühtima teie sisendandmete seadistusega reaalmaailma rakenduses. See tähendab ühtsete paigutuspindade, valgusallikate või kaameranurkade olemasolu.
Arvestage ja minimeerige varieeruvuse allikad – Kaaluge järgmist:
- Töötada välja parimad tavad andmete kogumise standardite säilitamiseks – Sõltuvalt teie kasutusjuhtumi täpsusest peate võib-olla määrama nõuded, et tagada andmepunktide järjepidevus. Näiteks kui kogute pildi- või videoandmeid üksikutest kaamerapunktidest, peate võib-olla veenduma, et huvipakkuvad objektid on ühtlaselt paigutatud, või nõuda enne andmehõiveringi kaamera kvaliteedikontrolli. See võib vältida probleeme, nagu kaamera kallutamine või hägustumine, ja minimeerida allavoolu tekkivaid lisakulusid, nagu kaadrist väljas või uduste piltide eemaldamine, ning vajaduse korral pildiraami käsitsi tsentreerida teie huvipakkuvale alale.
- Ennetage katseaja muutlikkuse allikad – Kui eeldate testimise ajal mõne seni mainitud atribuudi varieeruvust, veenduge, et saate need varieeruvuse allikad treeningandmete loomise ajal kinni püüda. Näiteks kui eeldate, et teie ML-rakendus töötab erinevate valgusseadetega, peaksite püüdma luua treeningpilte ja -videoid erinevate valgusseadetega. Olenevalt kasutusjuhtumist võib kaamera positsioneerimise varieeruvus mõjutada ka teie siltide kvaliteeti.
Kaasake eelnevad domeeniteadmised, kui need on saadaval – Kaaluge järgmist:
- Sisendid veaallikate kohta – Domeeni praktikud saavad oma aastatepikkuse kogemuse põhjal anda ülevaate veaallikatest. Nad saavad anda tagasisidet kahe eelmise punkti parimate tavade kohta. Millised seaded kajastavad kõige paremini tegelikku kasutusjuhtumit? Millised on võimalikud varieeruvuse allikad andmete kogumise või kasutamise ajal?
- Domeenispetsiifiliste andmete kogumise parimad tavad – Kuigi teie tehnilistel sidusrühmadel võib juba olla hea ettekujutus tehnilistest aspektidest, millele kogutud piltide või videote puhul keskenduda, saavad domeeni praktikud anda tagasisidet selle kohta, kuidas neid vajadusi kõige paremini lavastada või koguda.

Loodud andmete kvaliteedikontroll ja kvaliteedi tagamine

Nüüd, kui olete andmekogumiskonveieri seadistanud, võib tekkida kiusatus koguda võimalikult palju andmeid. Oota hetk! Peame esmalt kontrollima, kas seadistuse kaudu kogutud andmed sobivad teie tegeliku sõna kasutamise jaoks. Saame kasutada mõningaid esialgseid näidiseid ja seadistust iteratiivselt parandada nende näidisandmete analüüsimisel saadud arusaamade abil. Pilootprotsessi ajal tehke tihedat koostööd tehniliste, äriliste ja annotatsioonide sidusrühmadega. See tagab, et teie tulemuseks olev konveier vastab ärivajadustele, genereerides samal ajal minimaalsete üldkuludega ML-valmidusega märgistatud andmeid.

Annotatsioonid

Sisendite annotatsioon on koht, kus me lisame oma andmetele maagilise puudutuse – siltide! Sõltuvalt teie ülesande tüübist ja andmete loomise protsessist võite vajada käsitsi annotaatoreid või kasutada valmisautomaatseid meetodeid. Andmete annotatsioonitoru ise võib olla tehniliselt keeruline ülesanne. Ground Truth hõlbustab oma tehniliste sidusrühmade jaoks seda teekonda ühiste andmeallikate märgistamise töövoogude sisseehitatud repertuaar. Mõne täiendava sammuga võimaldab see ka ehitada kohandatud märgistamise töövood peale eelkonfigureeritud valikute.

Sobiva märkuste töövoo väljatöötamisel esitage endale järgmised küsimused.

Kas ma vajan oma andmete jaoks käsitsi märkuste tegemise protsessi? Mõnel juhul võivad automatiseeritud märgistamisteenused piisata käsiloleva ülesande jaoks. Dokumentatsiooni ja saadaolevate tööriistade ülevaatamine aitab teil kindlaks teha, kas käsitsi märkuste tegemine on teie kasutusjuhtumi jaoks vajalik (lisateabe saamiseks vt Mis on andmete märgistamine?). Andmete loomise protsess võib võimaldada teie andmete annotatsiooni detailsuse kontrolli erineval tasemel. Olenevalt sellest protsessist saate mõnikord ka käsitsi märkuste tegemise vajadusest mööda minna. Lisateabe saamiseks vaadake Looge kohandatud küsimuste ja vastuste andmestik, kasutades Amazon SageMaker Ground Truthi, et treenida kallistava näoga küsimuste ja vastuste NLU mudelit.
Mis moodustab minu põhitõe? Enamikul juhtudel pärineb põhitõde teie annotatsiooniprotsessist – see on kogu mõte! Teistes riikides võib kasutajal olla juurdepääs tõepõhistele siltidele. See võib teie kvaliteedi tagamise protsessi märkimisväärselt kiirendada või vähendada mitme käsitsi märkimise jaoks vajalikke üldkulusid.
Mis on minu tõepõhiolekust kõrvalekaldumise ülempiir? Tehke koostööd oma lõppkasutajatega, et mõista nende siltide tüüpilisi vigu, selliste vigade allikaid ja soovitud vigade arvu vähendamist. See aitab teil tuvastada, millised märgistamisülesande aspektid on kõige keerulisemad või sisaldavad tõenäoliselt märkimisvigu.
Kas kasutajad või praktikud kasutavad nende üksuste märgistamiseks juba olemasolevaid reegleid? Kasutage ja täpsustage neid juhiseid, et koostada juhiste kogum oma käsitsi märkijatele.

Sisendmärkuste tegemise protsessi piloteerimine

Sisendmärkuste tegemise protsessi katsetamisel võtke arvesse järgmist.

Vaadake juhiseid koos annotaatorite ja praktikutega üle – Juhised peaksid olema lühikesed ja konkreetsed. Küsige tagasisidet oma kasutajatelt (Kas juhised on täpsed? Kas me saame juhiseid üle vaadata, et olla arusaadav ka mittevaldkonna praktikutele?) ja annotaatoritelt (Kas kõik on arusaadav? Kas ülesanne on selge?). Võimaluse korral lisage näide headest ja halbadest sildistatud andmetest, et aidata annotaatoritel tuvastada, mida oodatakse ja millised võivad välja näha tavalised märgistusvead.
Koguge andmeid märkuste jaoks – Vaadake andmed koos kliendiga üle, veendumaks, et need vastavad eeldatavatele standarditele, ja ühtlustada käsitsi annotatsiooni eeldatavate tulemustega.
Esitage proovitööna näiteid oma käsitsi annotaatorite kogumile – Milline on selle näidete kogumi annotaatorite tüüpiline erinevus? Uurige antud pildi iga annotatsiooni dispersiooni, et tuvastada annotaatorite järjepidevuse suundumusi. Seejärel võrrelge piltide või videokaadrite erinevusi, et teha kindlaks, milliste siltide paigutamine on keeruline.

Märkuste kvaliteedikontroll

Märkuste kvaliteedikontrollil on kaks põhikomponenti: annotaatorite vahelise järjepidevuse hindamine ja annotatsioonide endi kvaliteedi hindamine.

Saate määrata samale ülesandele mitu annotaatorit (näiteks kolm annotaatorit märgistavad sama pildi võtmepunkte) ja mõõta keskmist väärtust koos nende siltide standardhälbega annotaatorite vahel. See aitab teil tuvastada kõrvalekalduvaid märkusi (kasutatud on vale või keskmisest märkusest kaugel olev silt), mis võivad suunata rakendatavaid tulemusi, nagu juhiste täpsustamine või teatud annotaatorite täiendkoolitus.

Märkuste endi kvaliteedi hindamine on seotud annotaatori varieeruvusega ja (kui see on saadaval) domeeniekspertide või tõepõhiste andmete kättesaadavusega. Kas on teatud silte (kõikidel teie piltidel), mille keskmine erinevus annotaatorite vahel on püsivalt kõrge? Kas mõni silt on kaugel teie ootustest, kus need peaksid olema või millised need peaksid välja nägema?

Meie kogemuse põhjal võib tüüpiline andmete annotatsiooni kvaliteedikontrolli silmus välja näha järgmine:

Korrake juhiseid või pildi lavastamist katsetulemuste põhjal – Kas mõni objekt on ummistunud või ei vasta pildi lavastus annotaatorite või kasutajate ootustele? Kas juhised on eksitavad või jäite näidispiltidelt silte või levinumate vigade vahele? Kas saate annotaatorite juhiseid täpsustada?
Kui olete veendunud, et olete proovitöö käigus tekkinud probleemid lahendanud, tehke hulk märkusi – Partii tulemuste testimiseks järgige annotaatorite ja kujutistevaheliste etikettide erinevuste hindamisel sama kvaliteedi hindamise lähenemisviisi.

Järeldus

See postitus on juhendiks ettevõtete sidusrühmadele, et mõista tehisintellekti/ML-i rakenduste jaoks andmete loomise keerukust. Kirjeldatud protsessid on ka juhendiks tehnilistele praktikutele kvaliteetsete andmete genereerimiseks, optimeerides samal ajal äripiiranguid, nagu personal ja kulud. Kui seda ei tehta hästi, võib andmete loomine ja märgistamine võtta aega kuni 4–6 kuud.

Selles postituses kirjeldatud juhiste ja soovituste abil saate ennetada teetõkkeid, lühendada valmimiseni kuluvat aega ja minimeerida kulusid kvaliteetsete andmete loomisel.

Autoritest

Jasleen Grewal on Amazon Web Servicesi rakendusteadlane, kus ta töötab AWS-i klientidega, et lahendada masinõppe abil reaalseid probleeme, keskendudes eelkõige täppismeditsiinile ja genoomikale. Tal on tugev taust bioinformaatikas, onkoloogias ja kliinilises genoomikas. Ta on kirglik AI/ML-i ja pilveteenuste kasutamise vastu patsientide ravi parandamiseks.

Boriss Aronchik on Amazon AI masinõppelahenduste labori juht, kus ta juhib ML-i teadlaste ja inseneride meeskonda, et aidata AWS-i klientidel AI/ML-lahendusi kasutades saavutada ärieesmärke.

Miguel Romero Calvo on rakendusteadlane Amazon ML Solutions Lab kus ta teeb koostööd AWS-i sisemeeskondade ja strateegiliste klientidega, et kiirendada nende äritegevust ML-i ja pilve kasutuselevõtu kaudu.

Lin Lee Cheong on Amazon Web Servicesi Amazon ML Solutions Lab meeskonna vanemteadur ja juht. Ta teeb koostööd strateegiliste AWS-i klientidega, et uurida ja rakendada tehisintellekti ja masinõpet, et avastada uusi teadmisi ja lahendada keerulisi probleeme.

Ajatempel: Oktoober 3, 2022Oktoober 3, 2022

Ajatempel: November 17, 2022

Looge ML-mudelite jaoks kvaliteetseid andmeid rakendusega Amazon SageMaker Ground Truth

Taasavaldanud Platon

Andmete loomise protsess

Planeerimine

Lähteandmete loomine

Loodud andmete kvaliteedikontroll ja kvaliteedi tagamine

Annotatsioonid

Sisendmärkuste tegemise protsessi piloteerimine

Märkuste kvaliteedikontroll

Järeldus

Autoritest

Veel alates AWS-i masinõpe

Amazon SageMaker JumpStart pakub nüüd Amazon Comprehendi sülearvuteid kohandatud klassifitseerimiseks ja kohandatud olemi tuvastamiseks

Pakkuge oma vestlusroboti kasutajatele reaalajas agendiabi Amazon Lexi ja Talkdeski pilvekontaktikeskusega | Amazoni veebiteenused

Parandage otsingu täpsust Amazon Kendra õigekirjakontrolli abil

Tuvastage kõrvalekallete asukoht, kasutades Amazon Lookout for Visioni servas ilma GPU-d kasutamata

Suuremahuline funktsioonide projekteerimine koos tundliku andmekaitsega, kasutades AWS Glue interaktiivseid seansse ja Amazon SageMaker Studio

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto