Create High-quality Data For ML Models With Amazon SageMaker Ground Truth

Ponovno objavil Platon

Spremljevalci: 0

Strojno učenje (ML) je v zadnjih letih izboljšalo poslovanje v panogah – od sistema priporočil na vašem Prime Video račun, za povzemanje dokumentov in učinkovito iskanje Alexaglasovna pomoč. Vendar pa ostaja vprašanje, kako to tehnologijo vključiti v svoje podjetje. V nasprotju s tradicionalnimi metodami, ki temeljijo na pravilih, ML samodejno sklepa vzorce iz podatkov, da lahko opravi nalogo, ki vas zanima. Čeprav to zaobide potrebo po urejanju pravil za avtomatizacijo, pomeni tudi, da so modeli ML lahko le tako dobri, kot so dobri podatki, na podlagi katerih so usposobljeni. Vendar je ustvarjanje podatkov pogosto zahtevna naloga. Pri Amazonski laboratorij za strojno učenje, smo že večkrat naleteli na to težavo in želimo našim strankam olajšati to pot. Če želite razbremeniti ta postopek, lahko uporabite Amazon SageMaker Ground Truth Plus.

Do konca te objave boste lahko dosegli naslednje:

Razumeti poslovne procese, ki so vključeni v nastavitev cevovoda za pridobivanje podatkov
Prepoznajte storitve AWS Cloud za podporo in pospešitev vašega cevovoda za označevanje podatkov
Zaženite nalogo pridobivanja podatkov in označevanja za primere uporabe po meri
Ustvarite visokokakovostne podatke po najboljših poslovnih in tehničnih praksah

V tej objavi se osredotočamo na postopek ustvarjanja podatkov in se zanašamo na storitve AWS za upravljanje infrastrukture in komponent procesa. Uporabljamo namreč Amazon SageMaker Ground Truth za upravljanje cevovoda infrastrukture za označevanje in uporabniškega vmesnika. Ta storitev uporablja pristop point and go za zbiranje vaših podatkov Preprosta storitev shranjevanja Amazon (Amazon S3) in nastavite potek dela za označevanje. Za označevanje vam ponuja vgrajeno prilagodljivost za pridobivanje podatkovnih oznak z uporabo vaše zasebne ekipe, an Amazon Mehanični Turk force ali pri vašem želenem prodajalcu oznak AWS Marketplace. Nazadnje lahko uporabite AWS Lambda in Prenosni računalniki Amazon SageMaker za obdelavo, vizualizacijo ali nadzor kakovosti podatkov – bodisi pred ali po označevanju.

Zdaj, ko so vsi kosi položeni, začnimo postopek!

Postopek ustvarjanja podatkov

V nasprotju s splošno intuicijo prvi korak pri ustvarjanju podatkov ni zbiranje podatkov. Delo nazaj od uporabnikov, da bi artikulirali problem, je ključnega pomena. Na primer, kaj zanima uporabnike v končnem artefaktu? Kje so po mnenju strokovnjakov v podatkih signali, pomembni za primer uporabe? Katere informacije o okolju primera uporabe bi lahko zagotovili modelu? Če ne poznate odgovorov na ta vprašanja, ne skrbite. Vzemite si nekaj časa za pogovor z uporabniki in strokovnjaki na terenu, da boste razumeli nianse. To začetno razumevanje vas bo usmerilo v pravo smer in vas pripravilo na uspeh.

Za to objavo predvidevamo, da ste pokrili ta začetni postopek specifikacije uporabniških zahtev. Naslednji trije razdelki vas vodijo skozi nadaljnji postopek ustvarjanja kakovostnih podatkov: načrtovanje, ustvarjanje izvornih podatkov in označevanje podatkov. Pilotne zanke v korakih ustvarjanja podatkov in označevanja so ključnega pomena za zagotavljanje učinkovitega ustvarjanja označenih podatkov. To vključuje ponavljanje med ustvarjanjem podatkov, opombami, zagotavljanjem kakovosti in po potrebi posodabljanjem cevovoda.

Naslednja slika ponuja pregled korakov, potrebnih v tipičnem cevovodu za ustvarjanje podatkov. Od primera uporabe lahko delate nazaj, da identificirate podatke, ki jih potrebujete (Specifikacija zahtev), zgradite postopek za pridobivanje podatkov (Načrtovanje), implementirate dejanski postopek pridobivanja podatkov (Zbiranje podatkov in opombe) in ocenite rezultate. Pilotni zagoni, označeni s črtkanimi črtami, vam omogočajo ponavljanje postopka, dokler ni razvit visokokakovosten cevovod za pridobivanje podatkov.

Pregled korakov, potrebnih v tipičnem cevovodu za ustvarjanje podatkov.

Načrtovanje

Standardni postopek ustvarjanja podatkov je lahko dolgotrajen in izguba dragocenih človeških virov, če se izvaja neučinkovito. Zakaj bi bilo zamudno? Da bi odgovorili na to vprašanje, moramo razumeti obseg procesa ustvarjanja podatkov. Da bi vam pomagali, smo zbrali kontrolni seznam na visoki ravni in opis ključnih komponent in deležnikov, ki jih morate upoštevati. Odgovoriti na ta vprašanja je sprva lahko težko. Odvisno od vašega primera uporabe so lahko uporabne samo nekatere od teh.

Določite pravno kontaktno točko za zahtevane odobritve – Uporaba podatkov za vašo aplikacijo lahko zahteva pregled licence ali pogodbe prodajalca, da se zagotovi skladnost s politikami podjetja in primeri uporabe. Pomembno je, da prepoznate svojo pravno podporo skozi vse korake postopka pridobivanja podatkov in opomb.
Določite varnostno kontaktno točko za obdelavo podatkov – Uhajanje kupljenih podatkov lahko povzroči resne denarne kazni in posledice za vaše podjetje. Pomembno je, da prepoznate svojo varnostno podporo v korakih pridobivanja podatkov in opomb, da zagotovite varne prakse.
Podrobno opredelite zahteve glede primerov uporabe ter določite izvorne podatke in smernice za opombe – Ustvarjanje in označevanje podatkov je težavno zaradi visoke zahtevane specifičnosti. Zainteresirane strani, vključno z generatorji podatkov in označevalci, morajo biti popolnoma usklajene, da se prepreči zapravljanje virov. V ta namen je običajna praksa uporaba dokumenta s smernicami, ki določa vse vidike naloge opomb: natančna navodila, robne primere, primer vodstva in tako naprej.
Uskladite pričakovanja glede zbiranja izvornih podatkov – Upoštevajte naslednje:
- Izvedite raziskavo o potencialnih virih podatkov – Na primer javni nabori podatkov, obstoječi nabori podatkov iz drugih notranjih skupin, podatki, ki so jih sami zbrali ali kupljeni od prodajalcev.
- Izvedite oceno kakovosti – Ustvarite cevovod analize glede na končni primer uporabe.
Uskladite se s pričakovanji za ustvarjanje opomb podatkov – Upoštevajte naslednje:
- Identificirajte tehnične zainteresirane strani – To je običajno posameznik ali ekipa v vašem podjetju, ki je sposobna uporabiti tehnično dokumentacijo glede Ground Truth za izvedbo cevovoda za opombe. Te zainteresirane strani so odgovorne tudi za oceno kakovosti označenih podatkov, da zagotovijo, da ustrezajo potrebam vaše nadaljnje aplikacije ML.
- Identificirajte označevalce podatkov – Ti posamezniki uporabljajo vnaprej določena navodila za dodajanje oznak vašim izvornim podatkom znotraj Ground Truth. Morda bodo morali imeti znanje o domeni, odvisno od vašega primera uporabe in smernic za opombe. Uporabite lahko delovno silo znotraj vašega podjetja ali plačate za delovno silo, ki jo upravlja zunanji prodajalec.
Zagotovite nadzor nad procesom ustvarjanja podatkov – Kot lahko vidite iz prejšnjih točk, je ustvarjanje podatkov podroben proces, ki vključuje številne specializirane zainteresirane strani. Zato je ključnega pomena, da ga spremljate od konca do konca v smeri želenega rezultata. Če namenska oseba ali ekipa nadzoruje proces, vam lahko pomaga zagotoviti koheziven in učinkovit postopek ustvarjanja podatkov.

Glede na pot, za katero se odločite, morate upoštevati tudi naslednje:

Ustvarite izvorni nabor podatkov – To se nanaša na primere, ko obstoječi podatki niso primerni za zadevno nalogo ali pa vam pravne omejitve preprečujejo njihovo uporabo. Uporabiti je treba notranje ekipe ali zunanje prodajalce (naslednja točka). To pogosto velja za visoko specializirana področja ali področja z malo javnih raziskav. Na primer zdravnikova pogosta vprašanja, oblačila ali športni strokovnjaki. Lahko je notranji ali zunanji.
Raziščite prodajalce in izvedite postopek vkrcanja – Pri uporabi zunanjih prodajalcev je treba med obema subjektoma vzpostaviti postopek sklepanja pogodb in vkrcanja.

V tem razdelku smo pregledali komponente in deležnike, ki jih moramo upoštevati. Vendar, kako izgleda dejanski postopek? Na naslednji sliki prikazujemo potek dela za ustvarjanje podatkov in označevanje. Iterativni pristop uporablja majhne serije podatkov, imenovane piloti, za skrajšanje časa obdelave, zgodnje odkrivanje napak in izogibanje zapravljanju virov pri ustvarjanju podatkov nizke kakovosti. Te pilotne kroge opisujemo kasneje v tej objavi. Pokrivamo tudi nekaj najboljših praks za ustvarjanje podatkov, opombe in nadzor kakovosti.

Naslednja slika prikazuje iterativni razvoj cevovoda za ustvarjanje podatkov. Navpično najdemo blok izvora podatkov (zelen) in blok opomb (moder). Oba bloka imata neodvisne pilotne kroge (ustvarjanje podatkov/opombe, QAQC in posodobitev). Ustvarjajo se vedno višji izvorni podatki, ki jih je mogoče uporabiti za izdelavo opomb vse višje kakovosti.

Med iterativnim razvojem cevovoda za ustvarjanje podatkov ali opomb se za neodvisne pilote uporabljajo majhne serije podatkov. Vsak pilotni krog ima fazo ustvarjanja podatkov ali opomb, nekaj zagotavljanja kakovosti in nadzora kakovosti rezultatov ter korak posodobitve za izboljšanje postopka. Ko so ti procesi izpopolnjeni z zaporednimi piloti, lahko nadaljujete z ustvarjanjem obsežnih podatkov in zapisom.

Pregled iterativnega razvoja v cevovodu za ustvarjanje podatkov.

Ustvarjanje izvornih podatkov

Postopek ustvarjanja vnosa se vrti okoli uprizarjanja predmetov, ki vas zanimajo, kar je odvisno od vrste vaše naloge. To so lahko slike (časopisni posnetki), videoposnetki (prometni prizori), 3D oblaki točk (medicinski posnetki) ali preprosto besedilo (sledi podnapisov, transkripcije). Na splošno se pri postavljanju elementov, povezanih z opravili, prepričajte o naslednjem:

Odraža primer uporabe v resničnem svetu za morebitni sistem AI/ML – Nastavitev za zbiranje slik ali videoposnetkov za vaše podatke o vadbi se mora zelo ujemati z nastavitvijo za vaše vhodne podatke v realni aplikaciji. To pomeni, da imate dosledne površine za postavitev, vire svetlobe ali kote kamere.
Upoštevajte in zmanjšajte vire spremenljivosti – Upoštevajte naslednje:
- Razviti najboljše prakse za vzdrževanje standardov zbiranja podatkov – Glede na razdrobljenost vašega primera uporabe boste morda morali določiti zahteve, da zagotovite skladnost med svojimi podatkovnimi točkami. Na primer, če zbirate slikovne ali video podatke iz posameznih točk kamere, se boste morda morali prepričati o dosledni postavitvi predmetov, ki vas zanimajo, ali zahtevati preverjanje kakovosti kamere pred krogom zajema podatkov. S tem se lahko izognete težavam, kot sta nagib ali zamegljenost kamere, in zmanjšate dodatne stroške, kot je odstranjevanje slik zunaj okvirja ali zamegljenih slik, ter potrebo po ročnem centriranju okvirja slike na območju, ki vas zanima.
- Preprečite vire spremenljivosti preskusnega časa – Če predvidevate variabilnost katerega koli od doslej omenjenih atributov med preskusnim časom, se prepričajte, da lahko zajamete te vire variabilnosti med ustvarjanjem podatkov o usposabljanju. Na primer, če pričakujete, da bo vaša aplikacija ML delovala v več različnih nastavitvah svetlobe, si morate prizadevati ustvariti slike in videoposnetke za usposabljanje pri različnih nastavitvah svetlobe. Odvisno od primera uporabe lahko na kakovost vaših nalepk vpliva tudi spremenljivost v položaju kamere.
Vključite predhodno znanje o domeni, ko je na voljo – Upoštevajte naslednje:
- Vnosi o virih napak – Strokovnjaki na področju lahko zagotovijo vpogled v vire napak na podlagi svojih dolgoletnih izkušenj. Lahko zagotovijo povratne informacije o najboljših praksah za prejšnji dve točki: Katere nastavitve najbolje odražajo primer uporabe v resničnem svetu? Kateri so možni viri spremenljivosti med zbiranjem podatkov ali v času uporabe?
- Najboljše prakse zbiranja podatkov za posamezne domene – Čeprav imajo vaši tehnični deležniki morda že dobro predstavo o tehničnih vidikih, na katere se je treba osredotočiti v zbranih slikah ali videoposnetkih, lahko izvajalci domene zagotovijo povratne informacije o tem, kako najbolje uprizoriti ali zbrati podatke, da bodo te potrebe izpolnjene.

Kontrola kakovosti in zagotavljanje kakovosti ustvarjenih podatkov

Zdaj, ko ste vzpostavili cevovod za zbiranje podatkov, vas bo morda zamikalo, da nadaljujete in zberete čim več podatkov. Počakaj minuto! Najprej moramo preveriti, ali so podatki, zbrani z nastavitvijo, primerni za vaš primer uporabe resnične besede. Uporabimo lahko nekaj začetnih vzorcev in iterativno izboljšamo nastavitev z vpogledi, ki smo jih pridobili z analizo teh vzorčnih podatkov. Med pilotnim postopkom tesno sodelujte s svojimi tehničnimi in poslovnimi deležniki ter zainteresiranimi stranmi za opombe. To bo zagotovilo, da bo vaš končni cevovod ustrezal poslovnim potrebam, hkrati pa bo ustvaril podatke, pripravljene za ML, z minimalnimi režijskimi stroški.

Pripombe

Opomba vnosov je tisto, kjer svojim podatkom dodamo čarobni pridih – oznake! Odvisno od vrste naloge in postopka ustvarjanja podatkov boste morda potrebovali ročne opombe ali pa uporabite obstoječe avtomatizirane metode. Sam cevovod podatkovnih opomb je lahko tehnično zahtevna naloga. Ground Truth olajša to potovanje vašim tehničnim deležnikom s svojimi vgrajen repertoar delovnih tokov označevanja za običajne vire podatkov. Z nekaj dodatnimi koraki vam omogoča tudi gradnjo delovni tokovi označevanja po meri več kot vnaprej konfigurirane možnosti.

Zastavite si naslednja vprašanja, ko razvijate ustrezen delovni tok opomb:

Ali potrebujem ročni postopek označevanja svojih podatkov? V nekaterih primerih lahko avtomatizirane storitve označevanja zadostujejo za opravljeno nalogo. Pregled dokumentacije in razpoložljivih orodij vam lahko pomaga ugotoviti, ali je za vaš primer uporabe potrebna ročna opomba (za več informacij glejte Kaj je označevanje podatkov?). Postopek ustvarjanja podatkov lahko omogoča različne ravni nadzora glede razdrobljenosti vaše opombe podatkov. Odvisno od tega postopka lahko včasih tudi obidete potrebo po ročnem označevanju. Za več informacij glejte Zgradite nabor podatkov vprašanj in odgovorov po meri z uporabo Amazon SageMaker Ground Truth za usposabljanje modela NLU vprašanj in odgovorov Hugging Face.
Kaj tvori mojo osnovno resnico? V večini primerov bo temeljna resnica prišla iz vašega postopka komentiranja – to je bistvo! V drugih primerih ima lahko uporabnik dostop do osnovnih oznak resnice. To lahko bistveno pospeši vaš postopek zagotavljanja kakovosti ali zmanjša režijske stroške, potrebne za več ročnih opomb.
Kakšna je zgornja meja za stopnjo odstopanja od mojega osnovnega stanja resnice? Sodelujte s svojimi končnimi uporabniki, da boste razumeli tipične napake v zvezi s temi oznakami, vire takih napak in želeno zmanjšanje napak. To vam bo pomagalo ugotoviti, kateri vidiki naloge označevanja so najzahtevnejši ali bodo verjetno imeli napake pri opombah.
Ali obstajajo že obstoječa pravila, ki jih uporabljajo uporabniki ali izvajalci na terenu za označevanje teh predmetov? Uporabite in izboljšajte te smernice, da sestavite nabor navodil za vaše ročne opombe.

Pilotiranje postopka vnosnih opomb

Pri pilotnem procesu vnosnih opomb upoštevajte naslednje:

Preglejte navodila z anotatorji in praktiki na terenu – Navodila morajo biti jedrnata in natančna. Zahtevajte povratne informacije od svojih uporabnikov (Ali so navodila točna? Ali lahko pregledamo katera koli navodila, da zagotovimo, da jih razumejo nestrokovni delavci?) in označevalcev (Ali je vse razumljivo? Ali je naloga jasna?). Če je mogoče, dodajte primer dobrih in slabih označenih podatkov, da bodo vaši opombevalci lažje prepoznali, kaj se pričakuje, in kako bi lahko izgledale pogoste napake pri označevanju.
Zberite podatke za opombe – Skupaj s stranko preglejte podatke, da se prepričate, ali izpolnjujejo pričakovane standarde, in se uskladite s pričakovanimi rezultati iz ročne opombe.
Zagotovite primere svojemu naboru ročnih označevalcev kot preizkusni zagon – Kakšna je tipična razlika med označevalci v tem nizu primerov? Preučite varianco za vsako opombo znotraj dane slike, da ugotovite trende skladnosti med opombami. Nato primerjajte odstopanja med slikami ali video okvirji, da ugotovite, katere oznake je težko postaviti.

Kontrola kakovosti pripisov

Nadzor kakovosti opomb ima dve glavni komponenti: ocenjevanje skladnosti med opombami in oceno kakovosti samih opomb.

Istemu opravilu lahko dodelite več opomb (na primer trije opombe označijo ključne točke na isti sliki) in izmerite povprečno vrednost poleg standardnega odstopanja teh oznak med opombami. To vam pomaga prepoznati morebitne izstopajoče opombe (uporabljena nepravilna oznaka ali oznaka, ki je daleč od povprečne opombe), kar lahko vodi k izvedljivim rezultatom, kot je izboljšanje vaših navodil ali zagotavljanje nadaljnjega usposabljanja določenih opomb.

Ocenjevanje kakovosti samih opomb je povezano s spremenljivostjo opomb in (če je na voljo) razpoložljivostjo strokovnjakov za področje ali podatkov o temeljni resnici. Ali obstajajo določene oznake (na vseh vaših slikah), kjer je povprečna varianca med opombami dosledno visoka? Ali so kakšne oznake daleč od vaših pričakovanj o tem, kje bi morale biti ali kako bi morale izgledati?

Na podlagi naših izkušenj lahko tipična zanka nadzora kakovosti za zapisovanje podatkov izgleda takole:

Ponovite navodila ali uprizoritev slike na podlagi rezultatov preskusnega zagona – Ali so kateri koli predmeti zakriti ali uprizoritev slike ne ustreza pričakovanjem avtorjev oznak ali uporabnikov? Ali so navodila zavajajoča ali ste spregledali kakšno oznako ali pogoste napake na vzorčnih slikah? Ali lahko izboljšate navodila za svoje opombe?
Če ste zadovoljni, da ste odpravili morebitne težave v preskusnem zagonu, naredite serijo opomb – Za preizkušanje rezultatov iz serije sledite istemu pristopu ocenjevanja kakovosti ocenjevanja variabilnosti oznak med označevalci in med slikami.

zaključek

Ta objava služi kot vodnik za poslovne deležnike, da razumejo kompleksnost ustvarjanja podatkov za aplikacije AI/ML. Opisani procesi služijo tudi kot vodilo za tehnične praktike pri ustvarjanju kakovostnih podatkov ob optimizaciji poslovnih omejitev, kot so osebje in stroški. Če ni dobro opravljeno, lahko ustvarjanje podatkov in označevanje traja več kot 4–6 mesecev.

S smernicami in predlogi, opisanimi v tej objavi, lahko preprečite ovire, skrajšate čas do dokončanja in minimizirate stroške na vaši poti do ustvarjanja visokokakovostnih podatkov.

O avtorjih

Jasleen Grewal je uporabna znanstvenica pri Amazon Web Services, kjer sodeluje s strankami AWS pri reševanju problemov v resničnem svetu z uporabo strojnega učenja, s posebnim poudarkom na natančni medicini in genomiki. Ima močno ozadje na področju bioinformatike, onkologije in klinične genomike. Navdušena je nad uporabo AI/ML in storitev v oblaku za izboljšanje oskrbe bolnikov.

Boris Arončik je vodja v laboratoriju Amazon AI Machine Learning Solutions Lab, kjer vodi skupino znanstvenikov in inženirjev ML, ki strankam AWS pomagajo uresničiti poslovne cilje z uporabo rešitev AI/ML.

Miguel Romero Calvo je uporabni znanstvenik na Amazon ML Solutions Lab kjer sodeluje z notranjimi ekipami AWS in strateškimi strankami, da bi pospešil njihovo poslovanje z uporabo ML in oblaka.

Lin Lee Cheong je višji znanstvenik in vodja ekipe Amazon ML Solutions Lab pri Amazon Web Services. Sodeluje s strateškimi strankami AWS pri raziskovanju in uporabi umetne inteligence in strojnega učenja za odkrivanje novih spoznanj in reševanje kompleksnih problemov.

Časovni žig: Oktober 3, 2022Oktober 3, 2022

Časovni žig: November 17, 2022

Ustvarite visokokakovostne podatke za modele ML z Amazon SageMaker Ground Truth

Ponovno objavil Platon

Postopek ustvarjanja podatkov

Načrtovanje

Ustvarjanje izvornih podatkov

Kontrola kakovosti in zagotavljanje kakovosti ustvarjenih podatkov

Pripombe

Pilotiranje postopka vnosnih opomb

Kontrola kakovosti pripisov

zaključek

O avtorjih

Več od Strojno učenje AWS

Amazon SageMaker JumpStart zdaj ponuja prenosne računalnike Amazon Comprehend za klasifikacijo po meri in zaznavanje entitet po meri

Zagotovite pomoč posrednika v živo za vaše uporabnike chatbota s kontaktnim centrom v oblaku Amazon Lex in Talkdesk | Spletne storitve Amazon

Izboljšajte natančnost iskanja s preverjanjem črkovanja v Amazon Kendra

Identificirajte lokacijo anomalij z uporabo Amazon Lookout for Vision na robu brez uporabe GPE

Inženiring funkcij velikega obsega z zaščito občutljivih podatkov z uporabo interaktivnih sej AWS Glue in Amazon SageMaker Studio

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun