Tips To Improve Your Amazon Rekognition Custom Labels Model

Ponovno objavil Platon

Spremljevalci: 0

V tej objavi razpravljamo o najboljših praksah za izboljšanje učinkovitosti uporabe modelov računalniškega vida Oznake po meri za ponovno odstranjevanje Amazon. Rekognition Custom Labels je popolnoma upravljana storitev za izdelavo modelov računalniškega vida po meri za klasifikacijo slik in primere uporabe zaznavanja predmetov. Rekognition Custom Labels temelji na predhodno usposobljenih modelih Amazonsko ponovno vžiganje, ki so že usposobljeni za več deset milijonov slik v številnih kategorijah. Namesto na tisoče slik lahko začnete z majhnim naborom slik za usposabljanje (nekaj sto ali manj), ki so specifične za vaš primer uporabe. Rekognition Custom Labels abstrahira kompleksnost, ki je vključena v izdelavo modela po meri. Samodejno pregleda podatke o usposabljanju, izbere prave algoritme ML, izbere vrsto instance, uri več kandidatnih modelov z različnimi nastavitvami hiperparametrov in izpiše najbolje usposobljen model. Rekognition Custom Labels ponuja tudi vmesnik, ki je enostaven za uporabo Konzola za upravljanje AWS za upravljanje celotnega poteka dela ML, vključno z označevanjem slik, usposabljanjem modela, uvajanjem modela in vizualizacijo rezultatov testa.

Včasih natančnost modela ni najboljša in nimate veliko možnosti za prilagoditev konfiguracijskih parametrov modela. V zakulisju je več dejavnikov, ki igrajo ključno vlogo pri izdelavi visoko zmogljivega modela, kot so naslednji:

Kot slike
Ločljivost slike
Razmerje slike
Izpostavljenost svetlobi
Jasnost in živost ozadja
Barvni kontrast
Velikost vzorčnih podatkov

Sledijo splošni koraki, ki jih je treba upoštevati za usposabljanje modela Rekognition Custom Labels proizvodnega razreda:

Pregled taksonomije – To definira seznam atributov/predmetov, ki jih želite identificirati na sliki.
Zberite ustrezne podatke – To je najpomembnejši korak, kjer morate zbrati ustrezne slike, ki bi morale spominjati na tisto, kar bi videli v produkcijskem okolju. To lahko vključuje slike predmetov z različnimi ozadji, osvetlitvijo ali koti kamere. Nato z razdelitvijo zbranih slik ustvarite nabor podatkov za usposabljanje in testiranje. V nabor podatkov o testiranju vključite samo slike iz resničnega sveta in ne smete vključiti sintetično ustvarjenih slik. Opombe podatkov, ki ste jih zbrali, so ključne za delovanje modela. Prepričajte se, da so omejevalni okvirji tesno okoli predmetov in da so oznake točne. V nadaljevanju te objave razpravljamo o nekaterih nasvetih, ki jih lahko upoštevate pri gradnji ustreznega nabora podatkov.
Preglejte metrike usposabljanja – Uporabite prejšnje nabore podatkov za usposabljanje modela in pregled metrik usposabljanja za rezultat F1, natančnost in priklic. O tem, kako analizirati meritve usposabljanja, bomo podrobneje razpravljali kasneje v tej objavi.
Ocenite izurjeni model – Za ovrednotenje napovedi uporabite niz nevidenih slik (ki se ne uporabljajo za usposabljanje modela) z znanimi oznakami. Ta korak je treba vedno izvesti, da zagotovite, da model deluje po pričakovanjih v proizvodnem okolju.
Ponovno usposabljanje (neobvezno) – Na splošno je usposabljanje katerega koli modela strojnega učenja ponavljajoč se proces za doseganje želenih rezultatov, model računalniškega vida ni nič drugačen. Preglejte rezultate v 4. koraku, da vidite, ali je treba podatkom o vadbi dodati več slik, in ponovite zgornje korake 3–5.

V tej objavi se osredotočamo na najboljše prakse pri zbiranju ustreznih podatkov (2. korak) in ocenjevanju vaših usposobljenih meritev (3. korak) za izboljšanje učinkovitosti vašega modela.

Zberite ustrezne podatke

To je najbolj kritična stopnja usposabljanja produkcijskega modela Rekognition Custom Labels. Natančneje, obstajata dva niza podatkov: usposabljanje in testiranje. Podatki o usposabljanju se uporabljajo za usposabljanje modela, vi pa se morate potruditi, da zgradite ustrezen nabor za usposabljanje. Modeli oznak po meri za prepoznavanje so optimizirani za Ocena F1 na naboru podatkov o testiranju, da izberete najnatančnejši model za svoj projekt. Zato je bistveno, da pripravite testni nabor podatkov, ki je podoben resničnemu svetu.

Število slik

Priporočamo, da imate vsaj 15-20 slik na etiketo. Več slik z več različicami, ki odražajo vaš primer uporabe, bo izboljšalo učinkovitost modela.

Uravnotežen nabor podatkov

V idealnem primeru bi morala imeti vsaka oznaka v naboru podatkov podobno število vzorcev. Število slik na oznako ne sme biti velike razlike. Na primer, nabor podatkov, kjer je največje število slik za oznako 1,000 v primerjavi s 50 slikami za drugo oznako, je podoben neuravnoteženemu naboru podatkov. Priporočamo, da se izogibate scenarijem z enostranskim razmerjem 1:50 med oznako z najmanjšim številom slik in oznako z največjim številom slik.

Različne vrste slik

V nabor podatkov za usposabljanje in preizkus vključite slike, ki so podobne tistim, ki jih boste uporabljali v resničnem svetu. Na primer, če želite razvrstiti slike dnevnih sob v primerjavi s spalnicami, vključite prazne in opremljene slike obeh sob.

Sledi primer slike opremljene dnevne sobe.

V nasprotju s tem je naslednji primer neopremljene dnevne sobe.

Sledi primer slike opremljene spalnice.

Sledi primer slike neopremljene spalnice.

Različna ozadja

Vključite slike z različnimi ozadji. Slike z naravnim kontekstom lahko zagotovijo boljše rezultate kot navadno ozadje.

Sledi primer slike dvorišča hiše.

Sledi primer slike dvorišča druge hiše z drugačnim ozadjem.

Različni svetlobni pogoji

Vključite slike z različno osvetlitvijo, tako da pokrivajo različne svetlobne pogoje, ki se pojavijo med sklepanjem (na primer z bliskavico in brez nje). Vključite lahko tudi slike z različno nasičenostjo, odtenkom in svetlostjo.

Sledi primer slike rože pri normalni svetlobi.

V nasprotju s tem je naslednja slika iste rože pod močno svetlobo.

Različni koti

Vključite slike, posnete iz različnih zornih kotov predmeta. To pomaga modelu, da se nauči različnih značilnosti predmetov.

Naslednje slike so iste spalnice iz različnih zornih kotov.

Nasveti za izboljšanje vašega modela Amazon Rekognition Custom Labels PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Obstajajo lahko situacije, ko ni mogoče pridobiti slik različnih vrst. V teh scenarijih je mogoče ustvariti sintetične slike kot del nabora podatkov za usposabljanje. Za več informacij o pogostih tehnikah povečave slike glejte Povečevanje podatkov.

Dodajte negativne oznake

Za klasifikacijo slik lahko dodajanje negativnih oznak pomaga povečati natančnost modela. Dodate lahko na primer negativno oznako, ki se ne ujema z nobeno od zahtevanih oznak. Naslednja slika predstavlja različne oznake, ki se uporabljajo za identifikacijo popolnoma odraslih cvetov.

Dodajanje negativne oznake not_fully_grown pomaga modelu pri učenju značilnosti, ki niso del fully_grown nalepka.

Ravnanje z zmedo nalepk

Analizirajte rezultate na testnem naboru podatkov, da prepoznate vse vzorce, ki so zgrešeni v naboru podatkov za usposabljanje ali testiranje. Včasih je takšne vzorce zlahka opaziti z vizualnim pregledom slik. Na naslednji sliki se model trudi razločiti med oznako dvorišča in terase.

V tem scenariju lahko dodajanje več slik tem oznakam v naboru podatkov in redefiniranje oznak, tako da je vsaka oznaka ločena, pomaga povečati natančnost modela.

Povečanje podatkov

Znotraj Rekognition Custom Labels izvajamo različne povečave podatkov za usposabljanje modela, vključno z naključnim obrezovanjem slike, trepetanjem barv, naključnimi Gaussovimi šumi in še več. Glede na vaše posebne primere uporabe bi bilo morda koristno dodati bolj eksplicitne razširitve podatkov vašim podatkom o usposabljanju. Če vas na primer zanima odkrivanje živali na barvnih in črno-belih slikah, bi lahko dosegli večjo natančnost, če bi podatkom o usposabljanju dodali črno-bele in barvne različice istih slik.

Ne priporočamo razširitev podatkov o testiranju, razen če razširitve odražajo vaše primere produkcijske uporabe.

Preglejte metrike usposabljanja

Rezultat F1, natančnost, odpoklic in domnevni prag so meritve ki so ustvarjeni kot rezultat usposabljanja modela z uporabo oznak po meri Rekognition. Modeli so optimizirani za najboljši rezultat F1 na podlagi nabora podatkov o testiranju, ki je na voljo. Predpostavljeni prag je prav tako ustvarjen na podlagi nabora podatkov o testiranju. Prag lahko prilagodite glede na vaše poslovne zahteve v smislu natančnosti ali priklica.

Ker so domnevni pragovi nastavljeni na naboru podatkov o testiranju, bi moral ustrezen nabor preskusov odražati primer uporabe v realnem svetu. Če preskusni nabor podatkov ni reprezentativen za primer uporabe, boste morda videli umetno visoke rezultate F1 in slabo delovanje modela na slikah iz resničnega sveta.

Te metrike so v pomoč pri izvajanju začetne ocene modela. Za sistem proizvodnega razreda priporočamo, da model ocenite glede na zunanji nabor podatkov (500–1,000 nevidenih slik), ki predstavlja resnični svet. To pomaga oceniti, kako bi se model obnesel v produkcijskem sistemu, ter prepoznati morebitne manjkajoče vzorce in jih popraviti s ponovnim usposabljanjem modela. Če opazite neujemanje med rezultati F1 in zunanjo oceno, predlagamo, da preverite, ali vaši testni podatki odražajo primer uporabe v resničnem svetu.

zaključek

V tej objavi smo vas popeljali skozi najboljše prakse za izboljšanje modelov Rekognition Custom Labels. Spodbujamo vas, da izveste več o Prepoznavanje nalepk po meri in ga preizkusite za nabore podatkov, specifične za vaše podjetje.

O avtorjih

Amit Gupta je višji arhitekt rešitev za storitve umetne inteligence pri AWS. Strastno se ukvarja s tem, da strankam omogoči dobro zasnovane rešitve strojnega učenja v velikem obsegu.

Yogesh Chaturvedi je arhitekt rešitev pri AWS s poudarkom na računalniškem vidu. S strankami sodeluje pri reševanju njihovih poslovnih izzivov z uporabo tehnologij v oblaku. Izven dela rad planinari, potuje in spremlja šport.

Hao Yang je višji aplikativni znanstvenik v skupini Amazon Rekognition Custom Labels. Njegov glavni raziskovalni interes je zaznavanje predmetov in učenje z omejenimi opombami. Zunaj dela Hao uživa v gledanju filmov, fotografiranju in aktivnostih na prostem.

Pashmeen Mistry je višji produktni vodja za Amazon Rekognition Custom Labels. Zunaj dela Pashmeen uživa v pustolovskih pohodih, fotografiranju in preživljanju časa s svojo družino.

Časovni žig: September 9, 2022September 10, 2022

Več od Strojno učenje AWS

Kako Mendix spreminja izkušnje strank z generativno umetno inteligenco in Amazon Bedrock | Spletne storitve Amazon

Strojno učenje AWS

Izvorno vozlišče: 1913698

Časovni žig: November 15, 2023

Prilagodite LLM s PyTorch 2.0 FSDP na Amazon EKS – 2. del | Spletne storitve Amazon

Izvorni grozd:

Strojno učenje AWS

Izvorno vozlišče: 1960833

Časovni žig: April 1, 2024

Nasveti za izboljšanje vašega modela Amazon Rekognition Custom Labels

Ponovno objavil Platon

Zberite ustrezne podatke

Število slik

Uravnotežen nabor podatkov

Različne vrste slik

Različna ozadja

Različni svetlobni pogoji

Različni koti

Dodajte negativne oznake

Ravnanje z zmedo nalepk

Povečanje podatkov

Preglejte metrike usposabljanja

zaključek

O avtorjih

Več od Strojno učenje AWS

Prenos učenja za modele klasifikacije slik TensorFlow v Amazon SageMaker

Samodejno znova usposobite nevronske mreže z Renate

Z Amazon Forecast zmanjšajte zavrženo hrano, da izboljšate trajnost in finančne rezultate v maloprodaji

Pripravite podatke iz Amazon EMR za strojno učenje z uporabo Amazon SageMaker Data Wrangler

Zaženite modele angl. ML na Amazon SageMaker

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun