Unified Data Preparation And Model Training With Amazon SageMaker Data Wrangler And Amazon SageMaker Autopilot

Ponovno objavil Platon

Spremljevalci: 0

Podatki spodbujajo strojno učenje (ML); kakovost podatkov neposredno vpliva na kakovost modelov ML. Zato sta izboljšanje kakovosti podatkov in uporaba pravih tehnik inženiringa funkcij ključnega pomena za ustvarjanje natančnih modelov ML. Praktiki ML pogosto dolgočasno ponavljajo inženiring funkcij, izbiro algoritmov in druge vidike ML v iskanju optimalnih modelov, ki dobro posplošujejo podatke iz resničnega sveta in zagotavljajo želene rezultate. Ker je hitrost pri poslovanju nesorazmerno pomembna, lahko ta izjemno dolgočasen in ponavljajoč se proces povzroči zamude pri projektih in izgubljene poslovne priložnosti.

Amazon SageMaker Data Wrangler skrajša čas za združevanje in pripravo podatkov za ML s tednov na minute in Amazonski SageMaker avtopilot samodejno gradi, uri in prilagaja najboljše modele ML na podlagi vaših podatkov. Z avtopilotom še vedno ohranjate popoln nadzor in vidljivost svojih podatkov in modela. Obe storitvi sta namensko zasnovani, da naredita strokovnjake za strojno upravljanje bolj produktivni in pospešita čas do vrednosti.

Data Wrangler zdaj ponuja poenoteno izkušnjo, ki vam omogoča pripravo podatkov in brezhibno usposabljanje modela ML v avtopilotu. S to novo uvedeno funkcijo lahko zdaj pripravite svoje podatke v Data Wranglerju in preprosto zaženete poskuse z avtopilotom neposredno iz uporabniškega vmesnika (UI) Data Wranglerja. Z le nekaj kliki lahko samodejno zgradite, učite in prilagodite modele ML, kar olajša uporabo najsodobnejših tehnik inženiringa funkcij, usposobi visokokakovostne modele ML in hitreje pridobi vpogled v vaše podatke.

V tej objavi razpravljamo o tem, kako lahko uporabite to novo integrirano izkušnjo v Data Wranglerju za analizo naborov podatkov in preprosto izdelavo visokokakovostnih modelov ML v Autopilotu.

Pregled nabora podatkov

Pima Indijanci so staroselska skupina, ki živi v Mehiki in Arizoni v ZDA. študije kažejo Pima Indijance kot populacijsko skupino z visokim tveganjem za diabetes mellitus. Napovedovanje verjetnosti posameznikovega tveganja in dovzetnosti za kronično bolezen, kot je sladkorna bolezen, je pomembna naloga pri izboljšanju zdravja in dobrega počutja te pogosto premalo zastopane manjšinske skupine.

Mi uporabljamo Javni nabor podatkov Pima Indian Diabetes za napovedovanje dovzetnosti posameznika za sladkorno bolezen. Osredotočeni smo na novo integracijo med Data Wranglerjem in Autopilotom za pripravo podatkov in samodejno ustvarjanje modela ML brez pisanja ene vrstice kode.

Nabor podatkov vsebuje informacije o indijskih ženskah Pima, starih 21 let ali več, in vključuje več medicinskih napovednih (neodvisnih) spremenljivk in eno ciljno (odvisno) spremenljivko, rezultat. Naslednji grafikon opisuje stolpce v našem naboru podatkov.

Stolpec Ime	Opis
Nosečnosti	Število nosečnosti
Glukoza	Koncentracija glukoze v plazmi pri peroralnem testu tolerance za glukozo v 2 urah
Krvni pritisk	Diastolični krvni tlak (mm Hg)
SkinThickness	Debelina kožne gube tricepsa (mm)
insulin	2-urni serumski insulin (mu U/ml)
ITM	Indeks telesne mase (teža v kg/(višina v m)^2)
Diabetes Pedigree	Diabetes rodovniška funkcija
Starost	Starost v letih
Rezultat	Ciljna spremenljivka

Nabor podatkov vsebuje 768 zapisov s skupno 9 funkcijami. Ta nabor podatkov hranimo v Amazon Simple Storage Bucket (Amazon S3) kot datoteko CSV in nato uvozite CSV neposredno v tok Data Wrangler iz Amazon S3.

Pregled rešitev

Naslednji diagram povzema, kaj smo dosegli v tej objavi.[KT1]

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Podatkovni znanstveniki, zdravniki in drugi strokovnjaki na medicinskem področju zagotavljajo podatke o bolnikih z informacijami o ravni glukoze, krvnem tlaku, indeksu telesne mase in drugih funkcijah, ki se uporabljajo za napovedovanje verjetnosti sladkorne bolezni. Z naborom podatkov v Amazon S3 uvozimo nabor podatkov v Data Wrangler za izvedbo raziskovalne analize podatkov (EDA), profiliranja podatkov, inženiring funkcij in razdelitev nabora podatkov na usposabljanje in testiranje za izdelavo in vrednotenje modela.

Nato uporabimo novo integracijo funkcij Autopilota za hitro izdelavo modela neposredno iz vmesnika Data Wrangler. Najboljši model Autopilota izberemo na podlagi modela z najvišjo oceno F-beta. Ko avtopilot najde najboljši model, zaženemo a Paketno preoblikovanje SageMaker opravilo na testnem (zadrževalnem) kompletu z artefakti modela najboljšega modela za oceno.

Medicinski strokovnjaki lahko potrjenemu modelu zagotovijo nove podatke, da pridobijo napoved, da ugotovijo, ali bo bolnik verjetno imel sladkorno bolezen. S temi vpogledi lahko medicinski strokovnjaki zgodaj začnejo z zdravljenjem za izboljšanje zdravja in dobrega počutja ranljivega prebivalstva. Medicinski strokovnjaki lahko prav tako razložijo napoved modela s sklicevanjem na podrobnosti modela v avtopilotu, ker imajo popoln vpogled v razložljivost, učinkovitost in artefakte modela. Ta vidnost poleg validacije modela iz testnega niza daje medicinskim strokovnjakom večje zaupanje v napovedne sposobnosti modela.

Vodimo vas skozi naslednje korake na visoki ravni.

Uvozite nabor podatkov iz Amazon S3.
Izvedite EDA in profiliranje podatkov s programom Data Wrangler.
Izvedite inženiring funkcij za obravnavo izstopajočih vrednosti in manjkajočih vrednosti.
Razdelite podatke v nize za usposabljanje in teste.
Usposobite in zgradite model z avtopilotom.
Preizkusite model na zadrževalnem vzorcu z zvezkom SageMaker.
Analizirajte validacijo in preizkusite učinkovitost nabora.

Predpogoji

Izpolnite naslednje predpogojne korake:

Naložite nabor podatkov v vedro S3 po vaši izbiri.
Preverite, ali imate potrebna dovoljenja. Za več informacij glejte Začnite z Data Wrangler.
Nastavite domeno SageMaker, konfigurirano za uporabo Data Wranglerja. Za navodila glejte Vkrcajte se na domeno Amazon SageMaker.

Uvozite svoj nabor podatkov s programom Data Wrangler

Podatkovni tok Data Wrangler lahko integrirate v svoje poteke dela ML, da poenostavite in racionalizirate predobdelavo podatkov in inženiring funkcij z malo ali nič kodiranja. Izvedite naslednje korake:

Ustvari novo Data Wrangler tok.

Če Data Wrangler odpirate prvič, boste morda morali počakati nekaj minut, da bo pripravljen.

Izberite nabor podatkov, shranjen v Amazon S3, in ga uvozite v Data Wrangler.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Ko uvozite nabor podatkov, bi morali videti začetke pretoka podatkov znotraj uporabniškega vmesnika Data Wrangler. Zdaj imate diagram poteka.

Izberite znak plus poleg Vrste podatkov In izberite Uredi da potrdite, da je Data Wrangler samodejno ugotovil pravilne vrste podatkov za vaše podatkovne stolpce.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Če tipi podatkov niso pravilni, jih lahko preprosto spremenite prek uporabniškega vmesnika. Če je prisotnih več virov podatkov, jih lahko združite ali združite.

Zdaj lahko ustvarimo analizo in dodamo transformacije.

Izvedite raziskovalno analizo podatkov s poročilom o vpogledih v podatke

Raziskovalna analiza podatkov je kritičen del poteka dela ML. Za boljše razumevanje profila in distribucije naših podatkov lahko uporabimo novo poročilo o vpogledih v podatke podjetja Data Wrangler. Poročilo vključuje povzetek statističnih podatkov, opozorila o kakovosti podatkov, vpogled v ciljne stolpce, hiter model ter informacije o nenormalnih in podvojenih vrsticah.

Izberite znak plus poleg Vrste podatkov In izberite Pridobite vpogled v podatke.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

za ciljna stolpec, izberite Rezultat.
za Vrsta težavein (izbirno) izberite Razvrstitev.
Izberite ustvarjanje.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Rezultati prikazujejo povzetek podatkov s statistiko nabora podatkov.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Ogledamo si lahko tudi porazdelitev označenih vrstic s histogramom, oceno pričakovane predvidene kakovosti modela s funkcijo hitrega modela in tabelo povzetka funkcij.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Ne spuščamo se v podrobnosti analize poročila o vpogledih v podatke; nanašati se na Pospešite pripravo podatkov s kakovostjo podatkov in vpogledi v Amazon SageMaker Data Wrangler za dodatne podrobnosti o tem, kako lahko uporabite poročilo o vpogledih v podatke za pospešitev korakov priprave podatkov.

Izvedite inženiring funkcij

Zdaj, ko smo profilirali in analizirali porazdelitev naših vnosnih stolpcev na visoki ravni, bi lahko bila prva naloga za izboljšanje kakovosti naših podatkov obdelava manjkajočih vrednosti.

Na primer, vemo, da so ničle (0) za Insulin predstavljajo manjkajoče vrednosti. Lahko bi sledili priporočilu za zamenjavo ničel NaN. Toda ob natančnejšem pregledu ugotovimo, da je najmanjša vrednost 0 za druge stolpce, kot je npr Glucose, BloodPressure, SkinThicknessin BMI. Potrebujemo način za obravnavanje manjkajočih vrednosti, vendar moramo biti občutljivi na stolpce z ničlami kot veljavne podatke. Poglejmo, kako lahko to popravimo.

v Podrobnosti o lastnostih razdelku poročilo postavlja a Prikrita manjkajoča vrednost opozorilo za funkcijo Insulin.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Ker ničle v Insulin stolpcu dejansko manjkajo podatki, uporabljamo Pretvori regularni izraz v manjkajočega transform za pretvorbo ničelnih vrednosti v prazne (manjkajoče vrednosti).

Izberite znak plus poleg datum Vrste In izberite Dodaj preoblikovanje.
Izberite Iskanje in urejanje.
za Transform, izberite Pretvori regularni izraz v manjkajočega.
za vhod stolpci, izberite stolpce Insulin, Glucose, BloodPressure, SkinThicknessin BMI.
za Vzorec, vnesite 0.
Izberite predogled in Dodaj da shranite ta korak.

0 vnosov pod Insulin, Glucose, BloodPressure, SkinThicknessin BMI zdaj manjkajo vrednosti.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Data Wrangler vam ponuja nekaj drugih možnosti za popravljanje manjkajočih vrednosti.

Manjkajoče vrednosti obravnavamo tako, da pripišemo približno mediano za Glucose stolpec.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Prav tako želimo zagotoviti, da so naše funkcije v enakem obsegu. Ne želimo pomotoma dati večjo težo določeni funkciji samo zato, ker vsebuje večji številski obseg. Za to normaliziramo naše funkcije.

Dodaj novo Številčni proces transformiraj in izberi Vrednosti lestvice.
za Scaler, izberite Min-max merilnik.
za Vnosni stolpci, izberite stolpce Pregnancies, BloodPressure, Glucose, SkinThickness, Insulin, BMIin Age.
Kompleti Min do 0 in max do 1.

To zagotavlja, da so naše lastnosti med vrednostmi 0 in 1.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Zdaj, ko smo ustvarili nekaj funkcij, smo naš nabor podatkov razdelili na usposabljanje in testiranje, preden zgradimo model.

Podatke razdelite na usposabljanje in testiranje

V fazi izdelave modela vašega delovnega toka ML preizkusite učinkovitost svojega modela z izvajanjem paketnih napovedi. Nabor podatkov o testiranju ali zadržanju lahko namenite za oceno, da vidite, kako deluje vaš model, tako da primerjate napovedi z osnovno resnico. Na splošno, če se več napovedi modela ujema z true nalepk, lahko ugotovimo, da model dobro deluje.

Uporabljamo Data Wrangler, da razdelimo naš nabor podatkov za testiranje. Za usposabljanje obdržimo 90 % našega nabora podatkov, ker imamo razmeroma majhen nabor podatkov. Preostalih 10 % našega nabora podatkov služi kot testni nabor podatkov. Ta nabor podatkov uporabljamo za preverjanje modela avtopilota kasneje v tej objavi.

Naše podatke razdelimo tako, da izberemo Razdeli podatke preoblikovanje in izbiranje Naključna razdelitev kot metoda. 0.9 določimo kot delni odstotek za usposabljanje in 0.1 za testiranje.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Ko so inženirski koraki pretvorbe podatkov in predstavljanja končani, smo zdaj pripravljeni na usposabljanje modela.

Usposobite in potrdite model

Uporabimo lahko novo integracijo Data Wrangler z avtopilotom za neposredno usposabljanje modela iz uporabniškega vmesnika pretoka podatkov Data Wrangler.

Izberite znak plus poleg Podatkovni niz In izberite Model vlaka.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

za Lokacija Amazon S3, določite lokacijo Amazon S3, kamor SageMaker izvozi vaše podatke.

Avtopilot uporablja to lokacijo za samodejno usposabljanje modela, s čimer vam prihrani čas, saj vam ni treba definirati izhodne lokacije toka Data Wrangler, nato pa določiti vhodno lokacijo podatkov za usposabljanje avtopilota. To omogoča bolj brezhibno izkušnjo.

Izberite izvoz in trenirati za začetek gradnje modela z avtopilotom.

Avtopilot samodejno izbere vhodne in izhodne lokacije vadbenih podatkov. Določiti morate le ciljni stolpec in klikniti Ustvari eksperiment za usposabljanje vašega modela.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Preizkusite model na zadrževalnem vzorcu

Ko avtopilot zaključi poskus, si lahko ogledamo rezultate usposabljanja in raziščemo najboljši model.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Izberite Oglejte si podrobnosti modela za želeni model, nato izberite Uspešnost na strani s podrobnostmi o modelu.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

O Uspešnost zavihek prikazuje več preizkusov meritev modela, vključno z matriko zmede, območjem pod krivuljo natančnosti/priklica (AUCPR) in območjem pod krivuljo obratovalne karakteristike sprejemnika (ROC). Ti ponazarjajo splošno uspešnost validacije modela, vendar nam ne povedo, ali se bo model dobro posplošil. Še vedno moramo opraviti vrednotenja nevidnih testnih podatkov, da vidimo, kako natančno model napove, ali bo posameznik imel sladkorno bolezen.

Da bi zagotovili, da se model dovolj dobro posplošuje, smo testni vzorec namenili neodvisnemu vzorčenju. To lahko storimo v uporabniškem vmesniku Data Wrangler flow.

Izberite znak plus poleg Podatkovni niz, izberite Izvozi v, in izberite Amazon S3.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Določite pot Amazon S3.

Na to pot se sklicujemo, ko izvajamo paketno sklepanje za preverjanje v naslednjem razdelku.

Ustvarite nov zvezek SageMaker, da izvedete paketno sklepanje na zadržanem vzorcu in ocenite uspešnost preskusa. Glejte naslednje GitHub repo za vzorec zvezka za izvajanje paketnega sklepanja za validacijo.

Analizirajte validacijo in preizkusite delovanje nabora

Ko je paketna transformacija končana, ustvarimo matriko zmede za primerjavo dejanskih in predvidenih rezultatov nabora podatkov o zadržanju.

Iz naših rezultatov vidimo 23 resnično pozitivnih in 33 resnično negativnih rezultatov. V našem primeru se pravi pozitivni rezultati nanašajo na model, ki pravilno napoveduje, da ima posameznik sladkorno bolezen. Nasprotno pa se resnični negativi nanašajo na model, ki pravilno napoveduje, da posameznik nima sladkorne bolezni.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

V našem primeru sta natančnost in priklic pomembni meritvi. Natančnost v bistvu meri vse posameznike, za katere se predvideva, da bodo imeli sladkorno bolezen, koliko jih ima res sladkorno bolezen? Nasprotno pa priklic pomaga izmeriti vse posameznike, ki imajo sladkorno bolezen, koliko naj bi jih imelo sladkorno bolezen? Na primer, morda boste želeli uporabiti model z visoko natančnostjo, ker želite zdraviti čim več posameznikov, še posebej, če prva stopnja zdravljenja ne vpliva na posameznike brez sladkorne bolezni (to so lažno pozitivni rezultati – tisti, ki so označeni kot sladkorni bolniki). ko v resnici ne).

Narišemo tudi graf površine pod krivuljo ROC (AUC), da ocenimo rezultate. Višja kot je AUC, boljši je model pri razlikovanju med razredi, kar v našem primeru pomeni, kako uspešen je model pri razlikovanju bolnikov s sladkorno boleznijo in brez nje.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

zaključek

V tej objavi smo pokazali, kako integrirati vašo obdelavo podatkov, vključno z inženiringom in gradnjo modela z uporabo Data Wrangler in Autopilot. Poudarili smo, kako lahko preprosto usposobite in prilagodite model z avtopilotom neposredno iz uporabniškega vmesnika Data Wrangler. S to funkcijo integracije lahko hitro zgradimo model po končanem inženiringu funkcij, ne da bi pisali kodo. Nato smo se sklicevali na najboljši model Autopilota za izvajanje paketnih napovedi z uporabo razreda AutoML s SDK SageMaker Python.

Rešitve z nizko kodo in rešitve AutoML, kot sta Data Wrangler in Autopilot, odpravljajo potrebo po poglobljenem znanju kodiranja za izdelavo robustnih modelov ML. Začnite uporabljati Data Wrangler danes izkusite, kako enostavno je zgraditi modele ML z uporabo Avtopilot SageMaker.

O avtorjih

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Peter Chung je arhitekt rešitev za AWS in strastno pomaga strankam pri odkrivanju vpogledov iz njihovih podatkov. Gradil je rešitve za pomoč organizacijam pri sprejemanju odločitev na podlagi podatkov v javnem in zasebnem sektorju. Ima vse certifikate AWS in dva certifikata GCP. Uživa v kavi, kuhanju, je aktiven in preživlja čas s svojo družino.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Pradeep Reddy je višji produktni vodja v skupini SageMaker Low/No Code ML, ki vključuje SageMaker Autopilot, SageMaker Automatic Model Tuner. Zunaj službe Pradeep uživa v branju, teku in uživanju v računalnikih v velikosti dlani, kot je raspberry pi, in drugi tehniki za avtomatizacijo doma.

Poenotena priprava podatkov in usposabljanje modela z Amazon SageMaker Data Wrangler in Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. Arunprasath Shankar je arhitekt za umetno inteligenco in strojno učenje (AI / ML) Specialist Solutions Architect z AWS, ki svetovnim strankam pomaga, da svoje rešitve AI učinkovito in uspešno lestvijo v oblaku. V prostem času Arun rad gleda znanstvenofantastične filme in posluša klasično glasbo.

Srujan Gopu je višji frontend inženir v SageMaker Low Code/No Code ML, ki pomaga strankam izdelkov Autopilot in Canvas. Ko ne kodira, Srujan rad teče s svojim psom Maxom, posluša zvočne knjige in razvija igre VR.