Introducing Amazon SageMaker Data Wrangler’s New Embedded Visualizations

Ponovno objavil Platon

Spremljevalci: 0

Ročno preverjanje kakovosti podatkov in čiščenje podatkov je boleč in dolgotrajen postopek, ki lahko podatkovnemu znanstveniku vzame velik del časa pri projektu. Glede na raziskavo podatkovnih znanstvenikov iz leta 2020, ki jo je izvedla Anaconda, podatkovni znanstveniki porabijo približno 66 % svojega časa za naloge priprave in analize podatkov, vključno z nalaganjem (19 %), čiščenjem (26 %) in vizualizacijo podatkov (21 %). Amazon SageMaker ponuja vrsto orodij za pripravo podatkov za izpolnjevanje različnih potreb in želja strank. Za uporabnike, ki imajo raje interaktivni vmesnik, ki temelji na GUI, SageMaker Data Wrangler ponuja več kot 300 vgrajenih vizualizacij, analiz in transformacij za učinkovito obdelavo podatkov, ki jih podpira Spark, brez pisanja ene vrstice kode.

Vizualizacija podatkov v strojnem učenju (ML) je ponavljajoč se proces in zahteva stalno vizualizacijo nabora podatkov za odkrivanje, preiskavo in validacijo. Postavitev podatkov v perspektivo vključuje ogled vsakega od stolpcev za razumevanje morebitnih napak v podatkih, manjkajočih vrednosti, napačnih vrst podatkov, zavajajočih/nepravilnih podatkov, izstopajočih podatkov in še več.

V tej objavi vam bomo pokazali, kako Amazon SageMaker Data Wrangler samodejno ustvari ključne vizualizacije porazdelitve podatkov, zazna težave s kakovostjo podatkov in prikaže vpoglede v podatke, kot so odstopanja za vsako funkcijo, ne da bi napisal eno vrstico kode. Pomaga izboljšati izkušnjo podatkovne mreže s samodejnimi opozorili o kakovosti (na primer manjkajoče vrednosti ali neveljavne vrednosti). Samodejno ustvarjene vizualizacije so tudi interaktivne. Na primer, lahko prikažete tabelo petih najpogostejših elementov, razvrščenih po odstotkih, in premaknete miškin kazalec nad vrstico, da preklopite med štetjem in odstotkom.

Predpogoji

Amazon SageMaker Data Wrangler je funkcija SageMaker, ki je na voljo znotraj SageMaker Studio. Lahko sledite postopek vkrcanja v Studio da zavrtite okolje Studio in prenosnike. Čeprav lahko izbirate med nekaj načini preverjanja pristnosti, je najenostavnejši način za ustvarjanje domene Studio tako, da sledite Navodila za hiter začetek. Hitri začetek uporablja iste privzete nastavitve kot standardna nastavitev Studio. Izberete lahko tudi vkrcanje z uporabo Center za identiteto AWS Identity and Access Management (IAM). (naslednik AWS Single Sign-On) za avtentikacijo (glejte Vključite se v domeno Amazon SageMaker z uporabo centra za identiteto IAM).

Vodenje rešitve

Začnite svoje Studio SageMaker Okolje in ustvarite novo Data Wrangler tok. Lahko uvozite svoj nabor podatkov ali uporabite vzorčni nabor podatkov (Titanic), kot je prikazano na naslednji sliki. Ti dve vozlišči ( vir vozlišče in datum vrsta vozlišča) jih je mogoče klikniti – ko dvokliknete ti dve vozlišči, bo Data Wrangler prikazal tabelo.

V našem primeru z desno miškino tipko kliknimo na Vrste podatkov ikona in Dodajte transformacijo:

Zdaj bi morali videti vizualizacije na vrhu vsakega stolpca. Počakajte nekaj časa, da se grafikoni naložijo. Zakasnitev je odvisna od velikosti nabora podatkov (za nabor podatkov Titanik bi moralo v privzetem primeru trajati 1–2 sekundi).

Introducing Amazon SageMaker Data Wrangler’s new embedded visualizations PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Pomaknite se do vodoravne zgornje vrstice, tako da miškin kazalec premaknete nad opis orodja. Zdaj, ko so se grafikoni naložili, lahko vidite porazdelitev podatkov, neveljavne vrednosti in manjkajoče vrednosti. Izjemne vrednosti in manjkajoče vrednosti so značilnosti napačnih podatkov in ključnega pomena, da jih prepoznate, saj lahko vplivajo na vaše rezultate. To pomeni, da ker vaši podatki izvirajo iz nereprezentativnega vzorca, vaših ugotovitev morda ni mogoče posplošiti na situacije zunaj vaše študije. Razvrstitev vrednosti je razvidna iz spodnjih grafikonov veljavno vrednosti so predstavljene v beli barvi, neveljaven vrednosti v modri barvi in manjka vrednosti v vijolični barvi. Lahko si ogledate tudi outliers prikazano z modrimi pikami na levi ali desni strani grafikona.

Introducing Amazon SageMaker Data Wrangler’s new embedded visualizations PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Vse vizualizacije so v obliki histogramov. Za nekategorične podatke je za vsak predal definiran niz veder. Za kategorične podatke se vsaka edinstvena vrednost obravnava kot koš. Na vrhu histograma je palični grafikon, ki prikazuje neveljavne in manjkajoče vrednosti. Ogledamo si lahko razmerje med veljavnimi vrednostmi za tipe Numeric, Categorical, Binary, Text in Datetime, pa tudi razmerje manjkajočih vrednosti na podlagi skupnega števila ničelnih in praznih celic ter končno razmerje neveljavnih vrednosti. Oglejmo si nekaj primerov, da bomo razumeli, kako jih lahko vidite z uporabo Vnaprej naložen vzorčni nabor podatkov Titanic Data Wrangler.

Primer 1 – Ogledamo si lahko 20 % manjkajočih vrednosti za AGE funkcija/stolpec. Ključnega pomena je obravnavanje manjkajočih podatkov na področju raziskav, povezanih s podatki/ML, tako da jih odstranite ali pripišete (obdelava manjkajočih vrednosti z določeno oceno).

Introducing Amazon SageMaker Data Wrangler’s new embedded visualizations PlatoBlockchain Data Intelligence. Vertical Search. Ai.
Manjkajoče vrednosti lahko obdelate z uporabo Obravnava manjkajoče vrednosti preoblikovanje skupine. Uporabi Manjka imput pretvorbo za ustvarjanje pripisanih vrednosti, kjer so bile v vhodnem stolpcu najdene manjkajoče vrednosti. Konfiguracija je odvisna od vrste podatkov.

V tem primeru je AGE stolpec ima številski tip podatkov. Za strategijo imputiranja se lahko odločimo za imputiranje pomeni ali približna mediana nad vrednostmi, ki so prisotne v vašem naboru podatkov.

Zdaj, ko smo dodali transformacijo, lahko vidimo, da je AGE stolpec nima več manjkajočih vrednosti.

Primer 2 – Ogledamo si lahko 27 % neveljavnih vrednosti za VSTOPNICA funkcija/stolpec, ki je od NIZ vrsta. Neveljavni podatki lahko povzročijo pristranske ocene, ki lahko zmanjšajo natančnost modela in povzročijo napačne zaključke. Raziščimo nekaj transformacij, ki jih lahko uporabimo za obravnavanje neveljavnih podatkov v VSTOPNICA stolpec.

Če pogledamo posnetek zaslona, vidimo, da so nekateri vnosi zapisani v formatu, ki vsebuje črke pred številkami "PC 17318« in druge so le številke, kot je »11769".

Lahko se odločimo za uporabo transformacije za iskanje in urejanje določenih vzorcev v nizih, kot je "PC" in jih zamenjajte. Nato lahko oddamo svoje niz stolpec v nov tip, kot je npr Long za lažjo uporabo.

To nam še vedno pusti 19 % manjkajočih vrednosti na VSTOPNICA funkcija. Podobno kot v primeru 1 lahko zdaj pripišemo manjkajoče vrednosti z uporabo povprečja ali približne mediane. Funkcija VSTOPNICA ne sme več imeti neveljavnih ali manjkajočih vrednosti, kot je prikazano na spodnji sliki.

Če želite zagotoviti, da vam po tem, ko sledite tej vadnici, ne boste zaračunali, se prepričajte, da ste zaprite aplikacijo Data Wrangler.

zaključek

V tej objavi smo predstavili novo Amazon Sagemaker Data Wrangler pripomoček, ki bo pomagal odstraniti nediferencirano dvigovanje uteži za končne uporabnike med pripravo podatkov s samodejno prikazanimi vizualizacijami in vpogledi v profiliranje podatkov za vsako funkcijo. Ta pripomoček olajša vizualizacijo podatkov (na primer kategoričnega/nekategoričnega histograma), zaznavanje težav s kakovostjo podatkov (na primer manjkajoče vrednosti in neveljavne vrednosti) in vpogled v površinske podatke (na primer izstopajoče vrednosti in najvišja postavka N).

To zmožnost lahko začnete uporabljati že danes v vseh regijah, kjer je na voljo SageMaker Studio. Poskusiin nam povejte, kaj mislite. Vedno se veselimo vaših povratnih informacij, bodisi prek vaših običajnih kontaktov za podporo AWS bodisi na Forum AWS za SageMaker.

O avtorjih

Isha Dua je višji arhitekt rešitev s sedežem na območju zaliva San Francisco. Strankam AWS Enterprise pomaga pri rasti z razumevanjem njihovih ciljev in izzivov ter jih usmerja, kako lahko oblikujejo svoje aplikacije v oblaku, hkrati pa poskrbi, da so prožne in razširljive. Navdušena je nad tehnologijami strojnega učenja in okoljsko trajnostjo.

Parth Patel je arhitekt rešitev pri AWS na območju zaliva San Francisco. Parth usmerja stranke, da pospešijo njihovo pot do oblaka in jim pomaga uspešno sprejeti oblak AWS. Osredotoča se na ML in posodobitev aplikacij.

Časovni žig: December 13, 2022December 13, 2022

Časovni žig: September 29, 2022

Predstavljamo nove vdelane vizualizacije Amazon SageMaker Data Wrangler

Ponovno objavil Platon

Predpogoji

Vodenje rešitve

zaključek

O avtorjih

Več od Strojno učenje AWS

Razmestite velike modele v Amazon SageMaker z vzporednim sklepanjem modelov DJLServing in DeepSpeed

Nadzorujte dostop do Amazon SageMaker Feature Store brez povezave z AWS Lake Formation

Izboljšajte natančnost iskanja s preverjanjem črkovanja v Amazon Kendra

Analizirajte napade glodalcev z uporabo geoprostorskih zmogljivosti Amazon SageMaker | Spletne storitve Amazon

Razkrijte znanje v delovnih prostorih Slack z inteligentnim iskanjem s priključkom Amazon Kendra Slack

Kako Sophos uri zmogljiv in lahek detektor zlonamerne programske opreme PDF v ultra velikem obsegu z Amazon SageMaker

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun