Vi introduserer Amazon SageMaker Data Wranglers nye innebygde visualiseringer

Publisert av Platon

Følgere: 0

Manuell inspeksjon av datakvalitet og rengjøring av data er en smertefull og tidkrevende prosess som kan ta en stor del av en dataforskers tid på et prosjekt. I følge en undersøkelse fra 2020 av dataforskere utført av Anaconda, bruker dataforskere omtrent 66 % av tiden sin på dataforberedelse og analyseoppgaver, inkludert lasting (19 %), rengjøring (26 %) og visualisering av data (21 %). Amazon SageMaker tilbyr en rekke dataforberedelsesverktøy for å møte ulike kundebehov og preferanser. For brukere som foretrekker et GUI-basert interaktivt grensesnitt, SageMaker Data Wrangler tilbyr 300+ innebygde visualiseringer, analyser og transformasjoner for å effektivt behandle data støttet av Spark uten å skrive en eneste linje med kode.

Datavisualisering i maskinlæring (ML) er en iterativ prosess og krever kontinuerlig visualisering av datasettet for oppdagelse, undersøkelse og validering. Å sette data i perspektiv innebærer å se hver av kolonnene for å forstå mulige datafeil, manglende verdier, feil datatyper, villedende/feil data, avvikende data og mer.

I dette innlegget viser vi deg hvordan Amazon SageMaker Data Wrangler genererer automatisk nøkkelvisualiseringer av datadistribusjon, oppdager datakvalitetsproblemer og viser datainnsikt som uteliggere for hver funksjon uten å skrive en eneste kodelinje. Det bidrar til å forbedre datanettopplevelsen med automatiske kvalitetsadvarsler (for eksempel manglende verdier eller ugyldige verdier). De automatisk genererte visualiseringene er også interaktive. Du kan for eksempel vise en tabell over de fem mest hyppige varene sortert etter prosent, og holde musepekeren over linjen for å bytte mellom antall og prosent.

Forutsetninger

Amazon SageMaker Data Wrangler er en SageMaker-funksjon tilgjengelig i SageMaker Studio. Du kan følge med innføringsprosessen i Studio for å spinne opp Studio-miljøet og notatbøker. Selv om du kan velge mellom noen få autentiseringsmetoder, er den enkleste måten å opprette et Studio-domene på å følge Instruksjoner for hurtigstart. Hurtigstart bruker de samme standardinnstillingene som standard Studio-oppsett. Du kan også velge å gå ombord ved å bruke AWS Identity and Access Management (IAM) Identity Center (etterfølger til AWS Single Sign-On) for autentisering (se Ombord på Amazon SageMaker Domain ved hjelp av IAM Identity Center).

Løsningsgjennomgang

Start SageMaker Studio Miljø og skape en ny Data Wrangler flyt. Du kan enten importere ditt eget datasett eller bruke et eksempeldatasett (Titanic) som vist på bildet nedenfor. Disse to nodene (den kilde node og dato type node) er klikkbare – når du dobbeltklikker på disse to nodene, vil Data Wrangler vise tabellen.

I vårt tilfelle, la oss høyreklikke på Datatyper ikon og Legg til en transformasjon:

Du skal nå se visualiseringer på toppen av hver kolonne. Vent litt før diagrammene lastes inn. Latenstiden avhenger av størrelsen på datasettet (for Titanic-datasettet bør det ta 1-2 sekunder i standardforekomsten).

Vi introduserer Amazon SageMaker Data Wranglers nye innebygde visualiseringer PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Rull til den horisontale topplinjen ved å holde musepekeren over verktøytipset. Nå som diagrammene er lastet inn, kan du se datafordelingen, ugyldige verdier og manglende verdier. Outliers og manglende verdier er kjennetegn ved feil data, og det er viktig å identifisere dem fordi de kan påvirke resultatene dine. Dette betyr at fordi dataene dine kom fra et ikke-representativt utvalg, kan det hende at funnene dine ikke kan generaliseres til situasjoner utenfor studien. Klassifisering av verdier kan sees på diagrammene nederst hvor gyldig verdier er representert i hvitt, ugyldig verdier i blått, og mangler verdier i lilla. Du kan også se på uteliggere avbildet av de blå prikkene til venstre eller høyre for et diagram.

Vi introduserer Amazon SageMaker Data Wranglers nye innebygde visualiseringer PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Alle visualiseringene kommer i form av histogrammer. For ikke-kategoriske data er et bøttesett definert for hver søppelkasse. For kategoriske data behandles hver unike verdi som en søppelkasse. På toppen av histogrammet er det et søylediagram som viser deg de ugyldige og manglende verdiene. Vi kan se forholdet mellom gyldige verdier for numeriske, kategoriske, binære, tekst- og datotidstyper, samt forholdet mellom manglende verdier basert på det totale antallet null- og tomme celler og til slutt forholdet mellom ugyldige verdier. La oss se på noen eksempler for å forstå hvordan du kan se disse ved å bruke Data Wranglers forhåndsinnlastede Titanic-datasett.

Eksempel 1 – Vi kan se på de 20 % manglende verdiene for ALDER funksjon/kolonne. Det er avgjørende å håndtere manglende data innen datarelatert forskning/ML, enten ved å fjerne det eller tilskrive det (håndtere de manglende verdiene med et visst estimat).

Vi introduserer Amazon SageMaker Data Wranglers nye innebygde visualiseringer PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Du kan behandle manglende verdier ved å bruke Håndter manglende verdier transformere gruppe. Bruke Angi mangler transformer for å generere imputerte verdier der manglende verdier ble funnet i inndatakolonnen. Konfigurasjonen avhenger av datatypen din.

I dette eksemplet er ALDER kolonne har numerisk datatype. For imputeringsstrategi kan vi velge å imputere bety eller omtrentlig median over verdiene som finnes i datasettet ditt.

Nå som vi har lagt til transformasjonen, kan vi se at ALDER kolonne mangler ikke lenger verdier.

Eksempel 2 – Vi kan se på de 27 % ugyldige verdiene for BILLETT funksjon/kolonne som er av STRING type. Ugyldige data kan produsere partiske estimater, noe som kan redusere en modells nøyaktighet og resultere i falske konklusjoner. La oss utforske noen transformasjoner som vi kan bruke til å håndtere de ugyldige dataene i BILLETT kolonne.

Når vi ser på skjermbildet, ser vi at noen av inngangene er skrevet i et format som inneholder alfabeter før tall "PC 17318" og andre er bare tall som "11769".

Vi kan velge å bruke en transformasjon for å søke etter og redigere spesifikke mønstre i strenger som "PC" og erstatte dem. Deretter kan vi kaste vår string kolonne til en ny type som f.eks Lang for brukervennlighet.

Dette etterlater oss fortsatt med 19 % manglende verdier på BILLETT trekk. I likhet med eksempel 1 kan vi nå imputere de manglende verdiene ved å bruke gjennomsnitt eller omtrentlig median. Funksjonen BILLETT skal ikke lenger ha ugyldige eller manglende verdier i henhold til bildet nedenfor.

For å være sikker på at du ikke påløper kostnader etter å ha fulgt denne opplæringen, sørg for at du slå av Data Wrangler-appen.

konklusjonen

I dette innlegget presenterte vi det nye Amazon Sagemaker Data Wrangler widget som hjelper til med å fjerne udifferensierte tunge løft for sluttbrukere under dataforberedelse med automatisk synlige visualiseringer og dataprofileringsinnsikt for hver funksjon. Denne widgeten gjør det enkelt å visualisere data (for eksempel kategorisk/ikke-kategorisk histogram), oppdage datakvalitetsproblemer (for eksempel manglende verdier og ugyldige verdier) og overflatedatainnsikt (for eksempel uteliggere og topp N-element).

Du kan begynne å bruke denne funksjonen i dag i alle regionene der SageMaker Studio er tilgjengelig. Gi det et forsøk, og fortell oss hva du synes. Vi ser alltid frem til tilbakemeldingen din, enten gjennom dine vanlige AWS-støttekontakter, eller på AWS-forum for SageMaker.

Om forfatterne

Isha Dua er en senior løsningsarkitekt basert i San Francisco Bay Area. Hun hjelper AWS Enterprise-kunder med å vokse ved å forstå deres mål og utfordringer, og veileder dem om hvordan de kan bygge applikasjonene sine på en skybasert måte samtidig som de sørger for at de er robuste og skalerbare. Hun brenner for maskinlæringsteknologier og miljømessig bærekraft.

Parth Patel er en løsningsarkitekt ved AWS i San Francisco Bay Area. Parth veileder kundene til å akselerere reisen til skyen og hjelper dem å ta i bruk AWS Cloud med suksess. Han fokuserer på ML og applikasjonsmodernisering.

Tidstempel: Desember 13, 2022Desember 13, 2022

Tidstempel: September 29, 2022

Vi introduserer Amazon SageMaker Data Wranglers nye innebygde visualiseringer

Publisert av Platon

Forutsetninger

Løsningsgjennomgang

konklusjonen

Om forfatterne

Mer fra AWS maskinlæring

Distribuer store modeller på Amazon SageMaker ved å bruke DJLServing og DeepSpeed modell parallell inferens

Kontroller tilgangen til Amazon SageMaker Feature Store offline med AWS Lake Formation

Forbedre søkenøyaktigheten med stavekontroll i Amazon Kendra

Analyser gnagerangrep ved å bruke Amazon SageMaker geospatiale evner | Amazon Web Services

Løsne opp kunnskapen i Slack-arbeidsområder med intelligent søk ved å bruke Amazon Kendra Slack-kontakten

Hvordan Sophos trener en kraftig, lett PDF-skadevaredetektor i ultraskala med Amazon SageMaker

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn