Introduktion af Amazon SageMaker Data Wranglers nye indlejrede visualiseringer PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Introduktion af Amazon SageMaker Data Wranglers nye indlejrede visualiseringer

Manuel inspektion af datakvalitet og rengøring af data er en smertefuld og tidskrævende proces, der kan tage en stor del af en dataforskers tid på et projekt. Ifølge en 2020-undersøgelse blandt dataforskere udført af Anaconda, bruger dataforskere cirka 66 % af deres tid på dataforberedelse og analyseopgaver, herunder indlæsning (19 %), rengøring (26 %) og visualisering af data (21 %). Amazon SageMaker tilbyder en række dataforberedelsesværktøjer for at imødekomme forskellige kundebehov og præferencer. For brugere, der foretrækker en GUI-baseret interaktiv grænseflade, SageMaker Data Wrangler tilbyder mere end 300 indbyggede visualiseringer, analyser og transformationer til effektivt at behandle data understøttet af Spark uden at skrive en enkelt linje kode.

Datavisualisering i maskinlæring (ML) er en iterativ proces og kræver kontinuerlig visualisering af datasættet til opdagelse, undersøgelse og validering. At sætte data i perspektiv indebærer at se hver af kolonnerne for at forstå mulige datafejl, manglende værdier, forkerte datatyper, vildledende/forkerte data, afvigende data og mere.

I dette indlæg viser vi dig hvordan Amazon SageMaker Data Wrangler genererer automatisk nøglevisualiseringer af datadistribution, registrerer datakvalitetsproblemer og frembringer dataindsigt såsom outliers for hver funktion uden at skrive en enkelt linje kode. Det hjælper med at forbedre datagitterets oplevelse med automatiske kvalitetsadvarsler (f.eks. manglende værdier eller ugyldige værdier). De automatisk genererede visualiseringer er også interaktive. For eksempel kan du vise en tabel over de fem mest hyppige varer sorteret efter procent og holde markøren over bjælken for at skifte mellem antal og procent.

Forudsætninger

Amazon SageMaker Data Wrangler er en SageMaker-funktion, der er tilgængelig i SageMaker Studio. Du kan følge med onboarding-processen i Studio at skrue op for Studio-miljøet og notesbøgerne. Selvom du kan vælge mellem et par godkendelsesmetoder, er den nemmeste måde at oprette et Studio-domæne på at følge Instruktioner til hurtig start. Hurtig start bruger de samme standardindstillinger som standard Studio-opsætningen. Du kan også vælge at ombord vha AWS Identity and Access Management (IAM) Identity Center (efterfølger til AWS Single Sign-On) til godkendelse (se Ombord på Amazon SageMaker Domain ved hjælp af IAM Identity Center).

Løsningsgennemgang

Start din SageMaker Studio Miljø og skabe en ny Data Wrangler flow. Du kan enten importere dit eget datasæt eller bruge et eksempeldatasæt (Titanic) som vist på det følgende billede. Disse to noder (den kilde knude og data type node) er klikbare – når du dobbeltklikker på disse to noder, viser Data Wrangler tabellen.

I vores tilfælde, lad os højreklikke på Datatyper ikon og Tilføj en transformation:

Du bør nu se visualiseringer øverst i hver kolonne. Giv venligst et stykke tid, før diagrammerne indlæses. Latenstiden afhænger af datasættets størrelse (for Titanic-datasættet bør det tage 1-2 sekunder i standardforekomsten).

Introduktion af Amazon SageMaker Data Wranglers nye indlejrede visualiseringer PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Rul til den vandrette øverste bjælke ved at holde musen over værktøjstip. Nu hvor diagrammerne er indlæst, kan du se datafordelingen, ugyldige værdier og manglende værdier. Outliers og manglende værdier er kendetegn ved fejlagtige data, og det er vigtigt at identificere dem, fordi de kan påvirke dine resultater. Det betyder, at fordi dine data kom fra en ikke-repræsentativ stikprøve, kan dine resultater muligvis ikke generaliseres til situationer uden for din undersøgelse. Klassificering af værdier kan ses på diagrammerne nederst hvor gyldig værdier er repræsenteret med hvidt, ugyldig værdier i blåt, og mangler værdier i lilla. Du kan også se på outliers afbildet af de blå prikker til venstre eller højre for et diagram.

Introduktion af Amazon SageMaker Data Wranglers nye indlejrede visualiseringer PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Alle visualiseringer kommer i form af histogrammer. For ikke-kategoriske data er der defineret et spandsæt for hver beholder. For kategoriske data behandles hver unik værdi som en bin. Oven på histogrammet er der et søjlediagram, der viser dig de ugyldige og manglende værdier. Vi kan se forholdet mellem gyldige værdier for numeriske, kategoriske, binære, tekst- og datotidstyper samt forholdet mellem manglende værdier baseret på det samlede antal null- og tomme celler og endelig forholdet mellem ugyldige værdier. Lad os se på nogle eksempler for at forstå, hvordan du kan se disse ved hjælp af Data Wranglers forudindlæste Titanic-datasæt.

Eksempel 1 – Vi kan se på de 20 % manglende værdier for ALDER feature/spalte. Det er afgørende at håndtere manglende data inden for data-relateret forskning/ML, enten ved at fjerne det eller imputere det (håndtering af de manglende værdier med en vis estimering).

Introduktion af Amazon SageMaker Data Wranglers nye indlejrede visualiseringer PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
Du kan behandle manglende værdier ved hjælp af Håndter manglende værdier transformere gruppe. Brug Angive mangler transformere for at generere imputerede værdier, hvor manglende værdier blev fundet i inputkolonnen. Konfigurationen afhænger af din datatype.

Introduktion af Amazon SageMaker Data Wranglers nye indlejrede visualiseringer PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

I dette eksempel er ALDER kolonne har numerisk datatype. Til imputeringsstrategi kan vi vælge at imputere betyde eller omtrentlige median over de værdier, der er til stede i dit datasæt.

Introduktion af Amazon SageMaker Data Wranglers nye indlejrede visualiseringer PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Nu hvor vi har tilføjet transformationen, kan vi se, at ALDER kolonne mangler ikke længere værdier.

Introduktion af Amazon SageMaker Data Wranglers nye indlejrede visualiseringer PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Eksempel 2 – Vi kan se på de 27 % ugyldige værdier for BILLET feature/spalte som er af STRING type. Ugyldige data kan producere skæve estimater, som kan reducere en models nøjagtighed og resultere i falske konklusioner. Lad os udforske nogle transformationer, som vi kan bruge til at håndtere de ugyldige data i BILLET kolonne.

Når vi ser på skærmbilledet, ser vi, at nogle af inputs er skrevet i et format, der indeholder alfabeter før tal "PC 17318" og andre er blot tal som "11769".

Vi kan vælge at anvende en transformation til at søge efter og redigere specifikke mønstre i strenge som f.eks.PC" og erstatte dem. Dernæst kan vi kaste vores streng kolonne til en ny type som f.eks Lang for brugervenlighed.

Introduktion af Amazon SageMaker Data Wranglers nye indlejrede visualiseringer PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Introduktion af Amazon SageMaker Data Wranglers nye indlejrede visualiseringer PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Dette efterlader os stadig med 19 % manglende værdier på BILLET funktion. I lighed med eksempel 1 kan vi nu imputere de manglende værdier ved hjælp af middelværdi eller omtrentlig median. Funktionen BILLET bør ikke længere have ugyldige eller manglende værdier som vist på billedet nedenfor.

Introduktion af Amazon SageMaker Data Wranglers nye indlejrede visualiseringer PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

For at sikre dig, at du ikke pådrager dig gebyrer efter at have fulgt denne vejledning, skal du sørge for, at du luk Data Wrangler-appen ned.

Konklusion 

I dette indlæg præsenterede vi det nye Amazon Sagemaker Data Wrangler widget, der hjælper med at fjerne udifferentierede tunge løft til slutbrugere under dataforberedelse med automatisk synlige visualiseringer og dataprofileringsindsigt for hver funktion. Denne widget gør det nemt at visualisere data (f.eks. kategorisk/ikke-kategorisk histogram), opdage datakvalitetsproblemer (f.eks. manglende værdier og ugyldige værdier) og overfladedataindsigt (f.eks. outliers og top N element).

Du kan begynde at bruge denne funktion i dag i alle de regioner, hvor SageMaker Studio er tilgængelig. Prøv det, og lad os vide, hvad du synes. Vi ser altid frem til din feedback, enten gennem dine sædvanlige AWS-supportkontakter eller på AWS Forum for SageMaker.


Om forfatterne

Introduktion af Amazon SageMaker Data Wranglers nye indlejrede visualiseringer PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Isha Dua er en Senior Solutions Architect baseret i San Francisco Bay Area. Hun hjælper AWS Enterprise-kunder med at vokse ved at forstå deres mål og udfordringer og guider dem til, hvordan de kan opbygge deres applikationer på en cloud-native måde og samtidig sikre, at de er robuste og skalerbare. Hun brænder for maskinlæringsteknologier og miljømæssig bæredygtighed.

Introduktion af Amazon SageMaker Data Wranglers nye indlejrede visualiseringer PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Parth Patel er Solutions Architect hos AWS i San Francisco Bay Area. Parth guider kunder til at fremskynde deres rejse til skyen og hjælper dem med at adoptere AWS Cloud med succes. Han fokuserer på ML og applikationsmodernisering.

Tidsstempel:

Mere fra AWS maskinindlæring