Opdag mønstre i tekstdata med Amazon SageMaker Data Wrangler

Genudgivet af Platon

Abonnenter: 0

I dette indlæg introducerer vi en ny analyse i Rapport om datakvalitet og indsigt of Amazon SageMaker Data Wrangler. Denne analyse hjælper dig med at validere tekstegenskaber for korrekthed og afdække ugyldige rækker til reparation eller udeladelse.

Data Wrangler reducerer den tid, det tager at samle og forberede data til maskinlæring (ML) fra uger til minutter. Du kan forenkle processen med dataforberedelse og funktionsudvikling og fuldføre hvert trin i dataforberedelsesworkflowet, inklusive datavalg, rensning, udforskning og visualisering, fra en enkelt visuel grænseflade.

Løsningsoversigt

Dataforbehandling involverer ofte rensning af tekstdata såsom e-mailadresser, telefonnumre og produktnavne. Disse data kan have underliggende integritetsbegrænsninger, der kan beskrives af regulære udtryk. For at blive betragtet som gyldigt skal et lokalt telefonnummer for eksempel følge et mønster som [1-9][0-9]{2}-[0-9]{4}, som ville matche et ciffer, der ikke er nul, efterfulgt af yderligere to cifre, efterfulgt af en bindestreg, efterfulgt af yderligere fire cifre.

Almindelige scenarier, der resulterer i ugyldige data, kan omfatte inkonsekvent menneskelig indtastning, f.eks. telefonnumre i forskellige formater (5551234 vs. 555 1234 vs. 555-1234) eller uventede data, såsom 0, 911 eller 411. For et kundeopkaldscenter, det er vigtigt at udelade tal såsom 0, 911 eller 411 og validere (og potentielt korrekte) indtastninger såsom 5551234 eller 555 1234.

Desværre, selvom der findes tekstmæssige begrænsninger, er de muligvis ikke forsynet med dataene. Derfor skal en dataforsker, der forbereder et datasæt, manuelt afdække begrænsningerne ved at se på dataene. Dette kan være kedeligt, fejludsat og tidskrævende.

Mønsterindlæring analyserer automatisk dine data og viser tekstmæssige begrænsninger, der kan gælde for dit datasæt. I eksemplet med telefonnumre kan mønsterindlæring analysere dataene og identificere, at langt de fleste telefonnumre følger den tekstmæssige begrænsning [1-9][0-9]{2}-[0-9][4]. Det kan også advare dig om, at der er eksempler på ugyldige data, så du kan udelukke eller rette dem.

I de følgende afsnit demonstrerer vi, hvordan man bruger mønsterindlæring i Data Wrangler ved hjælp af et fiktivt datasæt med produktkategorier og SKU-koder (lagerholdsenhed).

Dette datasæt indeholder funktioner, der beskriver produkter efter virksomhed, mærke og energiforbrug. Det inkluderer især en funktions-SKU, der er dårligt formateret. Alle data i dette datasæt er fiktive og oprettet tilfældigt ved hjælp af tilfældige mærkenavne og apparatnavne.

Forudsætninger

Før du begynder at bruge Data Wrangler, downloade eksempeldatasættet og upload det til en placering i Amazon Simple Storage Service (Amazon S3). For instruktioner, se Uploader objekter.

Importer dit datasæt

For at importere dit datasæt skal du udføre følgende trin:

Vælg i Data Wrangler Importer og udforsk data til ML.
Vælg Importere.
Til Import datoer, vælg Amazon S3.
Find filen i Amazon S3 og vælg Importere.

Efter importen kan vi navigere til dataflowet.

Få dataindsigt

I dette trin opretter vi en dataindsigtsrapport, der indeholder oplysninger om datakvalitet. For mere information, se Få indsigt i data og datakvalitet. Udfør følgende trin:

På Dataflow fanen, skal du vælge plustegnet ved siden af Datatyper.
Vælg Få dataindsigt.
Til Analyse type, vælg Rapport om datakvalitet og indsigt.
Forlad dette indlæg Målkolonne , Problektype blank.Hvis du planlægger at bruge dit datasæt til en regressions- eller klassificeringsopgave med en målfunktion, kan du vælge disse muligheder, og rapporten vil indeholde en analyse af, hvordan dine inputfunktioner relaterer til dit mål. For eksempel kan den producere rapporter om mållækage. For mere information, se Målkolonne.
Vælg Opret.

Vi har nu en rapport om datakvalitet og dataindsigt. Hvis vi scroller ned til SKU afsnit, kan vi se et eksempel på mønsterlæring, der beskriver SKU'en. Denne funktion ser ud til at have nogle ugyldige data, og handlingsvenlig udbedring er påkrævet.

Før vi renser SKU-funktionen, lad os rulle op til Mærke sektion for at se nogle flere indsigter. Her ser vi to mønstre, der er blevet afsløret, hvilket indikerer, at størstedelen af mærkenavne er enkeltord, der består af ordtegn eller alfabetiske tegn. EN ord karakter er enten en understregning eller et tegn, der kan forekomme i et ord på ethvert sprog. For eksempel strengene Hello_world , écoute begge består af ordtegn: H , é.

Til dette indlæg renser vi ikke denne funktion.

Se indsigt i mønsterlæring

Lad os vende tilbage til at rense SKU'er og zoome ind på mønsteret og advarselsmeddelelsen.

Som vist på det følgende skærmbillede viser mønsterindlæring et mønster med høj nøjagtighed, der matcher 97.78 % af dataene. Den viser også nogle eksempler, der matcher mønsteret, samt eksempler, der ikke matcher mønsteret. I de ikke-kampe ser vi nogle ugyldige SKU'er.

Ud over de viste mønstre kan der vises en advarsel, der indikerer en potentiel handling for at rydde op i data, hvis der er et mønster med høj nøjagtighed samt nogle data, der ikke er i overensstemmelse med mønsteret.

Vi kan udelade de ugyldige data. Hvis vi vælger (højreklik) på det regulære udtryk, kan vi kopiere udtrykket [A-Z]{3}-[0-9]{4,5}.

Fjern ugyldige data

Lad os skabe en transformation for at udelade uoverensstemmende data, der ikke matcher dette mønster.

På Dataflow fanen, skal du vælge plustegnet ved siden af Datatyper.
Vælg Tilføj transformation.
Vælg Tilføj trin.
Søg efter regex Og vælg Søg og rediger.
Til Transform, vælg Konverter ikke-matches til manglende.
Til Input kolonner, vælg SKU.
Til Mønster, indtast vores regulære udtryk.
Vælg Eksempel, Og vælg derefter Tilføj.

Nu er de uvedkommende data blevet fjernet fra funktionerne.
Tilføj trinnet for at fjerne rækkerne Håndtag mangler og vælg transformationen Drop mangler.
Vælg SKU som inputkolonne.

Vi vender tilbage til vores dataflow med de fejlagtige data fjernet.

Konklusion

I dette indlæg viste vi dig, hvordan du bruger mønsterindlæringsfunktionen i dataindsigt til at finde ugyldige tekstdata i dit datasæt, samt hvordan du retter eller udelader disse data.

Nu hvor du har ryddet op i en tekstkolonne, kan du visualisere dit datasæt ved hjælp af en analyse eller du kan ansøge indbyggede transformationer for at behandle dine data yderligere. Når du er tilfreds med dine data, kan du træne en model med Amazon SageMaker Autopilot eller eksporter dine data til en datakilde som Amazon S3.

Vi vil gerne takke Nikita Ivkin for hans tankevækkende anmeldelse.

Om forfatterne

Vishaal Kapoor er en Senior Applied Scientist med AWS AI. Han brænder for at hjælpe kunder med at forstå deres data i Data Wrangler. I sin fritid cykler han, cykler på snowboard og bruger tid sammen med sin familie.

Zohar Karnin er Principal Scientist i Amazon AI. Hans forskningsinteresser er inden for områderne storskala og online maskinlæringsalgoritmer. Han udvikler uendeligt skalerbare maskinlæringsalgoritmer til Amazon SageMaker.

Ajai Sharma er hovedproduktchef for Amazon SageMaker, hvor han fokuserer på Data Wrangler, et visuelt dataforberedelsesværktøj til dataforskere. Før AWS var Ajai Data Science Expert hos McKinsey and Company, hvor han ledede ML-fokuserede engagementer for førende finans- og forsikringsfirmaer verden over. Ajai er passioneret omkring datavidenskab og elsker at udforske de nyeste algoritmer og maskinlæringsteknikker.

Derek Baron er softwareudviklingschef for Amazon SageMaker Data Wrangler

Tidsstempel: Oktober 24, 2022Oktober 24, 2022

Tidsstempel: September 15, 2022

Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler

Genudgivet af Platon

Løsningsoversigt

Forudsætninger

Importer dit datasæt

Få dataindsigt

Se indsigt i mønsterlæring

Fjern ugyldige data

Konklusion

Om forfatterne

Mere fra AWS maskinindlæring

AWS Panorama understøtter nu NVIDIA JetPack SDK 4.6.2

Kom godt i gang med at implementere realtidsmodeller på Amazon SageMaker

Vidensbaser i Amazon Bedrock forenkler nu at stille spørgsmål til et enkelt dokument | Amazon Web Services

Ugentlige prognoser kan nu starte på søndag med Amazon Forecast

Forenkle kontinuerlig læring af Amazon Comprehend brugerdefinerede modeller ved hjælp af Comprehend svinghjul

Søg intelligent i dine Jira-projekter med Amazon Kendra Jira cloud-stik

Amazon EC2 DL2q-instans til omkostningseffektiv, højtydende AI-inferens er nu generelt tilgængelig | Amazon Web Services

Brug Amazon SageMaker Data Wrangler til dataforberedelse og Studio Labs til at lære og eksperimentere med ML

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto