Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler

I dette indlæg introducerer vi en ny analyse i Rapport om datakvalitet og indsigt of Amazon SageMaker Data Wrangler. Denne analyse hjælper dig med at validere tekstegenskaber for korrekthed og afdække ugyldige rækker til reparation eller udeladelse.

Data Wrangler reducerer den tid, det tager at samle og forberede data til maskinlæring (ML) fra uger til minutter. Du kan forenkle processen med dataforberedelse og funktionsudvikling og fuldføre hvert trin i dataforberedelsesworkflowet, inklusive datavalg, rensning, udforskning og visualisering, fra en enkelt visuel grænseflade.

Løsningsoversigt

Dataforbehandling involverer ofte rensning af tekstdata såsom e-mailadresser, telefonnumre og produktnavne. Disse data kan have underliggende integritetsbegrænsninger, der kan beskrives af regulære udtryk. For at blive betragtet som gyldigt skal et lokalt telefonnummer for eksempel følge et mønster som [1-9][0-9]{2}-[0-9]{4}, som ville matche et ciffer, der ikke er nul, efterfulgt af yderligere to cifre, efterfulgt af en bindestreg, efterfulgt af yderligere fire cifre.

Almindelige scenarier, der resulterer i ugyldige data, kan omfatte inkonsekvent menneskelig indtastning, f.eks. telefonnumre i forskellige formater (5551234 vs. 555 1234 vs. 555-1234) eller uventede data, såsom 0, 911 eller 411. For et kundeopkaldscenter, det er vigtigt at udelade tal såsom 0, 911 eller 411 og validere (og potentielt korrekte) indtastninger såsom 5551234 eller 555 1234.

Desværre, selvom der findes tekstmæssige begrænsninger, er de muligvis ikke forsynet med dataene. Derfor skal en dataforsker, der forbereder et datasæt, manuelt afdække begrænsningerne ved at se på dataene. Dette kan være kedeligt, fejludsat og tidskrævende.

Mønsterindlæring analyserer automatisk dine data og viser tekstmæssige begrænsninger, der kan gælde for dit datasæt. I eksemplet med telefonnumre kan mønsterindlæring analysere dataene og identificere, at langt de fleste telefonnumre følger den tekstmæssige begrænsning [1-9][0-9]{2}-[0-9][4]. Det kan også advare dig om, at der er eksempler på ugyldige data, så du kan udelukke eller rette dem.

I de følgende afsnit demonstrerer vi, hvordan man bruger mønsterindlæring i Data Wrangler ved hjælp af et fiktivt datasæt med produktkategorier og SKU-koder (lagerholdsenhed).

Dette datasæt indeholder funktioner, der beskriver produkter efter virksomhed, mærke og energiforbrug. Det inkluderer især en funktions-SKU, der er dårligt formateret. Alle data i dette datasæt er fiktive og oprettet tilfældigt ved hjælp af tilfældige mærkenavne og apparatnavne.

Forudsætninger

Før du begynder at bruge Data Wrangler, downloade eksempeldatasættet og upload det til en placering i Amazon Simple Storage Service (Amazon S3). For instruktioner, se Uploader objekter.

Importer dit datasæt

For at importere dit datasæt skal du udføre følgende trin:

  1. Vælg i Data Wrangler Importer og udforsk data til ML.
  2. Vælg Importere.
    Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  3. Til Import datoer, vælg Amazon S3.
    Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  4. Find filen i Amazon S3 og vælg Importere.
    Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Efter importen kan vi navigere til dataflowet.

Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Få dataindsigt

I dette trin opretter vi en dataindsigtsrapport, der indeholder oplysninger om datakvalitet. For mere information, se Få indsigt i data og datakvalitet. Udfør følgende trin:

  1. Dataflow fanen, skal du vælge plustegnet ved siden af Datatyper.
  2. Vælg Få dataindsigt.
    Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  3. Til Analyse type, vælg Rapport om datakvalitet og indsigt.
  4. Forlad dette indlæg Målkolonne , Problektype blank.Hvis du planlægger at bruge dit datasæt til en regressions- eller klassificeringsopgave med en målfunktion, kan du vælge disse muligheder, og rapporten vil indeholde en analyse af, hvordan dine inputfunktioner relaterer til dit mål. For eksempel kan den producere rapporter om mållækage. For mere information, se Målkolonne.
  5. Vælg Opret.
    Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Vi har nu en rapport om datakvalitet og dataindsigt. Hvis vi scroller ned til SKU afsnit, kan vi se et eksempel på mønsterlæring, der beskriver SKU'en. Denne funktion ser ud til at have nogle ugyldige data, og handlingsvenlig udbedring er påkrævet.

Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Før vi renser SKU-funktionen, lad os rulle op til Mærke sektion for at se nogle flere indsigter. Her ser vi to mønstre, der er blevet afsløret, hvilket indikerer, at størstedelen af ​​mærkenavne er enkeltord, der består af ordtegn eller alfabetiske tegn. EN ord karakter er enten en understregning eller et tegn, der kan forekomme i et ord på ethvert sprog. For eksempel strengene Hello_world , écoute begge består af ordtegn: H , é.

Til dette indlæg renser vi ikke denne funktion.

Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Se indsigt i mønsterlæring

Lad os vende tilbage til at rense SKU'er og zoome ind på mønsteret og advarselsmeddelelsen.

Som vist på det følgende skærmbillede viser mønsterindlæring et mønster med høj nøjagtighed, der matcher 97.78 % af dataene. Den viser også nogle eksempler, der matcher mønsteret, samt eksempler, der ikke matcher mønsteret. I de ikke-kampe ser vi nogle ugyldige SKU'er.

Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Ud over de viste mønstre kan der vises en advarsel, der indikerer en potentiel handling for at rydde op i data, hvis der er et mønster med høj nøjagtighed samt nogle data, der ikke er i overensstemmelse med mønsteret.

Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Vi kan udelade de ugyldige data. Hvis vi vælger (højreklik) på det regulære udtryk, kan vi kopiere udtrykket [A-Z]{3}-[0-9]{4,5}.

Fjern ugyldige data

Lad os skabe en transformation for at udelade uoverensstemmende data, der ikke matcher dette mønster.

  1. Dataflow fanen, skal du vælge plustegnet ved siden af Datatyper.
  2. Vælg Tilføj transformation.
    Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  3. Vælg Tilføj trin.
  4. Søg efter regex Og vælg Søg og rediger.
    Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
  5. Til Transform, vælg Konverter ikke-matches til manglende.
  6. Til Input kolonner, vælg SKU.
  7. Til Mønster, indtast vores regulære udtryk.
  8. Vælg Eksempel, Og vælg derefter Tilføj.
    Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.
    Nu er de uvedkommende data blevet fjernet fra funktionerne.
  9. Tilføj trinnet for at fjerne rækkerne Håndtag mangler og vælg transformationen Drop mangler.
  10. Vælg SKU som inputkolonne.
    Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Vi vender tilbage til vores dataflow med de fejlagtige data fjernet.

Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Konklusion

I dette indlæg viste vi dig, hvordan du bruger mønsterindlæringsfunktionen i dataindsigt til at finde ugyldige tekstdata i dit datasæt, samt hvordan du retter eller udelader disse data.

Nu hvor du har ryddet op i en tekstkolonne, kan du visualisere dit datasæt ved hjælp af en analyse eller du kan ansøge indbyggede transformationer for at behandle dine data yderligere. Når du er tilfreds med dine data, kan du træne en model med Amazon SageMaker Autopilot eller eksporter dine data til en datakilde som Amazon S3.

Vi vil gerne takke Nikita Ivkin for hans tankevækkende anmeldelse.


Om forfatterne

Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Vishaal Kapoor er en Senior Applied Scientist med AWS AI. Han brænder for at hjælpe kunder med at forstå deres data i Data Wrangler. I sin fritid cykler han, cykler på snowboard og bruger tid sammen med sin familie.

Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Zohar Karnin er Principal Scientist i Amazon AI. Hans forskningsinteresser er inden for områderne storskala og online maskinlæringsalgoritmer. Han udvikler uendeligt skalerbare maskinlæringsalgoritmer til Amazon SageMaker.

Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai.Ajai Sharma er hovedproduktchef for Amazon SageMaker, hvor han fokuserer på Data Wrangler, et visuelt dataforberedelsesværktøj til dataforskere. Før AWS var Ajai Data Science Expert hos McKinsey and Company, hvor han ledede ML-fokuserede engagementer for førende finans- og forsikringsfirmaer verden over. Ajai er passioneret omkring datavidenskab og elsker at udforske de nyeste algoritmer og maskinlæringsteknikker.

Registrer mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Lodret søgning. Ai. Derek Baron er softwareudviklingschef for Amazon SageMaker Data Wrangler

Tidsstempel:

Mere fra AWS maskinindlæring