Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler

I dette innlegget introduserer vi en ny analyse i Rapport om datakvalitet og innsikt of Amazon SageMaker Data Wrangler. Denne analysen hjelper deg med å validere tekstfunksjoner for korrekthet og avdekke ugyldige rader for reparasjon eller utelatelse.

Data Wrangler reduserer tiden det tar å samle og forberede data for maskinlæring (ML) fra uker til minutter. Du kan forenkle prosessen med dataforberedelse og funksjonsutvikling, og fullføre hvert trinn i dataforberedelsesarbeidsflyten, inkludert datavalg, rensing, utforskning og visualisering, fra ett enkelt visuelt grensesnitt.

Løsningsoversikt

Dataforbehandling involverer ofte rensing av tekstdata som e-postadresser, telefonnumre og produktnavn. Disse dataene kan ha underliggende integritetsbegrensninger som kan beskrives av regulære uttrykk. For å bli ansett som gyldig, kan det for eksempel hende at et lokalt telefonnummer må følge et mønster som [1-9][0-9]{2}-[0-9]{4}, som vil samsvare med et siffer som ikke er null, etterfulgt av ytterligere to sifre, etterfulgt av en bindestrek, etterfulgt av ytterligere fire sifre.

Vanlige scenarier som resulterer i ugyldige data kan omfatte inkonsekvent menneskelig inntasting, for eksempel telefonnumre i ulike formater (5551234 vs. 555 1234 vs. 555-1234) eller uventede data, for eksempel 0, 911 eller 411. For et kundesenter, det er viktig å utelate tall som 0, 911 eller 411, og validere (og potensielt riktige) oppføringer som 5551234 eller 555 1234.

Dessverre, selv om tekstlige begrensninger eksisterer, kan det hende at de ikke leveres med dataene. Derfor må en dataforsker som forbereder et datasett manuelt avdekke begrensningene ved å se på dataene. Dette kan være kjedelig, feilutsatt og tidkrevende.

Mønsterlæring analyserer automatisk dataene dine og viser tekstbegrensninger som kan gjelde for datasettet ditt. For eksempelet med telefonnumre kan mønsterlæring analysere dataene og identifisere at de aller fleste telefonnumre følger tekstbegrensningen [1-9][0-9]{2}-[0-9][4]. Den kan også varsle deg om at det finnes eksempler på ugyldige data, slik at du kan ekskludere eller korrigere dem.

I de følgende delene viser vi hvordan du bruker mønsterlæring i Data Wrangler ved å bruke et fiktivt datasett med produktkategorier og SKU-koder (lagerholdsenhet).

Dette datasettet inneholder funksjoner som beskriver produkter etter selskap, merke og energiforbruk. Spesielt inkluderer den en funksjons-SKU som er dårlig formatert. Alle dataene i dette datasettet er fiktive og opprettet tilfeldig ved å bruke tilfeldige merkenavn og apparatnavn.

Forutsetninger

Før du begynner å bruke Data Wrangler, nedlasting eksempeldatasettet og last det opp til et sted i Amazon enkel lagringstjeneste (Amazon S3). For instruksjoner, se Laster opp objekter.

Importer datasettet ditt

For å importere datasettet, fullfør følgende trinn:

  1. Velg i Data Wrangler Importer og utforsk data for ML.
  2. Velg Import.
    Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  3. Til Import datoer, velg Amazon S3.
    Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  4. Finn filen i Amazon S3 og velg Import.
    Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Etter import kan vi navigere til dataflyten.

Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Få datainnsikt

I dette trinnet lager vi en datainnsiktsrapport som inneholder informasjon om datakvalitet. For mer informasjon, se Få innsikt i data og datakvalitet. Fullfør følgende trinn:

  1. Dataflyt fanen, velg plusstegnet ved siden av Datatyper.
  2. Velg Få datainnsikt.
    Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  3. Til Analysetype, velg Rapport om datakvalitet og innsikt.
  4. For dette innlegget, gå Målkolonne og Problemtype blank.Hvis du planlegger å bruke datasettet til en regresjons- eller klassifiseringsoppgave med en målfunksjon, kan du velge disse alternativene, og rapporten vil inkludere analyse av hvordan inputfunksjonene dine relaterer seg til målet ditt. For eksempel kan den produsere rapporter om mållekkasje. For mer informasjon, se Målkolonne.
  5. Velg Opprett.
    Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Vi har nå en rapport om datakvalitet og datainnsikt. Hvis vi blar ned til SKU seksjonen, kan vi se et eksempel på mønsterlæring som beskriver SKU. Denne funksjonen ser ut til å ha noen ugyldige data, og handlingsdyktig utbedring er nødvendig.

Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Før vi renser SKU-funksjonen, la oss bla opp til Merke delen for å se litt mer innsikt. Her ser vi at to mønstre har blitt avdekket, noe som indikerer at flertallet av merkenavnene er enkeltord som består av ordtegn eller alfabetiske tegn. EN ordkarakter er enten et understrek eller et tegn som kan forekomme i et ord på et hvilket som helst språk. For eksempel strengene Hello_world og écoute begge består av ordtegn: H og é.

For dette innlegget renser vi ikke denne funksjonen.

Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Se mønsterlæringsinnsikt

La oss gå tilbake til rengjøring av SKU-er og zoome inn på mønsteret og advarselsmeldingen.

Som vist i følgende skjermbilde, viser mønsterlæring et mønster med høy nøyaktighet som samsvarer med 97.78 % av dataene. Den viser også noen eksempler som samsvarer med mønsteret, samt eksempler som ikke samsvarer med mønsteret. I de ikke-kampene ser vi noen ugyldige SKU-er.

Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

I tillegg til mønstrene som dukker opp, kan det vises en advarsel som indikerer en potensiell handling for å rydde opp i data hvis det er et mønster med høy nøyaktighet, samt noen data som ikke samsvarer med mønsteret.

Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Vi kan utelate de ugyldige dataene. Hvis vi velger (høyreklikk) på det regulære uttrykket, kan vi kopiere uttrykket [A-Z]{3}-[0-9]{4,5}.

Fjern ugyldige data

La oss lage en transformasjon for å utelate data som ikke samsvarer med dette mønsteret.

  1. Dataflyt fanen, velg plusstegnet ved siden av Datatyper.
  2. Velg Legg til transform.
    Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  3. Velg Legg til trinn.
  4. Søk etter regex Og velg Søk og rediger.
    Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  5. Til Transform, velg Konverter ikke-treff til manglende.
  6. Til Inndatakolonner, velg SKU.
  7. Til Mønster, skriv inn vårt vanlige uttrykk.
  8. Velg Forhåndsvisning, velg deretter Legg til.
    Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
    Nå er de overflødige dataene fjernet fra funksjonene.
  9. For å fjerne radene, legg til trinnet Håndtak mangler og velg transformasjonen Dråpen mangler.
  10. Velg SKU som inngangskolonnen.
    Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Vi går tilbake til dataflyten vår med de feilaktige dataene fjernet.

Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

konklusjonen

I dette innlegget viste vi deg hvordan du bruker mønsterlæringsfunksjonen i datainnsikt for å finne ugyldige tekstdata i datasettet ditt, samt hvordan du korrigerer eller utelater disse dataene.

Nå som du har ryddet opp i en tekstkolonne, kan du visualisere datasettet ditt ved å bruke en analyse eller du kan søke innebygde transformasjoner for å behandle dataene dine videre. Når du er fornøyd med dataene dine, kan du trene en modell med Amazon SageMaker Autopiloteller eksporter dataene dine til en datakilde som Amazon S3.

Vi vil gjerne takke Nikita Ivkin for hans gjennomtenkte anmeldelse.


Om forfatterne

Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Vishaal Kapoor er en Senior Applied Scientist med AWS AI. Han brenner for å hjelpe kundene med å forstå dataene deres i Data Wrangler. På fritiden sykler han terrengsykler, kjører snowboard og tilbringer tid med familien.

Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Zohar Karnin er hovedforsker i Amazon AI. Hans forskningsinteresser er innen storskala og online maskinlæringsalgoritmer. Han utvikler uendelig skalerbare maskinlæringsalgoritmer for Amazon SageMaker.

Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.Ajai Sharma er hovedproduktsjef for Amazon SageMaker hvor han fokuserer på Data Wrangler, et visuelt dataforberedelsesverktøy for dataforskere. Før AWS var Ajai en datavitenskapsekspert hos McKinsey and Company, hvor han ledet ML-fokuserte engasjementer for ledende finans- og forsikringsselskaper over hele verden. Ajai er lidenskapelig opptatt av datavitenskap og elsker å utforske de nyeste algoritmene og maskinlæringsteknikkene.

Oppdag mønstre i tekstdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Derek Baron er en programvareutviklingssjef for Amazon SageMaker Data Wrangler

Tidstempel:

Mer fra AWS maskinlæring