Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Upptäck mönster i textdata med Amazon SageMaker Data Wrangler

I det här inlägget introducerar vi en ny analys i Rapport för datakvalitet och insikter of Amazon SageMaker Data Wrangler. Denna analys hjälper dig att validera textfunktioner för korrekthet och avslöja ogiltiga rader för reparation eller utelämnande.

Data Wrangler minskar tiden det tar att aggregera och förbereda data för maskininlärning (ML) från veckor till minuter. Du kan förenkla processen för dataförberedelse och funktionsutveckling och slutföra varje steg i dataförberedelsens arbetsflöde, inklusive dataurval, rensning, utforskning och visualisering, från ett enda visuellt gränssnitt.

Lösningsöversikt

Dataförbehandling innebär ofta att textdata som e-postadresser, telefonnummer och produktnamn rengörs. Dessa data kan ha underliggande integritetsbegränsningar som kan beskrivas av reguljära uttryck. Till exempel, för att anses giltigt kan ett lokalt telefonnummer behöva följa ett mönster som [1-9][0-9]{2}-[0-9]{4}, som skulle matcha en siffra som inte är noll, följt av ytterligare två siffror, följt av ett bindestreck, följt av ytterligare fyra siffror.

Vanliga scenarier som resulterar i ogiltiga data kan inkludera inkonsekvent mänsklig inmatning, till exempel telefonnummer i olika format (5551234 vs. 555 1234 vs. 555-1234) eller oväntade data, som 0, 911 eller 411. För ett kundsamtal, det är viktigt att utelämna siffror som 0, 911 eller 411 och validera (och potentiellt korrekta) poster som 5551234 eller 555 1234.

Tyvärr, även om textmässiga begränsningar finns, kanske de inte tillhandahålls med data. Därför måste en dataforskare som förbereder en datauppsättning manuellt avslöja begränsningarna genom att titta på data. Detta kan vara tråkigt, felbenäget och tidskrävande.

Mönsterinlärning analyserar automatiskt dina data och visar textmässiga begränsningar som kan gälla för din datauppsättning. För exemplet med telefonnummer kan mönsterinlärning analysera data och identifiera att de allra flesta telefonnummer följer textbegränsningen [1-9][0-9]{2}-[0-9][4]. Det kan också göra dig uppmärksam på att det finns exempel på ogiltiga data så att du kan utesluta eller korrigera dem.

I följande avsnitt visar vi hur man använder mönsterinlärning i Data Wrangler med hjälp av en fiktiv datauppsättning av produktkategorier och SKU-koder (lagerhållningsenhet).

Denna datauppsättning innehåller funktioner som beskriver produkter efter företag, varumärke och energiförbrukning. Särskilt inkluderar den en funktions-SKU som är dåligt formaterad. All data i denna datauppsättning är fiktiv och skapad slumpmässigt med slumpmässiga varumärkes- och apparatnamn.

Förutsättningar

Innan du börjar använda Data Wrangler, ladda ner exempeldataset och ladda upp det till en plats i Amazon enkel lagringstjänst (Amazon S3). För instruktioner, se Laddar upp objekt.

Importera din datauppsättning

För att importera din datauppsättning, slutför följande steg:

  1. Välj i Data Wrangler Importera och utforska data för ML.
  2. Välja Importera.
    Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  3. För Importera datumväljer Amazon S3.
    Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  4. Leta upp filen i Amazon S3 och välj Importera.
    Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Efter importen kan vi navigera till dataflödet.

Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Få datainsikter

I det här steget skapar vi en datainsiktsrapport som innehåller information om datakvalitet. För mer information, se Få insikter om data och datakvalitet. Slutför följande steg:

  1. Data flöde fliken, välj plustecknet bredvid Datatyper.
  2. Välja Få datainsikter.
    Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  3. För Analystypväljer Rapport för datakvalitet och insikter.
  4. Lämna det här inlägget Målkolumn och Problemtyp blank.Om du planerar att använda din datauppsättning för en regressions- eller klassificeringsuppgift med en målfunktion, kan du välja dessa alternativ och rapporten kommer att innehålla analys av hur dina indatafunktioner relaterar till ditt mål. Till exempel kan den producera rapporter om målläckage. För mer information, se Målkolumn.
  5. Välja Skapa.
    Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Vi har nu en rapport om datakvalitet och datainsikter. Om vi ​​scrollar ner till SKU avsnitt, kan vi se ett exempel på mönsterinlärning som beskriver SKU:n. Den här funktionen verkar ha en del ogiltiga data, och åtgärdande åtgärder krävs.

Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Innan vi rengör SKU-funktionen, låt oss scrolla upp till Varumärke avsnitt för att se några fler insikter. Här ser vi att två mönster har avslöjats, vilket indikerar att majoriteten av varumärkena är enstaka ord som består av ordtecken eller alfabetiska tecken. A ord karaktär är antingen ett understreck eller ett tecken som kan förekomma i ett ord på vilket språk som helst. Till exempel strängarna Hello_world och écoute båda består av ordtecken: H och é.

För det här inlägget rensar vi inte den här funktionen.

Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Se insikter om mönsterinlärning

Låt oss återgå till att rengöra SKU:er och zooma in på mönstret och varningsmeddelandet.

Som visas i följande skärmdump visar mönsterinlärning ett mönster med hög precision som matchar 97.78 % av data. Den visar också några exempel som matchar mönstret samt exempel som inte matchar mönstret. I de icke-matchningar ser vi några ogiltiga SKU:er.

Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Utöver mönstren på ytan kan en varning dyka upp som indikerar en potentiell åtgärd för att rensa upp data om det finns ett mönster med hög noggrannhet samt vissa data som inte överensstämmer med mönstret.

Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Vi kan utelämna ogiltiga data. Om vi ​​väljer (högerklicka) på det reguljära uttrycket kan vi kopiera uttrycket [A-Z]{3}-[0-9]{4,5}.

Ta bort ogiltiga data

Låt oss skapa en transformation för att utelämna data som inte överensstämmer med detta mönster.

  1. Data flöde fliken, välj plustecknet bredvid Datatyper.
  2. Välja Lägg till transform.
    Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  3. Välja Lägg till steg.
  4. Sök efter regex Och välj Sök och redigera.
    Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  5. För Förvandlaväljer Konvertera icke-matchningar till saknade.
  6. För Inmatningskolumnerväljer SKU.
  7. För Mönster, ange vårt reguljära uttryck.
  8. Välja FörhandsvisningOch välj sedan Lägg till.
    Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
    Nu har ovidkommande data tagits bort från funktionerna.
  9. Lägg till steget för att ta bort raderna Handtag saknas och välj transformera Droppe saknas.
  10. Välja SKU som inmatningskolumn.
    Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Vi återgår till vårt dataflöde med de felaktiga uppgifterna borttagna.

Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Slutsats

I det här inlägget visade vi dig hur du använder mönsterinlärningsfunktionen i datainsikter för att hitta ogiltiga textdata i din datauppsättning, samt hur du korrigerar eller utelämnar den datan.

Nu när du har rensat upp en textkolumn kan du visualisera din datauppsättning med en analys eller så kan du ansöka inbyggda transformationer för att ytterligare behandla dina uppgifter. När du är nöjd med din data kan du träna en modell med Amazon SageMaker autopilot, eller exportera dina data till en datakälla som Amazon S3.

Vi vill tacka Nikita Ivkin för hans omtänksamma recension.


Om författarna

Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Vishaal Kapoor är senior tillämpad forskare med AWS AI. Han brinner för att hjälpa kunder att förstå deras data i Data Wrangler. På fritiden cyklar han mountainbike, åker snowboard och umgås med sin familj.

Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Zohar Karnin är en huvudforskare inom Amazon AI. Hans forskningsintressen är inom områdena storskaliga och online-maskininlärningsalgoritmer. Han utvecklar oändligt skalbara maskininlärningsalgoritmer för Amazon SageMaker.

Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Ajai Sharma är en huvudproduktchef för Amazon SageMaker där han fokuserar på Data Wrangler, ett visuellt dataförberedande verktyg för datavetare. Före AWS var Ajai en datavetenskapsexpert på McKinsey and Company, där han ledde ML-fokuserade engagemang för ledande finans- och försäkringsföretag över hela världen. Ajai brinner för datavetenskap och älskar att utforska de senaste algoritmerna och maskininlärningsteknikerna.

Upptäck mönster i textdata med Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Derek Baron är en mjukvaruutvecklingschef för Amazon SageMaker Data Wrangler

Tidsstämpel:

Mer från AWS maskininlärning