Upptäck mönster i textdata med Amazon SageMaker Data Wrangler

Återutgiven av Platon

anhängare: 0

I det här inlägget introducerar vi en ny analys i Rapport för datakvalitet och insikter of Amazon SageMaker Data Wrangler. Denna analys hjälper dig att validera textfunktioner för korrekthet och avslöja ogiltiga rader för reparation eller utelämnande.

Data Wrangler minskar tiden det tar att aggregera och förbereda data för maskininlärning (ML) från veckor till minuter. Du kan förenkla processen för dataförberedelse och funktionsutveckling och slutföra varje steg i dataförberedelsens arbetsflöde, inklusive dataurval, rensning, utforskning och visualisering, från ett enda visuellt gränssnitt.

Lösningsöversikt

Dataförbehandling innebär ofta att textdata som e-postadresser, telefonnummer och produktnamn rengörs. Dessa data kan ha underliggande integritetsbegränsningar som kan beskrivas av reguljära uttryck. Till exempel, för att anses giltigt kan ett lokalt telefonnummer behöva följa ett mönster som [1-9][0-9]{2}-[0-9]{4}, som skulle matcha en siffra som inte är noll, följt av ytterligare två siffror, följt av ett bindestreck, följt av ytterligare fyra siffror.

Vanliga scenarier som resulterar i ogiltiga data kan inkludera inkonsekvent mänsklig inmatning, till exempel telefonnummer i olika format (5551234 vs. 555 1234 vs. 555-1234) eller oväntade data, som 0, 911 eller 411. För ett kundsamtal, det är viktigt att utelämna siffror som 0, 911 eller 411 och validera (och potentiellt korrekta) poster som 5551234 eller 555 1234.

Tyvärr, även om textmässiga begränsningar finns, kanske de inte tillhandahålls med data. Därför måste en dataforskare som förbereder en datauppsättning manuellt avslöja begränsningarna genom att titta på data. Detta kan vara tråkigt, felbenäget och tidskrävande.

Mönsterinlärning analyserar automatiskt dina data och visar textmässiga begränsningar som kan gälla för din datauppsättning. För exemplet med telefonnummer kan mönsterinlärning analysera data och identifiera att de allra flesta telefonnummer följer textbegränsningen [1-9][0-9]{2}-[0-9][4]. Det kan också göra dig uppmärksam på att det finns exempel på ogiltiga data så att du kan utesluta eller korrigera dem.

I följande avsnitt visar vi hur man använder mönsterinlärning i Data Wrangler med hjälp av en fiktiv datauppsättning av produktkategorier och SKU-koder (lagerhållningsenhet).

Denna datauppsättning innehåller funktioner som beskriver produkter efter företag, varumärke och energiförbrukning. Särskilt inkluderar den en funktions-SKU som är dåligt formaterad. All data i denna datauppsättning är fiktiv och skapad slumpmässigt med slumpmässiga varumärkes- och apparatnamn.

Förutsättningar

Innan du börjar använda Data Wrangler, ladda ner exempeldataset och ladda upp det till en plats i Amazon enkel lagringstjänst (Amazon S3). För instruktioner, se Laddar upp objekt.

Importera din datauppsättning

För att importera din datauppsättning, slutför följande steg:

Välj i Data Wrangler Importera och utforska data för ML.
Välja Importera.
För Importera datumväljer Amazon S3.
Leta upp filen i Amazon S3 och välj Importera.

Efter importen kan vi navigera till dataflödet.

Få datainsikter

I det här steget skapar vi en datainsiktsrapport som innehåller information om datakvalitet. För mer information, se Få insikter om data och datakvalitet. Slutför följande steg:

På Data flöde fliken, välj plustecknet bredvid Datatyper.
Välja Få datainsikter.
För Analystypväljer Rapport för datakvalitet och insikter.
Lämna det här inlägget Målkolumn och Problemtyp blank.Om du planerar att använda din datauppsättning för en regressions- eller klassificeringsuppgift med en målfunktion, kan du välja dessa alternativ och rapporten kommer att innehålla analys av hur dina indatafunktioner relaterar till ditt mål. Till exempel kan den producera rapporter om målläckage. För mer information, se Målkolumn.
Välja Skapa.

Vi har nu en rapport om datakvalitet och datainsikter. Om vi scrollar ner till SKU avsnitt, kan vi se ett exempel på mönsterinlärning som beskriver SKU:n. Den här funktionen verkar ha en del ogiltiga data, och åtgärdande åtgärder krävs.

Innan vi rengör SKU-funktionen, låt oss scrolla upp till Varumärke avsnitt för att se några fler insikter. Här ser vi att två mönster har avslöjats, vilket indikerar att majoriteten av varumärkena är enstaka ord som består av ordtecken eller alfabetiska tecken. A ord karaktär är antingen ett understreck eller ett tecken som kan förekomma i ett ord på vilket språk som helst. Till exempel strängarna Hello_world och écoute båda består av ordtecken: H och é.

För det här inlägget rensar vi inte den här funktionen.

Se insikter om mönsterinlärning

Låt oss återgå till att rengöra SKU:er och zooma in på mönstret och varningsmeddelandet.

Som visas i följande skärmdump visar mönsterinlärning ett mönster med hög precision som matchar 97.78 % av data. Den visar också några exempel som matchar mönstret samt exempel som inte matchar mönstret. I de icke-matchningar ser vi några ogiltiga SKU:er.

Utöver mönstren på ytan kan en varning dyka upp som indikerar en potentiell åtgärd för att rensa upp data om det finns ett mönster med hög noggrannhet samt vissa data som inte överensstämmer med mönstret.

Vi kan utelämna ogiltiga data. Om vi väljer (högerklicka) på det reguljära uttrycket kan vi kopiera uttrycket [A-Z]{3}-[0-9]{4,5}.

Ta bort ogiltiga data

Låt oss skapa en transformation för att utelämna data som inte överensstämmer med detta mönster.

På Data flöde fliken, välj plustecknet bredvid Datatyper.
Välja Lägg till transform.
Välja Lägg till steg.
Sök efter regex Och välj Sök och redigera.
För Förvandlaväljer Konvertera icke-matchningar till saknade.
För Inmatningskolumnerväljer SKU.
För Mönster, ange vårt reguljära uttryck.
Välja FörhandsvisningOch välj sedan Lägg till.

Nu har ovidkommande data tagits bort från funktionerna.
Lägg till steget för att ta bort raderna Handtag saknas och välj transformera Droppe saknas.
Välja SKU som inmatningskolumn.

Vi återgår till vårt dataflöde med de felaktiga uppgifterna borttagna.

Slutsats

I det här inlägget visade vi dig hur du använder mönsterinlärningsfunktionen i datainsikter för att hitta ogiltiga textdata i din datauppsättning, samt hur du korrigerar eller utelämnar den datan.

Nu när du har rensat upp en textkolumn kan du visualisera din datauppsättning med en analys eller så kan du ansöka inbyggda transformationer för att ytterligare behandla dina uppgifter. När du är nöjd med din data kan du träna en modell med Amazon SageMaker autopilot, eller exportera dina data till en datakälla som Amazon S3.

Vi vill tacka Nikita Ivkin för hans omtänksamma recension.

Om författarna

Vishaal Kapoor är senior tillämpad forskare med AWS AI. Han brinner för att hjälpa kunder att förstå deras data i Data Wrangler. På fritiden cyklar han mountainbike, åker snowboard och umgås med sin familj.

Zohar Karnin är en huvudforskare inom Amazon AI. Hans forskningsintressen är inom områdena storskaliga och online-maskininlärningsalgoritmer. Han utvecklar oändligt skalbara maskininlärningsalgoritmer för Amazon SageMaker.

Ajai Sharma är en huvudproduktchef för Amazon SageMaker där han fokuserar på Data Wrangler, ett visuellt dataförberedande verktyg för datavetare. Före AWS var Ajai en datavetenskapsexpert på McKinsey and Company, där han ledde ML-fokuserade engagemang för ledande finans- och försäkringsföretag över hela världen. Ajai brinner för datavetenskap och älskar att utforska de senaste algoritmerna och maskininlärningsteknikerna.

Derek Baron är en mjukvaruutvecklingschef för Amazon SageMaker Data Wrangler

Tidsstämpel: Oktober 24, 2022Oktober 24, 2022

Tidsstämpel: Maj 30, 2023

Testmetoder för Amazon SageMaker ML-modeller

Källkluster:

AWS maskininlärning

Källnod: 1723753

Tidsstämpel: Oktober 14, 2022

Arkitekt personifierade generativa AI SaaS-applikationer på Amazon SageMaker

Källkluster:

AWS maskininlärning

Källnod: 1811777

Tidsstämpel: Mar 9, 2023

Upptäck mönster i textdata med Amazon SageMaker Data Wrangler

Återutgiven av Platon

Lösningsöversikt

Förutsättningar

Importera din datauppsättning

Få datainsikter

Se insikter om mönsterinlärning

Ta bort ogiltiga data

Slutsats

Om författarna

Mer från AWS maskininlärning

Automatisera din tidsserieprognoser i Snowflake med Amazon Forecast

Använd Snowflake som datakälla för att träna ML-modeller med Amazon SageMaker

Testmetoder för Amazon SageMaker ML-modeller

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto