I det här inlägget introducerar vi en ny analys i Rapport för datakvalitet och insikter of Amazon SageMaker Data Wrangler. Denna analys hjälper dig att validera textfunktioner för korrekthet och avslöja ogiltiga rader för reparation eller utelämnande.
Data Wrangler minskar tiden det tar att aggregera och förbereda data för maskininlärning (ML) från veckor till minuter. Du kan förenkla processen för dataförberedelse och funktionsutveckling och slutföra varje steg i dataförberedelsens arbetsflöde, inklusive dataurval, rensning, utforskning och visualisering, från ett enda visuellt gränssnitt.
Lösningsöversikt
Dataförbehandling innebär ofta att textdata som e-postadresser, telefonnummer och produktnamn rengörs. Dessa data kan ha underliggande integritetsbegränsningar som kan beskrivas av reguljära uttryck. Till exempel, för att anses giltigt kan ett lokalt telefonnummer behöva följa ett mönster som [1-9][0-9]{2}-[0-9]{4}
, som skulle matcha en siffra som inte är noll, följt av ytterligare två siffror, följt av ett bindestreck, följt av ytterligare fyra siffror.
Vanliga scenarier som resulterar i ogiltiga data kan inkludera inkonsekvent mänsklig inmatning, till exempel telefonnummer i olika format (5551234 vs. 555 1234 vs. 555-1234) eller oväntade data, som 0, 911 eller 411. För ett kundsamtal, det är viktigt att utelämna siffror som 0, 911 eller 411 och validera (och potentiellt korrekta) poster som 5551234 eller 555 1234.
Tyvärr, även om textmässiga begränsningar finns, kanske de inte tillhandahålls med data. Därför måste en dataforskare som förbereder en datauppsättning manuellt avslöja begränsningarna genom att titta på data. Detta kan vara tråkigt, felbenäget och tidskrävande.
Mönsterinlärning analyserar automatiskt dina data och visar textmässiga begränsningar som kan gälla för din datauppsättning. För exemplet med telefonnummer kan mönsterinlärning analysera data och identifiera att de allra flesta telefonnummer följer textbegränsningen [1-9][0-9]{2}-[0-9][4]
. Det kan också göra dig uppmärksam på att det finns exempel på ogiltiga data så att du kan utesluta eller korrigera dem.
I följande avsnitt visar vi hur man använder mönsterinlärning i Data Wrangler med hjälp av en fiktiv datauppsättning av produktkategorier och SKU-koder (lagerhållningsenhet).
Denna datauppsättning innehåller funktioner som beskriver produkter efter företag, varumärke och energiförbrukning. Särskilt inkluderar den en funktions-SKU som är dåligt formaterad. All data i denna datauppsättning är fiktiv och skapad slumpmässigt med slumpmässiga varumärkes- och apparatnamn.
Förutsättningar
Innan du börjar använda Data Wrangler, ladda ner exempeldataset och ladda upp det till en plats i Amazon enkel lagringstjänst (Amazon S3). För instruktioner, se Laddar upp objekt.
Importera din datauppsättning
För att importera din datauppsättning, slutför följande steg:
- Välj i Data Wrangler Importera och utforska data för ML.
- Välja Importera.
- För Importera datumväljer Amazon S3.
- Leta upp filen i Amazon S3 och välj Importera.
Efter importen kan vi navigera till dataflödet.
Få datainsikter
I det här steget skapar vi en datainsiktsrapport som innehåller information om datakvalitet. För mer information, se Få insikter om data och datakvalitet. Slutför följande steg:
- På Data flöde fliken, välj plustecknet bredvid Datatyper.
- Välja Få datainsikter.
- För Analystypväljer Rapport för datakvalitet och insikter.
- Lämna det här inlägget Målkolumn och Problemtyp blank.Om du planerar att använda din datauppsättning för en regressions- eller klassificeringsuppgift med en målfunktion, kan du välja dessa alternativ och rapporten kommer att innehålla analys av hur dina indatafunktioner relaterar till ditt mål. Till exempel kan den producera rapporter om målläckage. För mer information, se Målkolumn.
- Välja Skapa.
Vi har nu en rapport om datakvalitet och datainsikter. Om vi scrollar ner till SKU avsnitt, kan vi se ett exempel på mönsterinlärning som beskriver SKU:n. Den här funktionen verkar ha en del ogiltiga data, och åtgärdande åtgärder krävs.
Innan vi rengör SKU-funktionen, låt oss scrolla upp till Varumärke avsnitt för att se några fler insikter. Här ser vi att två mönster har avslöjats, vilket indikerar att majoriteten av varumärkena är enstaka ord som består av ordtecken eller alfabetiska tecken. A ord karaktär är antingen ett understreck eller ett tecken som kan förekomma i ett ord på vilket språk som helst. Till exempel strängarna Hello_world
och écoute
båda består av ordtecken: H
och é
.
För det här inlägget rensar vi inte den här funktionen.
Se insikter om mönsterinlärning
Låt oss återgå till att rengöra SKU:er och zooma in på mönstret och varningsmeddelandet.
Som visas i följande skärmdump visar mönsterinlärning ett mönster med hög precision som matchar 97.78 % av data. Den visar också några exempel som matchar mönstret samt exempel som inte matchar mönstret. I de icke-matchningar ser vi några ogiltiga SKU:er.
Utöver mönstren på ytan kan en varning dyka upp som indikerar en potentiell åtgärd för att rensa upp data om det finns ett mönster med hög noggrannhet samt vissa data som inte överensstämmer med mönstret.
Vi kan utelämna ogiltiga data. Om vi väljer (högerklicka) på det reguljära uttrycket kan vi kopiera uttrycket [A-Z]{3}-[0-9]{4,5}
.
Ta bort ogiltiga data
Låt oss skapa en transformation för att utelämna data som inte överensstämmer med detta mönster.
- På Data flöde fliken, välj plustecknet bredvid Datatyper.
- Välja Lägg till transform.
- Välja Lägg till steg.
- Sök efter
regex
Och välj Sök och redigera. - För Förvandlaväljer Konvertera icke-matchningar till saknade.
- För Inmatningskolumnerväljer
SKU
. - För Mönster, ange vårt reguljära uttryck.
- Välja FörhandsvisningOch välj sedan Lägg till.
Nu har ovidkommande data tagits bort från funktionerna. - Lägg till steget för att ta bort raderna Handtag saknas och välj transformera Droppe saknas.
- Välja
SKU
som inmatningskolumn.
Vi återgår till vårt dataflöde med de felaktiga uppgifterna borttagna.
Slutsats
I det här inlägget visade vi dig hur du använder mönsterinlärningsfunktionen i datainsikter för att hitta ogiltiga textdata i din datauppsättning, samt hur du korrigerar eller utelämnar den datan.
Nu när du har rensat upp en textkolumn kan du visualisera din datauppsättning med en analys eller så kan du ansöka inbyggda transformationer för att ytterligare behandla dina uppgifter. När du är nöjd med din data kan du träna en modell med Amazon SageMaker autopilot, eller exportera dina data till en datakälla som Amazon S3.
Vi vill tacka Nikita Ivkin för hans omtänksamma recension.
Om författarna
Vishaal Kapoor är senior tillämpad forskare med AWS AI. Han brinner för att hjälpa kunder att förstå deras data i Data Wrangler. På fritiden cyklar han mountainbike, åker snowboard och umgås med sin familj.
Zohar Karnin är en huvudforskare inom Amazon AI. Hans forskningsintressen är inom områdena storskaliga och online-maskininlärningsalgoritmer. Han utvecklar oändligt skalbara maskininlärningsalgoritmer för Amazon SageMaker.
Ajai Sharma är en huvudproduktchef för Amazon SageMaker där han fokuserar på Data Wrangler, ett visuellt dataförberedande verktyg för datavetare. Före AWS var Ajai en datavetenskapsexpert på McKinsey and Company, där han ledde ML-fokuserade engagemang för ledande finans- och försäkringsföretag över hela världen. Ajai brinner för datavetenskap och älskar att utforska de senaste algoritmerna och maskininlärningsteknikerna.
Derek Baron är en mjukvaruutvecklingschef för Amazon SageMaker Data Wrangler
- AI
- ai konst
- ai art generator
- har robot
- Amazon SageMaker
- Amazon SageMaker Data Wrangler
- artificiell intelligens
- artificiell intelligenscertifiering
- artificiell intelligens inom bankväsendet
- artificiell intelligens robot
- robotar med artificiell intelligens
- programvara för artificiell intelligens
- AWS maskininlärning
- blockchain
- blockchain konferens ai
- coingenius
- konversationskonstnärlig intelligens
- kryptokonferens ai
- dalls
- djupt lärande
- du har google
- Mellan (200)
- maskininlärning
- plato
- plato ai
- Platon Data Intelligence
- Platon spel
- PlatonData
- platogaming
- skala ai
- syntax
- zephyrnet