Vi presenterar Amazon SageMaker Data Wranglers nya inbäddade visualiseringar

Återutgiven av Platon

anhängare: 0

Att manuellt inspektera datakvalitet och rensa data är en smärtsam och tidskrävande process som kan ta en stor del av en datavetares tid på ett projekt. Enligt en undersökning 2020 av dataforskare utförd av Anaconda spenderar datavetare cirka 66 % av sin tid på dataförberedelser och analysuppgifter, inklusive laddning (19 %), rengöring (26 %) och visualisering av data (21 %). Amazon SageMaker erbjuder en rad databeredningsverktyg för att möta olika kunders behov och preferenser. För användare som föredrar ett GUI-baserat interaktivt gränssnitt, SageMaker Data Wrangler erbjuder 300+ inbyggda visualiseringar, analyser och transformationer för att effektivt bearbeta data som backas upp av Spark utan att skriva en enda rad kod.

Datavisualisering i maskininlärning (ML) är en iterativ process och kräver kontinuerlig visualisering av datamängden för upptäckt, undersökning och validering. Att sätta data i perspektiv innebär att man ser var och en av kolumnerna för att förstå möjliga datafel, saknade värden, felaktiga datatyper, vilseledande/felaktiga data, extremdata och mer.

I det här inlägget visar vi dig hur Amazon SageMaker Data Wrangler genererar automatiskt viktiga visualiseringar av datadistribution, upptäcker datakvalitetsproblem och visar datainsikter som extremvärden för varje funktion utan att skriva en enda rad kod. Det hjälper till att förbättra datarutnätsupplevelsen med automatiska kvalitetsvarningar (till exempel saknade värden eller ogiltiga värden). De automatiskt genererade visualiseringarna är också interaktiva. Du kan till exempel visa en tabell över de fem vanligaste varorna sorterade efter procent och föra muspekaren över fältet för att växla mellan antal och procent.

Förutsättningar

Amazon SageMaker Data Wrangler är en SageMaker-funktion tillgänglig i SageMaker Studio. Du kan följa introduktionsprocessen för Studio för att snurra upp Studio-miljön och anteckningsböckerna. Även om du kan välja mellan några få autentiseringsmetoder, är det enklaste sättet att skapa en Studio-domän att följa Snabbstartinstruktioner. Snabbstarten använder samma standardinställningar som standardinställningarna i Studio. Du kan också välja att ombord använda AWS Identity and Access Management (IAM) Identity Center (efterträdare till AWS Single Sign-On) för autentisering (se Ombord på Amazon SageMaker Domain med IAM Identity Center).

Lösningsgenomgång

Börja SageMaker Studio Miljö och skapa en ny Data Wrangler-flöde. Du kan antingen importera din egen datauppsättning eller använda en exempeldatauppsättning (titanic) som visas i följande bild. Dessa två noder (den källa noden och datum typ node) är klickbara – när du dubbelklickar på dessa två noder kommer Data Wrangler att visa tabellen.

I vårt fall, låt oss högerklicka på Datatyper ikon och Lägg till en transformation:

Du bör nu se visualiseringar överst på varje kolumn. Vänligen vänta ett tag för diagrammen att laddas. Latensen beror på datauppsättningens storlek (för Titanic-datauppsättningen bör det ta 1-2 sekunder i standardinstansen).

Vi presenterar Amazon SageMaker Data Wranglers nya inbäddade visualiseringar PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Rulla till den horisontella övre raden genom att hålla muspekaren över verktygstipset. Nu när diagrammen har laddats kan du se datadistributionen, ogiltiga värden och saknade värden. Outliers och saknade värden är egenskaper hos felaktig data, och det är viktigt att identifiera dem eftersom de kan påverka dina resultat. Detta innebär att eftersom dina uppgifter kom från ett icke-representativt urval, kanske dina resultat inte kan generaliseras till situationer utanför din studie. Klassificering av värden kan ses på diagrammen längst ner där giltigt värden representeras i vitt, ogiltig värden i blått och saknas värden i lila. Du kan också titta på outliers avbildas av de blå prickarna till vänster eller höger om ett diagram.

Vi presenterar Amazon SageMaker Data Wranglers nya inbäddade visualiseringar PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Alla visualiseringar kommer i form av histogram. För icke-kategorisk data definieras en hinkuppsättning för varje fack. För kategorisk data behandlas varje unikt värde som en bin. Ovanpå histogrammet finns ett stapeldiagram som visar de ogiltiga och saknade värdena. Vi kan se förhållandet mellan giltiga värden för numeriska, kategoriska, binära, text- och datumtidstyper, såväl som förhållandet mellan saknade värden baserat på det totala antalet null- och tomma celler och, slutligen, förhållandet mellan ogiltiga värden. Låt oss titta på några exempel för att förstå hur du kan se dessa med hjälp av Data Wranglers förinstallerade Titanic-dataset.

Exempelvis 1 – Vi kan titta på de 20 % saknade värdena för ÅLDER funktion/kolumn. Det är avgörande att ta itu med saknad data inom området datarelaterad forskning/ML, antingen genom att ta bort den eller imputera den (hantera de saknade värdena med en viss uppskattning).

Vi presenterar Amazon SageMaker Data Wranglers nya inbäddade visualiseringar PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
Du kan bearbeta saknade värden med hjälp av Hantera saknade värden transformera grupp. Använd Anmäla saknas transformera för att generera imputerade värden där saknade värden hittades i inmatningskolumnen. Konfigurationen beror på din datatyp.

I det här exemplet är ÅLDER kolumnen har numerisk datatyp. För imputeringsstrategi kan vi välja att imputera betyda eller ungefärlig median över värdena som finns i din datauppsättning.

Nu när vi har lagt till transformationen kan vi se att ÅLDER kolumnen saknar inte längre värden.

Exempelvis 2 – Vi kan titta på de 27 % ogiltiga värdena för BILJETT funktion/kolumn som är av STRÄNG typ. Ogiltiga data kan producera partiska uppskattningar, vilket kan minska en modells noggrannhet och resultera i falska slutsatser. Låt oss utforska några transformationer som vi kan använda för att hantera ogiltiga data i BILJETT kolonn.

När vi tittar på skärmdumpen ser vi att några av ingångarna är skrivna i ett format som innehåller alfabet före siffror "PC 17318" och andra är bara siffror som "11769".

Vi kan välja att använda en transformation för att söka efter och redigera specifika mönster inom strängar som "PC” och byt ut dem. Därefter kan vi gjuta vår sträng kolumn till en ny typ som t.ex Lång för enkel användning.

Detta lämnar oss fortfarande med 19 % saknade värden på BILJETT funktion. I likhet med exempel 1 kan vi nu imputera de saknade värdena med medelvärde eller ungefärlig median. Funktionen BILJETT ska inte längre ha ogiltiga eller saknade värden enligt bilden nedan.

För att säkerställa att du inte ådrar dig några avgifter efter att ha följt den här handledningen, se till att du stäng av Data Wrangler-appen.

Slutsats

I det här inlägget presenterade vi det nya Amazon Sagemaker Data Wrangler widget som hjälper till att ta bort odifferentierade tunga lyft för slutanvändare under dataförberedelse med automatiskt synliga visualiseringar och dataprofileringsinsikter för varje funktion. Den här widgeten gör det enkelt att visualisera data (till exempel kategoriskt/icke-kategoriskt histogram), upptäcka datakvalitetsproblem (till exempel saknade värden och ogiltiga värden) och ytdatainsikter (till exempel extremvärden och topp N-objekt).

Du kan börja använda denna funktion idag i alla regioner där SageMaker Studio är tillgängligt. Ge det ett försök, och låt oss veta vad du tycker. Vi ser alltid fram emot din feedback, antingen genom dina vanliga AWS-supportkontakter eller på AWS-forum för SageMaker.

Om författarna

Isha Dua är en senior lösningsarkitekt baserad i San Francisco Bay Area. Hon hjälper AWS Enterprise-kunder att växa genom att förstå deras mål och utmaningar, och guidar dem om hur de kan utforma sina applikationer på ett molnbaserat sätt samtidigt som de ser till att de är motståndskraftiga och skalbara. Hon brinner för maskininlärningsteknik och miljömässig hållbarhet.

Parth Patel är en lösningsarkitekt på AWS i San Francisco Bay Area. Parth vägleder kunder att påskynda sin resa till molnet och hjälper dem att framgångsrikt använda AWS-molnet. Han fokuserar på ML och applikationsmodernisering.

Tidsstämpel: December 13, 2022December 13, 2022

Tidsstämpel: September 29, 2022

Vi presenterar Amazon SageMaker Data Wranglers nya inbäddade visualiseringar

Återutgiven av Platon

Förutsättningar

Lösningsgenomgång

Slutsats

Om författarna

Mer från AWS maskininlärning

Distribuera stora modeller på Amazon SageMaker med hjälp av DJLServing och DeepSpeed modell parallell slutledning

Styr åtkomst till Amazon SageMaker Feature Store offline med AWS Lake Formation

Förbättra söknoggrannheten med stavningskontrollen i Amazon Kendra

Analysera gnagarangrepp med Amazon SageMakers geospatiala funktioner | Amazon webbtjänster

Avslöja kunskapen i Slack-arbetsytor med intelligent sökning med Amazon Kendra Slack-kontakten

Hur Sophos tränar en kraftfull, lätt PDF-skadeprogramdetektor i ultraskala med Amazon SageMaker

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto