Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML

Amazon SageMaker Studio Lab är en gratis utvecklingsmiljö för maskininlärning (ML) baserad på JupyterLab med öppen källkod för alla att lära sig och experimentera med ML med hjälp av AWS ML-beräkningsresurser. Den är baserad på samma arkitektur och användargränssnitt som Amazon SageMaker Studio, men med en delmängd av Studio-funktioner.

När du börjar arbeta med ML-initiativ måste du utföra utforskande dataanalys (EDA) eller dataförberedelse innan du fortsätter med modellbyggande. Amazon SageMaker Data Wrangler är en förmåga att Amazon SageMaker som gör det snabbare för datavetare och ingenjörer att förbereda data för ML-applikationer via ett visuellt gränssnitt. Data Wrangler minskar tiden det tar att aggregera och förbereda data för ML från veckor till minuter.

En viktig accelerator för att förbereda funktioner i Data Wrangler är Rapport för datakvalitet och insikter. Den här rapporten kontrollerar datakvaliteten och hjälper till att upptäcka avvikelser i dina data, så att du kan utföra den nödvändiga datatekniken för att fixa din datauppsättning. Du kan använda rapporten Datakvalitet och insikter för att utföra en analys av dina data för att få insikter i din datauppsättning, till exempel antalet saknade värden och antalet extremvärden. Om du har problem med din data, såsom målläckage eller obalans, kan insiktsrapporten uppmärksamma dig på dessa problem och hjälpa dig att identifiera de dataförberedande stegen du behöver utföra.

Studio Lab-användare kan dra nytta av Data Wrangler eftersom datakvalitet och funktionsteknik är avgörande för din modells prediktiva prestanda. Data Wrangler hjälper till med datakvalitet och funktionsteknik genom att ge insikter i datakvalitetsproblem och enkelt möjliggöra snabb funktionsiteration och ingenjörskonst med hjälp av ett gränssnitt med låg kod.

I det här inlägget visar vi dig hur du utför utforskande dataanalys, förbereder och transformerar data med hjälp av Data Wrangler, och exporterar den transformerade och förberedda data till Studio Lab för att utföra modellbyggande.

Lösningsöversikt

Lösningen innehåller följande steg på hög nivå:

  1. Skapa AWS-konto och administratörsanvändare. Detta är en förutsättning
  2. Ladda ner datasetet churn.csv.
  3. Ladda datauppsättningen till Amazon enkel lagringstjänst (Amazon S3).
  4. Skapa en SageMaker Studio-domän och starta Data Wrangler.
  5. Importera datamängden till Data Wrangler-flödet från Amazon S3.
  6. Skapa rapporten om datakvalitet och insikter och dra slutsatser om nödvändig funktionsteknik.
  7. Utför nödvändiga dataomvandlingar i Data Wrangler.
  8. Ladda ned datakvalitets- och insiktsrapporten och den transformerade datamängden.
  9. Ladda upp data till ett Studio Lab-projekt för modellträning.

Följande diagram illustrerar detta arbetsflöde.

Förutsättningar

För att använda Data Wrangler och Studio Lab behöver du följande förutsättningar:

Bygg ett dataförberedande arbetsflöde med Data Wrangler

Gör så här för att komma igång:

  1. Ladda upp din datauppsättning till Amazon S3.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  2. På SageMaker-konsolen, under Kontrollpanel välj i navigeringsfönstret Studio.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  3. Starta app menyn bredvid din användarprofil, välj Studio.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
    Efter att du lyckats logga in på Studio bör du se en utvecklingsmiljö som följande skärmdump.
  4. För att skapa ett nytt Data Wrangler-arbetsflöde, på Fil meny, välj NyaOch välj sedan Data Wrangler Flow.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
    Det första steget i Data Wrangler är att importera din data. Du kan importera data från flera datakällor, som Amazon S3, Amazonas Athena, Amazon RedShift, Snöflingaoch Databrickor. I det här exemplet använder vi Amazon S3. Om du bara vill se hur Data Wrangler fungerar kan du alltid välja Använd exempeldatauppsättning.
  5. Välja Importera datum.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  6. Välja Amazon S3.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  7. Välj den datauppsättning du laddade upp och välj Importera.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
    Data Wrangler låter dig antingen importera hela datamängden eller ta prov på en del av den.
  8. För att snabbt få insikter om datamängden, välj Först K för provtagning och ange 50000 XNUMX för Provstorlek.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Förstå datakvalitet och få insikter

Låt oss använda rapporten Datakvalitet och insikter för att utföra en analys av data som vi importerade till Data Wrangler. Du kan använda rapporten för att förstå vilka steg du behöver vidta för att rensa och bearbeta dina data. Den här rapporten ger information som antalet saknade värden och antalet extremvärden. Om du har problem med din data, såsom målläckage eller obalans, kan insiktsrapporten uppmärksamma dig på dessa problem.

  1. Välj plustecknet bredvid Datatyper Och välj Få datainsikter.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  2. För Analystypväljer Rapport för datakvalitet och insikter.
  3. För Målkolumnväljer Churn?.
  4. För ProblemtypVälj Klassificering.
  5. Välja Skapa.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Du får en detaljerad rapport som du kan granska och ladda ner. Rapporten innehåller flera avsnitt som snabbmodell, funktionssammanfattning, funktionskorrelation och datainsikter. Följande skärmdumpar ger exempel på dessa avsnitt.

Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Iakttagelser från rapporten

Från rapporten kan vi göra följande observationer:

  • Inga dubbletter av rader hittades.
  • Smakämnen State kolumnen verkar vara ganska jämnt fördelad, så uppgifterna är balanserade när det gäller statens befolkning.
  • Smakämnen Phone kolumnen presenterar för många unika värden för att vara till någon praktisk användning. För många unika värden gör att den här kolumnen inte är användbar. Vi kan släppa Phone kolumn i vår förvandling.
  • Baserat på avsnittet om funktionskorrelation i rapporten, Mins och Charge är starkt korrelerade. Vi kan ta bort en av dem.

Transformation

Baserat på våra observationer vill vi göra följande transformationer:

  • Ta bort Phone kolumn eftersom den har många unika värden.
  • Vi ser också flera funktioner som i huvudsak har 100% korrelation med varandra. Att inkludera dessa funktionspar i vissa ML-algoritmer kan skapa oönskade problem, medan det i andra bara kommer att introducera mindre redundans och bias. Låt oss ta bort en funktion från vart och ett av de starkt korrelerade paren: Day Charge från paret med Day Mins, Night Charge från paret med Night Minsoch Intl Charge från paret med Intl Mins.
  • Konvertera True or False i Churn kolumnen ska vara ett numeriskt värde på 1 eller 0.
  1. Gå tillbaka till dataflödet och välj plustecknet bredvid Datatyper.
  2. Välja Lägg till transform.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  3. Välja Lägg till steg.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  4. Du kan söka efter transformationen du letar efter (i vårt fall hantera kolumner).
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  5. Välja Hantera kolumner.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  6. För Förvandla¸ välja Släpp kolumn.
  7. För Kolumner att släppa¸ välja Phone, Day Charge, Eve Charge, Night Chargeoch Intl Charge.
  8. Välja FörhandsvisningOch välj sedan Uppdatering.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
    Låt oss lägga till ytterligare en transformation för att utföra en kategorisk kodning på Churn? kolonn.
  9. Välj omvandlingen Koda kategoriskt.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  10. För Förvandlaväljer Ordinär kodning.
  11. För Inmatningskolumner, Välj den Churn? kolonn.
  12. För Ogiltig hanteringsstrategiväljer Ersätt med NaN.
  13. Välja FörhandsvisningOch välj sedan Uppdatering.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Nu True och False konverteras till 1 respektive 0.

Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Nu när vi har en bra förståelse för data och har förberett och transformerat data för modellbyggande, kan vi flytta data till Studio Lab för modellbyggande.

Ladda upp data till Studio Lab

Utför följande steg för att börja använda data i Studio Lab:

  1. Välja Exportera data till export till en S3 hink.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  2. För Amazon S3 plats, ange din S3-sökväg.
  3. Ange filtypen.
  4. Välja Exportera data.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  5. När du har exporterat data kan du ladda ner data från S3-hinken till din lokala dator.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  6. Nu kan du gå till Studio Lab och ladda upp filen till Studio Lab.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
    Alternativt kan du ansluta till Amazon S3 från Studio Lab. För mer information, se Använd externa resurser i Amazon SageMaker Studio Lab.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  7. Låt oss installera SageMaker och importera pandor.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  8. Importera alla bibliotek efter behov.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  9. Nu kan vi läsa CSV-filen.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  10. Låt oss skriva ut churn för att bekräfta att datamängden är korrekt.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Nu när du har den bearbetade datamängden i Studio Lab kan du utföra ytterligare steg som krävs för att bygga modell.

Data Wrangler-priser

Du kan utföra alla steg i detta inlägg för EDA eller dataförberedelse inom Data Wrangler och ersätta för det enkla exemplet, jobb och lagringspriser baserat på användning eller förbrukning. Inga förskotts- eller licensavgifter krävs.

Städa upp

När du inte använder Data Wrangler är det viktigt att stänga av instansen som den körs på för att undvika extra avgifter. För att undvika att förlora arbete, spara ditt dataflöde innan du stänger av Data Wrangler.

  1. För att spara ditt dataflöde i Studio, välj FilOch välj sedan Spara data Wrangler Flow.
    Data Wrangler sparar automatiskt ditt dataflöde var 60:e sekund.
  2. För att stänga av Data Wrangler-instansen, i Studio, välj Löpande instanser och kärnor.
  3. Enligt KÖR APPAR, välj avstängningsikonen bredvid sagemaker-data-wrangler-1.0 app.
  4. Välja Stäng av allt att bekräfta.
    Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Data Wrangler körs på en ml.m5.4xlarge instans. Denna instans försvinner från KÖRINSTANSER när du stänger av Data Wrangler-appen.

När du har stängt av Data Wrangler-appen måste den startas om nästa gång du öppnar en Data Wrangler-flödesfil. Detta kan ta några minuter.

Slutsats

I det här inlägget såg vi hur du kan få insikter i din datauppsättning, utföra utforskande dataanalys, förbereda och transformera data med Data Wrangler inom Studio, och exportera den transformerade och förberedda datan till Studio Lab och utföra modellbyggande och andra steg.

Med SageMaker Data Wrangler kan du förenkla processen för dataförberedelse och funktionsutveckling och slutföra varje steg i dataförberedelsens arbetsflöde, inklusive dataurval, rensning, utforskning och visualisering från ett enda visuellt gränssnitt.


Om författarna

Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Rajakumar Sampathkumar är en Principal Technical Account Manager på AWS, som ger kunder vägledning om affärsteknologisk anpassning och stödjer återuppfinnandet av deras molndriftsmodeller och -processer. Han brinner för molnet och maskininlärning. Raj är också en maskininlärningsspecialist och arbetar med AWS-kunder för att designa, distribuera och hantera deras AWS-arbetsbelastningar och -arkitekturer.

Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.Meenakshisundaram Thandavarayan är en senior AI/ML-specialist med en passion för att designa, skapa och främja människocentrerade data- och analysupplevelser. Han stödjer AWS Strategic-kunder i deras transformation mot datadriven organisation.

Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.James Wu är Senior AI/ML Specialist Solution Architect på AWS. hjälpa kunder att designa och bygga AI/ML-lösningar. James arbete täcker ett brett spektrum av ML-användningsfall, med ett primärt intresse för datorseende, djupinlärning och skalning av ML över hela företaget. Innan han började på AWS var James arkitekt, utvecklare och teknikledare i över 10 år, inklusive 6 år inom ingenjörsbranschen och 4 år inom marknadsförings- och reklambranschen.

Tidsstämpel:

Mer från AWS maskininlärning