Skapa slumpmässiga och stratifierade dataprover med Amazon SageMaker Data Wrangler

Återutgiven av Platon

anhängare: 0

I det här inlägget går vi igenom två provtagningstekniker Amazon SageMaker Data Wrangler så att du snabbt kan skapa bearbetningsarbetsflöden för dina data. Vi täcker både slumpmässigt urval och stratifierade urvalstekniker för att hjälpa dig att ta ett urval av dina data baserat på dina specifika krav.

Data Wrangler minskar tiden det tar att aggregera och förbereda data för maskininlärning (ML) från veckor till minuter. Du kan förenkla processen för dataförberedelse och funktionsutveckling och slutföra varje steg i dataförberedelsens arbetsflöde, inklusive dataurval, rensning, utforskning och visualisering, från ett enda visuellt gränssnitt. Med Data Wranglers datavalsverktyg kan du välja den data du vill ha från olika datakällor och importera den med ett enda klick. Data Wrangler innehåller över 300 inbyggda datatransformationer så att du snabbt kan normalisera, transformera och kombinera funktioner utan att behöva skriva någon kod. Med Data Wranglers visualiseringsmallar kan du snabbt förhandsgranska och inspektera att dessa transformationer är slutförda som du tänkt dig genom att visa dem i Amazon SageMaker Studio, den första helt integrerade utvecklingsmiljön (IDE) för ML. Efter att din data är förberedd kan du bygga helt automatiserade ML-arbetsflöden med Amazon SageMaker-rörledningar och spara dem för återanvändning i Amazon SageMaker Feature Store.

Vad är provtagning och hur kan det hjälpa

I statistisk analys är den totala uppsättningen observationer känd som befolkning. När man arbetar med data är det ofta inte beräkningsmässigt genomförbart att mäta varje observation från befolkningen. Statistiskt urval är en procedur som låter dig förstå dina data genom att välja delmängder från populationen.

Sampling erbjuder en praktisk lösning som offrar viss noggrannhet för praktiskhetens och enkelhetens skull. För att säkerställa att ditt urval är en bra representation av den totala populationen kan du använda urvalsstrategier. Data Wrangler stöder två av de vanligaste strategierna: slumpmässig provtagning och stratifierad sampling.

Slumpmässigt urval

Om du har en stor datamängd kan det vara tidskrävande att experimentera med den datamängden. Data Wrangler tillhandahåller slumpmässigt urval så att du effektivt kan bearbeta och visualisera dina data. Till exempel kanske du vill beräkna det genomsnittliga antalet köp för en kund inom en tidsram, eller så kanske du vill beräkna avgångshastigheten för en abonnent. Du kan använda ett slumpmässigt urval för att visualisera approximationer till dessa mätvärden.

Ett slumpmässigt urval från din datauppsättning väljs så att varje element har lika stor sannolikhet att väljas. Denna operation utförs på ett effektivt sätt som är lämpligt för stora datamängder, så provstorleken som returneras är ungefär den storlek som begärts, och inte nödvändigtvis lika med den begärda storleken.

Du kan använda slumpmässigt urval om du vill göra snabba ungefärliga beräkningar för att förstå din datauppsättning. När urvalsstorleken blir större kan det slumpmässiga urvalet bättre approximera hela datamängden, men om du inte inkluderar alla datapunkter kanske ditt slumpmässiga urval inte inkluderar alla extremvärden och kantfall. Om du vill förbereda hela din datauppsättning interaktivt kan du även byta till en större instanstyp.

Som en allmän regel tenderar urvalsfelet vid beräkning av populationsmedelvärdet med ett slumpmässigt urval till 0 när urvalet blir större. När urvalsstorleken ökar, minskar felet som inversen av kvadratroten av urvalsstorleken. Takeaway är, ju större urval, desto bättre approximation.

Stratifierad sampling

I vissa fall kan din befolkning delas in i skikt, eller ömsesidigt uteslutande segment, som geografisk plats för adresser, publiceringsår för låtar eller skatteklasser för inkomster. Slumpmässigt urval är den mest populära urvalstekniken, men om vissa strata är ovanliga i din population kan du använda stratifierat urval i Data Wrangler för att säkerställa att varje strata är proportionellt representerat i ditt urval. Detta kan vara användbart för att minska provtagningsfelen och för att säkerställa att du fångar spetsfall under experimentet.

I den verkliga världen är bedrägliga kreditkortstransaktioner sällsynta händelser och utgör vanligtvis mindre än 1 % av dina data. Om vi skulle ta ett slumpmässigt urval är det inte ovanligt att urvalet innehåller mycket få eller inga bedrägliga transaktioner. Som ett resultat, när vi tränar en modell, skulle vi ha för få bedrägliga exempel för att lära oss en korrekt modell. Vi kan använda stratifierad sampling för att säkerställa att vi har en proportionell representation av bedrägliga transaktioner.

Vid stratifierat urval är storleken på varje strata i urvalet proportionell mot storleken på strata i populationen. Detta fungerar genom att dela upp dina data i strata baserat på din angivna kolumn, välja slumpmässiga urval från varje strata med rätt andel och kombinera dessa stickprov till ett stratifierat urval av populationen.

Stratifierad sampling är en användbar teknik när du vill förstå hur olika grupper i din data jämförs med varandra, och du vill säkerställa att du har lämplig representation från varje grupp.

Slumpmässigt urval vid import från Amazon S3

I det här avsnittet använder vi slumpmässigt urval med en datauppsättning som består av både bedrägliga och icke-bedrägliga händelser från vårt bedrägeriupptäcktssystem. Du kan ladda ner datauppsättningen att följa tillsammans med detta inlägg (CC 4.0 internationell attributionslicens).

När detta skrivs kan du importera datamängder från Amazon enkel lagringstjänst (Amazon S3), Amazonas Athena, Amazon RedShift, och Snowflake. Vår datauppsättning är mycket stor och innehåller 1 miljon rader. I det här fallet vill vi ta prov på 1,0000 3 rader vid import från Amazon SXNUMX för lite interaktiva experiment inom Data Wrangler.

Öppna SageMaker Studio och skapa ett nytt Data Wrangler-flöde.
Enligt Importera datumväljer Amazon S3.
Välj den datauppsättning som ska importeras.
I Detaljer rutan, ange ditt datauppsättningsnamn och filtyp.
För provtagningväljer Slumpmässig.
För Provstorlek, stiga på 10000.
Välja Importera för att ladda datauppsättningen i Data Wrangler.

Du kan visualisera två distinkta steg på dataflödessidan i Data Wrangler. Det första steget indikerar laddningen av provdatauppsättningen baserat på den samplingsstrategi du definierade. Efter att data har laddats utför Data Wrangler automatisk identifiering av datatyperna för var och en av kolumnerna i datamängden. Detta steg läggs till som standard för alla datauppsättningar.

Du kan nu granska den slumpmässiga urvalsdatan i Data Wrangler genom att lägga till en analys.

Välj plustecknet bredvid Datatyper Och välj Analys.
För Analystyp¸ välja Scatter tomt.
Välja feat_1 och feat_2 som för X-axel och Y-axeln, Respektive.
För Färg efterväljer är_bedrägeri.

När du är bekväm med datamängden, fortsätt att göra ytterligare datatransformationer enligt dina affärskrav för att förbereda din data för ML.

I följande skärmdump kan vi observera de bedrägliga (mörkblå) och icke-bedrägliga (ljusblå) transaktionerna i vår analys.

I nästa avsnitt diskuterar vi användningen av stratifierad sampling för att säkerställa att de bedrägliga fallen väljs proportionellt.

Stratifierad provtagning med en transformation

Data Wrangler låter dig sampla vid import, såväl som sampling via en transformation. I det här avsnittet diskuterar vi användning av stratifierad sampling via en transformation efter att du har importerat din datauppsättning till Data Wrangler.

För att initiera provtagning, på Data flöde fliken, välj plustecknet bredvid den importerade datamängden och välj Lägg till Transform.

När detta skrivs ger Data Wrangler mer än 300 inbyggda transformationer. Utöver de inbyggda transformationerna kan du skriva dina egna anpassade transformeringar i Pandas eller PySpark.

Från Lägg till transform lista, välj provtagning.

Du kan nu använda tre distinkta urvalsstrategier: limit, slumpmässig och stratifierad.

För Testmetodväljer stratifierat.
Använd is_fraud kolumnen som stratifieringskolumnen.
Välja Förhandsvisning för att förhandsgranska omvandlingen och välj sedan Lägg till för att lägga till denna transformation som ett steg till ditt transformationsrecept.

Ditt dataflöde återspeglar nu det tillagda samplingssteget.

Nu kan vi granska slumpmässigt urvalsdata genom att lägga till en analys.

Välj plustecknet och välj Analys.
För Analystyp¸ välja Histogram.
Välja är_bedrägeri för både X-axel och Färg efter.
Välja Förhandsvisning.

I följande skärmdump kan vi observera uppdelningen av bedrägliga (mörkblå) och icke-bedrägliga (ljusblå) fall valda via stratifierad sampling i de korrekta proportionerna av 20 % bedrägliga och 80 % icke-bedrägliga.

Slutsats

Det är viktigt att sampla data korrekt när du arbetar med extremt stora datamängder och att välja rätt samplingsstrategi för att möta dina affärskrav. Effektiviteten av ditt urval beror på olika faktorer, inklusive affärsresultat, datatillgänglighet och distribution. I det här inlägget tog vi upp hur du använder Data Wrangler och dess inbyggda samplingsstrategier för att förbereda din data.

Du kan börja använda denna funktion idag i alla regioner där SageMaker Studio är tillgänglig. För att komma igång, besök Förbered ML-data med Amazon SageMaker Data Wrangler.

Tack

Författarna vill tacka Jonathan Chung (tillämpad forskare) för hans recension och värdefull feedback på denna artikel.

Om författarna

Ben Harris är en mjukvaruingenjör med erfarenhet av att designa, distribuera och underhålla skalbara datapipelines och maskininlärningslösningar över en mängd olika domäner.

Vishaal Kapoor är senior tillämpad forskare med AWS AI. Han brinner för att hjälpa kunder att förstå deras data i Data Wrangler. På fritiden cyklar han mountainbike, åker snowboard och umgås med sin familj.

Meenakshisundaram Thandavarayan är senior AI/ML-specialist med AWS. Han hjälper Hi-Tech strategiska konton på deras AI- och ML-resa. Han brinner mycket för datadriven AI.

Ajai Sharma är en huvudproduktchef för Amazon SageMaker där han fokuserar på Data Wrangler, ett visuellt dataförberedande verktyg för datavetare. Före AWS var Ajai en datavetenskapsexpert på McKinsey and Company, där han ledde ML-fokuserade engagemang för ledande finans- och försäkringsföretag över hela världen. Ajai brinner för datavetenskap och älskar att utforska de senaste algoritmerna och maskininlärningsteknikerna.

Tidsstämpel: 26 april 2022

Tidsstämpel: December 1, 2022

Skapa slumpmässiga och stratifierade urval av data med Amazon SageMaker Data Wrangler

Återutgiven av Platon

Vad är provtagning och hur kan det hjälpa

Slumpmässigt urval

Stratifierad sampling

Slumpmässigt urval vid import från Amazon S3

Stratifierad provtagning med en transformation

Slutsats

Tack

Om författarna

Mer från AWS maskininlärning

Accelerera flerspråkiga arbetsflöden med en anpassningsbar översättningslösning byggd med Amazon Translate

Hur BigBasket förbättrade AI-aktiverad utcheckning i sina fysiska butiker med Amazon SageMaker | Amazon webbtjänster

Mätvärden för att utvärdera en identitetsverifieringslösning

Lyft dina självbetjäningsassistenter med nya generativa AI-funktioner i Amazon Lex | Amazon webbtjänster

Utforska Amazon SageMaker Data Wrangler-funktioner med exempeldatauppsättningar

Läs webbsidor och markera innehåll med Amazon Polly

Skapa en batchrekommendationspipeline med Amazon Personalize utan kod

Använd dina Amazon SageMaker Studio-anteckningsböcker som schemalagda anteckningsboksjobb

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto