Opret tilfældige og stratificerede prøver af data med Amazon SageMaker Data Wrangler

Genudgivet af Platon

Abonnenter: 0

I dette indlæg guider vi dig gennem to prøvetagningsteknikker i Amazon SageMaker Data Wrangler så du hurtigt kan oprette behandlingsarbejdsgange for dine data. Vi dækker både tilfældige stikprøver og stratificerede prøveudtagningsteknikker for at hjælpe dig med at udtage dine data baseret på dine specifikke krav.

Data Wrangler reducerer den tid, det tager at samle og forberede data til maskinlæring (ML) fra uger til minutter. Du kan forenkle processen med dataforberedelse og funktionsudvikling og fuldføre hvert trin i dataforberedelsesworkflowet, inklusive datavalg, rensning, udforskning og visualisering, fra en enkelt visuel grænseflade. Med Data Wranglers datavalgsværktøj kan du vælge de data du ønsker fra forskellige datakilder og importere dem med et enkelt klik. Data Wrangler indeholder over 300 indbyggede datatransformationer, så du hurtigt kan normalisere, transformere og kombinere funktioner uden at skulle skrive nogen kode. Med Data Wranglers visualiseringsskabeloner kan du hurtigt få vist og inspicere, at disse transformationer er gennemført, som du havde til hensigt, ved at se dem i Amazon SageMaker Studio, det første fuldt integrerede udviklingsmiljø (IDE) til ML. Når dine data er forberedt, kan du bygge fuldautomatiske ML-arbejdsgange med Amazon SageMaker Pipelines og gem dem til genbrug i Amazon SageMaker Feature Store.

Hvad er prøveudtagning, og hvordan kan det hjælpe

I statistisk analyse er det samlede sæt af observationer kendt som befolkning. Når man arbejder med data, er det ofte ikke beregningsmæssigt muligt at måle hver eneste observation fra befolkningen. Statistisk stikprøve er en procedure, der giver dig mulighed for at forstå dine data ved at vælge delmængder fra populationen.

Sampling tilbyder en praktisk løsning, der ofrer en vis nøjagtighed af hensyn til praktisk og lethed. For at sikre, at din stikprøve er en god repræsentation af den samlede population, kan du bruge stikprøvestrategier. Data Wrangler understøtter to af de mest almindelige strategier: tilfældig prøveudtagning , stratificeret prøveudtagning.

Tilfældig prøveudtagning

Hvis du har et stort datasæt, kan det være tidskrævende at eksperimentere med det datasæt. Data Wrangler giver tilfældige stikprøver, så du effektivt kan behandle og visualisere dine data. For eksempel vil du måske beregne det gennemsnitlige antal køb for en kunde inden for en tidsramme, eller du vil måske beregne en abonnents afslidningsrate. Du kan bruge en tilfældig stikprøve til at visualisere tilnærmelser til disse metrics.

En tilfældig stikprøve fra dit datasæt er valgt, så hvert element har lige stor sandsynlighed for at blive udvalgt. Denne operation udføres på en effektiv måde, der er egnet til store datasæt, så den returnerede prøvestørrelse er omtrent den størrelse, der anmodes om, og ikke nødvendigvis lig med den ønskede størrelse.

Du kan bruge tilfældig stikprøve, hvis du vil lave hurtige omtrentlige beregninger for at forstå dit datasæt. Efterhånden som stikprøvestørrelsen bliver større, kan den tilfældige stikprøve bedre tilnærme hele datasættet, men medmindre du inkluderer alle datapunkter, inkluderer din tilfældige stikprøve muligvis ikke alle udligninger og kanttilfælde. Hvis du vil forberede hele dit datasæt interaktivt, kan du også skifte til en større instanstype.

Som en generel regel har stikprøvefejlen ved beregning af populationsgennemsnittet ved hjælp af en tilfældig stikprøve en tendens til 0, efterhånden som stikprøven bliver større. Efterhånden som stikprøvestørrelsen øges, falder fejlen som det omvendte af kvadratroden af prøvestørrelsen. Takeaway-væsenet, jo større prøven er, jo bedre tilnærmelse.

Stratificeret prøveudtagning

I nogle tilfælde kan din befolkning opdeles i strata eller gensidigt udelukkende buckets, såsom geografisk placering for adresser, udgivelsesår for sange eller skatteparenteser for indkomster. Tilfældig stikprøve er den mest populære prøveudtagningsteknik, men hvis nogle strata er ualmindelige i din population, kan du bruge stratificeret prøveudtagning i Data Wrangler for at sikre, at hvert strata er proportionalt repræsenteret i din prøve. Dette kan være nyttigt for at reducere stikprøvefejl og for at sikre, at du fanger kantsager under dit forsøg.

I den virkelige verden er svigagtige kreditkorttransaktioner sjældne begivenheder og udgør typisk mindre end 1 % af dine data. Hvis vi prøver tilfældigt, er det ikke ualmindeligt, at prøven indeholder meget få eller ingen svigagtige transaktioner. Som et resultat, når vi træner en model, ville vi have for få svigagtige eksempler til at lære en nøjagtig model. Vi kan bruge stratificeret stikprøve til at sikre, at vi har proportional repræsentation af svigagtige transaktioner.

Ved stratificeret prøveudtagning er størrelsen af hvert strata i stikprøven proportional med størrelsen af strata i populationen. Dette fungerer ved at opdele dine data i strata baseret på din specificerede kolonne, vælge tilfældige stikprøver fra hvert strata med den korrekte andel og kombinere disse prøver til en stratificeret prøve af populationen.

Stratificeret sampling er en nyttig teknik, når du vil forstå, hvordan forskellige grupper i dine data sammenlignes med hinanden, og du vil sikre dig, at du har en passende repræsentation fra hver gruppe.

Tilfældig prøveudtagning ved import fra Amazon S3

I dette afsnit bruger vi tilfældige stikprøver med et datasæt bestående af både svigagtige og ikke-svigagtige hændelser fra vores svindeldetektionssystem. Du kan downloade datasættet, der følger med dette indlæg (CC 4.0 international tilskrivningslicens).

I skrivende stund kan du importere datasæt fra Amazon Simple Storage Service (Amazon S3), Amazonas Athena, Amazon rødforskydning, og Snefnug. Vores datasæt er meget stort og indeholder 1 million rækker. I dette tilfælde ønsker vi at prøve 1,0000 rækker ved import fra Amazon S3 til nogle interaktive eksperimenter i Data Wrangler.

Åbn SageMaker Studio og opret et nyt Data Wrangler-flow.
Under Import datoer, vælg Amazon S3.
Vælg det datasæt, der skal importeres.
I Detaljer rude, angiv dit datasætnavn og filtype.
Til Sampling, vælg Tilfældig.
Til Prøvestørrelse, gå ind 10000.
Vælg Importere for at indlæse datasættet i Data Wrangler.

Du kan visualisere to forskellige trin på dataflowsiden i Data Wrangler. Det første trin angiver indlæsningen af prøvedatasættet baseret på den prøveudtagningsstrategi, du har defineret. Efter dataene er indlæst, udfører Data Wrangler automatisk registrering af datatyperne for hver af kolonnerne i datasættet. Dette trin tilføjes som standard for alle datasæt.

Du kan nu gennemgå de tilfældige udtagne data i Data Wrangler ved at tilføje en analyse.

Vælg plustegnet ved siden af Datatyper Og vælg Analyse.
Til Analyse type¸ vælg Scatter Plot.
Vælg feat_1 , feat_2 som for X-aksen , Y-akse, henholdsvis.
Til Farve efter, vælg er_svig.

Når du er fortrolig med datasættet, skal du fortsætte med at udføre yderligere datatransformationer i henhold til dine forretningskrav for at forberede dine data til ML.

I det følgende skærmbillede kan vi observere de svigagtige (mørkeblå) og ikke-svigagtige (lyseblå) transaktioner i vores analyse.

I næste afsnit diskuterer vi brugen af stratificeret prøveudtagning for at sikre, at de svigagtige sager udvælges proportionalt.

Stratificeret prøveudtagning med en transformation

Data Wrangler giver dig mulighed for at sample ved import, såvel som sampling via en transformation. I dette afsnit diskuterer vi brugen af stratificeret sampling via en transformation, efter du har importeret dit datasæt til Data Wrangler.

For at påbegynde prøveudtagning, på Dataflow fanen, skal du vælge plustegnet ud for det importerede datasæt og vælge Tilføj Transform.

I skrivende stund leverer Data Wrangler mere end 300 indbyggede transformationer. Ud over de indbyggede transformationer kan du skrive dine egne brugerdefinerede transformationer i Pandas eller PySpark.

På hjemmesiden for oprettelse af en konto skal du indtaste postnummeret for dit service-eller faktureringsområde i feltet, der er markeret (A) på billedet ovenfor. Tilføj transformation liste, vælg Sampling.

Du kan nu bruge tre forskellige stikprøvestrategier: limit, random og stratified.

Til Prøvetagningsmetode, vælg stratificeret.
Brug is_fraud kolonne som stratificere kolonnen.
Vælg Eksempel for at få vist transformationen, og vælg derefter Tilføj for at tilføje denne transformation som et trin til din transformationsopskrift.

Dit dataflow afspejler nu det tilføjede stikprøvetrin.

Nu kan vi gennemgå de tilfældige stikprøvedata ved at tilføje en analyse.

Vælg plustegnet og vælg Analyse.
Til Analyse type¸ vælg Histogram.
Vælg er_svig for både X-aksen , Farve efter.
Vælg Eksempel.

I det følgende skærmbillede kan vi observere opdelingen af svigagtige (mørkeblå) og ikke-svigagtige (lyseblå) sager valgt via stratificeret stikprøve i de korrekte proportioner af 20 % svigagtig og 80 % ikke-svigagtig.

Konklusion

Det er vigtigt at stikprøve data korrekt, når du arbejder med ekstremt store datasæt, og at vælge den rigtige samplingstrategi for at opfylde dine forretningskrav. Effektiviteten af din sampling afhænger af forskellige faktorer, herunder forretningsresultat, datatilgængelighed og distribution. I dette indlæg dækkede vi, hvordan du bruger Data Wrangler og dets indbyggede samplingstrategier til at forberede dine data.

Du kan begynde at bruge denne funktion i dag i alle regioner, hvor SageMaker Studio er tilgængelig. For at komme i gang, besøg Forbered ML Data med Amazon SageMaker Data Wrangler.

Anerkendelser

Forfatterne vil gerne takke Jonathan Chung (Applied Scientist) for hans anmeldelse og værdifulde feedback på denne artikel.

Om forfatterne

Ben Harris er en softwareingeniør med erfaring med at designe, implementere og vedligeholde skalerbare datapipelines og maskinlæringsløsninger på tværs af en række forskellige domæner.

Vishaal Kapoor er en Senior Applied Scientist med AWS AI. Han brænder for at hjælpe kunder med at forstå deres data i Data Wrangler. I sin fritid cykler han, cykler på snowboard og bruger tid sammen med sin familie.

Meenakshisundaram Thandavarayan er senior AI/ML specialist med AWS. Han hjælper Hi-Tech strategiske konti på deres AI og ML rejse. Han er meget passioneret omkring datadrevet AI.

Ajai Sharma er hovedproduktchef for Amazon SageMaker, hvor han fokuserer på Data Wrangler, et visuelt dataforberedelsesværktøj til dataforskere. Før AWS var Ajai Data Science Expert hos McKinsey and Company, hvor han ledede ML-fokuserede engagementer for førende finans- og forsikringsfirmaer verden over. Ajai er passioneret omkring datavidenskab og elsker at udforske de nyeste algoritmer og maskinlæringsteknikker.

Tidsstempel: April 26, 2022

Tidsstempel: Februar 6, 2024

Opret tilfældige og stratificerede prøver af data med Amazon SageMaker Data Wrangler

Genudgivet af Platon

Hvad er prøveudtagning, og hvordan kan det hjælpe

Tilfældig prøveudtagning

Stratificeret prøveudtagning

Tilfældig prøveudtagning ved import fra Amazon S3

Stratificeret prøveudtagning med en transformation

Konklusion

Anerkendelser

Om forfatterne

Mere fra AWS maskinindlæring

Finjuster Whisper-modeller på Amazon SageMaker med LoRA | Amazon Web Services

Søg intelligent Adobe Experience Manager-indhold ved hjælp af Amazon Kendra | Amazon Web Services

Opret syntetiske data til computervision-pipelines på AWS

Operationaliser dine Amazon SageMaker Studio-notebooks som planlagte notebook-job

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto