Lag tilfeldige og lagdelte dataprøver med Amazon SageMaker Data Wrangler

Publisert av Platon

Følgere: 0

I dette innlegget leder vi deg gjennom to prøvetakingsteknikker i Amazon SageMaker Data Wrangler slik at du raskt kan lage behandlingsarbeidsflyter for dataene dine. Vi dekker både stikkprøver og stratifiserte prøvetakingsteknikker for å hjelpe deg med å prøve dataene dine basert på dine spesifikke krav.

Data Wrangler reduserer tiden det tar å samle og forberede data for maskinlæring (ML) fra uker til minutter. Du kan forenkle prosessen med dataforberedelse og funksjonsutvikling, og fullføre hvert trinn i dataforberedelsesarbeidsflyten, inkludert datavalg, rensing, utforskning og visualisering, fra ett enkelt visuelt grensesnitt. Med Data Wranglers datavalgverktøy kan du velge dataene du vil ha fra ulike datakilder og importere dem med et enkelt klikk. Data Wrangler inneholder over 300 innebygde datatransformasjoner slik at du raskt kan normalisere, transformere og kombinere funksjoner uten å måtte skrive noen kode. Med Data Wranglers visualiseringsmaler kan du raskt forhåndsvise og inspisere at disse transformasjonene er fullført slik du hadde tenkt ved å se dem i Amazon SageMaker Studio, det første fullt integrerte utviklingsmiljøet (IDE) for ML. Etter at dataene dine er klargjort, kan du bygge helautomatiserte ML-arbeidsflyter med Amazon SageMaker-rørledninger og lagre dem for gjenbruk i Amazon SageMaker Feature Store.

Hva er prøvetaking og hvordan kan det hjelpe

I statistisk analyse er det totale settet med observasjoner kjent som befolkningen. Når du arbeider med data, er det ofte ikke beregningsmessig gjennomførbart å måle alle observasjoner fra befolkningen. Statistisk utvalg er en prosedyre som lar deg forstå dataene dine ved å velge undergrupper fra populasjonen.

Sampling tilbyr en praktisk løsning som ofrer en viss nøyaktighet av hensyn til praktisk og enkelt. For å sikre at utvalget ditt er en god representasjon av den totale populasjonen, kan du bruke prøvetakingsstrategier. Data Wrangler støtter to av de vanligste strategiene: tilfeldig prøvetaking og stratifisert prøvetaking.

Tilfeldig prøvetaking

Hvis du har et stort datasett, kan eksperimentering med det datasettet være tidkrevende. Data Wrangler gir tilfeldig prøvetaking slik at du effektivt kan behandle og visualisere dataene dine. Det kan for eksempel være lurt å beregne gjennomsnittlig antall kjøp for en kunde innenfor en tidsramme, eller det kan være lurt å beregne avgangshastigheten til en abonnent. Du kan bruke et tilfeldig utvalg for å visualisere tilnærminger til disse beregningene.

Et tilfeldig utvalg fra datasettet ditt er valgt slik at hvert element har like stor sannsynlighet for å bli valgt. Denne operasjonen utføres på en effektiv måte som passer for store datasett, så prøvestørrelsen som returneres er omtrentlig størrelsen som er forespurt, og ikke nødvendigvis lik størrelsen som forespørres.

Du kan bruke tilfeldig prøvetaking hvis du vil gjøre raske omtrentlige beregninger for å forstå datasettet ditt. Etter hvert som prøvestørrelsen blir større, kan det tilfeldige utvalget bedre tilnærme hele datasettet, men med mindre du inkluderer alle datapunkter, kan det hende at det tilfeldige utvalget ikke inkluderer alle uteliggere og kanttilfeller. Hvis du ønsker å forberede hele datasettet interaktivt, kan du også bytte til en større forekomsttype.

Som en generell regel har prøvetakingsfeilen ved å beregne populasjonsgjennomsnittet ved bruk av et tilfeldig utvalg en tendens til 0 når utvalget blir større. Når prøvestørrelsen øker, avtar feilen som den inverse av kvadratroten av prøvestørrelsen. Takeaway er, jo større utvalg, jo bedre tilnærming.

Stratifisert prøvetaking

I noen tilfeller kan populasjonen din deles inn i strata eller gjensidig utelukkende intervaller, for eksempel geografisk plassering for adresser, publiseringsår for sanger eller skatteklasser for inntekter. Tilfeldig prøvetaking er den mest populære prøvetakingsteknikken, men hvis noen strata er uvanlige i populasjonen din, kan du bruke stratifisert prøvetaking i Data Wrangler for å sikre at hvert strata er proporsjonalt representert i utvalget. Dette kan være nyttig for å redusere prøvetakingsfeil og for å sikre at du fanger opp kantsaker under eksperimenteringen.

I den virkelige verden er falske kredittkorttransaksjoner sjeldne hendelser og utgjør vanligvis mindre enn 1 % av dataene dine. Hvis vi skulle prøve tilfeldig, er det ikke uvanlig at prøven inneholder svært få eller ingen uredelige transaksjoner. Som et resultat, når vi trener en modell, ville vi ha for få uredelige eksempler til å lære en nøyaktig modell. Vi kan bruke stratifisert sampling for å sikre at vi har proporsjonal representasjon av uredelige transaksjoner.

Ved stratifisert prøvetaking er størrelsen på hvert strata i utvalget proporsjonal med størrelsen på strataene i populasjonen. Dette fungerer ved å dele inn dataene dine i strata basert på den angitte kolonnen, velge tilfeldige utvalg fra hvert strata med riktig andel, og kombinere disse prøvene til et stratifisert utvalg av populasjonen.

Stratifisert sampling er en nyttig teknikk når du vil forstå hvordan ulike grupper i dataene dine sammenlignes med hverandre, og du vil sikre at du har passende representasjon fra hver gruppe.

Tilfeldig prøvetaking ved import fra Amazon S3

I denne delen bruker vi tilfeldig prøvetaking med et datasett som består av både uredelige og ikke-svindelhendelser fra svindeloppdagelsessystemet vårt. Du kan nedlasting datasettet som skal følges med dette innlegget (CC 4.0 internasjonal attribusjonslisens).

I skrivende stund kan du importere datasett fra Amazon enkel lagringstjeneste (Amazon S3), Amazonas Athena, Amazon RedShift, og Snowflake. Datasettet vårt er veldig stort, og inneholder 1 million rader. I dette tilfellet ønsker vi å prøve 1,0000 rader ved import fra Amazon S3 for litt interaktiv eksperimentering i Data Wrangler.

Åpne SageMaker Studio og lag en ny Data Wrangler-flyt.
Under Import datoer, velg Amazon S3.
Velg datasettet som skal importeres.
på Detaljer oppgi datasettnavnet og filtypen.
Til sampling, velg Tilfeldig.
Til Prøvestørrelse, Tast inn 10000.
Velg Import for å laste datasettet inn i Data Wrangler.

Du kan visualisere to forskjellige trinn på dataflytsiden i Data Wrangler. Det første trinnet indikerer lasting av prøvedatasettet basert på prøvetakingsstrategien du definerte. Etter at dataene er lastet inn, utfører Data Wrangler automatisk gjenkjenning av datatypene for hver av kolonnene i datasettet. Dette trinnet legges til som standard for alle datasett.

Du kan nå se gjennom de tilfeldige utvalgte dataene i Data Wrangler ved å legge til en analyse.

Velg plusstegnet ved siden av Datatyper Og velg Analyse.
Til Analysetype¸ velg Spredningsplott.
Velg feat_1 og feat_2 som for X-aksen og Y-aksenHhv.
Til Farge etter, velg er_svindel.

Når du er komfortabel med datasettet, fortsett med å gjøre ytterligere datatransformasjoner i henhold til forretningskravene dine for å forberede dataene dine for ML.

I det følgende skjermbildet kan vi observere de uredelige (mørkeblå) og ikke-svindelige (lyseblå) transaksjonene i vår analyse.

I neste avsnitt diskuterer vi bruk av stratifisert prøvetaking for å sikre at de uredelige tilfellene velges proporsjonalt.

Stratifisert prøvetaking med en transformasjon

Data Wrangler lar deg prøve ved import, samt prøvetaking via en transformasjon. I denne delen diskuterer vi bruk av stratifisert sampling via en transformasjon etter at du har importert datasettet til Data Wrangler.

For å starte prøvetaking, på Dataflyt fanen, velg plusstegnet ved siden av det importerte datasettet og velg Legg til Transform.

I skrivende stund gir Data Wrangler mer enn 300 innebygde transformasjoner. I tillegg til de innebygde transformasjonene kan du skrive dine egne tilpassede transformasjoner i Pandas eller PySpark.

Fra Legg til transform liste, velg sampling.

Du kan nå bruke tre forskjellige samplingsstrategier: limit, random og stratified.

Til Prøvetakingsmetode, velg Stratifisert.
Bruke is_fraud kolonne som stratifiser kolonnen.
Velg Forhåndsvisning for å forhåndsvise transformasjonen, og velg deretter Legg til for å legge til denne transformasjonen som et trinn i transformasjonsoppskriften din.

Dataflyten din gjenspeiler nå det ekstra prøvetakingstrinnet.

Nå kan vi gjennomgå de tilfeldige utvalgte dataene ved å legge til en analyse.

Velg plusstegnet og velg Analyse.
Til Analysetype¸ velg histogram.
Velg er_svindel for både X-aksen og Farge etter.
Velg Forhåndsvisning.

I det følgende skjermbildet kan vi observere fordelingen av uredelige (mørkeblå) og ikke-svindelaktige (lyseblå) saker valgt via stratifisert prøvetaking i de riktige proporsjonene på 20 % uredelig og 80 % ikke-svindel.

konklusjonen

Det er viktig å prøve data på riktig måte når du arbeider med ekstremt store datasett og velge riktig prøvetakingsstrategi for å møte dine forretningskrav. Effektiviteten til samplingen din er avhengig av ulike faktorer, inkludert forretningsresultat, datatilgjengelighet og distribusjon. I dette innlegget dekket vi hvordan du bruker Data Wrangler og dens innebygde samplingsstrategier for å forberede dataene dine.

Du kan begynne å bruke denne funksjonen i dag i alle regioner der SageMaker Studio er tilgjengelig. For å komme i gang, besøk Forbered ML-data med Amazon SageMaker Data Wrangler.

Takk til

Forfatterne vil gjerne takke Jonathan Chung (Applied Scientist) for hans anmeldelse og verdifulle tilbakemeldinger på denne artikkelen.

Om forfatterne

Ben Harris er en programvareingeniør med erfaring med å designe, distribuere og vedlikeholde skalerbare datapipelines og maskinlæringsløsninger på tvers av en rekke domener.

Vishaal Kapoor er en Senior Applied Scientist med AWS AI. Han brenner for å hjelpe kundene med å forstå dataene deres i Data Wrangler. På fritiden sykler han terrengsykler, kjører snowboard og tilbringer tid med familien.

Meenakshisundaram Thandavarayan er en senior AI/ML-spesialist med AWS. Han hjelper Hi-Tech strategiske kontoer på deres AI- og ML-reise. Han er veldig lidenskapelig opptatt av datadrevet AI.

Ajai Sharma er hovedproduktsjef for Amazon SageMaker hvor han fokuserer på Data Wrangler, et visuelt dataforberedelsesverktøy for dataforskere. Før AWS var Ajai en datavitenskapsekspert hos McKinsey and Company, hvor han ledet ML-fokuserte engasjementer for ledende finans- og forsikringsselskaper over hele verden. Ajai er lidenskapelig opptatt av datavitenskap og elsker å utforske de nyeste algoritmene og maskinlæringsteknikkene.

Tidstempel: April 26, 2022

Tidstempel: Februar 6, 2024

Lag tilfeldige og stratifiserte dataprøver med Amazon SageMaker Data Wrangler

Publisert av Platon

Hva er prøvetaking og hvordan kan det hjelpe

Tilfeldig prøvetaking

Stratifisert prøvetaking

Tilfeldig prøvetaking ved import fra Amazon S3

Stratifisert prøvetaking med en transformasjon

konklusjonen

Takk til

Om forfatterne

Mer fra AWS maskinlæring

Finjuster Whisper-modeller på Amazon SageMaker med LoRA | Amazon Web Services

Søk intelligent i Adobe Experience Manager-innhold ved hjelp av Amazon Kendra | Amazon Web Services

Lag syntetiske data for datasynsrørledninger på AWS

Operasjonaliser Amazon SageMaker Studio-notatbøkene dine som planlagte notatbokjobber

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn