Maak willekeurige en gestratificeerde voorbeelden van gegevens met Amazon SageMaker Data Wrangler

Heruitgegeven door Plato

volgers: 0

In dit bericht leiden we je door twee bemonsteringstechnieken in: Amazon SageMaker-gegevens Wrangler zodat u snel verwerkingsworkflows voor uw gegevens kunt maken. We behandelen zowel willekeurige steekproeven als gestratificeerde steekproeven om u te helpen uw gegevens te bemonsteren op basis van uw specifieke vereisten.

Data Wrangler reduceert de tijd die nodig is om gegevens te verzamelen en voor te bereiden voor machine learning (ML) van weken tot minuten. U kunt het proces van gegevensvoorbereiding en feature-engineering vereenvoudigen en elke stap van de gegevensvoorbereidingsworkflow voltooien, inclusief gegevensselectie, opschoning, verkenning en visualisatie, vanuit één enkele visuele interface. Met de dataselectietool van Data Wrangler kunt u de gewenste gegevens uit verschillende gegevensbronnen kiezen en deze met een enkele klik importeren. Data Wrangler bevat meer dan 300 ingebouwde gegevenstransformaties, zodat u snel functies kunt normaliseren, transformeren en combineren zonder dat u code hoeft te schrijven. Met de visualisatiesjablonen van Data Wrangler kunt u snel een voorbeeld bekijken en controleren of deze transformaties zijn voltooid zoals u had bedoeld door ze te bekijken in Amazon SageMaker Studio, de eerste volledig geïntegreerde ontwikkelomgeving (IDE) voor ML. Nadat uw gegevens zijn voorbereid, kunt u volledig geautomatiseerde ML-workflows bouwen met Amazon SageMaker-pijpleidingen en bewaar ze voor hergebruik in Amazon SageMaker Feature Store.

Wat is samplen en hoe kan het helpen?

In statistische analyse staat de totale reeks waarnemingen bekend als de bevolking. Bij het werken met gegevens is het vaak niet rekenkundig haalbaar om elke waarneming van de populatie te meten. statistische steekproeven is een procedure waarmee u uw gegevens kunt begrijpen door subsets uit de populatie te selecteren.

Sampling biedt een praktische oplossing die enige nauwkeurigheid opoffert omwille van de bruikbaarheid en het gemak. Om ervoor te zorgen dat uw steekproef een goede weergave is van de totale populatie, kunt u steekproefstrategieën gebruiken. Data Wrangler ondersteunt twee van de meest voorkomende strategieën: willekeurige steekproef en gestratificeerde steekproef.

Willekeurige bemonstering

Als u een grote dataset hebt, kan het experimenteren met die dataset tijdrovend zijn. Data Wrangler biedt willekeurige steekproeven, zodat u uw gegevens efficiënt kunt verwerken en visualiseren. U wilt bijvoorbeeld het gemiddelde aantal aankopen voor een klant binnen een tijdsbestek berekenen, of u wilt misschien het verloop van een abonnee berekenen. U kunt een willekeurige steekproef gebruiken om benaderingen van deze statistieken te visualiseren.

Er wordt een willekeurige steekproef uit uw dataset gekozen, zodat elk element een gelijke kans heeft om geselecteerd te worden. Deze bewerking wordt uitgevoerd op een efficiënte manier die geschikt is voor grote datasets, dus de geretourneerde steekproefomvang is ongeveer de gevraagde grootte en niet noodzakelijk gelijk aan de gevraagde grootte.

U kunt willekeurige steekproeven gebruiken als u snelle benaderingsberekeningen wilt uitvoeren om inzicht te krijgen in uw dataset. Naarmate de steekproefomvang groter wordt, kan de willekeurige steekproef de volledige gegevensset beter benaderen, maar tenzij u alle gegevenspunten opneemt, bevat uw willekeurige steekproef mogelijk niet alle uitbijters en randgevallen. Als u uw gehele dataset interactief wilt voorbereiden, kunt u ook overstappen op een groter instantietype.

Als algemene regel geldt dat de steekproeffout bij het berekenen van het populatiegemiddelde met behulp van een willekeurige steekproef naar 0 neigt naarmate de steekproef groter wordt. Naarmate de steekproefomvang toeneemt, neemt de fout af als het omgekeerde van de vierkantswortel van de steekproefomvang. Hoe groter de steekproef, hoe beter de benadering.

Gestratificeerde steekproef

In sommige gevallen kan uw populatie worden onderverdeeld in lagen of elkaar uitsluitende categorieën, zoals geografische locatie voor adressen, publicatiejaar voor liedjes of belastingschijven voor inkomens. Willekeurige steekproeven zijn de meest populaire steekproeftechniek, maar als sommige strata ongebruikelijk zijn in uw populatie, kunt u gestratificeerde steekproeven in Data Wrangler gebruiken om ervoor te zorgen dat elke strata proportioneel in uw steekproef wordt vertegenwoordigd. Dit kan handig zijn om steekproeffouten te verminderen en om er zeker van te zijn dat u edge-cases vastlegt tijdens uw experimenten.

In de echte wereld zijn frauduleuze creditcardtransacties zeldzaam en maken ze doorgaans minder dan 1% van uw gegevens uit. Als we willekeurige steekproeven zouden nemen, is het niet ongebruikelijk dat de steekproef weinig of geen frauduleuze transacties bevat. Als gevolg hiervan zouden we bij het trainen van een model te weinig frauduleuze voorbeelden hebben om een nauwkeurig model te leren. We kunnen gestratificeerde steekproeven gebruiken om ervoor te zorgen dat we een evenredige vertegenwoordiging van frauduleuze transacties hebben.

Bij gestratificeerde steekproeven is de grootte van elke strata in de steekproef evenredig met de grootte van de strata in de populatie. Dit werkt door uw gegevens in lagen te verdelen op basis van de door u opgegeven kolom, willekeurige steekproeven uit elke laag met de juiste verhouding te selecteren en die steekproeven te combineren tot een gestratificeerde steekproef van de populatie.

Gestratificeerde steekproeven zijn een nuttige techniek wanneer u wilt begrijpen hoe verschillende groepen in uw gegevens zich tot elkaar verhouden, en u ervoor wilt zorgen dat elke groep de juiste representatie heeft.

Willekeurige steekproeven bij het importeren van Amazon S3

In deze sectie gebruiken we willekeurige steekproeven met een dataset die bestaat uit zowel frauduleuze als niet-frauduleuze gebeurtenissen uit ons fraudedetectiesysteem. Jij kan Download de dataset die bij dit bericht moet worden gevolgd (CC 4.0 internationale attributielicentie).

Op het moment van schrijven kunt u datasets importeren uit: Amazon eenvoudige opslagservice (Amazone S3), Amazone Athene, Amazon roodverschuiving, en Sneeuwvlok. Onze dataset is erg groot en bevat 1 miljoen rijen. In dit geval willen we 1,0000 rijen samplen bij het importeren uit Amazon S3 voor wat interactieve experimenten binnen Data Wrangler.

Open SageMaker Studio en maak een nieuwe Data Wrangler-stroom.
Onder Datums importeren, kiezen Amazon S3.
Kies de dataset die u wilt importeren.
In het Details deelvenster, geef uw datasetnaam en bestandstype op.
Voor monsterneming, kiezen Random.
Voor Grootte van de steekproef, ga naar binnen 10000.
Kies import om de dataset in Data Wrangler te laden.

U kunt twee verschillende stappen visualiseren op de gegevensstroompagina in Data Wrangler. De eerste stap geeft het laden van de voorbeeldgegevensset aan op basis van de door u gedefinieerde steekproefstrategie. Nadat de gegevens zijn geladen, voert Data Wrangler automatische detectie uit van de gegevenstypen voor elk van de kolommen in de gegevensset. Deze stap wordt standaard toegevoegd voor alle datasets.

U kunt nu de willekeurig gesamplede gegevens in Data Wrangler bekijken door een analyse toe te voegen.

Kies het plusteken naast Datatypen En kies Analyse.
Voor Type analyseKiezen Scatterplot.
Kies prestatie_1 en prestatie_2 als voor X-as en Y-as, Respectievelijk.
Voor Kleur door, kiezen is_fraude.

Als u vertrouwd bent met de dataset, kunt u doorgaan met het uitvoeren van verdere gegevenstransformaties volgens uw zakelijke vereisten om uw gegevens voor te bereiden op ML.

In de volgende schermafbeelding kunnen we de frauduleuze (donkerblauwe) en niet-frauduleuze (lichtblauwe) transacties in onze analyse waarnemen.

In de volgende sectie bespreken we het gebruik van gestratificeerde steekproeven om ervoor te zorgen dat de frauduleuze gevallen proportioneel worden gekozen.

Gestratificeerde bemonstering met een transformatie

Met Data Wrangler kunt u zowel samplen bij import als samplen via een transformatie. In deze sectie bespreken we het gebruik van gestratificeerde steekproeven via een transformatie nadat u uw dataset in Data Wrangler hebt geïmporteerd.

Om de bemonstering te starten, op de Informatiestroom tabblad, kies het plusteken naast de geïmporteerde dataset en kies Voeg Transform toe.

Op het moment van schrijven biedt Data Wrangler meer dan: 300 ingebouwde transformaties. Naast de ingebouwde transformaties, kunt u uw eigen aangepaste transformaties schrijven in Panda's of PySpark.

Van de Voeg transformatie toe lijst, kies monsterneming.

U kunt nu drie verschillende steekproefstrategieën gebruiken: limiet, willekeurig en gestratificeerd.

Voor Bemonsteringsmethode, kiezen Gestratificeerd.
Gebruik de is_fraud kolom als de stratificeerkolom.
Kies Voorbeschouwing om een voorbeeld van de transformatie te bekijken, kies dan Toevoegen om deze transformatie als een stap toe te voegen aan uw transformatierecept.

Uw gegevensstroom weerspiegelt nu de toegevoegde steekproefstap.

Nu kunnen we de willekeurig bemonsterde gegevens bekijken door een analyse toe te voegen.

Kies het plusteken en kies Analyse.
Voor Type analyseKiezen histogram.
Kies is_fraude zowel X-as en Kleur door.
Kies Voorbeschouwing.

In de volgende schermafbeelding kunnen we de uitsplitsing van frauduleuze (donkerblauwe) en niet-frauduleuze (lichtblauwe) gevallen zien die zijn gekozen via gestratificeerde steekproeven in de juiste verhoudingen van 20% frauduleus en 80% niet-frauduleus.

Conclusie

Het is essentieel om gegevens correct te samplen bij het werken met extreem grote datasets en om de juiste steekproefstrategie te kiezen om aan uw zakelijke vereisten te voldoen. De effectiviteit van uw steekproeven is afhankelijk van verschillende factoren, waaronder bedrijfsresultaten, beschikbaarheid van gegevens en distributie. In dit bericht hebben we besproken hoe u Data Wrangler en de ingebouwde bemonsteringsstrategieën kunt gebruiken om uw gegevens voor te bereiden.

U kunt deze mogelijkheid vandaag gaan gebruiken in alle regio's waar SageMaker Studio beschikbaar is. Ga om te beginnen naar Bereid ML-gegevens voor met Amazon SageMaker Data Wrangler.

Danksagung

De auteurs willen Jonathan Chung (Applied Scientist) bedanken voor zijn recensie en waardevolle feedback op dit artikel.

Over de auteurs

Ben Harris is een software-engineer met ervaring in het ontwerpen, implementeren en onderhouden van schaalbare datapijplijnen en machine learning-oplossingen in verschillende domeinen.

Vishaal Kapoor is een Senior Applied Scientist bij AWS AI. Hij is gepassioneerd om klanten te helpen hun gegevens in Data Wrangler te begrijpen. In zijn vrije tijd mountainbiket, snowboardt hij en brengt hij tijd door met zijn gezin.

Meenakshisundaram Thandavarayan is een Senior AI/ML-specialist bij AWS. Hij helpt Hi-Tech strategische accounts op hun AI- en ML-reis. Hij heeft een grote passie voor datagedreven AI.

Ajai Sharma is Principal Product Manager voor Amazon SageMaker, waar hij zich richt op Data Wrangler, een visuele datavoorbereidingstool voor datawetenschappers. Voordat hij bij AWS kwam, was Ajai Data Science Expert bij McKinsey and Company, waar hij leiding gaf aan ML-gerichte opdrachten voor toonaangevende financiële en verzekeringsmaatschappijen over de hele wereld. Ajai is gepassioneerd door datawetenschap en houdt ervan om de nieuwste algoritmen en machine learning-technieken te verkennen.

Tijdstempel: 26 april 2022

Tijdstempel: Februari 6, 2024

Maak willekeurige en gestratificeerde voorbeelden van gegevens met Amazon SageMaker Data Wrangler

Heruitgegeven door Plato

Wat is samplen en hoe kan het helpen?

Willekeurige bemonstering

Gestratificeerde steekproef

Willekeurige steekproeven bij het importeren van Amazon S3

Gestratificeerde bemonstering met een transformatie

Conclusie

Danksagung

Over de auteurs

Meer van AWS-machine learning

Verfijn Whisper-modellen op Amazon SageMaker met LoRA | Amazon-webservices

Zoek op intelligente wijze Adobe Experience Manager-inhoud met behulp van Amazon Kendra | Amazon-webservices

Maak synthetische gegevens voor computervisie-pipelines op AWS

Operationaliseer uw Amazon SageMaker Studio-notebooks als geplande notebooktaken

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account