Create Random And Stratified Samples Of Data With Amazon SageMaker Data Wrangler

Újra kiadta Platón

Követő: 0

Ebben a bejegyzésben két mintavételi technikát mutatunk be Amazon SageMaker Data Wrangler így gyorsan létrehozhat feldolgozási munkafolyamatokat adataihoz. Mind a véletlenszerű mintavételi, mind a rétegzett mintavételi technikákkal foglalkozunk, hogy segítsünk az adatokból az Ön egyedi igényei alapján mintát venni.

A Data Wrangler hetekről percekre csökkenti az adatok összesítéséhez és gépi tanuláshoz (ML) való előkészítéséhez szükséges időt. Egyetlen vizuális felületről leegyszerűsítheti az adat-előkészítési és szolgáltatástervezési folyamatot, és végrehajthatja az adat-előkészítési munkafolyamat minden lépését, beleértve az adatkiválasztást, -tisztítást, -feltárást és -vizualizációt. A Data Wrangler adatkiválasztó eszközével kiválaszthatja a kívánt adatokat a különböző adatforrásokból, és egyetlen kattintással importálhatja azokat. A Data Wrangler több mint 300 beépített adatátalakítást tartalmaz, így gyorsan normalizálhatja, átalakíthatja és kombinálhatja a funkciókat anélkül, hogy kódot kellene írnia. A Data Wrangler vizualizációs sablonjaival gyorsan megtekintheti az előnézetet és ellenőrizheti, hogy ezek az átalakítások a kívánt módon fejeződtek-e be, ha megtekinti őket Amazon SageMaker Studio, az első teljesen integrált fejlesztői környezet (IDE) az ML számára. Az adatok előkészítése után teljesen automatizált ML-munkafolyamatokat építhet fel Amazon SageMaker csővezetékek és mentse el őket újrafelhasználásra Amazon SageMaker Feature Store.

Mi az a mintavétel és hogyan segíthet

A statisztikai elemzésben a megfigyelések teljes halmazát a népesség. Amikor adatokkal dolgozunk, gyakran számításilag nem kivitelezhető a populáció minden megfigyelésének mérése. Statisztikai mintavétel egy olyan eljárás, amely lehetővé teszi az adatok megértését a sokaság részhalmazainak kiválasztásával.

A mintavétel praktikus megoldást kínál, amely feláldoz bizonyos pontosságot a praktikusság és a könnyűség érdekében. Annak érdekében, hogy a minta jól reprezentálja a teljes sokaságot, mintavételi stratégiákat alkalmazhat. A Data Wrangler a két leggyakoribb stratégiát támogatja: véletlenszerű mintavétel és a rétegelt mintavétel.

Véletlenszerű mintavétel

Ha nagy adatkészlettel rendelkezik, az adatkészlettel kapcsolatos kísérletezés időigényes lehet. A Data Wrangler véletlenszerű mintavételt biztosít, így Ön hatékonyan feldolgozhatja és megjelenítheti adatait. Kiszámíthatja például egy ügyfél vásárlásainak átlagos számát egy időkereten belül, vagy kiszámolhatja egy előfizető lemorzsolódási arányát. Véletlenszerű minta segítségével megjelenítheti ezeknek a mutatóknak a közelítését.

A rendszer egy véletlenszerű mintát választ ki az adatkészletből, hogy minden elem azonos valószínűséggel kerüljön kiválasztásra. Ezt a műveletet hatékonyan hajtják végre nagy adathalmazokhoz, így a visszaadott minta mérete megközelítőleg a kért méret, és nem feltétlenül egyenlő a kért mérettel.

Véletlenszerű mintavételt használhat, ha gyors közelítő számításokat szeretne végezni az adatkészlet megértéséhez. Ahogy a minta mérete nő, a véletlenszerű minta jobban közelíti a teljes adatkészletet, de hacsak nem tartalmazza az összes adatpontot, előfordulhat, hogy a véletlenszerű minta nem tartalmazza az összes kiugró értéket és szélső esetet. Ha a teljes adatkészletet interaktívan szeretné elkészíteni, akkor nagyobb példánytípusra is válthat.

Általános szabály, hogy a sokaság átlagának véletlenszerű mintával történő kiszámításakor a mintavételi hiba 0-ra hajlamos, ahogy a minta nő. A minta méretének növekedésével a hiba a mintaméret négyzetgyökének inverzével csökken. Minél nagyobb a minta, annál jobb a közelítés.

Rétegelt mintavétel

Egyes esetekben a lakosság rétegekre vagy egymást kizáró kategóriákra osztható, például a címek földrajzi elhelyezkedése, a dalok kiadási éve vagy a bevételek adósávja. A véletlenszerű mintavétel a legnépszerűbb mintavételi technika, de ha egyes rétegek nem gyakoriak a sokaságban, használhat rétegzett mintavételt a Data Wranglerben annak biztosítására, hogy minden réteg arányosan szerepeljen a mintában. Ez hasznos lehet a mintavételi hibák csökkentésében, valamint annak biztosítására, hogy a kísérlet során a szélsőséges eseteket rögzítse.

A való világban a csalárd hitelkártya-tranzakciók ritka események, és általában az adatok kevesebb mint 1%-át teszik ki. Ha véletlenszerűen veszünk mintát, nem ritka, hogy a minta nagyon kevés vagy egyáltalán nem tartalmaz csalárd tranzakciót. Ennek eredményeként egy modell képzése során túl kevés csaló példánk lenne ahhoz, hogy pontos modellt tanuljunk meg. Használhatunk rétegzett mintavételt annak biztosítására, hogy a csalárd tranzakciók arányos ábrázolása legyen.

A rétegzett mintavételnél a mintában szereplő egyes rétegek mérete arányos a sokaságban lévő rétegek méretével. Ez úgy működik, hogy az adatokat a megadott oszlop alapján rétegekre osztja, minden rétegből véletlenszerű mintákat választ ki a megfelelő arányban, és ezeket a mintákat a sokaság rétegzett mintájává egyesíti.

A rétegzett mintavétel hasznos technika, ha meg akarja érteni, hogy az adatok különböző csoportjai hogyan viszonyulnak egymáshoz, és biztosítani szeretné, hogy az egyes csoportok megfelelő reprezentációval rendelkezzenek.

Véletlenszerű mintavételezés az Amazon S3-ból történő importáláskor

Ebben a szakaszban véletlenszerű mintavételt alkalmazunk egy olyan adatkészlettel, amely csalásészlelő rendszerünk csalárd és nem csalárd eseményeit egyaránt tartalmazza. tudsz letöltés a bejegyzéssel együtt követendő adatkészlet (CC 4.0 nemzetközi hozzárendelési licenc).

Az írás idején importálhat adatkészleteket innen Amazon egyszerű tárolási szolgáltatás (Amazon S3), Amazon Athéné, Amazon RedShift, és Hópehely. Adatkészletünk nagyon nagy, 1 millió sort tartalmaz. Ebben az esetben az Amazon S1,0000-ból importált 3 sorból szeretnénk mintát venni a Data Wrangleren belüli interaktív kísérletezéshez.

Nyissa meg a SageMaker Studio-t, és hozzon létre egy új Data Wrangler folyamatot.
Alatt Adatok importálása, választ Amazon S3.
Válassza ki az importálni kívánt adatkészletet.
A Részletek panelen adja meg az adatkészlet nevét és fájltípusát.
A Mintavétel, választ Véletlen.
A Minta nagysága, belép 10000.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a import hogy betöltse az adatkészletet a Data Wranglerbe.

A Data Wrangler adatfolyam-oldalán két különálló lépést láthat. Az első lépés a mintaadatkészlet betöltését jelzi az Ön által meghatározott mintavételi stratégia alapján. Az adatok betöltése után a Data Wrangler automatikusan észleli az adattípusokat az adatkészlet minden oszlopában. Ez a lépés alapértelmezés szerint minden adatkészlethez hozzáadásra kerül.

Mostantól egy elemzés hozzáadásával áttekintheti a véletlenszerűen kiválasztott adatokat a Data Wranglerben.

Válassza ki a mellette lévő pluszjelet Adattípusok És válasszon Elemzés.
A Elemzés típusaválaszt Scatter Plot.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a feat_1 és a feat_2 mint az X tengely és a Y tengely, Ill.
A Színezés szerint, választ is_csalás.

Ha elégedett az adatkészlettel, folytassa a további adatátalakításokat az üzleti követelményeinek megfelelően, hogy előkészítse adatait az ML-hez.

A következő képernyőképen a csalárd (sötétkék) és a nem csalárd (világoskék) tranzakciókat figyelhetjük meg elemzésünkben.

A következő részben a rétegzett mintavételt tárgyaljuk, hogy biztosítsuk a csaló esetek arányos kiválasztását.

Rétegzett mintavétel transzformációval

A Data Wrangler lehetővé teszi a mintavételezést az importáláskor, valamint a mintavételezést átalakításon keresztül. Ebben a részben az adathalmaz Data Wranglerbe történő importálása utáni transzformációval történő rétegzett mintavételezésről beszélünk.

A mintavétel elindításához a Adatáramlás lapon válassza ki a pluszjelet az importált adatkészlet mellett, és válassza ki Adja hozzá az átalakítást.

E cikk írásakor a Data Wrangler több mint 300 beépített átalakítás. A beépített transzformációk mellett saját egyéni átalakításokat írhat a Pandas vagy a PySpark alkalmazásban.

Tól Transzformáció hozzáadása listát választani Mintavétel.

Mostantól három különböző mintavételi stratégiát használhat: limitált, véletlenszerű és rétegzett.

A Mintavételi módszer, választ Rétegelt.
Használja a is_fraud oszlopot rétegző oszlopként.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview az átalakítás előnézetéhez, majd válassza a lehetőséget hozzáad hogy hozzáadja ezt az átalakítást az átalakítási recepthez.

Az adatfolyam most tükrözi a hozzáadott mintavételi lépést.

Most áttekinthetjük a véletlenszerűen kiválasztott adatokat egy elemzés hozzáadásával.

Válassza ki a plusz jelet, és válassza ki Elemzés.
A Elemzés típusaválaszt hisztogram.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a is_csalás mindkét X tengely és a Színezés szerint.
A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview.

A következő képernyőképen a réteges mintavételezéssel kiválasztott csaló (sötétkék) és nem csalárd (világoskék) esetek bontását láthatjuk a megfelelő arányban, 20% csalás és 80% nem csalás.

Következtetés

Rendkívül nagy adatkészletekkel végzett munka során elengedhetetlen az adatok helyes mintavétele, és az üzleti követelményeknek megfelelő mintavételi stratégia kiválasztása. A mintavételezés hatékonysága számos tényezőtől függ, beleértve az üzleti eredményt, az adatok elérhetőségét és elosztását. Ebben a bejegyzésben bemutattuk, hogyan használhatja a Data Wranglert és annak beépített mintavételi stratégiáit az adatok előkészítésére.

Már ma elkezdheti használni ezt a képességet minden olyan régióban, ahol a SageMaker Studio elérhető. A kezdéshez látogasson el Készítsen ML adatokat az Amazon SageMaker Data Wrangler segítségével.

Köszönetnyilvánítás

A szerzők szeretnének köszönetet mondani Jonathan Chungnak (alkalmazott tudós) a cikkre vonatkozó áttekintéséért és értékes visszajelzéséért.

A szerzőkről

Ben Harris egy szoftvermérnök, akinek tapasztalata van méretezhető adatfolyamok és gépi tanulási megoldások tervezésében, üzembe helyezésében és karbantartásában számos területen.

Vishaal Kapoor az AWS AI vezető alkalmazott tudósa. Szenvedélyesen segíti ügyfeleit a Data Wranglerben tárolt adataik megértésében. Szabadidejében mountain bike-zik, snowboardozik, és családjával tölti az idejét.

Meenakshisundaram Thandavarayan vezető AI/ML specialista az AWS-vel. Segíti a Hi-Tech stratégiai fiókokat AI és ML útjukon. Nagyon szenvedélyes az adatvezérelt mesterséges intelligencia iránt.

Ajai Sharma az Amazon SageMaker fő termékmenedzsere, ahol a Data Wranglerre, az adattudósok vizuális adat-előkészítő eszközére összpontosít. Az AWS előtt Ajai a McKinsey and Company adattudományi szakértőjeként dolgozott, ahol ML-központú megbízásokat vezetett vezető pénzügyi és biztosítási cégek számára világszerte. Ajai szenvedélyesen rajong az adattudományért, és szereti felfedezni a legújabb algoritmusokat és gépi tanulási technikákat.

Időbélyeg: April 26, 2022

Időbélyeg: 6. február 2024.

Hozzon létre véletlenszerű és rétegzett adatmintákat az Amazon SageMaker Data Wrangler segítségével

Újra kiadta Platón

Mi az a mintavétel és hogyan segíthet

Véletlenszerű mintavétel

Rétegelt mintavétel

Véletlenszerű mintavételezés az Amazon S3-ból történő importáláskor

Rétegzett mintavétel transzformációval

Következtetés

Köszönetnyilvánítás

A szerzőkről

Még több AWS gépi tanulás

Finomítsa a Whisper modelleket az Amazon SageMakeren a LoRA | segítségével Amazon webszolgáltatások

Intelligens keresés az Adobe Experience Manager tartalmában az Amazon Kendra | segítségével Amazon webszolgáltatások

Szintetikus adatok létrehozása az AWS számítógépes látási csővezetékeihez

Működtesse Amazon SageMaker Studio notebookjait ütemezett notebook munkákként

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók