Az adatok minőségének kézi ellenőrzése és az adatok tisztítása fájdalmas és időigényes folyamat, amely egy adattudós projekt idejének nagy részét igénybe veheti. Az Anaconda adattudósok körében végzett 2020-as felmérése szerint az adatkutatók idejük hozzávetőlegesen 66%-át adat-előkészítési és -elemzési feladatokkal töltik, ideértve a betöltést (19%), a tisztítást (26%) és az adatok megjelenítését (21%). Amazon SageMaker adat-előkészítő eszközök széles skáláját kínálja, hogy megfeleljen a különböző ügyfelek igényeinek és preferenciáinak. Azon felhasználók számára, akik előnyben részesítik a GUI-alapú interaktív felületet, SageMaker Data Wrangler több mint 300 beépített vizualizációt, elemzést és átalakítást kínál a Spark által támogatott adatok hatékony feldolgozásához egyetlen kódsor megírása nélkül.
Az adatvizualizáció a gépi tanulásban (ML) egy iteratív folyamat, és az adatkészlet folyamatos vizualizálását igényli a felfedezéshez, vizsgálathoz és érvényesítéshez. Az adatok perspektívába helyezése magában foglalja az egyes oszlopok megtekintését a lehetséges adathibák, a hiányzó értékek, a rossz adattípusok, a félrevezető/helytelen adatok, a kiugró adatok és egyebek megértése érdekében.
Ebben a bejegyzésben megmutatjuk, hogyan Amazon SageMaker Data Wrangler automatikusan generálja az adatok elosztásának kulcsfontosságú vizualizációit, észleli az adatminőségi problémákat, és minden egyes funkcióhoz adatbetekintést, például kiugró értékeket jelenít meg anélkül, hogy egyetlen kódsort írna. Automatikus minőségi figyelmeztetésekkel (például hiányzó értékek vagy érvénytelen értékek) segít javítani az adatrács élményét. Az automatikusan generált vizualizációk interaktívak is. Például megjelenítheti az öt leggyakrabban előforduló elem táblázatát százalékos sorrendben, és a sáv fölé vigye az egérmutatót a szám és a százalék közötti váltáshoz.
Előfeltételek
Az Amazon SageMaker Data Wrangler egy SageMaker funkció, amely a SageMaker Studio-ban érhető el. Követheted a Stúdió belépési folyamata hogy felpörgesse a Studio környezetet és a notebookokat. Bár számos hitelesítési mód közül választhat, a Studio tartomány létrehozásának legegyszerűbb módja a Gyors útmutató. A Gyorsindítás ugyanazokat az alapértelmezett beállításokat használja, mint a standard Studio-beállítás. Választhat a fedélzeti használat mellett is AWS Identity and Access Management (IAM) Identity Center (az AWS Single Sign-On utódja) a hitelesítéshez (lásd Bekapcsolva az Amazon SageMaker tartományba az IAM Identity Center használatával).
Megoldás áttekintése
Indítsa el a SageMaker Stúdió Környezet és hozzon létre egy újat Data Wrangler áramlás. Importálhatja saját adatkészletét, vagy használhat egy mintaadatkészletet (Óriási) a következő képen látható módon. Ez a két csomópont (a forrás csomópont és a dátum típusú csomópont) kattinthatóak – ha duplán kattint erre a két csomópontra, a Data Wrangler megjeleníti a táblázatot.
Esetünkben kattintsunk jobb gombbal a Adattípusok ikon és Adjon hozzá egy transzformációt:
Mostantól vizualizációkat kell látnia az egyes oszlopok tetején. Kérjük, várjon egy kis időt, amíg a diagramok betöltődnek. A késleltetés az adathalmaz méretétől függ (a Titanic adatkészlet esetében ez az alapértelmezett példányban 1-2 másodpercet vesz igénybe).
Görgessen a vízszintes felső sávhoz úgy, hogy az egérmutatót az eszköztipp fölé viszi. Most, hogy a diagramok betöltődnek, láthatja az adatok eloszlását, az érvénytelen értékeket és a hiányzó értékeket. A kiugró értékek és a hiányzó értékek a hibás adatok jellemzői, és nagyon fontos azonosítani őket, mert befolyásolhatják az eredményeket. Ez azt jelenti, hogy mivel adatai nem reprezentatív mintából származnak, előfordulhat, hogy megállapításai nem általánosíthatók a vizsgálaton kívüli helyzetekre. Az értékek besorolása az alsó grafikonokon látható, ahol érvényes az értékek fehér színnel vannak jelölve, érvénytelen értékek kékkel, és hiányzó értékek lilával. Meg lehet nézni a kiugró értékek a diagram bal vagy jobb oldalán lévő kék pontok ábrázolják.
Az összes vizualizáció hisztogramok formájában érkezik. A nem kategorikus adatokhoz minden tálcához egy vödörkészlet van meghatározva. Kategorikus adatok esetén minden egyedi érték ládaként kezelendő. A hisztogram tetején van egy oszlopdiagram, amely az érvénytelen és hiányzó értékeket mutatja. Megtekinthetjük a Numerikus, Kategorikus, Bináris, Szöveges és Dátumidő típusok érvényes értékeinek arányát, valamint a hiányzó értékek arányát az összes nulla és üres cella alapján, és végül az érvénytelen értékek arányát. Nézzünk meg néhány példát, hogy megértsük, hogyan láthatja ezeket a használat során Data Wrangler előre betöltött minta Titanic Dataset.
Példa 1 – Megnézhetjük a 20%-ban hiányzó értékeket a KOR jellemző/oszlop. Kulcsfontosságú a hiányzó adatok kezelése az adatokkal kapcsolatos kutatás/ML területén, akár eltávolításával, akár imputálásával (a hiányzó értékek becsléssel történő kezelése).
A hiányzó értékeket a Kezelje a hiányzó értékeket átalakító csoport. Használja a Hiányzik az imputáció transzformációval imputált értékeket generál, ahol hiányzó értékek találhatók a beviteli oszlopban. A konfiguráció az adattípustól függ.
Ebben a példában a KOR oszlop numerikus adattípussal rendelkezik. Az imputálási stratégia esetében választhatjuk az imputálást jelent vagy a hozzávetőleges medián az adatkészletben található értékek felett.
Most, hogy hozzáadtuk az átalakítást, láthatjuk, hogy a KOR oszlopban már nem szerepelnek hiányzó értékek.
Példa 2 – Megnézhetjük a 27%-os érvénytelen értékeket a JEGY jellemző/oszlop, amely a STRING típus. Az érvénytelen adatok torz becsléseket eredményezhetnek, ami csökkentheti a modell pontosságát, és hamis következtetésekhez vezethet. Nézzünk meg néhány olyan transzformációt, amelyek segítségével kezelhetjük az érvénytelen adatokat JEGY oszlop.
A képernyőképen azt látjuk, hogy a bemenetek egy része olyan formátumban van írva, amely ábécét tartalmaz a számok előtt "PC 17318"és mások csak számok, például "11769".
Dönthetünk úgy, hogy transzformációt alkalmazunk bizonyos minták kereséséhez és szerkesztéséhez olyan karakterláncokon belül, mint pl.PC” és cserélje ki őket. Következő lépésként bedobhatjuk magunkat húr oszlopot egy új típusba, mint pl Hosszú a használat megkönnyítése érdekében.
Ez még mindig 19%-ban hagyja a hiányzó értékeket JEGY funkció. Az 1. példához hasonlóan most imputálhatjuk a hiányzó értékeket átlag vagy közelítő medián használatával. A funkció JEGY Az alábbi kép szerint nem lehetnek érvénytelen vagy hiányzó értékek.
Annak érdekében, hogy ne merüljenek fel költségek az oktatóanyag követése után, győződjön meg róla állítsa le a Data Wrangler alkalmazást.
Következtetés
Ebben a bejegyzésben az újdonságot mutattuk be Amazon Sagemaker Data Wrangler widget, amely segít eltávolítani a differenciálatlan nehézemelés a végfelhasználók számára az adatok előkészítése során automatikusan felszínre kerülő vizualizációkkal és adatprofilozási betekintésekkel minden egyes funkcióhoz. Ez a widget megkönnyíti az adatok megjelenítését (például kategorikus/nem kategorikus hisztogramok), az adatminőségi problémák (például hiányzó értékek és érvénytelen értékek) észlelését és a felszíni adatok betekintését (például a kiugró értékek és a felső N elem).
Már ma elkezdheti használni ezt a funkciót az összes régióban, ahol a SageMaker Studio elérhető. Megpróbál, és ossza meg velünk véleményét. Mindig várjuk visszajelzését, akár a szokásos AWS-támogatási elérhetőségein keresztül, akár a AWS fórum a SageMaker számára.
A szerzőkről
Isha Dua Senior Solutions Architect, székhelye a San Francisco Bay Area. Céljaik és kihívásaik megértésével segíti az AWS Enterprise ügyfeleit a növekedésben, és útmutatást ad nekik abban, hogyan építhetik fel alkalmazásaikat felhőn natív módon, miközben gondoskodnak azok rugalmasságáról és méretezhetőségéről. Szenvedélyesen rajong a gépi tanulási technológiákért és a környezeti fenntarthatóságért.
Parth Patel megoldások építésze az AWS-nél a San Francisco Bay Area-ban. A Parth segíti az ügyfeleket, hogy felgyorsítsák a felhőhöz vezető utat, és segít nekik az AWS Cloud sikeres átvételében. Az ML-re és az alkalmazások modernizálására összpontosít.
- Haladó (300)
- AI
- ai művészet
- ai art generátor
- van egy robotod
- Amazon SageMaker
- Amazon SageMaker Data Wrangler
- mesterséges intelligencia
- mesterséges intelligencia tanúsítás
- mesterséges intelligencia a bankszektorban
- mesterséges intelligencia robot
- mesterséges intelligencia robotok
- mesterséges intelligencia szoftver
- AWS gépi tanulás
- blockchain
- blokklánc konferencia ai
- coingenius
- társalgási mesterséges intelligencia
- kriptokonferencia ai
- dall's
- mély tanulás
- google azt
- gépi tanulás
- Plató
- plato ai
- Platón adatintelligencia
- Platón játék
- PlatoData
- platogaming
- skála ai
- szintaxis
- zephyrnet