Az Anaconda adattudósok körében végzett 2020-as felmérése szerint az adatok előkészítése a gépi tanulás (ML) és az adatelemzési munkafolyamatok egyik kritikus lépése, és gyakran nagyon időigényes az adatkutatók számára. Az adattudósok idejük körülbelül 66%-át adat-előkészítési és -elemzési feladatokkal töltik, ideértve a betöltést (19%), a tisztítást (26%) és az adatok megjelenítését (21%).
Amazon SageMaker Studio az első teljesen integrált fejlesztői környezet (IDE) az ML számára. Az adatkutatók és fejlesztők egyetlen kattintással gyorsan felpöröghetnek Stúdiófüzetek adatkészletek feltárására és modellek felépítésére. Ha inkább GUI-alapú és interaktív felületet szeretne, használhatja Amazon SageMaker Data Wrangler, több mint 300 beépített vizualizációval, elemzéssel és transzformációval a Spark által támogatott adatok hatékony feldolgozásához egyetlen kódsor megírása nélkül.
Data Wrangler most beépített adat-előkészítési lehetőséget kínál Amazon SageMaker Studio notebookok amely lehetővé teszi az ML szakemberek számára, hogy vizuálisan áttekintsék az adatok jellemzőit, azonosítsák a problémákat és orvosolják az adatminőségi problémákat – mindössze néhány kattintással közvetlenül a notebookon belül.
Ebben a bejegyzésben megmutatjuk, hogyan a Data Wrangler Az adat-előkészítő widget automatikusan létrehozza a kulcsfontosságú vizualizációkat a Pandas adatkeret tetején, hogy megértse az adatok eloszlását, észlelje az adatminőségi problémákat, és felszínre hozhassa az adatokat, például az egyes funkciókhoz tartozó kiugró értékeket. Segíti az adatokkal való interakciót, és olyan betekintést nyerhet, amely az ad hoc lekérdezés során észrevétlen marad. Ezenkívül javasolja a javítandó átalakításokat, lehetővé teszi az adatátalakítások alkalmazását a felhasználói felületen, és automatikusan kódot generál a notebook celláiban. Ez a funkció minden olyan régióban elérhető, ahol a SageMaker Studio elérhető.
Megoldás áttekintése
Ismerjük meg jobban, hogy ez az új widget hogyan teszi lényegesen egyszerűbbé az adatok feltárását, és hogyan nyújt zökkenőmentes élményt az adatmérnökök és gyakorló szakemberek általános adat-előkészítési élményének javításához. A mi használati esetünkben a módosított változatot használjuk Titanic adatkészlet, egy népszerű adatkészlet az ML közösségben, amely most a minta adatkészlet így gyorsan elkezdheti a SageMaker Data Wrangler használatát. Az eredeti adatkészletet innen szereztük be OpenML, és módosította, hogy szintetikus adatminőségi problémákat adjon hozzá az Amazon ehhez a demóhoz. Az adatkészlet módosított verzióját letöltheti a nyilvános S3 elérési útról s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
.
Előfeltételek
Ha gyakorlati tapasztalatokat szeretne szerezni az ebben a bejegyzésben leírt összes funkcióval kapcsolatban, teljesítse a következő előfeltételeket:
- Győződjön meg arról, hogy rendelkezik AWS-fiókkal, és biztonságos hozzáféréssel jelentkezhet be a fiókba a következőn keresztül AWS felügyeleti konzolés AWS Identity and Access Management (IAM) használati engedélyeket Amazon SageMaker és a Amazon egyszerű tárolási szolgáltatás (Amazon S3) erőforrásokat.
- Használja a nyilvános S3 elérési út mintaadatkészletét
s3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
vagy alternatívaként töltse fel egy S3 vödörbe fiókjában. - Lépjen be egy SageMaker tartományba, és lépjen be a Studio-ba a notebookok használatához. Az utasításokat lásd Bekapcsolva az Amazon SageMaker domainbe. Ha meglévő Studio-t használ, frissítsen a a Studio legújabb verziója.
Engedélyezze az adatfeltáró widgetet
Amikor Pandas adatkereteket használ, a Studio notebook felhasználói manuálisan engedélyezhetik az adatfeltáró widgetet, így az új vizualizációk alapértelmezés szerint minden oszlop tetején megjelennek. A widget hisztogramot mutat a numerikus adatokhoz, és oszlopdiagramot más típusú adatokhoz. Ezek az ábrázolások lehetővé teszik az adateloszlás gyors megértését, valamint a hiányzó értékek és kiugró értékek felfedezését anélkül, hogy minden egyes oszlophoz sablonmetódusokat kellene írnia. A terjesztés gyors megértéséhez vigye az egérmutatót a sáv fölé az egyes vizualizációkban.
Nyissa meg a Studio-t, és hozzon létre egy új Python 3-jegyzetfüzetet. Ügyeljen arra, hogy a Adattudomány 3.0 kép a SageMaker képekből kattintva Változtasd meg a környezetet gombot.
Az adatfeltáró widget a következő képeken érhető el. Az alapértelmezett SageMaker-képek listáját lásd: Elérhető Amazon SageMaker képek.
- Python 3 (Data Science) és Python 3.7
- Python 3 (Data Science 2.0) és Python 3.8
- Python 3 (Data Science 3.0) és Python 3.10
- Spark Analytics 1.0 és 2.0
A widget használatához importálja a SageMaker_DataWrangler
könyvtár. Töltse be a Titanic adatkészlet módosított verzióját innen S3://sagemaker-sample-files/datasets/tabular/dirty-titanic/titanic-dirty-4.csv
és olvassa el a CSV-t a Pandas könyvtárral:
Vizualizálja az adatokat
Miután az adatok betöltésre kerültek a Pandas adatkeretbe, csak a használatával tekintheti meg az adatokat df
or display(df)
. A sor listázása mellett az adat-előkészítő widget betekintést, vizualizációt és tanácsokat ad az adatminőséggel kapcsolatban. Nem kell további kódot írnia a funkció- és célinformációk, terjesztési információk generálásához vagy az adatminőség-ellenőrzések megjelenítéséhez. Az adatkeret tábla fejlécének kiválasztásával megtekintheti az adatminőségre vonatkozó figyelmeztetéseket (ha vannak ilyenek) tartalmazó statisztikai összesítést.
Minden oszlop egy oszlopdiagramot vagy hisztogramot mutat az adattípus alapján. Alapértelmezés szerint a widget akár 10,000 XNUMX megfigyelésből is mintát vesz, hogy értelmes betekintést nyerjen. Lehetőséget biztosít arra is, hogy a betekintési elemzést a teljes adatkészleten futtassa.
Amint az a következő képernyőképen látható, ez a widget azonosítja, hogy egy oszlop kategorikus vagy mennyiségi adatokat tartalmaz-e.
Kategorikus adatokhoz a widget az összes kategóriát tartalmazó oszlopdiagramot állítja elő. A következő képernyőképen például az oszlop Sex
azonosítja az adatok kategóriáit. A sáv fölé viheti az egérmutatót (férfi ebben az esetben) megtekintheti e kategóriák részleteit, például az értéket tartalmazó sorok számát male
és eloszlása a teljes megjelenített adatkészletben (ebben a példában 64.07%). Ezenkívül más színnel kiemeli a hiányzó értékek százalékos arányát a kategorikus adatokhoz. Olyan mennyiségi adatokhoz, mint a ticket
oszlopban az eloszlást és az érvénytelen értékek százalékos arányát mutatja.
Ha szabványos Panda vizualizációt szeretne látni a notebookban, választhat Tekintse meg a Panda táblázatot és váltson a widget és a Panda-ábrázolás között, ahogy az a következő képernyőképen látható.
Ha részletesebb betekintést szeretne kapni az oszlopban lévő adatokról, válassza az oszlop fejlécét az oszlophoz rendelt oldalsó panel megnyitásához. Itt két fület figyelhet meg: Insights és a Adat minőség.
A következő szakaszokban ezt a két lehetőséget vizsgáljuk meg részletesebben.
Insights
A Insights lap részletes leírást tartalmaz az egyes oszlopokhoz. Ez a rész az összesített statisztikákat sorolja fel, mint például a mód, az egyediek száma, a hiányzó/érvénytelen értékek aránya és száma stb., valamint hisztogram vagy oszlopdiagram segítségével megjelenítheti az adatok eloszlását. A következő képernyőképeken megtekintheti a kiválasztott oszlophoz generált, könnyen érthető vizualizációkkal megjelenített adatbetekintéseket és terjesztési információkat. survived
.
Adat minőség
A stúdió adat-előkészítő modulja a fejlécben található figyelmeztető jellel kiemeli az azonosított adatminőségi problémákat. A Widget képes azonosítani az adatminőséggel kapcsolatos problémák teljes spektrumát az alapoktól (hiányzó értékek, állandó oszlop stb.) a ML-specifikusabbakig (célszivárgás, alacsony prediktív pontszám jellemzői stb.). A Widget kiemeli az adatminőségi problémát okozó cellákat, és átrendezi a sorokat, hogy a problémás cellák a tetejére kerüljenek. Az adatminőség-probléma orvoslására a widget több transzformátort biztosít, amelyek egy gombnyomással használhatók.
Az adatminőség szakasz felfedezéséhez válassza ki az oszlopfejlécet, majd az oldalsó panelen válassza a lehetőséget Adat minőség lapon. A következőt kell látnia a Studio környezetében.
Nézzük meg a különböző lehetőségeket Adat minőség lapon. Ebben a példában a kor oszlopot választjuk, amelyet az adatok alapján kvantitatív oszlopként detektálunk. Amint a következő képernyőképen láthatjuk, ez a widget különböző típusú átalakításokat javasol, amelyeket alkalmazni lehet, beleértve a leggyakoribb műveleteket, mint pl. Cserélje ki új értékre, Csepp hiányzik, Cserélje ki mediánnalvagy Cserélje ki közepesre. Ezek közül bármelyiket kiválaszthatja az adatkészlethez a használati eset (a megoldani kívánt ML probléma) alapján. Azt is megadja neked a Dobja el az oszlopot opciót, ha teljesen el szeretné távolítani a funkciót.
Ha úgy dönt Alkalmazza és exportálja a kódot, az átalakítást az adatkeret mély másolatára alkalmazzuk. Az átalakítás sikeres alkalmazása után az adattábla frissül a betekintésekkel és a vizualizációkkal. Az átalakítási kód a jegyzetfüzet meglévő cellája után jön létre. Ezt az exportált kódot később lefuttathatja, hogy alkalmazza az átalakítást az adatkészletein, és igény szerint bővítse azt. Az átalakítás testreszabható a generált kód közvetlen módosításával. Ha alkalmazzuk a Csepp hiányzik Az Életkor oszlopban a következő átalakítási kód kerül alkalmazásra az adatkészletre, és kód is generálódik a widget alatti cellában:
A következő egy másik példa a kódrészletre Cserélje ki mediánnal:
Most nézzük meg az adat-előkészítő widget célbetekintési képességét. Tegyük fel, hogy használni szeretné a survived
funkció annak előrejelzésére, hogy az utas túléli-e. Válaszd a survived
oszlopfejléc. Az oldalsó panelen válassza a lehetőséget Válassza ki céloszlopként. Az ideális adateloszlás a survived
a funkciónak csak két osztálya lehet: igen (1
) vagy nem (0
), amely segít besorolni a Titanic-baleset túlélési esélyeit. A kiválasztott céloszlop adatellentmondásai miatt azonban a fennmaradt jellemző megvan 0
, 1
, ?
, unknown
és yes
.
Válassza ki a probléma típusát a kiválasztott céloszlop alapján, amely lehet bármelyik Osztályozás or Regresszió. A fennmaradt oszlop esetében a probléma típusa az osztályozás. Választ futás betekintést generálni a céloszlophoz.
Az adat-előkészítő eszközprimitív listázza a céloszlop-betekintést ajánlásokkal és mintamagyarázatokkal a céloszlop adatminőségével kapcsolatos problémák megoldásához. Automatikusan kiemeli a rendellenes adatokat is az oszlopban.
Az ajánlott transzformációt választjuk Dobja el a ritka célértékeket, mert a ritka célértékekre kevesebb megfigyelés van.
A kiválasztott transzformációt a rendszer alkalmazza a Pandas adatkeretre, és a nem gyakori célértékeket a túlélő oszlopból eltávolítjuk. Lásd a következő kódot:
Az alkalmazott transzformáció eredménye azonnal látható az adatkereten. Az adat-előkészítési widget segítségével alkalmazott adat-előkészítési tevékenységek nyomon követéséhez az átalakított kód a következő jegyzetfüzet cellában is létrejön.
Következtetés
Ebben a bejegyzésben útmutatást adunk arról, hogy a Studio adat-előkészítő modulja hogyan segíthet az adateloszlások elemzésében, az eszköz által generált adatminőségi betekintések felfedezésében, és az egyes kritikus funkcióknál felmerülő esetleges problémák feltárásában. Ez segít javítani az általános adatminőséget, hogy segítsen a kiváló minőségű modellek betanításában, és eltávolítja a differenciálatlan nehéz teherbírást azáltal, hogy lehetővé teszi az adatok átalakítását a felhasználói felületen, és automatikusan kódot generál a notebook celláihoz. Ezt a kódot az MLOps-folyamatokban használhatja a reprodukálhatóság megteremtéséhez, elkerülheti az ismétlődő feladatokra való időveszteséget, és csökkentheti a kompatibilitási problémákat az adatrögzítő folyamatok felépítésének és telepítésének felgyorsításával.
Ha még nem ismeri a SageMaker Data Wranglert vagy a Studiot, tekintse meg a Ismerkedjen meg a SageMaker Data Wranglerrel. Ha bármilyen kérdése van ezzel a bejegyzéssel kapcsolatban, kérjük, tegye fel a megjegyzés rovatba.
A szerzőkről
Parth Patel megoldások építésze az AWS-nél a San Francisco Bay Area-ban. A Parth útmutatást ad az ügyfeleknek, hogy felgyorsítsák a felhő felé vezető utat, és segítsenek nekik az AWS Cloud sikeres elfogadásában és fejlesztésében. A gépi tanulásra, a környezeti fenntarthatóságra és az alkalmazások modernizálására összpontosít.
Isha Dua Senior Solutions Architect, székhelye a San Francisco Bay Area. Segíti az AWS Enterprise ügyfeleit a növekedésben azáltal, hogy megértik céljaikat és kihívásaikat, és útmutatást ad nekik, hogyan építhetik fel alkalmazásaikat a felhőben natív módon, miközben gondoskodnak azok rugalmasságáról és méretezhetőségéről. Szenvedélyesen rajong a gépi tanulási technológiákért és a környezeti fenntarthatóságért.
Hariharan Suresh az AWS vezető megoldási építésze. Szenvedélye az adatbázisok, a gépi tanulás és az innovatív megoldások tervezése. Mielőtt csatlakozott az AWS-hez, Hariharan terméktervező, központi banki implementációs specialista és fejlesztő volt, és több mint 11 évig dolgozott a BFSI szervezeteivel. A technikán kívül szeret siklóernyőzni és kerékpározni.
Dani Mitchell AI/ML Specialist Solutions Architect az Amazon Web Servicesnél. Középpontjában a Computer Vision használati esetei állnak, és az EMEA-szerte segíti az ügyfeleket, hogy felgyorsítsák ML-útjukat.
- AI
- ai művészet
- ai art generátor
- van egy robotod
- Amazon SageMaker
- Amazon SageMaker Data Wrangler
- mesterséges intelligencia
- mesterséges intelligencia tanúsítás
- mesterséges intelligencia a bankszektorban
- mesterséges intelligencia robot
- mesterséges intelligencia robotok
- mesterséges intelligencia szoftver
- AWS gépi tanulás
- blockchain
- blokklánc konferencia ai
- coingenius
- társalgási mesterséges intelligencia
- kriptokonferencia ai
- dall's
- mély tanulás
- google azt
- Közepes (200)
- gépi tanulás
- Plató
- plato ai
- Platón adatintelligencia
- Platón játék
- PlatoData
- platogaming
- skála ai
- szintaxis
- zephyrnet