Amazon SageMaker Studio Lab egy ingyenes gépi tanulási (ML) fejlesztői környezet, amely nyílt forráskódú JupyterLab alapú, bárki számára lehetővé teszi az ML tanulását és kísérletezését az AWS ML számítási erőforrások segítségével. Ugyanazon az architektúrán és felhasználói felületen alapul, mint Amazon SageMaker Studio, de a Studio képességeinek egy részével.
Amikor elkezd dolgozni az ML kezdeményezéseken, feltáró adatelemzést (EDA) vagy adat-előkészítést kell végeznie, mielőtt folytatná a modellépítést. Amazon SageMaker Data Wrangler képessége Amazon SageMaker Ez megkönnyíti az adattudósok és mérnökök számára az adatok előkészítését az ML alkalmazásokhoz egy vizuális felületen keresztül. A Data Wrangler hetekről percekre csökkenti az adatok összesítéséhez és előkészítéséhez szükséges időt az ML-hez.
A Data Wrangler szolgáltatás-előkészítésének kulcsfontosságú gyorsítója a Adatminőségi és betekintési jelentés. Ez a jelentés ellenőrzi az adatok minőségét, és segít észlelni az adatok rendellenességeit, hogy elvégezhesse a szükséges adatkezelést az adatkészlet javításához. Az Adatminőség és betekintési jelentés segítségével elemzi az adatokat, hogy betekintést nyerjen az adatkészletbe, például a hiányzó értékek és a kiugró értékek számát. Ha problémái vannak az adatokkal, például célszivárgás vagy egyensúlyhiány, a betekintési jelentés felhívhatja a figyelmet ezekre a problémákra, és segíthet azonosítani a végrehajtandó adat-előkészítési lépéseket.
A Studio Lab felhasználói számára előnyös a Data Wrangler, mivel az adatminőség és a funkciók tervezése kritikus fontosságú a modell előrejelző teljesítménye szempontjából. A Data Wrangler segít az adatminőségben és a funkciótervezésben azáltal, hogy betekintést nyújt az adatminőséggel kapcsolatos problémákba, és könnyen lehetővé teszi a funkciók gyors iterációját és tervezését alacsony kódszámú felhasználói felületen.
Ebben a bejegyzésben bemutatjuk, hogyan végezhet feltáró adatelemzést, hogyan készíthet elő és alakíthat át adatokat a Data Wrangler segítségével, és hogyan exportálhatja az átalakított és előkészített adatokat a Studio Labba modellépítéshez.
Megoldás áttekintése
A megoldás a következő magas szintű lépéseket tartalmazza:
- Hozzon létre AWS-fiókot és adminisztrátori felhasználót. Ez előfeltétel
- Töltse le az adatkészletet churn.csv.
- Töltse be az adatkészletet ide Amazon egyszerű tárolási szolgáltatás (Amazon S3).
- Hozzon létre egy SageMaker Studio tartományt, és indítsa el a Data Wranglert.
- Importálja az adatkészletet az Amazon S3 Data Wrangler folyamatába.
- Készítse el az adatminőségi és betekintési jelentést, és vonjon le következtetéseket a szükséges funkciók tervezésére vonatkozóan.
- Végezze el a szükséges adatátalakításokat a Data Wranglerben.
- Töltse le az Adatminőség- és Betekintési jelentést és az átalakított adatkészletet.
- Töltse fel az adatokat egy Studio Lab projektbe modellképzés céljából.
A következő diagram ezt a munkafolyamatot mutatja be.
Előfeltételek
A Data Wrangler és a Studio Lab használatához a következő előfeltételek szükségesek:
Készítsen adat-előkészítési munkafolyamatot a Data Wrangler segítségével
A kezdéshez hajtsa végre a következő lépéseket:
- Töltse fel adatkészletét az Amazon S3-ra.
- A SageMaker konzolon, alatt vezérlőpult a navigációs ablakban válassza a lehetőséget tanulmány.
- A Indítsa el az alkalmazást menüt a felhasználói profilja mellett válassza ki tanulmány.
Miután sikeresen bejelentkezett a Studióba, a következő képernyőképhez hasonló fejlesztői környezetet kell látnia. - Új Data Wrangler munkafolyamat létrehozásához a filé menüben válasszon Új, majd válassza ki Data Wrangler Flow.
A Data Wrangler első lépése az importál az adataid. Több adatforrásból is importálhat adatokat, mint például az Amazon S3, Amazon Athéné, Amazon RedShift, Hópehelyés Adattárak. Ebben a példában az Amazon S3-at használjuk. Ha csak látni szeretné, hogyan működik a Data Wrangler, bármikor választhat Használjon mintaadatkészletet. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatok importálása.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Amazon S3.
- Válassza ki a feltöltött adatkészletet, és válassza ki import.
A Data Wrangler lehetővé teszi a teljes adatkészlet importálását vagy mintavételezését annak egy részéből. - Az adatkészletről való gyors betekintéshez válassza a lehetőséget Először K mert Mintavétel és írja be az 50000 XNUMX értéket Minta nagysága.
Ismerje meg az adatok minőségét, és szerezzen betekintést
Használjuk a Data Quality and Insights jelentést a Data Wranglerbe importált adatok elemzésére. A jelentés segítségével megértheti, milyen lépéseket kell tennie az adatok tisztításához és feldolgozásához. Ez a jelentés olyan információkat tartalmaz, mint a hiányzó értékek és a kiugró értékek száma. Ha problémái vannak az adatokkal, például célszivárgás vagy egyensúlyhiány, a betekintési jelentés felhívhatja a figyelmet ezekre a problémákra.
- Válassza ki a mellette lévő pluszjelet Adattípusok És válasszon Szerezzen betekintést az adatokból.
- A Elemzés típusa, választ Adatminőségi és betekintési jelentés.
- A Céloszlop, választ Köpül?.
- A Probléma típusa¸ válassza ki Osztályozás.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Teremt.
Megjelenik egy részletes jelentés, amelyet áttekinthet és letölthet. A jelentés számos szakaszt tartalmaz, például gyorsmodellt, szolgáltatás-összefoglalót, szolgáltatáskorrelációt és adatbetekintést. A következő képernyőképek példákat mutatnak be ezekre a szakaszokra.
Észrevételek a jelentésből
A jelentésből a következő észrevételeket tehetjük:
- Nem található ismétlődő sor.
- A
State
oszlop meglehetősen egyenletes eloszlásúnak tűnik, így az adatok kiegyensúlyozottak az állam lakosságát tekintve. - A
Phone
oszlop túl sok egyedi értéket mutat be ahhoz, hogy gyakorlati haszna legyen. Túl sok egyedi érték miatt ez az oszlop nem használható. Eldobhatjuk aPhone
rovat az átalakulásunkban. - A jelentés jellemzők korrelációs szakasza alapján
Mins
és aCharge
erősen korrelálnak. Az egyiket eltávolíthatjuk.
Átalakítás
Megfigyeléseink alapján a következő átalakításokat kívánjuk végrehajtani:
- Távolítsa el a
Phone
oszlopban, mert számos egyedi értékkel rendelkezik. - Számos olyan jellemzőt is látunk, amelyek lényegében 100%-ban korrelálnak egymással. Ezeknek a jellemzőpároknak egyes ML algoritmusokba való belefoglalása nemkívánatos problémákat okozhat, míg másokban csak kisebb redundanciát és torzítást vezet be. Távolítsunk el egy-egy jellemzőt az erősen korrelált párok mindegyikéből:
Day Charge
a párbólDay Mins
,Night Charge
a párbólNight Mins
ésIntl Charge
a párbólIntl Mins
. - Megtérít
True
orFalse
aChurn
oszlop numerikus értéke 1 vagy 0.
- Térjen vissza az adatfolyamhoz, és válassza a mellette lévő pluszjelet Adattípusok.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Transzformáció hozzáadása.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Lépés hozzáadása.
- Megkeresheti a keresett transzformációt (esetünkben oszlopok kezelése).
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Oszlopok kezelése.
- A Átalakításválaszt Dobja el az oszlopot.
- A Eldobandó oszlopokválaszt
Phone
,Day Charge
,Eve Charge
,Night Charge
ésIntl Charge
. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki Frissítések.
Adjunk hozzá egy másik transzformációt a kategorikus kódolás végrehajtásáhozChurn?
oszlop. - Válassza ki az átalakítást Kategorikus kódolás.
- A Átalakítás, választ Sorrendi kódolás.
- A Beviteli oszlopok, válaszd a
Churn?
oszlop. - A Érvénytelen kezelési stratégia, választ Cserélje ki NaN-re.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki Frissítések.
Most True
és a False
1-re, illetve 0-ra konvertálódnak.
Most, hogy jól ismerjük az adatokat, és előkészítettük és átalakítottuk az adatokat a modellépítéshez, áthelyezhetjük az adatokat a Studio Labba modellkészítés céljából.
Töltse fel az adatokat a Studio Labba
Az adatok Studio Labban való használatának megkezdéséhez hajtsa végre a következő lépéseket:
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatok exportálása nak nek export egy S3-as vödörhöz.
- A Amazon S3 hely, adja meg az S3 elérési utat.
- Adja meg a fájl típusát.
- A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatok exportálása.
- Az adatok exportálása után letöltheti az adatokat az S3 tárolóból a helyi számítógépére.
- Most megnyithatja a Studio Labot, és feltöltheti a fájlt a Studio Labba.
Alternatív megoldásként csatlakozhat az Amazon S3-hoz a Studio Labból. További információkért lásd: Használjon külső erőforrásokat az Amazon SageMaker Studio Labban. - Telepítsük a SageMaker-t és importáljuk a Pandákat.
- Igény szerint importálja az összes könyvtárat.
- Most már olvashatjuk a CSV fájlt.
- Nyomtassunk
churn
az adatkészlet helyességének megerősítéséhez.
Most, hogy megvan a feldolgozott adatkészlet a Studio Labban, elvégezheti a modellépítéshez szükséges további lépéseket.
Data Wrangler árazás
Ebben a bejegyzésben az összes lépést elvégezheti az EDA-hoz vagy az adatok előkészítéséhez a Data Wrangler és Fizet az egyszerű példányok esetében a munkák és a tárhely díjszabása a használat vagy fogyasztás alapján. Nincs szükség előzetes vagy licencdíjra.
Tisztítsuk meg
Ha nem használja a Data Wranglert, fontos, hogy leállítsa azt a példányt, amelyen az fut, hogy elkerülje a további költségeket. A munkavesztés elkerülése érdekében mentse el az adatfolyamot, mielőtt leállítja a Data Wranglert.
- Az adatfolyam Stúdióba való mentéséhez válassza a lehetőséget filé, majd válassza ki Adatmentés Wrangler Flow.
A Data Wrangler 60 másodpercenként automatikusan menti az adatfolyamot. - A Data Wrangler példány leállításához a Studio alkalmazásban válassza a lehetőséget Példányok és kernelek futtatása.
- Alatt ALKALMAZÁSOK FUTÁSA, válassza ki a leállítás ikont a mellett
sagemaker-data-wrangler-1.0 app
. - A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Zárja be az összeset megerősítéséhez.
A Data Wrangler egy ml.m5.4xnagy példányon fut. Ez a példány eltűnik innen FUTÁSI PÉLDATOK amikor leállítja a Data Wrangler alkalmazást.
A Data Wrangler alkalmazás leállítása után újra kell indulnia, amikor legközelebb megnyit egy Data Wrangler folyamatfájlt. Ez eltarthat néhány percig.
Következtetés
Ebben a bejegyzésben láthattuk, hogyan nyerhet betekintést az adatkészletbe, hogyan végezhet feltáró adatelemzést, hogyan készíthet elő és alakíthat át adatokat a Data Wrangler segítségével a Studio-on belül, valamint hogyan exportálhatja az átalakított és előkészített adatokat a Studio Labba, és hogyan hajthat végre modellépítést és egyéb lépéseket.
A SageMaker Data Wrangler segítségével leegyszerűsítheti az adat-előkészítési és szolgáltatástervezési folyamatot, és elvégezheti az adat-előkészítési munkafolyamat minden egyes lépését, beleértve az adatok kiválasztását, tisztítását, feltárását és megjelenítését egyetlen vizuális felületről.
A szerzőkről
Rajakumar Sampathkumar az AWS fő műszaki ügyfélmenedzsere, aki útmutatást nyújt az ügyfeleknek az üzleti technológia összehangolásához, és támogatja felhőalapú működési modelljeik és folyamataik újrafeltalálását. Szenvedélye a felhő és a gépi tanulás. Raj egyben gépi tanulási specialista is, és az AWS-ügyfelekkel együttműködve tervezi, telepíti és kezeli az AWS-munkaterheléseket és architektúrákat.
Meenakshisundaram Thandavarayan vezető mesterséges intelligencia-szakértő, aki szenvedélyesen tervezi, hoz létre és népszerűsítse az emberközpontú adat- és elemzési élményeket. Támogatja az AWS Strategic ügyfeleit az adatvezérelt szervezetté való átalakulásban.
James Wu az AWS vezető AI/ML specialista megoldástervezője. segít az ügyfeleknek AI/ML megoldások tervezésében és kivitelezésében. James munkája az ML felhasználási esetek széles skáláját fedi le, elsősorban a számítógépes látás, a mély tanulás és az ML méretezése a vállalaton belül. Mielőtt csatlakozott az AWS-hez, James több mint 10 évig építész, fejlesztő és technológiai vezető volt, ebből 6 évig mérnöki és 4 évig marketing és reklámiparban dolgozott.
- AI
- ai művészet
- ai art generátor
- van egy robotod
- Amazon SageMaker
- Amazon SageMaker Data Wrangler
- mesterséges intelligencia
- mesterséges intelligencia tanúsítás
- mesterséges intelligencia a bankszektorban
- mesterséges intelligencia robot
- mesterséges intelligencia robotok
- mesterséges intelligencia szoftver
- AWS gépi tanulás
- blockchain
- blokklánc konferencia ai
- coingenius
- társalgási mesterséges intelligencia
- kriptokonferencia ai
- dall's
- mély tanulás
- google azt
- gépi tanulás
- Plató
- plato ai
- Platón adatintelligencia
- Platón játék
- PlatoData
- platogaming
- skála ai
- szintaxis
- zephyrnet