Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.

Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML tanulásához és kísérletezéséhez

Amazon SageMaker Studio Lab egy ingyenes gépi tanulási (ML) fejlesztői környezet, amely nyílt forráskódú JupyterLab alapú, bárki számára lehetővé teszi az ML tanulását és kísérletezését az AWS ML számítási erőforrások segítségével. Ugyanazon az architektúrán és felhasználói felületen alapul, mint Amazon SageMaker Studio, de a Studio képességeinek egy részével.

Amikor elkezd dolgozni az ML kezdeményezéseken, feltáró adatelemzést (EDA) vagy adat-előkészítést kell végeznie, mielőtt folytatná a modellépítést. Amazon SageMaker Data Wrangler képessége Amazon SageMaker Ez megkönnyíti az adattudósok és mérnökök számára az adatok előkészítését az ML alkalmazásokhoz egy vizuális felületen keresztül. A Data Wrangler hetekről percekre csökkenti az adatok összesítéséhez és előkészítéséhez szükséges időt az ML-hez.

A Data Wrangler szolgáltatás-előkészítésének kulcsfontosságú gyorsítója a Adatminőségi és betekintési jelentés. Ez a jelentés ellenőrzi az adatok minőségét, és segít észlelni az adatok rendellenességeit, hogy elvégezhesse a szükséges adatkezelést az adatkészlet javításához. Az Adatminőség és betekintési jelentés segítségével elemzi az adatokat, hogy betekintést nyerjen az adatkészletbe, például a hiányzó értékek és a kiugró értékek számát. Ha problémái vannak az adatokkal, például célszivárgás vagy egyensúlyhiány, a betekintési jelentés felhívhatja a figyelmet ezekre a problémákra, és segíthet azonosítani a végrehajtandó adat-előkészítési lépéseket.

A Studio Lab felhasználói számára előnyös a Data Wrangler, mivel az adatminőség és a funkciók tervezése kritikus fontosságú a modell előrejelző teljesítménye szempontjából. A Data Wrangler segít az adatminőségben és a funkciótervezésben azáltal, hogy betekintést nyújt az adatminőséggel kapcsolatos problémákba, és könnyen lehetővé teszi a funkciók gyors iterációját és tervezését alacsony kódszámú felhasználói felületen.

Ebben a bejegyzésben bemutatjuk, hogyan végezhet feltáró adatelemzést, hogyan készíthet elő és alakíthat át adatokat a Data Wrangler segítségével, és hogyan exportálhatja az átalakított és előkészített adatokat a Studio Labba modellépítéshez.

Megoldás áttekintése

A megoldás a következő magas szintű lépéseket tartalmazza:

  1. Hozzon létre AWS-fiókot és adminisztrátori felhasználót. Ez előfeltétel
  2. Töltse le az adatkészletet churn.csv.
  3. Töltse be az adatkészletet ide Amazon egyszerű tárolási szolgáltatás (Amazon S3).
  4. Hozzon létre egy SageMaker Studio tartományt, és indítsa el a Data Wranglert.
  5. Importálja az adatkészletet az Amazon S3 Data Wrangler folyamatába.
  6. Készítse el az adatminőségi és betekintési jelentést, és vonjon le következtetéseket a szükséges funkciók tervezésére vonatkozóan.
  7. Végezze el a szükséges adatátalakításokat a Data Wranglerben.
  8. Töltse le az Adatminőség- és Betekintési jelentést és az átalakított adatkészletet.
  9. Töltse fel az adatokat egy Studio Lab projektbe modellképzés céljából.

A következő diagram ezt a munkafolyamatot mutatja be.

Előfeltételek

A Data Wrangler és a Studio Lab használatához a következő előfeltételek szükségesek:

Készítsen adat-előkészítési munkafolyamatot a Data Wrangler segítségével

A kezdéshez hajtsa végre a következő lépéseket:

  1. Töltse fel adatkészletét az Amazon S3-ra.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
  2. A SageMaker konzolon, alatt vezérlőpult a navigációs ablakban válassza a lehetőséget tanulmány.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
  3. A Indítsa el az alkalmazást menüt a felhasználói profilja mellett válassza ki tanulmány.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
    Miután sikeresen bejelentkezett a Studióba, a következő képernyőképhez hasonló fejlesztői környezetet kell látnia.
  4. Új Data Wrangler munkafolyamat létrehozásához a filé menüben válasszon Új, majd válassza ki Data Wrangler Flow.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
    A Data Wrangler első lépése az importál az adataid. Több adatforrásból is importálhat adatokat, mint például az Amazon S3, Amazon Athéné, Amazon RedShift, Hópehelyés Adattárak. Ebben a példában az Amazon S3-at használjuk. Ha csak látni szeretné, hogyan működik a Data Wrangler, bármikor választhat Használjon mintaadatkészletet.
  5. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatok importálása.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
  6. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Amazon S3.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
  7. Válassza ki a feltöltött adatkészletet, és válassza ki import.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
    A Data Wrangler lehetővé teszi a teljes adatkészlet importálását vagy mintavételezését annak egy részéből.
  8. Az adatkészletről való gyors betekintéshez válassza a lehetőséget Először K mert Mintavétel és írja be az 50000 XNUMX értéket Minta nagysága.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.

Ismerje meg az adatok minőségét, és szerezzen betekintést

Használjuk a Data Quality and Insights jelentést a Data Wranglerbe importált adatok elemzésére. A jelentés segítségével megértheti, milyen lépéseket kell tennie az adatok tisztításához és feldolgozásához. Ez a jelentés olyan információkat tartalmaz, mint a hiányzó értékek és a kiugró értékek száma. Ha problémái vannak az adatokkal, például célszivárgás vagy egyensúlyhiány, a betekintési jelentés felhívhatja a figyelmet ezekre a problémákra.

  1. Válassza ki a mellette lévő pluszjelet Adattípusok És válasszon Szerezzen betekintést az adatokból.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
  2. A Elemzés típusa, választ Adatminőségi és betekintési jelentés.
  3. A Céloszlop, választ Köpül?.
  4. A Probléma típusa¸ válassza ki Osztályozás.
  5. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Teremt.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.

Megjelenik egy részletes jelentés, amelyet áttekinthet és letölthet. A jelentés számos szakaszt tartalmaz, például gyorsmodellt, szolgáltatás-összefoglalót, szolgáltatáskorrelációt és adatbetekintést. A következő képernyőképek példákat mutatnak be ezekre a szakaszokra.

Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.

Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai. Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai. Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.

Észrevételek a jelentésből

A jelentésből a következő észrevételeket tehetjük:

  • Nem található ismétlődő sor.
  • A State oszlop meglehetősen egyenletes eloszlásúnak tűnik, így az adatok kiegyensúlyozottak az állam lakosságát tekintve.
  • A Phone oszlop túl sok egyedi értéket mutat be ahhoz, hogy gyakorlati haszna legyen. Túl sok egyedi érték miatt ez az oszlop nem használható. Eldobhatjuk a Phone rovat az átalakulásunkban.
  • A jelentés jellemzők korrelációs szakasza alapján Mins és a Charge erősen korrelálnak. Az egyiket eltávolíthatjuk.

Átalakítás

Megfigyeléseink alapján a következő átalakításokat kívánjuk végrehajtani:

  • Távolítsa el a Phone oszlopban, mert számos egyedi értékkel rendelkezik.
  • Számos olyan jellemzőt is látunk, amelyek lényegében 100%-ban korrelálnak egymással. Ezeknek a jellemzőpároknak egyes ML algoritmusokba való belefoglalása nemkívánatos problémákat okozhat, míg másokban csak kisebb redundanciát és torzítást vezet be. Távolítsunk el egy-egy jellemzőt az erősen korrelált párok mindegyikéből: Day Charge a párból Day Mins, Night Charge a párból Night Minsés Intl Charge a párból Intl Mins.
  • Megtérít True or False a Churn oszlop numerikus értéke 1 vagy 0.
  1. Térjen vissza az adatfolyamhoz, és válassza a mellette lévő pluszjelet Adattípusok.
  2. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Transzformáció hozzáadása.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
  3. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Lépés hozzáadása.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
  4. Megkeresheti a keresett transzformációt (esetünkben oszlopok kezelése).
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
  5. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Oszlopok kezelése.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
  6. A Átalakításválaszt Dobja el az oszlopot.
  7. A Eldobandó oszlopokválaszt Phone, Day Charge, Eve Charge, Night Chargeés Intl Charge.
  8. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki Frissítések.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
    Adjunk hozzá egy másik transzformációt a kategorikus kódolás végrehajtásához Churn? oszlop.
  9. Válassza ki az átalakítást Kategorikus kódolás.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
  10. A Átalakítás, választ Sorrendi kódolás.
  11. A Beviteli oszlopok, válaszd a Churn? oszlop.
  12. A Érvénytelen kezelési stratégia, választ Cserélje ki NaN-re.
  13. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Preview, majd válassza ki Frissítések.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.

Most True és a False 1-re, illetve 0-ra konvertálódnak.

Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.

Most, hogy jól ismerjük az adatokat, és előkészítettük és átalakítottuk az adatokat a modellépítéshez, áthelyezhetjük az adatokat a Studio Labba modellkészítés céljából.

Töltse fel az adatokat a Studio Labba

Az adatok Studio Labban való használatának megkezdéséhez hajtsa végre a következő lépéseket:

  1. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatok exportálása nak nek export egy S3-as vödörhöz.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
  2. A Amazon S3 hely, adja meg az S3 elérési utat.
  3. Adja meg a fájl típusát.
  4. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Adatok exportálása.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
  5. Az adatok exportálása után letöltheti az adatokat az S3 tárolóból a helyi számítógépére.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
  6. Most megnyithatja a Studio Labot, és feltöltheti a fájlt a Studio Labba.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
    Alternatív megoldásként csatlakozhat az Amazon S3-hoz a Studio Labból. További információkért lásd: Használjon külső erőforrásokat az Amazon SageMaker Studio Labban.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
  7. Telepítsük a SageMaker-t és importáljuk a Pandákat.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
  8. Igény szerint importálja az összes könyvtárat.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
  9. Most már olvashatjuk a CSV fájlt.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.
  10. Nyomtassunk churn az adatkészlet helyességének megerősítéséhez.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.

Most, hogy megvan a feldolgozott adatkészlet a Studio Labban, elvégezheti a modellépítéshez szükséges további lépéseket.

Data Wrangler árazás

Ebben a bejegyzésben az összes lépést elvégezheti az EDA-hoz vagy az adatok előkészítéséhez a Data Wrangler és Fizet az egyszerű példányok esetében a munkák és a tárhely díjszabása a használat vagy fogyasztás alapján. Nincs szükség előzetes vagy licencdíjra.

Tisztítsuk meg

Ha nem használja a Data Wranglert, fontos, hogy leállítsa azt a példányt, amelyen az fut, hogy elkerülje a további költségeket. A munkavesztés elkerülése érdekében mentse el az adatfolyamot, mielőtt leállítja a Data Wranglert.

  1. Az adatfolyam Stúdióba való mentéséhez válassza a lehetőséget filé, majd válassza ki Adatmentés Wrangler Flow.
    A Data Wrangler 60 másodpercenként automatikusan menti az adatfolyamot.
  2. A Data Wrangler példány leállításához a Studio alkalmazásban válassza a lehetőséget Példányok és kernelek futtatása.
  3. Alatt ALKALMAZÁSOK FUTÁSA, válassza ki a leállítás ikont a mellett sagemaker-data-wrangler-1.0 app.
  4. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Zárja be az összeset megerősítéséhez.
    Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.

A Data Wrangler egy ml.m5.4xnagy példányon fut. Ez a példány eltűnik innen FUTÁSI PÉLDATOK amikor leállítja a Data Wrangler alkalmazást.

A Data Wrangler alkalmazás leállítása után újra kell indulnia, amikor legközelebb megnyit egy Data Wrangler folyamatfájlt. Ez eltarthat néhány percig.

Következtetés

Ebben a bejegyzésben láthattuk, hogyan nyerhet betekintést az adatkészletbe, hogyan végezhet feltáró adatelemzést, hogyan készíthet elő és alakíthat át adatokat a Data Wrangler segítségével a Studio-on belül, valamint hogyan exportálhatja az átalakított és előkészített adatokat a Studio Labba, és hogyan hajthat végre modellépítést és egyéb lépéseket.

A SageMaker Data Wrangler segítségével leegyszerűsítheti az adat-előkészítési és szolgáltatástervezési folyamatot, és elvégezheti az adat-előkészítési munkafolyamat minden egyes lépését, beleértve az adatok kiválasztását, tisztítását, feltárását és megjelenítését egyetlen vizuális felületről.


A szerzőkről

Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.Rajakumar Sampathkumar az AWS fő műszaki ügyfélmenedzsere, aki útmutatást nyújt az ügyfeleknek az üzleti technológia összehangolásához, és támogatja felhőalapú működési modelljeik és folyamataik újrafeltalálását. Szenvedélye a felhő és a gépi tanulás. Raj egyben gépi tanulási specialista is, és az AWS-ügyfelekkel együttműködve tervezi, telepíti és kezeli az AWS-munkaterheléseket és architektúrákat.

Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.Meenakshisundaram Thandavarayan vezető mesterséges intelligencia-szakértő, aki szenvedélyesen tervezi, hoz létre és népszerűsítse az emberközpontú adat- és elemzési élményeket. Támogatja az AWS Strategic ügyfeleit az adatvezérelt szervezetté való átalakulásban.

Használja az Amazon SageMaker Data Wranglert az adatok előkészítéséhez, a Studio Labsot pedig az ML PlatoBlockchain Data Intelligence tanuláshoz és kísérletezéshez. Függőleges keresés. Ai.James Wu az AWS vezető AI/ML specialista megoldástervezője. segít az ügyfeleknek AI/ML megoldások tervezésében és kivitelezésében. James munkája az ML felhasználási esetek széles skáláját fedi le, elsősorban a számítógépes látás, a mély tanulás és az ML méretezése a vállalaton belül. Mielőtt csatlakozott az AWS-hez, James több mint 10 évig építész, fejlesztő és technológiai vezető volt, ebből 6 évig mérnöki és 4 évig marketing és reklámiparban dolgozott.

Időbélyeg:

Még több AWS gépi tanulás