A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.

Jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit a paraméterezett adatkészletekkel és ütemezett munkákkal

Az adatok minden területet és üzletet átalakítanak. Mivel azonban az adatok gyorsabban növekszenek, mint amennyit a legtöbb vállalat nyomon követni tud, az adatok gyűjtése és az adatokból való érték hasznosítása kihívást jelent. A modern adatstratégia segíthet jobb üzleti eredmények elérésében adatokkal. Az AWS a legteljesebb szolgáltatáskészletet nyújtja a végpontok közötti adatút hogy segítsen érték feloldása az adatokból és alakítsa átlátássá.

Az adattudósok idejük akár 80%-át is a gépi tanulási (ML) projektek adatainak előkészítésével tölthetik. Ez az előkészítési folyamat nagyrészt differenciálatlan és fárasztó munka, és több programozási API-t és egyedi könyvtárakat is magában foglalhat. Amazon SageMaker Data Wrangler vizuális interfészen keresztül segít az adattudósoknak és adatmérnököknek egyszerűsíteni és felgyorsítani a táblázatos és idősoros adatok előkészítését és a funkciók tervezését. Több adatforrásból is importálhat adatokat, mint pl Amazon egyszerű tárolási szolgáltatás (Amazon S3), Amazon Athéné, Amazon RedShift, vagy akár harmadik féltől származó megoldások, mint pl Hópehely or DataBricks, és feldolgozza adatait több mint 300 beépített adatátalakítással és kódrészletek könyvtárával, így gyorsan normalizálhatja, átalakíthatja és kombinálhatja a funkciókat anélkül, hogy kódot írna. Egyéni átalakításait PySparkban, SQL-ben vagy Pandasban is elhozhatja.

Ez a bejegyzés bemutatja, hogyan ütemezheti az adat-előkészítési feladatokat az automatikus futtatásra. Feltérképezzük a paraméterezett adatkészletek új Data Wrangler képességét is, amely lehetővé teszi az adatfolyamba bevonandó fájlok paraméterezett URI-k segítségével történő meghatározását.

Megoldás áttekintése

A Data Wrangler mostantól támogatja az adatok paraméterezett URI használatával történő importálását. Ez további rugalmasságot tesz lehetővé, mivel mostantól importálhat minden adatkészletet, amely megfelel a megadott paramétereknek, amelyek lehetnek String, Number, Datetime és Pattern típusúak, az URI-ban. Ezenkívül mostantól ütemezetten elindíthatja a Data Wrangler átalakítási feladatait.

Ebben a bejegyzésben egy mintafolyamatot hozunk létre a Titanic adatkészlettel, hogy megmutassuk, hogyan kezdheti el a kísérletezést ezzel a két új Data Wrangler funkcióval. Az adatkészlet letöltéséhez lásd: Titanic – Gépi tanulás a katasztrófából.

Előfeltételek

Az ebben a bejegyzésben leírt összes funkció eléréséhez a Data Wrangler legújabb kernelverzióját kell futtatnia. További információkért lásd: Frissítse a Data Wranglert. Ezenkívül futnia kell Amazon SageMaker Studio JupyterLab 3. Az aktuális verzió megtekintéséhez és frissítéséhez lásd: JupyterLab verziószámítás.

Fájlszerkezet

Ehhez a bemutatóhoz egy egyszerű fájlstruktúrát követünk, amelyet meg kell reprodukálnia az ebben a bejegyzésben vázolt lépések reprodukálásához.

  1. A stúdióban, hozzon létre egy új jegyzetfüzetet.
  2. Futtassa a következő kódrészletet az általunk használt mappastruktúra létrehozásához (győződjön meg róla, hogy a kívánt mappában van a fájlfában):
    !mkdir titanic_dataset
    !mkdir titanic_dataset/datetime_data
    !mkdir titanic_dataset/datetime_data/2021
    !mkdir titanic_dataset/datetime_data/2022
    
    !mkdir titanic_dataset/datetime_data/2021/01 titanic_dataset/datetime_data/2021/02 titanic_dataset/datetime_data/2021/03 
    !mkdir titanic_dataset/datetime_data/2021/04 titanic_dataset/datetime_data/2021/05 titanic_dataset/datetime_data/2021/06
    !mkdir titanic_dataset/datetime_data/2022/01 titanic_dataset/datetime_data/2022/02 titanic_dataset/datetime_data/2022/03 
    !mkdir titanic_dataset/datetime_data/2022/04 titanic_dataset/datetime_data/2022/05 titanic_dataset/datetime_data/2022/06
    
    !mkdir titanic_dataset/datetime_data/2021/01/01 titanic_dataset/datetime_data/2021/02/01 titanic_dataset/datetime_data/2021/03/01 
    !mkdir titanic_dataset/datetime_data/2021/04/01 titanic_dataset/datetime_data/2021/05/01 titanic_dataset/datetime_data/2021/06/01
    !mkdir titanic_dataset/datetime_data/2022/01/01 titanic_dataset/datetime_data/2022/02/01 titanic_dataset/datetime_data/2022/03/01 
    !mkdir titanic_dataset/datetime_data/2022/04/01 titanic_dataset/datetime_data/2022/05/01 titanic_dataset/datetime_data/2022/06/01
    
    !mkdir titanic_dataset/train_1 titanic_dataset/train_2 titanic_dataset/train_3 titanic_dataset/train_4 titanic_dataset/train_5
    !mkdir titanic_dataset/train titanic_dataset/test

  3. Másolja a train.csv és a test.csv fájlokat az eredeti Titanic adatkészletből a mappákba titanic_dataset/train és a titanic_dataset/test, Ill.
  4. Futtassa a következő kódrészletet, hogy feltöltse a mappákat a szükséges fájlokkal:
    import os
    import math
    import pandas as pd
    batch_size = 100
    
    #Get a list of all the leaf nodes in the folder structure
    leaf_nodes = []
    
    for root, dirs, files in os.walk('titanic_dataset'):
        if not dirs:
            if root != "titanic_dataset/test" and root != "titanic_dataset/train":
                leaf_nodes.append(root)
                
    titanic_df = pd.read_csv('titanic_dataset/train/train.csv')
    
    #Create the mini batch files
    for i in range(math.ceil(titanic_df.shape[0]/batch_size)):
        batch_df = titanic_df[i*batch_size:(i+1)*batch_size]
        
        #Place a copy of each mini batch in each one of the leaf folders
        for node in leaf_nodes:
            batch_df.to_csv(node+'/part_{}.csv'.format(i), index=False)

Felosztottuk a train.csv a Titanic adatkészlet fájlját kilenc különböző fájlba, név szerint part_x, ahol x az alkatrész száma. A 0. rész tartalmazza az első 100 rekordot, az 1. rész a következő 100 rekordot, és így tovább a 8. részig. A fájlfa minden csomópontmappája tartalmazza a betanítási adatok kilenc részének másolatát, kivéve a train és a test mappákat, amelyek tartalmazzák train.csv és a test.csv.

Paraméterezett adatkészletek

A Data Wrangler felhasználói mostantól megadhatnak paramétereket az Amazon S3-ból importált adatkészletekhez. Az adatkészlet-paraméterek az erőforrások URI-ján vannak megadva, értéke pedig dinamikusan változtatható, ami nagyobb rugalmasságot tesz lehetővé az importálni kívánt fájlok kiválasztásában. A paraméterek négy adattípusúak lehetnek:

  • Szám – Bármely egész szám értékét felveheti
  • Húr – Bármilyen szöveges karakterlánc értékét felveheti
  • Mintás – Felveheti bármely reguláris kifejezés értékét
  • időpont – Felveheti bármelyik támogatott dátum/idő formátum értékét

Ebben a részben ennek az új funkciónak a bemutatását mutatjuk be. Ez csak azután érhető el, hogy importálta az adatkészletet az aktuális folyamatba, és csak az Amazon S3-ból importált adatkészletekhez.

  1. Az adatfolyamból válassza ki a plusz (+) jelet az importálási lépés mellett, és válassza a lehetőséget Adatkészlet szerkesztése.
  2. Az új paraméterek létrehozásának előnyben részesített (és legegyszerűbb) módja az URI egy részének kiemelése és kiválasztása Egyéni paraméter létrehozása a legördülő menüben. Minden létrehozni kívánt paraméterhez négy dolgot kell megadnia:
    1. Név
    2. típus
    3. Alapértelmezett érték
    4. Leírás

    A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.
    Itt létrehoztunk egy String típusú paramétert filename_param alapértelmezett értékkel train.csv. Most láthatja a paraméter nevét dupla zárójelek között, helyettesítve az URI-nak azt a részét, amelyet korábban kiemeltünk. Mivel ennek a paraméternek a meghatározott értéke az volt train.csv, most látjuk a fájlt train.csv szerepel az import táblázatban.
    A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.

  3. Amikor megpróbálunk létrehozni egy átalakítási munkát, a Munka konfigurálása lépést, most látjuk a paraméterek szakaszt, ahol láthatjuk az összes meghatározott paraméterünk listáját.
  4. A paraméter kiválasztása lehetőséget ad a paraméter értékének megváltoztatására, ebben az esetben a transzformálandó bemeneti adathalmaz megváltoztatására a meghatározott folyamnak megfelelően.
    Feltéve, hogy megváltoztatjuk az értékét filename_param ból ből train.csv nak nek part_0.csv, az átalakítási munka most tart part_0.csv (feltéve, hogy egy fájl a névvel part_0.csv ugyanabban a mappában található), mint az új bemeneti adatok.
    A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.
  5. Ezenkívül, ha megpróbálja exportálni a folyamatot egy Amazon S3 célhelyre (Jupyter notebookon keresztül), akkor most egy új cella jelenik meg, amely tartalmazza a megadott paramétereket.
    Vegye figyelembe, hogy a paraméter az alapértelmezett értékét veszi fel, de megváltoztathatja, ha lecseréli az értékét a parameter_overrides szótárat (a szótár kulcsait változatlanul hagyva).
    A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.
    Ezenkívül új paramétereket hozhat létre a paraméterek UI.
  6. Nyissa meg a paraméter ikon kiválasztásával ({{}}) mellett található Go választási lehetőség; mindkettő az URI elérési út értéke mellett található.
    A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.Megnyílik egy táblázat a folyamatfájlban jelenleg létező összes paraméterrel (filename_param ezen a ponton).
  7. Választással új paramétereket hozhat létre a folyamathoz Paraméter létrehozása.
    A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.
    Megnyílik egy felugró ablak, ahol új egyéni paramétert hozhat létre.
  8. Itt létrehoztunk egy újat example_parameter számtípusként 0 alapértelmezett értékkel. Ez az újonnan létrehozott paraméter most a listában szerepel paraméterek asztal. Ha az egérmutatót a paraméter fölé viszi, megjelennek a lehetőségek szerkesztése, törölés betétlap.A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.
  9. Belülről a paraméterek UI, beillesztheti az egyik paramétert az URI-ba a kívánt paraméter kiválasztásával és kiválasztásával betétlap.
    Ez hozzáadja a paramétert az URI végéhez. Át kell helyeznie az URI-n belül a kívánt szakaszba.
    A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.
  10. Módosítsa a paraméter alapértelmezett értékét, alkalmazza a módosítást (a modálisból), válassza ki Go, és válassza a frissítés ikont az előnézeti lista frissítéséhez a kiválasztott adatkészlettel az újonnan meghatározott paraméter értéke alapján.A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.Most nézzünk meg más paramétertípusokat. Tegyük fel, hogy most van egy több részre osztott adatkészletünk, ahol minden fájlnak van egy cikkszáma.
  11. Ha dinamikusan szeretnénk módosítani a fájlszámot, akkor a következő képernyőképen látható módon definiálhatunk egy Number paramétert.A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.Vegye figyelembe, hogy a kiválasztott fájl az, amelyik megfelel a paraméterben megadott számnak.
    A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.Most mutassuk be, hogyan kell használni a Pattern paramétert. Tegyük fel, hogy importálni akarjuk az összes part_1.csv alatti összes mappában található fájlokat titanic-dataset/ mappát. A minta paraméterei bármilyen érvényes reguláris kifejezést vehetnek fel; példaként látható néhány regex minta.
  12. Hozzon létre egy Pattern paramétert any_pattern hogy megfeleljen a alatti bármely mappának vagy fájlnak titanic-dataset/ mappa alapértelmezett értékkel .*.Vegye észre, hogy a helyettesítő karakter nem egyetlen * (csillag), hanem van egy pontja is.
  13. Jelölje ki a titanic-dataset/ részét, és hozzon létre egy egyéni paramétert. Ezúttal a Mintás típus.A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.Ez a minta kiválasztja az összes megnevezett fájlt part-1.csv alatti mappák bármelyikéből titanic-dataset/.
    A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.Egy paraméter többször is használható egy útvonalon. A következő példában az újonnan létrehozott paraméterünket használjuk any_pattern kétszer az URI-nkban, hogy megfeleljen az alábbi mappák bármelyikében található alkatrészfájloknak titanic-dataset/.
    A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.Végül hozzunk létre egy Datetime paramétert. A dátum-idő paraméterek akkor hasznosak, ha olyan útvonalakkal foglalkozunk, amelyek dátum és idő szerint vannak particionálva, például a Amazon Kinesis Data Firehose (Lásd: Dinamikus particionálás a Kinesis Data Firehose-ban). Ehhez a bemutatóhoz a datetime-data mappában található adatokat használjuk.
  14. Válassza ki az útvonalnak azt a részét, amely egy dátum/idő, és hozzon létre egy egyéni paramétert. Válaszd a időpont paraméter típusa.
    A Datetime adattípus kiválasztásakor további részleteket kell megadnia.
  15. Először is meg kell adnia a dátumformátumot. Választhat az előre meghatározott dátum/idő formátumok közül, vagy létrehozhat egy egyedit.
    Az előre meghatározott dátum/idő formátumok esetén a jelmagyarázat példát mutat a kiválasztott formátumnak megfelelő dátumra. Ehhez a bemutatóhoz a formátumot választjuk éééé/hh/nn.A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.
  16. Ezután adjon meg egy időzónát a dátum/idő értékekhez.
    Például az aktuális dátum lehet 1. január 2022. egy időzónában, de lehet 2. január 2022. egy másik időzónában.
  17. Végül kiválaszthatja az időtartományt, amely lehetővé teszi az adatfolyamba bevonni kívánt fájlok tartományának kiválasztását.
    Megadhatja az időtartományt órákban, napokban, hetekben, hónapokban vagy években. Ebben a példában szeretnénk lekérni az összes fájlt az elmúlt évből.
  18. Adja meg a paraméter leírását, és válassza ki Teremt.
    Ha több adatkészletet használ különböző időzónákkal, az idő nem konvertálódik automatikusan; minden fájlt vagy forrást elő kell feldolgoznia, hogy egy időzónává alakítsa át.A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.A kiválasztott fájlok a tavalyi adatoknak megfelelő mappák összes állománya.A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.
  19. Most, ha létrehozunk egy adatátalakítási feladatot, láthatjuk az összes definiált paraméterünk listáját, és felülírhatjuk az alapértelmezett értékeket, így az átalakítási feladatok kiválasztják a megadott fájlokat.A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.
    A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.

Feldolgozási feladatok ütemezése

Mostantól ütemezheti a feldolgozási feladatokat, hogy automatizálja az adatátalakítási feladatok futtatását és az átalakított adatok exportálását az Amazon S3 vagy az Amazon SXNUMX-ba. Amazon SageMaker Feature Store. A munkákat az Ön igényeinek megfelelő időre és gyakorisággal ütemezheti.

Ütemezett feldolgozási feladatok használata Amazon EventBridge szabályok a munka ütemezéséhez. Ezért előfeltételként meg kell győződnie arról, hogy a AWS Identity and Access Management (IAM) szerepkört használ a Data Wrangler, nevezetesen a Amazon SageMaker végrehajtási szerep a Studio-példány engedélye van EventBridge-szabályok létrehozására.

IAM konfigurálása

Folytassa a következő frissítésekkel az IAM SageMaker végrehajtási szerepkörben, amely megfelel annak a Studio-példánynak, ahol a Data Wrangler folyamat fut:

  1. Csatlakoztassa a AmazonEventBridgeFullAccess kezelt politika.
  2. Szabályzat csatolása feldolgozási feladat létrehozására vonatkozó engedély megadásához:
    {
    	"Version": "2012-10-17",
    	"Statement": [
    		{
    			"Effect": "Allow",
    			"Action": "sagemaker:StartPipelineExecution",
    			"Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*"
    		}
    	]
    }

  3. Engedélyezze az EventBridge-et a szerepvállaláshoz a következő bizalmi szabályzat hozzáadásával:
    {
    	"Effect": "Allow",
    	"Principal": {
    		"Service": "events.amazonaws.com"
    	},
    	"Action": "sts:AssumeRole"
    }

Alternatív megoldásként, ha más szerepkört használ a feldolgozási feladat futtatásához, alkalmazza a 2. és 3. lépésben ismertetett házirendeket erre a szerepkörre. Az IAM konfigurációval kapcsolatos részletekért lásd: Ütemezés létrehozása az új adatok automatikus feldolgozásához.

Készítsen ütemtervet

Ütemezés létrehozásához nyissa meg a folyamatot a Data Wrangler folyamatszerkesztőben.

  1. A Adatáramlás lapot választani Állás létrehozása.
  2. Állítsa be a szükséges mezőket, és válassza ki Ezután 2. Állítsa be a feladatot.
    A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.
  3. Bontsa Társulási ütemezések.
  4. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Új ütemterv létrehozása.
    A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.
    A Új ütemterv létrehozása párbeszédablak nyílik meg, ahol megadhatja a feldolgozási feladat ütemezésének részleteit.
    A párbeszédpanel nagy rugalmasságot kínál az ütemezés meghatározásához. Beállíthatja például, hogy a feldolgozási feladat egy adott időpontban vagy X óránként, a hét meghatározott napjain fusson.A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.
    A periodicitás percekig szemcsés lehet.A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.
  5. Határozza meg az ütemezés nevét és gyakoriságát, majd válassza ki Teremt az ütemezés mentéséhez.
  6. Lehetősége van azonnal elindítani a feldolgozási feladatot az ütemezéssel együtt, amely gondoskodik a jövőbeni futtatásokról, vagy hagyja, hogy a feladat csak az ütemezés szerint fusson.
  7. Ugyanahhoz a feldolgozási feladathoz további ütemezést is megadhat.
    A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.
  8. A feldolgozási feladat ütemezésének befejezéséhez válassza a lehetőséget Teremt.
    A „Feladat sikeresen ütemezve” üzenet jelenik meg. Ezen túlmenően, ha úgy dönt, hogy a feladatot csak az ütemezésnek megfelelően hagyja futni, akkor megjelenik egy hivatkozás a most létrehozott EventBridge-szabályra.A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.

Ha az ütemezési hivatkozást választja, egy új lap nyílik meg a böngészőben, amelyen az EventBridge szabály látható. Ezen az oldalon további módosításokat végezhet a szabályon, és nyomon követheti annak hívási előzményeit. Az ütemezett feldolgozási feladat leállításához törölje az ütemezés nevét tartalmazó eseményszabályt.

A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.

Az EventBridge szabály egy SageMaker folyamatot jelenít meg célként, amely a meghatározott ütemezés szerint indul el, és a folyamat részeként meghívott feldolgozási feladatot.

A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.

A SageMaker folyamat nyomon követéséhez lépjen vissza a Studio-ba, és válassza ki a SageMaker források ikon, válassza ki Csővezetékek, és válassza ki a nyomon követni kívánt folyamat nevét. Most láthat egy táblázatot a folyamat összes jelenlegi és múltbeli futtatásával és állapotával.

A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.

További részletek megtekintéséhez kattintson duplán egy adott bejegyzésre.

A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.

Tisztítsuk meg

Ha nem használja a Data Wranglert, ajánlatos leállítani azt a példányt, amelyen fut, hogy elkerülje a további költségeket.

A munkavesztés elkerülése érdekében mentse el az adatfolyamot, mielőtt leállítja a Data Wranglert.

  1. Az adatfolyam Stúdióba való mentéséhez válassza a lehetőséget filé, majd válassza ki Adatmentés Wrangler Flow. A Data Wrangler 60 másodpercenként automatikusan menti az adatfolyamot.
  2. A Data Wrangler példány leállításához a Studio alkalmazásban válassza a lehetőséget Példányok és kernelek futtatása.
  3. Alatt ALKALMAZÁSOK FUTÁSA, válassza ki a leállítás ikont a mellett sagemaker-data-wrangler-1.0 app.A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.
  4. A pop-art design, négy időzóna kijelzése egyszerre és méretének arányai azok az érvek, amelyek a NeXtime Time Zones-t kiváló választássá teszik. Válassza a Zárja be az összeset megerősítéséhez.A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.

A Data Wrangler egy ml.m5.4xnagy példányon fut. Ez a példány eltűnik innen FUTÁSI PÉLDATOK amikor leállítja a Data Wrangler alkalmazást.

A Data Wrangler alkalmazás leállítása után újra kell indulnia, amikor legközelebb megnyit egy Data Wrangler folyamatfájlt. Ez eltarthat néhány percig.

Következtetés

Ebben a bejegyzésben bemutattuk, hogyan lehet paraméterekkel importálni adatkészleteit Data Wrangler-folyamatok segítségével, és adatátalakítási feladatokat hozhat létre rajtuk. A paraméterezett adatkészletek nagyobb rugalmasságot tesznek lehetővé a használt adatkészletekkel kapcsolatban, és lehetővé teszik a folyamatok újrafelhasználását. Bemutattuk azt is, hogyan állíthat be ütemezett feladatokat az adatátalakítások és az Amazon S3-ba vagy a Feature Store-ba történő exportálás automatizálásához, az igényeinek megfelelő időben és gyakorisággal, közvetlenül a Data Wrangler felhasználói felületéről.

Ha többet szeretne megtudni az adatfolyamok használatáról a Data Wranglerrel, lásd: Hozzon létre és használjon Data Wrangler Flow-t és a Amazon SageMaker árképzés. A Data Wrangler használatának megkezdéséhez lásd: Készítsen ML adatokat az Amazon SageMaker Data Wrangler segítségével.


A szerzőkről

A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.David Laredo prototípuskészítő építész az Amazon Web Services prototípus- és felhőmérnöki csapatánál, ahol több gépi tanulási prototípus kifejlesztésében is segített az AWS-ügyfelek számára. Az elmúlt 6 évben gépi tanulással foglalkozik, ML modelleket képez és finomhangolt, valamint végpontok közötti folyamatokat valósított meg e modellek gyártásához. Érdeklődési területe az NLP, az ML alkalmazások és a végpontok közötti ML.

A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.Givanildo Alves az Amazon Web Services prototípus-készítési és felhőmérnöki csapatának prototípuskészítő építésze, aki az AWS-en elérhető művészet bemutatásával segíti az ügyfeleket az innovációban és a felgyorsításban, mivel már számos prototípust implementált a mesterséges intelligencia körül. Hosszú pályafutása van a szoftvermérnöki területen, korábban az Amazon.com.br szoftverfejlesztő mérnökeként dolgozott.

A PlatoBlockchain Data Intelligence paraméterezett adatkészletekkel és ütemezett feladatokkal jobban irányíthatja Amazon SageMaker Data Wrangler munkaterheléseit. Függőleges keresés. Ai.Adrian Fuentes programmenedzser az Amazon Web Services prototípus-készítési és felhőmérnöki csapatánál, újításokkal az ügyfelek számára a gépi tanulás, az IoT és a blokklánc területén. Több mint 15 éves tapasztalattal rendelkezik projektek menedzselésében és megvalósításában, valamint 1 éves tapasztalattal rendelkezik az AWS-nél.

Időbélyeg:

Még több AWS gépi tanulás