Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä

Data muuttaa jokaista alaa ja jokaista liiketoimintaa. Tietojen kasvaessa nopeammin kuin useimmat yritykset pystyvät seuraamaan, tiedon kerääminen ja tiedoista arvon saaminen on haastavaa. A moderni datastrategia voi auttaa sinua luomaan parempia liiketoimintatuloksia datan avulla. AWS tarjoaa täydellisimmän palveluvalikoiman päästä päähän -datamatka auttaa vapauttaa arvo tiedoistasi ja muuta se oivallukseksi.

Tietotutkijat voivat käyttää jopa 80 % ajastaan ​​tietojen valmisteluun koneoppimisprojekteja (ML) varten. Tämä valmisteluprosessi on suurelta osin eriyttämätöntä ja työlästä työtä, ja siihen voi liittyä useita ohjelmointirajapintoja ja mukautettuja kirjastoja. Amazon SageMaker Data Wrangler auttaa datatieteilijöitä ja tietosuunnittelijoita yksinkertaistamaan ja nopeuttamaan taulukko- ja aikasarjatietojen valmistelua ja ominaisuussuunnittelua visuaalisen käyttöliittymän avulla. Voit tuoda tietoja useista tietolähteistä, kuten Amazonin yksinkertainen tallennuspalvelu (Amazon S3), Amazon Athena, Amazonin punainen siirtotai jopa kolmannen osapuolen ratkaisuja, kuten Lumihiutale or DataBricksja käsittelee tietojasi yli 300 sisäänrakennetulla tietomuunnolla ja koodinpätkäkirjastolla, jotta voit nopeasti normalisoida, muuntaa ja yhdistää ominaisuuksia kirjoittamatta mitään koodia. Voit myös tuoda mukautettuja muunnoksia PySparkissa, SQL:ssä tai Pandasissa.

Tämä viesti osoittaa, kuinka voit ajoittaa tietojen valmistelutyöt suoriutumaan automaattisesti. Tutkimme myös parametroitujen tietojoukkojen uutta Data Wrangler -ominaisuutta, jonka avulla voit määrittää tietovirtaan sisällytettävät tiedostot parametroitujen URI:iden avulla.

Ratkaisun yleiskatsaus

Data Wrangler tukee nyt tietojen tuontia parametroidun URI:n avulla. Tämä lisää joustavuutta, koska voit nyt tuoda kaikki tietojoukot, jotka vastaavat määritettyjä parametreja, jotka voivat olla tyyppiä String, Number, Datetime ja Pattern, URI:ssa. Lisäksi voit nyt käynnistää Data Wrangler -muunnostyösi aikataulun mukaan.

Tässä viestissä luomme näytekulun Titanicin tietojoukosta näyttääksemme, kuinka voit aloittaa näiden kahden uuden Data Wranglerin ominaisuuden kokeilemisen. Jos haluat ladata tietojoukon, katso Titanic – Koneoppiminen katastrofista.

Edellytykset

Saadaksesi kaikki tässä viestissä kuvatut ominaisuudet, sinun on käytettävä Data Wranglerin uusinta ydinversiota. Lisätietoja on kohdassa Päivitä Data Wrangler. Lisäksi sinun täytyy juosta Amazon SageMaker Studio JupyterLab 3. Katso nykyinen versio ja päivitä se, katso JupyterLab-versio.

Tiedostorakenne

Tässä esittelyssä noudatamme yksinkertaista tiedostorakennetta, joka sinun on kopioitava, jotta voit toistaa tässä viestissä kuvatut vaiheet.

  1. Studiossa, luo uusi muistikirja.
  2. Luo käyttämämme kansiorakenne suorittamalla seuraava koodinpätkä (varmista, että olet tiedostopuussasi haluamassasi kansiossa):
    !mkdir titanic_dataset
    !mkdir titanic_dataset/datetime_data
    !mkdir titanic_dataset/datetime_data/2021
    !mkdir titanic_dataset/datetime_data/2022
    
    !mkdir titanic_dataset/datetime_data/2021/01 titanic_dataset/datetime_data/2021/02 titanic_dataset/datetime_data/2021/03 
    !mkdir titanic_dataset/datetime_data/2021/04 titanic_dataset/datetime_data/2021/05 titanic_dataset/datetime_data/2021/06
    !mkdir titanic_dataset/datetime_data/2022/01 titanic_dataset/datetime_data/2022/02 titanic_dataset/datetime_data/2022/03 
    !mkdir titanic_dataset/datetime_data/2022/04 titanic_dataset/datetime_data/2022/05 titanic_dataset/datetime_data/2022/06
    
    !mkdir titanic_dataset/datetime_data/2021/01/01 titanic_dataset/datetime_data/2021/02/01 titanic_dataset/datetime_data/2021/03/01 
    !mkdir titanic_dataset/datetime_data/2021/04/01 titanic_dataset/datetime_data/2021/05/01 titanic_dataset/datetime_data/2021/06/01
    !mkdir titanic_dataset/datetime_data/2022/01/01 titanic_dataset/datetime_data/2022/02/01 titanic_dataset/datetime_data/2022/03/01 
    !mkdir titanic_dataset/datetime_data/2022/04/01 titanic_dataset/datetime_data/2022/05/01 titanic_dataset/datetime_data/2022/06/01
    
    !mkdir titanic_dataset/train_1 titanic_dataset/train_2 titanic_dataset/train_3 titanic_dataset/train_4 titanic_dataset/train_5
    !mkdir titanic_dataset/train titanic_dataset/test

  3. Kopioi train.csv ja test.csv tiedostot alkuperäisestä Titanicin tietojoukosta kansioihin titanic_dataset/train ja titanic_dataset/testVastaavasti.
  4. Suorita seuraava koodinpätkä täyttääksesi kansiot tarvittavilla tiedostoilla:
    import os
    import math
    import pandas as pd
    batch_size = 100
    
    #Get a list of all the leaf nodes in the folder structure
    leaf_nodes = []
    
    for root, dirs, files in os.walk('titanic_dataset'):
        if not dirs:
            if root != "titanic_dataset/test" and root != "titanic_dataset/train":
                leaf_nodes.append(root)
                
    titanic_df = pd.read_csv('titanic_dataset/train/train.csv')
    
    #Create the mini batch files
    for i in range(math.ceil(titanic_df.shape[0]/batch_size)):
        batch_df = titanic_df[i*batch_size:(i+1)*batch_size]
        
        #Place a copy of each mini batch in each one of the leaf folders
        for node in leaf_nodes:
            batch_df.to_csv(node+'/part_{}.csv'.format(i), index=False)

Jaoimme train.csv Titanic-tietojoukon tiedosto yhdeksään eri tiedostoon, nimeltään part_x, jossa x on osan numero. Osassa 0 on ensimmäiset 100 tietuetta, osassa 1 seuraavat 100 ja niin edelleen osaan 8 asti. Jokainen tiedostopuun solmukansio sisältää kopion harjoitustietojen yhdeksästä osasta paitsi train ja test kansiot, jotka sisältävät train.csv ja test.csv.

Parametriset tietojoukot

Data Wrangler -käyttäjät voivat nyt määrittää parametreja Amazon S3:sta tuoduille tietojoukoille. Tietojoukon parametrit määritetään resurssien URI:ssa, ja sen arvoa voidaan muuttaa dynaamisesti, mikä mahdollistaa suuremman joustavuuden tuodavien tiedostojen valinnassa. Parametreja voi olla neljää tietotyyppiä:

  • numero – Voi ottaa minkä tahansa kokonaisluvun arvon
  • jono – Voi ottaa minkä tahansa tekstijonon arvon
  • Kuvio – Voi ottaa minkä tahansa säännöllisen lausekkeen arvon
  • datetime – Voi ottaa minkä tahansa tuetun päivämäärä-/aikamuodon arvon

Tässä osiossa esittelemme tämän uuden ominaisuuden. Tämä on käytettävissä vain sen jälkeen, kun olet tuonut tietojoukon nykyiseen virtaasi, ja vain Amazon S3:sta tuoduille tietojoukoille.

  1. Valitse tietovirrastasi tuontivaiheen vierestä plus (+) ja valitse Muokkaa tietoaineistoa.
  2. Suosituin (ja helpoin) tapa luoda uusia parametreja on korostaa URI-osio ja valita Luo mukautettu parametri avattavasta valikosta. Sinun on määritettävä neljä asiaa kullekin parametrille, jonka haluat luoda:
    1. Nimi
    2. Tyyppi
    3. Oletusarvo
    4. Kuvaus

    Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
    Täällä olemme luoneet merkkijonotyypin parametrin nimeltä filename_param oletusarvolla train.csv. Nyt näet parametrin nimen kaksoissulkeissa, mikä korvaa aiemmin korostamamme URI:n osan. Koska tälle parametrille määritetty arvo oli train.csv, näemme nyt tiedoston train.csv lueteltu tuontitaulukossa.
    Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

  3. Kun yritämme luoda muutostyötä, Määritä työ vaihe, näemme nyt a parametrit -osiossa, jossa näemme luettelon kaikista määrittämistämme parametreista.
  4. Parametrin valinta antaa meille mahdollisuuden muuttaa parametrin arvoa, tässä tapauksessa muutettavaa syötetietojoukkoa määritellyn kulun mukaan.
    Olettaen, että muutamme arvoa filename_param alkaen train.csv että part_0.csv, muutostyö kestää nyt part_0.csv (edellyttäen, että tiedosto, jonka nimi on part_0.csv on samassa kansiossa) kuin sen uudet syöttötiedot.
    Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  5. Lisäksi, jos yrität viedä vuotasi Amazon S3 -kohteeseen (Jupyter-muistikirjan kautta), näet nyt uuden solun, joka sisältää määrittämäsi parametrit.
    Huomaa, että parametri ottaa oletusarvonsa, mutta voit muuttaa sitä korvaamalla sen arvon kohdassa parameter_overrides sanakirja (jätä sanakirjan näppäimet ennalleen).
    Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
    Lisäksi voit luoda uusia parametreja parametrit UI.
  6. Avaa se valitsemalla parametrikuvake ({{}}) sijaitsee vieressä Go vaihtoehto; molemmat sijaitsevat URI-polun arvon vieressä.
    Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Taulukko avautuu, jossa on kaikki virtatiedostossasi tällä hetkellä olevat parametrit (filename_param tässä tilanteessa).
  7. Voit luoda kulkullesi uusia parametreja valitsemalla Luo parametri.
    Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
    Näyttöön tulee ponnahdusikkuna, jossa voit luoda uuden mukautetun parametrin.
  8. Täällä olemme luoneet uuden example_parameter numerotyyppinä, jonka oletusarvo on 0. Tämä äskettäin luotu parametri on nyt luettelossa parametrit pöytä. Vie hiiri parametrin päälle näyttää vaihtoehdot muokata, Poistaja liite.Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  9. Sisältä parametrit Käyttöliittymä, voit lisätä yhden parametreistasi URI:hen valitsemalla haluamasi parametrin ja valitsemalla sen liite.
    Tämä lisää parametrin URI-osoitteesi loppuun. Sinun on siirrettävä se haluttuun osioon URI:ssasi.
    Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  10. Muuta parametrin oletusarvoa, ota muutos käyttöön (modaalista), valitse Go, ja valitse päivityskuvake päivittääksesi esikatseluluettelon käyttämällä valittua tietojoukkoa juuri määritetyn parametrin arvon perusteella.Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Tutkitaan nyt muita parametrityyppejä. Oletetaan, että meillä on nyt useisiin osiin jaettu tietojoukko, jossa jokaisella tiedostolla on osanumero.
  11. Jos haluamme muuttaa dynaamisesti tiedoston numeroa, voimme määrittää Number-parametrin seuraavan kuvakaappauksen mukaisesti.Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Huomaa, että valittu tiedosto on se, joka vastaa parametrissa määritettyä numeroa.
    Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Osoitetaan nyt, kuinka kuvioparametria käytetään. Oletetaan, että haluamme tuoda kaikki part_1.csv tiedostot kaikissa kansion alla olevissa kansioissa titanic-dataset/ kansio. Kuvioparametrit voivat ottaa minkä tahansa kelvollisen säännöllisen lausekkeen; joitakin regex-malleja on esitetty esimerkkeinä.
  12. Luo kuvioparametri nimeltä any_pattern vastaamaan mitä tahansa kansiota tai tiedostoa titanic-dataset/ kansio oletusarvolla .*.Huomaa, että yleismerkki ei ole yksittäinen * (tähti), vaan siinä on myös piste.
  13. Korosta titanic-dataset/ osa polkua ja luo muokattu parametri. Tällä kertaa valitsemme Kuvio tyyppi.Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Tämä malli valitsee kaikki kutsutut tiedostot part-1.csv mistä tahansa alla olevista kansioista titanic-dataset/.
    Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Parametria voidaan käyttää useammin kuin kerran polussa. Seuraavassa esimerkissä käytämme juuri luotua parametriamme any_pattern kahdesti URI:ssamme vastaamaan mitä tahansa alla olevien kansioiden osatiedostoja titanic-dataset/.
    Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Luodaan lopuksi Datetime-parametri. Päivämäärä-aika-parametrit ovat hyödyllisiä, kun käsittelemme polkuja, jotka on osioitu päivämäärän ja ajan mukaan, kuten polkuja Amazon Kinesis Data Firehose (Ks. Dynaaminen osiointi Kinesis Data Firehose -sovelluksessa). Tässä esittelyssä käytämme datetime-data-kansiossa olevia tietoja.
  14. Valitse polun osa, joka on päivämäärä/aika, ja luo mukautettu parametri. Valitse datetime parametrityyppi.
    Kun valitset Datetime-tietotyypin, sinun on täytettävä lisätietoja.
  15. Ensinnäkin sinun on annettava päivämäärän muoto. Voit valita minkä tahansa ennalta määritetyistä päivämäärä-/aikamuodoista tai luoda mukautetun.
    Ennalta määritetyille päivämäärä/aikamuotoille selite tarjoaa esimerkin päivämäärästä, joka vastaa valittua muotoa. Tätä esittelyä varten valitsemme muodon vvvv/KK/pp.Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  16. Määritä seuraavaksi aikavyöhyke päivämäärän ja kellonajan arvoille.
    Nykyinen päivämäärä voi olla esimerkiksi 1. tammikuuta 2022 yhdellä aikavyöhykkeellä, mutta voi olla 2. tammikuuta 2022 toisella aikavyöhykkeellä.
  17. Lopuksi voit valita ajanjakson, jonka avulla voit valita tiedostoalueen, jotka haluat sisällyttää tietovirtaan.
    Voit määrittää aikavälin tunteina, päivinä, viikoina, kuukausina tai vuosina. Tässä esimerkissä haluamme saada kaikki tiedostot viime vuodelta.
  18. Anna parametrin kuvaus ja valitse luoda.
    Jos käytät useita tietojoukkoja eri aikavyöhykkeillä, aikaa ei muunneta automaattisesti. sinun on esikäsiteltävä jokainen tiedosto tai lähde muuntaaksesi sen yhdeksi aikavyöhykkeeksi.Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Valitut tiedostot ovat kaikki kansioiden alla olevat tiedostot, jotka vastaavat viime vuoden tietoja.Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  19. Jos nyt luomme datan muunnostyön, voimme nähdä luettelon kaikista määrittämistämme parametreista ja voimme ohittaa niiden oletusarvot, jotta muunnostyömme valitsevat määritetyt tiedostot.Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
    Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Aikatauluta käsittelytöitä

Voit nyt ajoittaa käsittelytöitä automatisoidaksesi tietojen muunnostöiden suorittamisen ja muunnettujen tietojen viemisen joko Amazon S3:een tai Amazon SageMaker -ominaisuuskauppa. Voit ajoittaa työt tarpeisiisi sopivalla aikavälillä ja jaksotuksella.

Aikataulutetut käsittelytyöt käyttävät Amazon EventBridge säännöt aikatauluttaaksesi työn suorittamisen. Siksi sinun on ennakkoehtona varmistettava, että AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) -rooli, jota Data Wrangler käyttää, nimittäin Amazon Sage Maker teloitusrooli Studio-instanssilla on oikeudet luoda EventBridge-sääntöjä.

Määritä IAM

Jatka seuraavilla päivityksillä IAM SageMaker -suoritusroolissa, joka vastaa Studio-ilmentymää, jossa Data Wrangler -kulku on käynnissä:

  1. Kiinnitä AmazonEventBridgeFullAccess hallittua politiikkaa.
  2. Liitä käytäntö käsittelytyön luomisoikeuden myöntämiseen:
    {
    	"Version": "2012-10-17",
    	"Statement": [
    		{
    			"Effect": "Allow",
    			"Action": "sagemaker:StartPipelineExecution",
    			"Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*"
    		}
    	]
    }

  3. Myönnä EventBridgelle lupa ottaa rooli lisäämällä seuraava luottamuskäytäntö:
    {
    	"Effect": "Allow",
    	"Principal": {
    		"Service": "events.amazonaws.com"
    	},
    	"Action": "sts:AssumeRole"
    }

Vaihtoehtoisesti, jos käytät eri roolia käsittelytyön suorittamiseen, käytä vaiheissa 2 ja 3 kuvattuja käytäntöjä kyseiseen rooliin. Lisätietoja IAM-kokoonpanosta on kohdassa Luo aikataulu uusien tietojen automaattiselle käsittelylle.

Luo aikataulu

Voit luoda aikataulun avaamalla kulkusi Data Wrangler -kulkueditorissa.

  1. On Tietovirta välilehti, valitse Luo työpaikka.
  2. Määritä vaaditut kentät ja valitse Seuraavaksi 2. Määritä työ.
    Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  3. Laajentaa Liitännäisaikataulut.
  4. Valita Luo uusi aikataulu.
    Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
    - Luo uusi aikataulu -valintaikkuna avautuu, jossa määrität käsittelytyöaikataulun tiedot.
    Dialogi tarjoaa suuren joustavuuden, joka auttaa sinua määrittämään aikataulun. Voit esimerkiksi saada käsittelytyön käynnissä tiettyyn aikaan tai X tunnin välein, tiettyinä viikonpäivinä.Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
    Jaksoisuus voi olla rakeinen minuutteihin asti.Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  5. Määritä aikataulun nimi ja jaksotus ja valitse sitten luoda tallentaaksesi aikataulun.
  6. Sinulla on mahdollisuus aloittaa käsittelytyö heti ajoituksen kanssa, joka huolehtii tulevista ajoista, tai jättää työn suoritettavaksi vain aikataulun mukaan.
  7. Voit myös määrittää lisäaikataulun samalle käsittelytyölle.
    Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  8. Viimeistele käsittelytyön aikataulu valitsemalla luoda.
    Näet "Työ ajoitettu onnistuneesti" -viestin. Lisäksi, jos päätit jättää työn suoritettavaksi vain aikataulun mukaan, näet linkin juuri luomaasi EventBridge-sääntöön.Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Jos valitset aikataululinkin, selaimeen avautuu uusi välilehti, jossa näkyy EventBridge-sääntö. Tällä sivulla voit tehdä lisämuokkauksia sääntöön ja seurata sen kutsuhistoriaa. Jos haluat lopettaa ajoitetun käsittelytyön suorittamisen, poista tapahtumasääntö, joka sisältää aikataulun nimen.

Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

EventBridge-sääntö näyttää kohteena SageMaker-liukuhihnan, joka käynnistetään määritellyn aikataulun mukaisesti, ja käsittelytyön, joka kutsutaan osana liukuhihnaa.

Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Voit seurata SageMaker-putkilinjan ajoja palaamalla Studioon ja valitsemalla SageMaker-resurssit -kuvake, valitse putkistojenja valitse putkilinjan nimi, jota haluat seurata. Näet nyt taulukon, joka sisältää kaikki tämänhetkiset ja aiemmat ajot ja prosessin tilat.

Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Näet lisätietoja kaksoisnapsauttamalla tiettyä merkintää.

Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Puhdistaa

Kun et käytä Data Wrangleria, on suositeltavaa sulkea ilmentymä, jossa se toimii, jotta vältytään lisäkuluilta.

Välttääksesi työn menettämisen tallenna tietovirtasi ennen Data Wranglerin sammuttamista.

  1. Tallenna tietovirtasi Studioon valitsemalla filee, valitse sitten Tallenna tiedot Wrangler Flow. Data Wrangler tallentaa tietovirtasi automaattisesti 60 sekunnin välein.
  2. Sulje Data Wrangler -esiintymä Studiossa valitsemalla Käynnistävät instanssit ja ytimet.
  3. Alle KÄYNNISSÄ SOVELLUKSET, valitse sammutuskuvake vieressä sagemaker-data-wrangler-1.0 App.Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.
  4. Valita Sammuta kaikki vahvistaa.Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Data Wrangler toimii ml.m5.4xlarge-esiintymässä. Tämä tapaus katoaa KÄYNNISSÄ kun suljet Data Wrangler -sovelluksen.

Kun sammutat Data Wrangler -sovelluksen, se on käynnistettävä uudelleen, kun seuraavan kerran avaat Data Wrangler -virtatiedoston. Tämä voi kestää muutaman minuutin.

Yhteenveto

Tässä viestissä osoitimme, kuinka voit käyttää parametreja tuodaksesi tietojoukkojasi Data Wrangler -virtojen avulla ja luodaksesi datan muunnostöitä niille. Parametrisoidut tietojoukot tarjoavat enemmän joustavuutta käyttämillesi tietojoukoille ja mahdollistavat työnkulun uudelleenkäytön. Osoitimme myös, kuinka voit määrittää ajoitetut työt automatisoidaksesi tietosi muunnokset ja viennin joko Amazon S3:een tai Feature Storeen tarpeidesi mukaisena aikana ja säännöllisin väliajoin suoraan Data Wranglerin käyttöliittymästä.

Lisätietoja tietovirtojen käyttämisestä Data Wranglerin kanssa on kohdassa Luo ja käytä Data Wrangler -kulkua ja Amazon SageMaker -hinnoittelu. Aloita Data Wranglerin käyttö katsomalla Valmista ML-tiedot Amazon SageMaker Data Wrangler -sovelluksella.


Tietoja kirjoittajista

Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.David Laredo on prototyyppiarkkitehti Prototyping- ja Cloud Engineering -tiimissä Amazon Web Servicesissä, jossa hän on auttanut kehittämään useita koneoppimisprototyyppejä AWS-asiakkaille. Hän on työskennellyt koneoppimisen parissa viimeiset 6 vuotta, kouluttaen ja hienosäätäen ML-malleja sekä toteuttanut päästä päähän -putkia näiden mallien tuotantoon. Hänen kiinnostuksen kohteitaan ovat NLP, ML-sovellukset ja päästä päähän ML.

Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Givanildo Alves on prototyyppiarkkitehti Amazon Web Services -palvelun prototyyppi- ja pilvisuunnittelutiimin kanssa, ja hän auttaa asiakkaita innovoimaan ja nopeuttamaan näyttämällä AWS:n mahdollisuuksien taitoa, koska hän on jo toteuttanut useita tekoälyn ympärillä olevia prototyyppejä. Hän on tehnyt pitkän uran ohjelmistosuunnittelussa ja työskennellyt aiemmin ohjelmistokehitysinsinöörinä osoitteessa Amazon.com.br.

Hallitse Amazon SageMaker Data Wrangler -työkuormia paremmin parametroiduilla tietojoukoilla ja ajoitetuilla töillä PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Adrian Fuentes on Amazon Web Servicesin prototyyppi- ja pilvisuunnittelutiimin ohjelmapäällikkö, joka innovoi asiakkaille koneoppimista, IoT:tä ja lohkoketjua. Hänellä on yli 15 vuoden kokemus projektien johtamisesta ja toteuttamisesta sekä 1 vuoden kokemus AWS:stä.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen