Saate oma Amazon SageMaker Data Wrangleri töökoormuse üle rohkem kontrolli parameetritega andmekogumite ja plaanitud töödega

Taasavaldanud Platon

järgijaid: 0

Andmed muudavad iga valdkonda ja iga ettevõtet. Kuna aga andmed kasvavad kiiremini, kui enamik ettevõtteid suudab neid jälgida, on andmete kogumine ja nendest andmetest väärtuse saamine keeruline. A kaasaegne andmestrateegia võib aidata teil andmetega paremaid äritulemusi luua. AWS pakub kõige täielikumat teenuste komplekti andmereis otsast lõpuni et aidata teil avada väärtus oma andmetest ja muuta see ülevaateks.

Andmeteadlased saavad kulutada kuni 80% oma ajast masinõppeprojektide (ML) jaoks andmete ettevalmistamisele. See ettevalmistusprotsess on suures osas eristamata ja tüütu töö ning võib hõlmata mitut programmeerimisliidest ja kohandatud teeke. Amazon SageMaker Data Wrangler aitab andmeteadlastel ja andmeinseneridel visuaalse liidese kaudu lihtsustada ja kiirendada tabeli- ja aegridade andmete ettevalmistamist ja funktsioonide kavandamist. Saate importida andmeid mitmest andmeallikast, nt Amazoni lihtne salvestusteenus (Amazon S3), Amazonase Athena, Amazoni punane nihevõi isegi kolmandate osapoolte lahendusi nagu Lumehelves or DataBricksja töödelda oma andmeid enam kui 300 sisseehitatud andmeteisendusega ja koodilõikude teegiga, et saaksite funktsioone kiiresti normaliseerida, teisendada ja kombineerida ilma koodi kirjutamata. Saate tuua oma kohandatud teisendusi ka PySparki, SQL-i või Pandasse.

See postitus näitab, kuidas saate oma andmete ettevalmistamise töid automaatselt käivitada. Uurime ka parameetritega andmekogumite uut Data Wrangleri võimalust, mis võimaldab parameetritega URI-de abil määrata andmevoogu kaasatavad failid.

Lahenduse ülevaade

Data Wrangler toetab nüüd andmete importimist parameetritega URI abil. See võimaldab suuremat paindlikkust, sest nüüd saate URI-s importida kõik määratud parameetritele vastavad andmestikud, mille tüüp võib olla String, Number, Datetime ja Pattern. Lisaks saate nüüd käivitada oma Data Wrangleri teisendustööd ajakava alusel.

Selles postituses loome Titanicu andmekogumiga näidisvoo, et näidata, kuidas saate alustada katsetamist nende kahe uue Data Wrangleri funktsiooniga. Andmestiku allalaadimiseks vaadake Titanic – masinõpe katastroofist.

Eeldused

Kõigi selles postituses kirjeldatud funktsioonide kasutamiseks peate kasutama Data Wrangleri uusimat kerneli versiooni. Lisateabe saamiseks vaadake Värskendage Data Wrangler. Lisaks peate jooksma Amazon SageMaker Studio JupyterLab 3. Praeguse versiooni vaatamiseks ja värskendamiseks vaadake JupyterLabi versioonide koostamine.

Faili struktuur

Selle demonstratsiooni jaoks järgime lihtsat failistruktuuri, mida peate selles postituses kirjeldatud sammude reprodutseerimiseks kordama.

Stuudios luua uus märkmik.

Meie kasutatava kaustastruktuuri loomiseks käivitage järgmine koodilõik (veenduge, et olete failipuus soovitud kaustas):

!mkdir titanic_dataset
!mkdir titanic_dataset/datetime_data
!mkdir titanic_dataset/datetime_data/2021
!mkdir titanic_dataset/datetime_data/2022

!mkdir titanic_dataset/datetime_data/2021/01 titanic_dataset/datetime_data/2021/02 titanic_dataset/datetime_data/2021/03 
!mkdir titanic_dataset/datetime_data/2021/04 titanic_dataset/datetime_data/2021/05 titanic_dataset/datetime_data/2021/06
!mkdir titanic_dataset/datetime_data/2022/01 titanic_dataset/datetime_data/2022/02 titanic_dataset/datetime_data/2022/03 
!mkdir titanic_dataset/datetime_data/2022/04 titanic_dataset/datetime_data/2022/05 titanic_dataset/datetime_data/2022/06

!mkdir titanic_dataset/datetime_data/2021/01/01 titanic_dataset/datetime_data/2021/02/01 titanic_dataset/datetime_data/2021/03/01 
!mkdir titanic_dataset/datetime_data/2021/04/01 titanic_dataset/datetime_data/2021/05/01 titanic_dataset/datetime_data/2021/06/01
!mkdir titanic_dataset/datetime_data/2022/01/01 titanic_dataset/datetime_data/2022/02/01 titanic_dataset/datetime_data/2022/03/01 
!mkdir titanic_dataset/datetime_data/2022/04/01 titanic_dataset/datetime_data/2022/05/01 titanic_dataset/datetime_data/2022/06/01

!mkdir titanic_dataset/train_1 titanic_dataset/train_2 titanic_dataset/train_3 titanic_dataset/train_4 titanic_dataset/train_5
!mkdir titanic_dataset/train titanic_dataset/test

Kopeeri train.csv ja test.csv failid algsest Titanicu andmekogumist kaustadesse titanic_dataset/train ja titanic_dataset/test, Vastavalt.

Käivitage järgmine koodilõik, et täita kaustad vajalike failidega:

import os
import math
import pandas as pd
batch_size = 100

#Get a list of all the leaf nodes in the folder structure
leaf_nodes = []

for root, dirs, files in os.walk('titanic_dataset'):
    if not dirs:
        if root != "titanic_dataset/test" and root != "titanic_dataset/train":
            leaf_nodes.append(root)
            
titanic_df = pd.read_csv('titanic_dataset/train/train.csv')

#Create the mini batch files
for i in range(math.ceil(titanic_df.shape[0]/batch_size)):
    batch_df = titanic_df[i*batch_size:(i+1)*batch_size]
    
    #Place a copy of each mini batch in each one of the leaf folders
    for node in leaf_nodes:
        batch_df.to_csv(node+'/part_{}.csv'.format(i), index=False)

Me jagasime train.csv Titanicu andmestiku fail üheksaks erinevaks failiks, nimega part_x, kus x on osa number. Osas 0 on esimesed 100 kirjet, 1. osas järgmised 100 ja nii edasi kuni 8. osani. Iga failipuu sõlmede kaust sisaldab treeningandmete üheksa osa koopiaid, välja arvatud train ja test kaustad, mis sisaldavad train.csv ja test.csv.

Parameetrilised andmestikud

Data Wrangleri kasutajad saavad nüüd määrata Amazon S3-st imporditud andmekogumite parameetreid. Andmestiku parameetrid määratakse ressursside URI-s ja selle väärtust saab dünaamiliselt muuta, mis võimaldab importitavate failide valimisel suuremat paindlikkust. Parameetrid võivad olla nelja tüüpi andmetüüpe:

Number – võib võtta mis tahes täisarvu väärtuse
nöör - võib võtta mis tahes tekstistringi väärtuse
Muster – võib võtta mis tahes regulaaravaldise väärtuse
Datetime – Võib võtta mis tahes toetatud kuupäeva/kellaaja vormingu väärtuse

Selles jaotises anname ülevaate sellest uuest funktsioonist. See on saadaval ainult pärast andmestiku importimist praegusesse voogu ja ainult Amazon S3-st imporditud andmekogumite jaoks.

Valige oma andmevoost impordietapi kõrval plussmärk (+) ja valige Andmestiku muutmine.
Eelistatud (ja lihtsaim) meetod uute parameetrite loomiseks on URI osa esiletõstmine ja valimine Loo kohandatud parameeter rippmenüüst. Iga loodava parameetri jaoks peate määrama neli asja:
1. Nimi
2. KASUTUSALA
3. Vaikeväärtus
4. Kirjeldus
Siin oleme loonud String tüüpi parameetri nimega filename_param vaikeväärtusega train.csv. Nüüd näete topeltsulgudes olevat parameetri nime, mis asendab varem esile tõstetud URI osa. Kuna selle parameetri määratletud väärtus oli train.csv, näeme nüüd faili train.csv loetletud imporditabelis.
Kui proovime luua ümberkujundamistööd, siis Konfigureerige töö samm, näeme nüüd a parameetrid jaotist, kus näeme kõigi meie määratletud parameetrite loendit.
Parameetri valimine annab meile võimaluse muuta parameetri väärtust, antud juhul muutes teisendatavat sisendandmestikku vastavalt määratletud voolule.
Eeldusel, et me muudame väärtust filename_param Alates train.csv et part_0.csv, võtab nüüd ümberkujundamise töö part_0.csv (tingimusel, et fail nimega part_0.csv asub samas kaustas) kui selle uued sisendandmed.
Lisaks, kui proovite eksportida oma voogu Amazon S3 sihtkohta (Jupyteri sülearvuti kaudu), näete nüüd uut lahtrit, mis sisaldab teie määratud parameetreid.
Pange tähele, et parameeter võtab vaikeväärtuse, kuid saate seda muuta, asendades selle väärtuse jaotises parameter_overrides sõnastik (jättes samal ajal sõnastiku võtmed muutmata).

Lisaks saate rakendusest luua uusi parameetreid parameetrid UI
Avage see, valides parameetrite ikooni ({{}}) asub kõrval Go valik; mõlemad asuvad URI tee väärtuse kõrval.
Avaneb tabel kõigi parameetritega, mis teie voofailis (filename_param sel hetkel).
Valides saate luua oma voo jaoks uusi parameetreid Loo parameeter.

Avaneb hüpikaken, mis võimaldab teil luua uue kohandatud parameetri.
Siin oleme loonud uue example_parameter numbritüübina, mille vaikeväärtus on 0. See vastloodud parameeter on nüüd loendis parameetrid laud. Hõljutades kursorit parameetri kohal, kuvatakse valikud Edit, kustutamaja Sisesta.
Seestpoolt parameetrid UI, saate ühe oma parameetritest URI-sse sisestada, valides soovitud parameetri ja valides Sisesta.
See lisab parameetri teie URI lõppu. Peate selle oma URI-s soovitud jaotisesse teisaldama.
Muutke parameetri vaikeväärtust, rakendage muudatus (modaalist), valige Goja valige värskendusikoon, et värskendada eelvaate loendit, kasutades äsja määratletud parameetri väärtusel põhinevat valitud andmekogumit.Uurime nüüd teisi parameetritüüpe. Oletame, et meil on nüüd andmestik jagatud mitmeks osaks, kus igal failil on osa number.
Kui tahame failinumbrit dünaamiliselt muuta, saame määratleda parameetri Number, nagu on näidatud järgmisel ekraanipildil.Pange tähele, et valitud fail on see, mis vastab parameetris määratud numbrile.
Nüüd näitame, kuidas kasutada parameetrit Muster. Oletame, et tahame importida kõik part_1.csv failid kõigis kaustades titanic-dataset/ kausta. Mustri parameetrid võivad võtta mis tahes kehtiva regulaaravaldise; näitena on toodud mõned regex-mustrid.
Looge parameeter Pattern nimega any_pattern et sobitada mis tahes kausta või faili all titanic-dataset/ vaikeväärtusega kaust .*.Pange tähele, et metamärk ei ole üks * (tärn), vaid sellel on ka punkt.
Tõstke esile titanic-dataset/ osa teest ja looge kohandatud parameeter. Seekord valime Muster tüüpSee muster valib kõik kutsutavad failid part-1.csv allolevatest kaustadest titanic-dataset/.
Parameetrit saab teel kasutada rohkem kui üks kord. Järgmises näites kasutame oma vastloodud parameetrit any_pattern kaks korda meie URI-s, et see sobiks mis tahes allolevas kaustas oleva osafailiga titanic-dataset/.
Lõpuks loome parameetri Datetime. Kuupäeva ja kellaaja parameetrid on kasulikud siis, kui tegemist on kuupäeva ja kellaaja järgi jaotatud teedega, nagu need, mille genereerib Amazon Kinesis Data Firehose (Vt Dünaamiline eraldamine Kinesis Data Firehose'is). Selle demonstratsiooni jaoks kasutame kausta datetime-data olevaid andmeid.
Valige oma tee osa, mis on kuupäev/kellaaeg, ja looge kohandatud parameeter. Vali Datetime parameetri tüüp.
Kuupäeva-aja andmetüübi valimisel peate sisestama täpsemad andmed.
Kõigepealt peate esitama kuupäeva vormingu. Saate valida mis tahes eelmääratletud kuupäeva/kellaaja vormingu või luua kohandatud vormingu.
Eelmääratletud kuupäeva/kellaaja vormingute puhul on legendis näide valitud vormingule vastavast kuupäevast. Selle demonstratsiooni jaoks valime vormingu aaaa/KK/pp.
Järgmisena määrake kuupäeva/kellaaja väärtuste jaoks ajavöönd.
Näiteks võib praegune kuupäev ühes ajavööndis olla 1. jaanuar 2022, teises ajavööndis aga 2. jaanuar 2022.
Lõpuks saate valida ajavahemiku, mis võimaldab valida failide vahemiku, mida soovite andmevoogu kaasata.
Saate määrata oma ajavahemiku tundides, päevades, nädalates, kuudes või aastates. Selle näite puhul tahame hankida kõik eelmise aasta failid.
Esitage parameetri kirjeldus ja valige Looma.
Kui kasutate mitut erinevate ajavöönditega andmekogumit, siis aega automaatselt ei teisendata. peate iga faili või allika eeltöötlema, et teisendada see üheks ajavööndiks.Valitud failid on kõik eelmise aasta andmetele vastavad kaustade all olevad failid.
Kui loome nüüd andmete teisendustöö, näeme kõigi määratletud parameetrite loendit ja saame nende vaikeväärtused alistada, nii et meie teisendustööd valivad määratud failid.

Töötlemistööde ajakava

Nüüd saate ajastada töötlemistöid, et automatiseerida andmete teisendustööde käitamist ja teisendatud andmete eksportimist kas Amazon S3-sse või Amazon SageMakeri funktsioonipood. Saate ajastada töid just teie vajadustele vastava aja ja perioodilisusega.

Plaanitud töötlemistööde kasutamine Amazon EventBridge eeskirjade töö aja planeerimiseks. Seetõttu peate eeltingimusena veenduma, et AWS-i identiteedi- ja juurdepääsuhaldus (IAM) rolli, mida Data Wrangler kasutab, nimelt Amazon SageMaker täideviimise roll Studio eksemplaril on õigus luua EventBridge'i reegleid.

Konfigureerige IAM

Jätkake IAM SageMakeri täitmisrolli järgmiste värskendustega, mis vastavad Studio eksemplarile, kus Data Wrangleri voog töötab:

Kinnitage AmazonEventBridgeFullAccess juhitud poliitika.

Manustage reegel töötlemistöö loomise loa andmiseks.

{
	"Version": "2012-10-17",
	"Statement": [
		{
			"Effect": "Allow",
			"Action": "sagemaker:StartPipelineExecution",
			"Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*"
		}
	]
}

Andke EventBridge'ile luba selle rolli võtmiseks, lisades järgmise usalduspoliitika:

{
	"Effect": "Allow",
	"Principal": {
		"Service": "events.amazonaws.com"
	},
	"Action": "sts:AssumeRole"
}

Teise võimalusena, kui kasutate töötlemistöö käitamiseks teist rolli, rakendage sellele rollile 2. ja 3. sammus kirjeldatud eeskirju. Lisateavet IAM-i konfiguratsiooni kohta leiate jaotisest Looge ajakava uute andmete automaatseks töötlemiseks.

Koostage ajakava

Ajakava loomiseks avage oma voog Data Wrangleri vooredaktoris.

Kohta Andmevoog valige vahekaart Loo töökoht.
Seadistage vajalikud väljad ja valige Järgmiseks 2. Konfigureerige töö.
Laiendama Seotud ajakavad.
Vali Loo uus ajakava.

. Loo uus ajakava avaneb dialoog, kus saate määrata töötlemistöö ajakava üksikasjad.
Dialoog pakub palju paindlikkust, mis aitab teil ajakava määratleda. Töötlemistöö võib näiteks käivituda kindlal kellaajal või iga X tunni järel kindlatel nädalapäevadel.
Perioodilisus võib olla granuleeritud kuni minutite tasemeni.
Määrake ajakava nimi ja perioodilisus ning seejärel valige Looma ajakava salvestamiseks.
Teil on võimalus alustada töötlemistööd kohe koos ajakavaga, mis hoolitseb tulevaste käituste eest, või jätta töö ainult ajakava järgi käima.
Samuti saate sama töötlemistöö jaoks määrata täiendava ajakava.
Töötlemistöö ajakava lõpetamiseks valige Looma.
Näete teadet "Töö planeeritud edukalt". Lisaks, kui otsustasite töö jätta ainult ajakava järgi käima, näete linki äsja loodud EventBridge reeglile.

Kui valite ajakava lingi, avaneb brauseris uus vahekaart, mis näitab EventBridge'i reeglit. Sellel lehel saate reeglit täiendavalt muuta ja jälgida selle kutsumisajalugu. Ajastatud töötlemistöö peatamiseks kustutage sündmuse reegel, mis sisaldab ajakava nime.

EventBridge'i reegel näitab sihtmärgina SageMakeri konveieri, mis käivitatakse vastavalt määratletud ajakavale, ja konveieri osana kutsutavat töötlemistööd.

SageMakeri torujuhtme käitamise jälgimiseks võite minna tagasi Studiosse ja valida SageMakeri ressursid ikoon, valige Torujuhtmedja valige konveieri nimi, mida soovite jälgida. Nüüd näete tabelit kõigi selle torujuhtme praeguste ja varasemate käituste ja olekuga.

Üksikasjalikumat teavet näete, kui topeltklõpsate konkreetsel kirjel.

Koristage

Kui te Data Wranglerit ei kasuta, on lisatasude vältimiseks soovitatav sulgeda eksemplar, millel see töötab.

Töö kaotamise vältimiseks salvestage andmevoog enne Data Wrangleri väljalülitamist.

Andmevoo salvestamiseks Studios valige fail, siis vali Salvesta andmete Wrangler Flow. Data Wrangler salvestab teie andmevoo automaatselt iga 60 sekundi järel.
Data Wrangleri eksemplari sulgemiseks Studios valige Eksemplaride ja tuumade käitamine.
alla RAKENDUSTE TÖÖTAMINE, valige väljalülitamise ikoon kõrval sagemaker-data-wrangler-1.0 app.
Vali Pange kõik kinni kinnitada.

Data Wrangler töötab ml.m5.4xsuurel eksemplaril. See juhtum kaob JOOKSUJUHTUMID kui sulgete rakenduse Data Wrangler.

Pärast Data Wrangleri rakenduse sulgemist peab see järgmisel korral Data Wrangleri voofaili avamisel taaskäivitama. Selleks võib kuluda mõni minut.

Järeldus

Selles postituses demonstreerisime, kuidas saate parameetreid kasutada oma andmestike importimiseks Data Wrangleri voogude abil ja neile andmete teisendustööde loomiseks. Parameetrilised andmestikud võimaldavad kasutatavate andmekogumite osas suuremat paindlikkust ja võimaldavad teil oma vooge uuesti kasutada. Samuti näitasime, kuidas saate seadistada ajastatud töid, et automatiseerida andmete teisendusi ja eksporti Amazon S3-sse või funktsioonipoodi teie vajadustele sobival ajal ja perioodilisusel otse Data Wrangleri kasutajaliidesest.

Lisateavet andmevoogude kasutamise kohta koos Data Wrangleriga leiate artiklist Looge ja kasutage Data Wrangleri voogu ja Amazon SageMakeri hinnakujundus. Data Wrangleriga alustamiseks vaadake Valmistage ette ML-andmed rakendusega Amazon SageMaker Data Wrangler.

Autoritest

David Laredo on prototüüpimisarhitekt Amazon Web Servicesi prototüüpide ja pilvetehnoloogia meeskonnas, kus ta on aidanud välja töötada mitmeid masinõppe prototüüpe AWS-i klientidele. Ta on masinõppega tegelenud viimased 6 aastat, koolitanud ja viimistlenud ML-mudeleid ning juurutanud nende mudelite tootmiseks ots-otsani torujuhtmeid. Tema huvivaldkonnad on NLP, ML-rakendused ja täielik ML.

Givanildo Alves on prototüüpimise arhitekt koos Amazon Web Servicesi prototüüpide ja pilvetehnoloogia meeskonnaga, aidates klientidel uuendusi teha ja kiirendada, näidates AWS-is võimalikku kunsti, olles juba rakendanud mitmeid tehisintellekti prototüüpe. Tal on pikk karjäär tarkvaratehnika alal ja ta on varem töötanud tarkvaraarenduse insenerina aadressil Amazon.com.br.

Adrian Fuentes on Amazon Web Servicesi prototüüpimise ja pilveehituse meeskonna programmijuht, kes teeb klientidele uuendusi masinõppe, asjade Interneti ja plokiahela vallas. Tal on üle 15-aastane projektide juhtimise ja elluviimise kogemus ning 1-aastane töökogemus AWS-is.

Ajatempel: November 15, 2022November 15, 2022

Veel alates AWS-i masinõpe

Looge Amazon SageMaker JumpStart lahendustega kontrafaktuaalne analüüs maisi reaktsiooni kohta lämmastikule

Allikaklaster:

AWS-i masinõpe

Allikasõlm: 1821717

Ajatempel: Aprill 3, 2023

AWS ja Mistral AI kohustuvad demokratiseerima generatiivset tehisintellekti tugevdatud koostööga | Amazoni veebiteenused

AWS-i masinõpe

Allikasõlm: 1961063

Ajatempel: Aprill 2, 2024

Parameetristatud andmekogumite ja ajastatud töödega saate oma Amazon SageMaker Data Wrangleri töökoormust paremini juhtida

Taasavaldanud Platon

Lahenduse ülevaade

Eeldused

Faili struktuur

Parameetrilised andmestikud

Töötlemistööde ajakava

Konfigureerige IAM

Koostage ajakava

Koristage

Järeldus

Autoritest

Veel alates AWS-i masinõpe

Looge Amazon SageMaker JumpStart lahendustega kontrafaktuaalne analüüs maisi reaktsiooni kohta lämmastikule

AWS ja Mistral AI kohustuvad demokratiseerima generatiivset tehisintellekti tugevdatud koostööga | Amazoni veebiteenused

Teie AI/ML-i juhend AWS-is re:Invent 2022

Ühtne andmete ettevalmistamine, mudelikoolitus ja juurutamine Amazon SageMaker Data Wrangleri ja Amazon SageMakeri autopiloodiga – 2. osa

Pakkuge oma vestlusroboti kasutajatele reaalajas agendiabi Amazon Lexi ja Talkdeski pilvekontaktikeskusega | Amazoni veebiteenused

Illustreerivad märkmikud rakenduses Amazon SageMaker JumpStart

Gradient muudab LLM-i võrdlusuuringu AWS Inferentia abil kulutõhusaks ja vaevatuks | Amazoni veebiteenused

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto