Amazon SageMakeri hallatavate soojade basseinide koolituse parimad tavad

Taasavaldanud Platon

järgijaid: 0

Amazon SageMaker Training Managed Warm Pools annab teile paindlikkuse lubada taaskasutada ja hoida kasutaja määratud aja jooksul aluseks olevat infrastruktuuri. Seda tehakse, säilitades samal ajal eelise, mis kaasneb arvutusjuhtumite haldamise diferentseerimata raske tõstmisega Amazon SageMakeri mudelikoolitus. Selles postituses kirjeldame SageMaker Training Managed Warm Pools peamisi eeliseid ja valupunkte, samuti võrdlusaluseid ja parimaid tavasid.

SageMakeri koolituse hallatavate soojade basseinide ülevaade

SageMaker Model Training on täielikult hallatav võimalus, mis keerutab eksemplare iga töö jaoks, koolitab mudelit, käitab ja seejärel keerutab eksemplare pärast tööd. Teile esitatakse arve ainult töö kestuse eest kuni sekundini. See täielikult hallatav võimalus annab teile vabaduse keskenduda masinõppe (ML) algoritmile ja mitte muretseda oma mudelite treenimise ajal diferentseerimata raskete tõstmiste, näiteks infrastruktuuri haldamise pärast.

See mehhanism nõuab koolitustöö jaoks piiratud käivitusaega. Kuigi see käivitusaeg, tuntud ka kui külmkäivituse aeg, on üsna madal, nõuavad mõned meie kõige nõudlikumad klientide kasutusjuhtumid veelgi lühemat käivitusaega, näiteks alla 20 sekundi. On kaks silmapaistvat kasutusjuhtu, millel on järgmised nõuded.

Esimene neist on andmeteadlaste aktiivne ML-eksperimenteerimine Amazon SageMaker koolitusplatvorm, eriti suurte mudelite (nt GPT3) treenimisel, mis vajavad tootmisvalmis olekusse jõudmiseks mitut iteratsiooni.
Teine on suure hulga (suurusjärgus mitusada või tuhandet) järjestikuste tööde programmiline käivitamine sama tüüpi eksemplaridel ajastatud kadentsil. Näiteks parameetriotsing või inkrementaalne koolitus.

Sellistel kasutusjuhtudel avaldab iga üldkuludele kulutatud sekund, nagu koolitustöö käivitamise aeg, kumulatiivset mõju kõigile neile töödele.

SageMakeri koolituse hallatavate soojade kogumitega on andmeteadlastel ja ML-i inseneridel võimalus lubada SageMakeri koolituseksemplare või mitme eksemplari klastreid eelnevalt kindlaksmääratud ja ümberkonfigureeritava aja jooksul soojana hoida (keep_alive_period_in_seconds) pärast iga koolitustöö lõpetamist. Nii et isegi kui saate eksemplaris või klastris esimese koolitustöö eest külmkäivituse karistuse, on kõigi järgnevate koolitustööde puhul eksemplarid juba valmis. Selle tulemusena saavad need järgnevad koolitustööd, mis algavad eksemplaril enne keep_alive_period_in_seconds aegub, ei kaasne külmkäivitusaega. See võib vähendada koolitustöö käivitamise aega ligikaudu 20 sekundini (P90).

Andmeteadlased ja ML-i insenerid saavad kasutada SageMaker Training Managed Warm Pools, et hoida üks või mitu eksemplari soojana katsete vahelisel ajal koolituste vahel või käitada mitut tööd järjest samas ühe või mitme eksemplari klastris. Maksate ainult koolitustööde kestuse ja ümberkonfigureeritava eest keep_alive_period_in_seconds nagu kõikjal mujal, mille iga juhtumi jaoks määrate.

Sisuliselt saate SageMakeri koolituse hallatavate soojade basseinidega kombinatsiooni SageMakeri hallatud eksemplari kasutamisest võimalusega lubada ja pakkuda võimsust ja isehaldamist lühikeste ajavahemike jooksul. Need intervallid on seadistatavad enne tööd, kuid kui töö ajal keep_alive_period_in_seconds intervalli, peate seda vähendama või suurendama, saate seda teha. Suureneb kuni keep_alive_period_in_seconds saab teha kuni 60-minutilise intervalliga, eksemplari või klastri maksimaalne periood on 7 päeva.

Esmalt soojade basseinidega alustamiseks taotleda soojabasseini kvoodi limiidi suurendamist, seejärel määrake keep_alive_period_in_seconds parameeter koolitustööle asumisel.

kriteeriumid

Viisime läbi võrdlustestid, et mõõta töö käivitamise latentsust, kasutades 1.34 GB TensorFlow pilti, 2 GB andmeid ja erinevaid treeningandmete sisestusrežiime (Amazon FSx, Fast File Mode, File Mode). Teste viidi läbi mitmesugustes eksemplaritüüpides m4, c4, m5 ja c5 perekondadest us-ida-2 piirkonnas. Käivitamise latentsusaega mõõdeti töökohtade loomise ajast kuni tegeliku koolitustöö alguseni eksemplaridel. Esimeste töökohtade puhul, mis käivitasid klastri ja lõid sooja basseini, oli käivitamise latentsusaeg 2–3 minutit. See suurem latentsusaeg on tingitud ajast, mis kulub infrastruktuuri loomiseks, pildi allalaadimiseks ja andmete allalaadimiseks. Järgnevatel töödel, mis kasutasid sooja basseini klastrit, oli kiire failirežiimi (FFM) või Amazon FSx puhul umbes 20 sekundit ja failirežiimi (FM) puhul 70 sekundit. See delta on tingitud sellest, et FM nõuab kogu andmestiku allalaadimist Amazon S3-st enne töö algust.

Treeninguandmete sisestamise režiimi valik mõjutab käivitusaega isegi soojabasseinide puhul. Juhised selle kohta, millist sisendrežiimi valida, leiate selle postituse parimate tavade jaotisest.

Järgmine tabel võtab kokku töö käivitamise latentsuse P90 erinevate treeningandmete sisestusrežiimide jaoks.

Andmesisestusrežiim	Käivituslatentsus P90 (sekundites)
Andmesisestusrežiim	Esimene töö	Töökohad soojas basseinis (alates teisest töökohast)
FSx	136	19
Kiire failirežiim	143	21
Failirežiim	176	70

Soojade basseinide kasutamise parimad tavad

Järgmises jaotises jagame soojade basseinide kasutamise parimaid tavasid.

Millal peaksite sooja basseini kasutama?

Soojad basseinid on soovitatavad järgmistel juhtudel:

Eksperimenteerite interaktiivselt ja häälestate oma skripti mitme lühikese töö käigus.
Kasutate oma kohandatud suuremahulist hüperparameetrite optimeerimist (näiteks Syne Tune).
Teil on pakettprotsess, mis käitab sama tüüpi eksemplaridel igapäevase või iganädalase sagedusega suurt hulka (suurusjärgus mitusada või tuhat) järjestikuseid töid. Näiteks ML-mudeli koolitamine linna kohta.

Soojad basseinid ei ole soovitatavad, kui on ebatõenäoline, et keegi sooja basseini enne selle aegumist uuesti kasutab. Näiteks üks pikk töö, mis töötab automatiseeritud ML-konveieri kaudu.

Minimeerige soojabasseini treeningu töö käivitamise latentsusaeg

Sooja basseini taaskasutavad koolitustööd algavad kiiremini kui esimene töö, mis sooja basseini lõi. Selle põhjuseks on ML-i eksemplaride töös hoidmine vahemällu salvestatud treeningkonteineri Dockeri kujutisega tööde vahel, et jätta konteineri eemaldamine vahele. Amazoni elastsete konteinerite register (Amazon ECR). Kuid isegi sooja basseini taaskasutamisel toimuvad kõigi tööde jaoks teatud lähtestamisetapid. Nende sammude optimeerimine võib lühendada teie töö käivitamise aega (nii esimeste kui ka järgmiste tööde puhul). Kaaluge järgmist.

Treeningu andmete sisestusrežiim võib mõjutada käivitusaega – Iga koolitustöö jaoks luuakse uuesti hallatavad koolitusandmete sisestuskanalid, mis aitavad kaasa töö käivitamise latentsusajale. Seega võimaldab esialgsete katsete tegemine väiksema andmestikuga kiirendada käivitusaega (ja kiiremat treeninguaega). Katsetamise hilisemates etappides, kui on vaja suurt andmestikku, kaaluge sellise sisendrežiimi tüübi kasutamist, millel on minimaalne või fikseeritud lähtestamisaeg. Näiteks sisestusrežiim FILE kopeerib kogu andmestiku Amazoni lihtne salvestusteenus (Amazon S3) koolituseksemplarile, mis on suurte andmekogumite jaoks aeganõudev (isegi sooja basseiniga). Kiire failirežiim sobib paremini väiksema käivituslatentsusega, kuna enne töökoormuse alustamist tuleb Amazon S3-st lugeda ainult S3 objekti metaandmeid. The Amazon FSx Lusteri jaoksvõi Amazon elastne failisüsteem (Amazon EFS) failisüsteemi sisestusrežiimil on fikseeritud lähtestamisaeg sõltumata failisüsteemis olevate failide arvust, mis on kasulik suure andmestikuga töötamisel.
Lisateavet sisendkanali valimise kohta vt Valige oma Amazon SageMakeri koolitustöö jaoks parim andmeallikas.
Vähendage pakettide käitusaegset installimist – Mis tahes tarkvara installimine, mis toimub konteineri käivitamise ajal, näiteks Pythoni pip või operatsioonisüsteem apt-get, suurendab koolitustöö latentsust. Selle käivituslatentsuse minimeerimiseks on vaja teha kompromissi käitusaegse installimise paindlikkuse ja lihtsuse ning konteineri ehitamise ajal installimise vahel. Kui kasutate koos SageMakeriga oma Dockeri konteinerit, vaadake jaotist Oma Dockeri konteineri kohandamine SageMakeriga töötamiseks. Kui toetuda eelehitatud SageMakeri konteineri kujutisedpeate seda tegema pikendada eelehitatud konteinerit ja neid konteinereid selgesõnaliselt hallata. Mõelge sellele, kui teie käitusaegsed installid suurendavad oluliselt käivituslatentsust.
Vältige oma Dockeri pildi sagedast värskendamist – Kui kasutate SageMakeriga oma Dockeri konteinerit, proovige vältida selle värskendamist iga töö käigus. Kui Dockeri kujutis töö esitamise vahel muutub, kasutatakse sooja kogumit uuesti, kuid käivitusprotsess peab vahemällu salvestatud konteineri kujutise taaskasutamise asemel konteineri kujutise Amazon ECR-ist uuesti tõmbama. Kui Dockeri pilti tuleb värskendada, piirake värskendused viimase Dockeri kihiga, et kasutada Dockeri kihi vahemällu. Ideaalis peaksite eemaldama Dockerfile'i sisu, mis iteratsioonide käigus tõenäoliselt muutub, nagu hüperparameetrid, andmestiku määratlused ja ML-kood ise. ML-koodi kordamiseks, ilma et peaksite iga muudatusega Dockeri pilte uuesti ehitama, võite võtta kasutusele SageMakeri koolitustööriistade komplektis soovitatud raamistiku konteineri paradigma. Kui soovite välja töötada oma koodiga raamistiku konteineri, vaadake seda Amazon SageMakeri õpetus.

Jagage sooja basseini mitme kasutaja vahel

Kui töötate koos suure andmeteadlaste meeskonnaga, saate jagada sooja basseini, millel on vastavad töökriteeriumid, näiteks sama AWS-i identiteedi- ja juurdepääsuhaldus (IAM) rolli või konteineri kujutist.

Vaatame ajaskaala näidet. Kasutaja-1 alustab treeningtööd, mis lõpeb ja mille tulemuseks on uus soe bassein. Kui kasutaja-2 alustab koolitustööd, kasutab töö uuesti olemasolevat sooja basseini, mille tulemuseks on töö kiire käivitamine. Kui kasutaja-2 töö töötab sooja basseiniga, siis kui mõni teine kasutaja alustab treeningtööd, luuakse teine soe bassein.

Selline taaskasutuskäitumine aitab vähendada kulusid, jagades soojasid basseine samalaadseid töid alustavate kasutajate vahel. Kui soovite vältida soojade basseinide jagamist kasutajate vahel, siis kasutajate töökohtadel ei tohi olla vastavad töökriteeriumid (näiteks peavad nad kasutama teistsugust IAM-i rolli).

Teavitage kasutajaid töö lõpetamisest

Kui kasutate katsetamiseks sooje basseine, soovitame kasutajaid töö lõpetamisest teavitada. See võimaldab kasutajatel jätkata katsetamist enne sooja basseini kehtivusaja lõppu või peatus sooja basseini, kui seda enam ei vajata. Sa saad ka automaatselt käivitada teatised läbi Amazon EventBridge.

Täiendavad tööriistad koolitustööde kiireks katsetamiseks ja tõrkeotsinguks

Soojade basseinidega saate tööd alustada vähem kui 20 sekundiga. Mõned stsenaariumid nõuavad reaalajas praktilist interaktiivset katsetamist ja tõrkeotsingut. Avatud lähtekoodiga SageMaker SSH Helperi teek võimaldab teil koorida SageMakeri treeningkonteinerisse ning viia läbi kaugarendust ja silumist.

Järeldus

SageMaker Training Managed Warm Pools abil saate hoida oma mudelitreeningu riistvara eksemplarid pärast iga tööd teatud aja jooksul soojas. See võib mudeli koolitustöö käivitamise latentsust vähendada kuni 8 korda. SageMakeri koolituse hallatavad soojad basseinid on saadaval kõigis avalikes AWS-i piirkondades, kus on saadaval SageMakeri mudelikoolitus.

Alustamiseks vaadake Treenige SageMakeri hallatavate soojade basseinide abil.

Autoritest

Dr Romi Datta on Amazon SageMakeri meeskonna tootehalduse vanemjuht, kes vastutab koolituse, töötlemise ja funktsioonide poe eest. Ta on olnud AWS-is üle 4 aasta, täites mitmeid tootehalduse juhtrolle SageMakeris, S3-s ja IoT-s. Enne AWS-i töötas ta erinevatel tootehalduse, inseneri ja operatiivjuhtimise ametikohtadel ettevõtetes IBM, Texas Instruments ja Nvidia. Tal on MS ja Ph.D. aastal Austini Texase ülikooli elektri- ja arvutitehnika erialal ning Chicago Boothi ülikooli ärikoolis MBA.

Arun Nagarajan on Amazon SageMakeri meeskonna peainsener, kes keskendub koolituse ja MLOps valdkondadele. Ta on olnud SageMakeri meeskonnas alates käivitamisaastast, talle meeldis panustada SageMakeri erinevatesse valdkondadesse, sealhulgas reaalajas järelduste tegemise ja mudelimonitori toodetesse. Talle meeldib Vaikse ookeani loodeosas õues avastada ja mägedes ronida.

Amy Sina on AWS SageMakeri tarkvaraarenduse juht. Ta keskendub tarkvarainseneride meeskonna kokkutoomisele, et luua, hooldada ja arendada SageMaker Training platvormi uusi võimalusi, mis aitavad klientidel oma ML-mudeleid tõhusamalt ja lihtsamalt koolitada. Tal on kirg ML ja AI tehnoloogia vastu, mis on eriti seotud pildi ja visiooniga oma magistriõpingute ajal. Vabal ajal meeldib talle perega muusika ja kunstiga tegeleda.

Sifei Li on tarkvarainsener Amazon AI-s, kus ta töötab Amazoni masinõppeplatvormide loomisel ja oli osa Amazon SageMakeri käivitusmeeskonnast. Vabal ajal meeldib talle muusikat mängida ja lugeda.

Jenna Zhao on AWS SageMakeri tarkvaraarenduse insener. Ta on kirglik ML/AI tehnoloogia vastu ja on keskendunud SageMakeri koolitusplatvormi loomisele, mis võimaldab klientidel kiiresti ja lihtsalt masinõppemudeleid koolitada. Väljaspool tööd meeldib talle reisida ja perega aega veeta.

Paras Mehra on AWS-i vanemtootejuht. Ta on keskendunud Amazon SageMakeri koolituse ja töötlemise aitamisele. Vabal ajal veedab Paras meelsasti perega aega ja sõidab lahe piirkonnas maanteerattaga. Leiad ta siit LinkedIn.

Gili Nachum on vanem AI/ML spetsialistilahenduste arhitekt, kes töötab EMEA Amazonase masinõppe meeskonna osana. Gili tunneb kirglikult süvaõppe mudelite koolitamise väljakutseid ja seda, kuidas masinõpe muudab maailma sellisel kujul, nagu me seda teame. Vabal ajal mängib Gili meelsasti lauatennist.

Olivier Cruchant on Prantsusmaal asuva AWS-i masinõppe spetsialisti lahenduste arhitekt. Olivier aitab AWS-i klientidel – alates väikestest alustavatest ettevõtetest kuni suurte ettevõteteni – arendada ja juurutada tootmistasemel masinõpperakendusi. Vabal ajal naudib ta uurimistööde lugemist ning sõprade ja perega metsiku loodusega tutvumist.

Emily Webber liitus AWS-iga vahetult pärast SageMakeri käivitamist ja on sellest ajast saati üritanud sellest maailmale rääkida! Lisaks klientidele uute ML-kogemuste loomisele naudib Emily mediteerimist ja Tiibeti budismi õppimist.

Ajatempel: Detsember 16, 2022Detsember 18, 2022

Ajatempel: Mar 2, 2022

Amazon SageMakeri koolituse hallatavate soojade basseinide parimad tavad

Taasavaldanud Platon

SageMakeri koolituse hallatavate soojade basseinide ülevaade

kriteeriumid

Soojade basseinide kasutamise parimad tavad

Millal peaksite sooja basseini kasutama?

Minimeerige soojabasseini treeningu töö käivitamise latentsusaeg

Jagage sooja basseini mitme kasutaja vahel

Teavitage kasutajaid töö lõpetamisest

Täiendavad tööriistad koolitustööde kiireks katsetamiseks ja tõrkeotsinguks

Järeldus

Autoritest

Veel alates AWS-i masinõpe

Lubage mitme piirkonna Amazon SageMakeri lõpp-punktide CI/CD

Kuidas xarvio Digital Farming Solutions oma arengut Amazon SageMakeri georuumiliste võimalustega kiirendab

Kasutage Snowflake'i andmeallikana ML-mudelite koolitamiseks Amazon SageMakeriga

Mitmekeelne klienditoe tõlge on tehtud Amazon Translate'i abil Salesforce Service Cloudis lihtsaks

Rakendage Amazon Translate'is roppuste maskeerimist

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto