Amazon SageMakeri kulutuste analüüsimine ja kulude optimeerimise võimaluste määramine kasutuse põhjal, 4. osa: Koolitustööd | Amazoni veebiteenused

Amazon SageMakeri kulutuste analüüsimine ja kulude optimeerimise võimaluste määramine kasutuse põhjal, 4. osa: Koolitustööd | Amazoni veebiteenused

2021. aastal käivitasime AWS-i tugiteenused ennetavad teenused osana AWS-i ettevõtte tugi plaan. Alates selle kasutuselevõtust oleme aidanud sadadel klientidel optimeerida oma töökoormust, seada piirded ning parandada nende masinõppe (ML) töökoormuste kulude ja kasutuse nähtavust.

Selles postituste sarjas jagame õppetunde kulude optimeerimise kohta aastal Amazon SageMaker. Selles postituses keskendume SageMakeri koolitustöödele.

SageMakeri koolitustööd

SageMakeri koolitustööd on asünkroonsed partiiprotsessid, millel on sisseehitatud funktsioonid ML-mudeli koolituseks ja optimeerimiseks.

SageMakeri koolitustöödega saate kaasa võtta oma algoritmi või valida rohkem kui 25 sisseehitatud algoritmi hulgast. SageMaker toetab erinevaid andmeallikaid ja juurdepääsumustreid, hajutatud koolitust, sealhulgas heterogeenseid klastreid, samuti katsehaldusfunktsioone ja automaatset mudeli häälestamist.

Koolitustöö maksumus põhineb teie kasutatavatel ressurssidel (eksemplarid ja salvestusruum) nende eksemplaride töötamise ajal (sekundites). See hõlmab koolituse toimumise aega ja, kui kasutate sooja basseini funktsioon, teie seadistatud elushoidmise periood. sisse Osa 1, näitasime, kuidas kasutama hakata AWS-i kuluuurija kulude optimeerimise võimaluste tuvastamiseks SageMakeris. Koolituskulusid saate filtreerida, rakendades kasutustüübile filtri. Nende kasutustüüpide nimed on järgmised:

  • REGION-Train:instanceType (näiteks, USE1-Train:ml.m5.large)
  • REGION-Train:VolumeUsage.gp2 (näiteks, USE1-Train:VolumeUsage.gp2)

Oma koolituskulude jaotuse vaatamiseks Cost Exploreris saate sisestada train: eesliitena jaoks Kasutamise tüüp. Kui filtreerite ainult kasutatud tundide järgi (vt järgmist ekraanipilti), loob Cost Explorer kaks graafikut: kulu ja kasutus. See vaade aitab teil optimeerimisvõimalusi tähtsuse järjekorda seada ja tuvastada, millised eksemplarid on pikaajalised ja kulukad.

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 4: Training jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Enne olemasoleva koolitustöö optimeerimist soovitame järgida artiklis käsitletud parimaid tavasid Masinaõppe kulude optimeerimine Amazon SageMakeriga: testige oma koodi kohapeal ja kasutage kohalik režiim katsetamiseks kasutage võimaluse korral eelkoolitatud mudeleid ja kaaluge õnnestus kohapeal koolitus (mis võib kulusid optimeerida kuni 90% võrreldes tellitavate eksemplaridega).

Kui tellitav töö käivitatakse, läbib see viis faasi: käivitamine, allalaadimine, koolitus, üleslaadimine ja lõpetamine. Neid etappe ja kirjeldusi näete SageMakeri konsooli koolitustöö lehel.

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 4: Training jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Hinnakujunduse seisukohast võetakse teilt allalaadimise, koolituse ja üleslaadimise etapi eest tasu.

Nende etappide ülevaatamine on esimene samm koolituskulude optimeerimise diagnoosimisel. Selles postituses käsitleme allalaadimise ja koolituse etappe.

Allalaadimise etapp

Eelmises näites võttis allalaadimise faas vähem kui minuti. Kui aga andmete allalaadimine on teie koolituskulude suur tegur, peaksite arvestama kasutatava andmeallika ja juurdepääsumeetoditega. SageMakeri koolitustööd toetavad algselt kolme andmeallikat: Amazon elastne failisüsteem (Amazon EFS), Amazoni lihtne salvestusteenus (Amazon S3) ja Amazon FSx Lusteri jaoks. Amazon S3 jaoks pakub SageMaker kolme hallatavat viisi, kuidas teie algoritm pääseb koolitusele juurde: failirežiim (kus andmed laaditakse alla eksemplariploki salvestusruumi), torurežiim (andmed voogesitatakse eksemplari, välistades sellega allalaadimisfaasi kestuse) ja Fast File režiim (ühendab olemasoleva failirežiimi kasutusmugavuse torurežiimi jõudlusega). Üksikasjalikud juhised õige andmeallika ja juurdepääsumeetodite valimise kohta leiate aadressilt Valige oma Amazon SageMakeri koolitustöö jaoks parim andmeallikas.

Hallatud kohatreeningu kasutamisel ei võeta tasu katkestuse tõttu toimunud korduvate allalaadimisfaaside eest (nii et teilt võetakse tasu ainult ühe korra andmete allalaadimise kestuse eest).

Oluline on märkida, et kuigi SageMakeri koolitustööd toetavad meie mainitud andmeallikaid, ei ole need kohustuslikud. Oma treeningkoodis saate rakendada mis tahes meetodit treeningandmete allalaadimiseks mis tahes allikast (eeldusel, et koolituseksemplaril on sellele juurdepääs). Allalaadimisaja kiirendamiseks on täiendavaid viise, näiteks Boto3 API kasutamine koos multitöötlusega failide samaaegseks allalaadimiseks või kolmandate osapoolte teekide (nt WebDataset või s5cmd) kasutamine Amazon S3-st kiiremaks allalaadimiseks. Lisateabe saamiseks vaadake S3 töökoormuste paralleelsus s5cmd-ga.

Koolitusetapp

Koolitusfaasi kulude optimeerimine koosneb kahe vektori optimeerimisest: õige infrastruktuuri valimisest (eksemplaride perekond ja suurus) ning koolituse enda optimeerimisest. Saame jämedalt jagada koolituseksemplarid kahte kategooriasse: kiirendatud GPU-põhised, enamasti süvaõppemudelite jaoks, ja CPU-põhised tavaliste ML-raamistike jaoks. Juhised koolituseks õige eksemplaripere valimiseks leiate artiklist Tagada Amazon SageMakeris tõhusad arvutusressursid. Kui teie koolitus nõuab GPU-sid, soovitame vaadata videot Kuidas valida sügavaks õppimiseks Amazon EC2 GPU eksemplare.

Üldjuhul, kui teie töökoormus nõuab NVIDIA GPU-d, avastasime, et kliendid säästavad oluliselt kulusid kahe Amazon Elastic Compute Cloud (Amazon EC2) eksemplaritüübid: ml.g4dn ja ml.g5. Ml.g4dn on varustatud NVIDIA T4-ga ja pakub eriti madalat mälumaksumust. Eksemplar ml.g5 on varustatud NVIDIA A10g Tensor Core'iga ja sellel on madalaim CUDA flopi hind (fp32).

AWS pakub süvaõppe koolituse jaoks spetsiifilisi kulusäästufunktsioone:

Eksemplari õige suuruse määramiseks ja optimeerimiseks peaksite esmalt vaatama Amazon CloudWatch mõõdikud, mida koolitustööd loovad. Lisateabe saamiseks vaadake SageMakeri töökohad ja lõpp-punkti mõõdikud. Saate CloudWatchi edasi kasutada kohandatud algoritmi mõõdikud treeningu tulemuslikkuse jälgimiseks.

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 4: Training jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Need mõõdikud võivad osutada kitsaskohtadele või ressursside ülevarustamisele. Näiteks kui jälgite kõrget protsessorit madala GPU kasutusega, saate probleemi lahendada kasutades heterogeensed klastrid. Teine näide võib olla pidev madal protsessori kasutus kogu töö kestuse jooksul – see võib viia eksemplari suuruse vähenemiseni.

Kui kasutate jagatud koolitus, peaksite katsetama erinevaid levitamismeetodeid (torn, Ring-AllReduce, peegeldatud ja nii edasi), et kontrollida maksimaalset kasutust ja kohandada oma raamistiku parameetreid vastavalt (näiteks vt. TensorFlow 1.x kiirenduskoolituse parimad tavad rakenduses Amazon SageMaker). Oluline on rõhutada, et saate kasutada SageMakeri levitamise API-d ja sarnaseid teeke SageMaker Distributed Data Parallel, SageMakeri paralleelne mudelja SageMaker Sharded Data Parallel, mis on optimeeritud AWS-i infrastruktuuri jaoks ja aitavad vähendada koolituskulusid.

Pange tähele, et hajutatud koolitus ei pruugi muutuda lineaarseks ja võib tekitada mõningaid üldkulusid, mis mõjutavad üldist käitusaega.

Süvaõppe mudelite puhul kasutab teine ​​optimeerimismeetod segatäpsust. Segatud täpsus võib treenimist kiirendada, vähendades seeläbi nii treeninguaega kui ka mälukasutust, mõjutades mudeli täpsust minimaalselt või üldse mitte. Lisateabe saamiseks vaadake Treeni andmetega paralleelselt ja mudeliga paralleelselt jaotis Jagatud koolitus Amazon SageMakeris.

Lõpuks võib raamistiku spetsiifiliste parameetrite optimeerimine avaldada koolitusprotsessi optimeerimisele märkimisväärset mõju. SageMaker automaatne mudeli häälestamine leiab hüperparameetrid, mis toimivad kõige paremini, mõõdetuna teie valitud objektiivse mõõdikuga. Treeningaja määramine objektiivseks mõõdikuks ja raamistiku konfiguratsiooniks hüperparameetriteks võib aidata kõrvaldada kitsaskohad ja vähendada üldist treeninguaega. Näide TensorFlow vaikesätete optimeerimise ja protsessori kitsaskoha eemaldamise kohta leiate artiklist Aerobootika parandab treeningkiirust 24 korda proovi kohta Amazon SageMakeri ja TensorFlow'ga.

Teine võimalus nii allalaadimis- kui ka töötlemisaja optimeerimiseks on kaaluda oma andmete alamhulga koolitust. Kui teie andmed koosnevad mitmest dubleerivast sisestusest või vähese teabevõimega funktsioonidest, võib teil olla võimalik treenida andmete alamhulgaga ning vähendada allalaadimis- ja treenimisaega ning kasutada väiksemat eksemplari ja Amazoni elastsete plokkide pood (Amazon EBS) maht. Näiteks vaadake Kasutage andmekeskset lähenemist, et minimeerida Amazon SageMakeri mudelite koolitamiseks vajalikku andmemahtu. Samuti Amazon SageMaker Data Wrangler võib lihtsustada koolitusnäidiste analüüsi ja loomist. Lisateabe saamiseks vaadake Looge Amazon SageMaker Data Wrangleriga juhuslikud ja kihistunud andmeproovid.

SageMakeri silur

Tõhusa koolituse ja ressursside kasutamise tagamiseks saab SageMaker teie koolitustöö profiili kasutades Amazon SageMakeri silur. Siluri pakkumised sisseehitatud reeglid et teavitada tavalistest probleemidest, mis teie treeningut mõjutavad, nagu protsessori kitsaskoht, GPU mälu suurenemine või sisendi/väljundi kitsaskoht, või saate luua oma reeglid. Saate genereeritud aruandele juurde pääseda ja seda analüüsida Amazon SageMaker Studio. Lisateabe saamiseks vaadake Amazon SageMakeri siluri kasutajaliides Amazon SageMaker Studio eksperimentides. Järgmine ekraanipilt näitab Studio silurivaadet.

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 4: Training jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Saate süveneda Pythoni operaatoritesse ja funktsioonidesse ( Parimad toimingud GPU-s osa), mida juhitakse koolitustöö tegemiseks. Siluri sisseehitatud reeglid kella raamistiku tööga seotud probleemide profileerimiseks, sealhulgas liigne treeningu lähtestamise aeg, mis on tingitud andmete allalaadimisest enne treeningu algust ja sammude kestuse kõrvalekalded treeningtsüklites. Peaksite arvestama, et kuigi sisseehitatud reeglite kasutamine on tasuta, kehtivad kohandatud reeglite kulud olenevalt eksemplarist, mille konfigureerite koolitustöö ja sellele lisatud salvestusruumi ajaks.

Järeldus

Selles postituses andsime juhiseid kuluanalüüsi ja parimate tavade kohta ML-mudelite koolitamisel SageMakeri koolitustööde abil. Kuna masinõpe on kõigis tööstusharudes tõhus tööriist, peab ML-mudelite väljaõpe ja käitamine jääma kulutõhusaks. SageMaker pakub laia ja sügavat funktsioonide komplekti ML-i konveieri iga etapi hõlbustamiseks ning pakub kulude optimeerimise võimalusi, ilma et see mõjutaks jõudlust või paindlikkust.


Autoritest

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 4: Training jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Deepali Rajale on AWSi AI/ML vanemspetsialist. Ta töötab äriklientidega, pakkudes tehnilisi juhiseid parimate tavade kohta AI/ML-lahenduste juurutamiseks ja hooldamiseks AWS-i ökosüsteemis. Ta on töötanud paljude organisatsioonidega erinevate süvaõppe kasutusjuhtumite kallal, mis hõlmavad NLP-d ja arvutinägemist. Ta on kirglik anda organisatsioonidele võimalus kasutada generatiivset tehisintellekti, et parandada nende kasutuskogemust. Vabal ajal naudib ta filme, muusikat ja kirjandust.

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 4: Training jobs | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.Uri Rosenberg on AI ja ML spetsialiseerunud tehniline juht Euroopas, Lähis-Idas ja Aafrikas. Iisraelist väljas asuv Uri töötab selle nimel, et anda ettevõtetele klientidele võimalus ML-iga projekteerida, ehitada ja mastaapselt tegutseda. Vabal ajal naudib ta jalgrattasõitu, matkamist ja entroopia suurendamist.

Ajatempel:

Veel alates AWS-i masinõpe