Analysoi Amazon SageMakerin kulutusta ja määritä kustannusten optimointimahdollisuudet käytön perusteella, Osa 4: Koulutustyöt | Amazon Web Services

Analysoi Amazon SageMakerin kulutusta ja määritä kustannusten optimointimahdollisuudet käytön perusteella, Osa 4: Koulutustyöt | Amazon Web Services

Vuonna 2021 aloitimme AWS-tuki ennakoivia palveluita osana AWS-yritystuki suunnitelma. Sen käyttöönoton jälkeen olemme auttaneet satoja asiakkaita optimoimaan työkuormituksensa, asettamaan suojakaiteet ja parantamaan koneoppimisen (ML) työkuormien kustannusten ja käytön näkyvyyttä.

Tässä viestisarjassa jaamme oppitunteja kustannusten optimoinnista vuonna Amazon Sage Maker. Tässä viestissä keskitymme SageMaker-koulutustöihin.

SageMaker koulutustyöt

SageMaker-koulutustyöt ovat asynkronisia eräprosesseja, joissa on sisäänrakennetut ominaisuudet ML-mallin koulutukseen ja optimointiin.

SageMaker-harjoitustöissä voit tuoda oman algoritmisi tai valita yli 25 sisäänrakennetusta algoritmista. SageMaker tukee erilaisia ​​tietolähteitä ja pääsymalleja, hajautettua koulutusta, mukaan lukien heterogeeniset klusterit, sekä kokeilunhallintaominaisuuksia ja automaattista mallin viritystä.

Koulutustyön hinta perustuu käyttämiisi resursseihin (esiintymät ja tallennustila) sen keston aikana (sekunteina), jonka kyseiset ilmentymät ovat käynnissä. Tämä sisältää koulutuksen ajan ja, jos käytät lämmin uima-allasominaisuus, määrittämäsi säilytysjakso. Sisään Osa 1, näytimme, kuinka aloitat käytön AWS-kustannuslaskuri kustannusten optimointimahdollisuuksien tunnistamiseen SageMakerissa. Voit suodattaa koulutuskustannuksia käyttämällä suodatinta käyttötyypin mukaan. Näiden käyttötyyppien nimet ovat seuraavat:

  • REGION-Train:instanceType (esimerkiksi, USE1-Train:ml.m5.large)
  • REGION-Train:VolumeUsage.gp2 (esimerkiksi, USE1-Train:VolumeUsage.gp2)

Voit tarkastella koulutuskulujesi erittelyä Cost Explorerissa syöttämällä train: etuliitteenä sanalle Käyttötyyppi. Jos suodatat vain käytettyjen tuntien mukaan (katso seuraava kuvakaappaus), Cost Explorer luo kaksi kaaviota: Kustannukset ja Käyttö. Tämä näkymä auttaa sinua priorisoimaan optimointimahdollisuudet ja tunnistamaan, mitkä esiintymät ovat pitkäkestoisia ja kalliita.

Analysoi Amazon SageMakerin kulutusta ja määritä kustannusten optimointimahdollisuudet käytön perusteella, Osa 4: Koulutustyöt | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Ennen kuin optimoit olemassa olevan koulutustyön, suosittelemme noudattamaan parhaita käytäntöjä, joita käsitellään Koneoppimisen kustannusten optimointi Amazon SageMakerin avulla: testaa koodisi paikallisesti ja käytä paikallinen tila Käytä testaukseen valmiiksi koulutettuja malleja mahdollisuuksien mukaan ja harkitse ohjattu pistokoulutus (joka voi optimoida kustannukset jopa 90 % on-Demand-esiintymiin verrattuna).

Kun on-demand-työ käynnistetään, se käy läpi viisi vaihetta: aloitus, lataus, koulutus, lähetys ja valmis. Näet nämä vaiheet ja kuvaukset koulutustyön sivulla SageMaker-konsolissa.

Analysoi Amazon SageMakerin kulutusta ja määritä kustannusten optimointimahdollisuudet käytön perusteella, Osa 4: Koulutustyöt | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Hinnoittelun näkökulmasta sinua veloitetaan lataus-, koulutus- ja latausvaiheista.

Näiden vaiheiden tarkistaminen on ensimmäinen askel määriteltäessä, missä harjoituskustannukset optimoidaan. Tässä viestissä käsittelemme lataus- ja koulutusvaiheita.

Latausvaihe

Edellisessä esimerkissä latausvaihe kesti alle minuutin. Jos tiedon lataaminen on kuitenkin suuri tekijä koulutuskustannuksissasi, sinun tulee harkita käyttämääsi tietolähdettä ja käyttötapoja. SageMaker-koulutustyöt tukevat kolmea tietolähdettä natiivisti: Amazonin elastinen tiedostojärjestelmä (Amazon EFS), Amazonin yksinkertainen tallennuspalvelu (Amazon S3) ja Amazon FSx Lusterille. Amazon S3:lle SageMaker tarjoaa kolme hallittua tapaa, joilla algoritmi voi päästä koulutukseen: Tiedostotila (jossa tiedot ladataan ilmentymän lohkon tallennustilaan), Pipe-tila (tiedot suoratoistetaan ilmentymään, mikä eliminoi latausvaiheen keston). ja Fast File -tila (yhdistää olemassa olevan tiedostotilan helppokäyttöisyyden Pipe-tilan suorituskykyyn). Katso yksityiskohtaiset ohjeet oikean tietolähteen ja käyttötapojen valitsemiseen Valitse paras tietolähde Amazon SageMaker -koulutustyöllesi.

Käytettäessä hallittua spottiharjoitusta, keskeytyksestä johtuvia toistuvia latausvaiheita ei veloiteta (joten sinua veloitetaan vain kerran datalatauksen kestosta).

On tärkeää huomata, että vaikka SageMaker-koulutustyöt tukevat mainitsemiamme tietolähteitä, ne eivät ole pakollisia. Harjoituskoodissasi voit ottaa käyttöön minkä tahansa menetelmän harjoitustietojen lataamiseksi mistä tahansa lähteestä (edellyttäen, että koulutusesiintymä voi käyttää niitä). On myös muita tapoja nopeuttaa latausaikaa, kuten Boto3-sovellusliittymän ja moniprosessoinnin avulla tiedostojen lataamiseen samanaikaisesti tai käyttämällä kolmannen osapuolen kirjastoja, kuten WebDataset tai s5cmd, nopeuttaaksesi lataamista Amazon S3:sta. Lisätietoja on kohdassa S3-työkuormien rinnastaminen s5cmd:llä.

Harjoitteluvaihe

Koulutusvaiheen kustannusten optimointi koostuu kahden vektorin optimoinnista: oikean infrastruktuurin valinnasta (instanssiperhe ja koko) ja itse koulutuksen optimoinnista. Voimme karkeasti jakaa koulutusinstanssit kahteen luokkaan: kiihdytetty GPU-pohjainen, enimmäkseen syväoppimismalleille, ja CPU-pohjainen yleisille ML-kehyksille. Katso ohjeet oikean instanssiperheen valitsemiseen koulutukseen Varmista tehokkaat laskentaresurssit Amazon SageMakerissa. Jos harjoituksesi vaatii grafiikkasuorittimen esiintymiä, suosittelemme katsomaan videota Amazon EC2 GPU -esiintymien valitseminen syvään oppimiseen.

Yleisohjeena voidaan todeta, että jos työmääräsi vaatii NVIDIA-grafiikkasuorittimen, huomasimme, että asiakkaat saavat merkittäviä kustannussäästöjä kahdella Amazonin elastinen laskentapilvi (Amazon EC2) ilmentymätyypit: ml.g4dn ja ml.g5. ml.g4dn on varustettu NVIDIA T4:llä ja tarjoaa erityisen alhaiset muistikustannukset. ml.g5-instanssi on varustettu NVIDIA A10g Tensor Core -kiinnikkeellä, ja sen CUDA-flopin hinta on alhaisin (fp32).

AWS tarjoaa erityisiä kustannussäästöominaisuuksia syväoppimiskoulutukseen:

Instanssisi oikean koon mitoittamiseksi ja optimoimiseksi sinun tulee ensin tarkastella amazonin pilvikello mittareita, joita koulutustyöt tuottavat. Lisätietoja on kohdassa SageMaker-työt ja päätepistemittarit. Voit käyttää CloudWatchia edelleen mukautetut algoritmimittarit harjoituksen suorituskyvyn seuraamiseksi.

Analysoi Amazon SageMakerin kulutusta ja määritä kustannusten optimointimahdollisuudet käytön perusteella, Osa 4: Koulutustyöt | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Nämä mittarit voivat osoittaa pullonkauloja tai resurssien liiallista tarjontaa. Jos esimerkiksi havaitset korkean suorittimen ja alhaisen GPU:n käyttöasteen, voit ratkaista ongelman käyttämällä heterogeeniset klusterit. Toinen esimerkki voi olla jatkuva alhainen suorittimen käyttöaste koko työn keston ajan – tämä voi johtaa ilmentymän koon pienentämiseen.

Jos käytät hajautettu koulutus, sinun tulee testata erilaisia ​​jakelumenetelmiä (torni, Ring-AllReduce, peilattu ja niin edelleen) varmistaaksesi maksimaalisen käytön ja hienosäätääksesi kehysparametrejasi vastaavasti (katso esimerkiksi Parhaat käytännöt TensorFlow 1.x -kiihdytyskoulutukseen Amazon SageMakerissa). On tärkeää korostaa, että voit käyttää SageMaker-jakelusovellusliittymää ja kirjastoja, kuten SageMaker Distributed Data Parallel, SageMaker mallin rinnakkaisja SageMaker Sharded Data Parallel, jotka on optimoitu AWS-infrastruktuurille ja auttavat vähentämään koulutuskustannuksia.

Huomaa, että hajautettu koulutus ei välttämättä skaalaudu lineaarisesti ja saattaa aiheuttaa ylimääräisiä kuluja, mikä vaikuttaa yleiseen suoritusaikaan.

Syväoppimismalleissa toinen optimointitekniikka käyttää sekatarkkuutta. Monipuolinen tarkkuus voi nopeuttaa harjoittelua, mikä vähentää sekä harjoitusaikaa että muistin käyttöä ilman, että se vaikuttaa mallin tarkkuuteen. Lisätietoja on kohdassa Harjoittele Data Parallel- ja Model Parallel -ohjelmilla osassa Hajautettu koulutus Amazon SageMakerissa.

Lopuksi, kehyskohtaisten parametrien optimointi voi vaikuttaa merkittävästi koulutusprosessin optimointiin. Automaattinen SageMaker-viritys löytää hyperparametrit, jotka toimivat parhaiten valitsemallasi objektiivisella mittarilla mitattuna. Harjoitusajan asettaminen objektiiviseksi mittariksi ja kehyskonfiguraatio hyperparametreiksi voi auttaa poistamaan pullonkauloja ja lyhentämään harjoitusaikaa. Katso esimerkki TensorFlow-oletusasetusten optimoinnista ja suorittimen pullonkaulan poistamisesta Aerobotiikka parantaa harjoittelunopeutta 24 kertaa näytettä kohden Amazon SageMakerin ja TensorFlow'n avulla.

Toinen mahdollisuus optimoida sekä lataus- että käsittelyaika on harkita tietojesi osajoukon koulutusta. Jos tietosi koostuvat useista päällekkäisistä tiedoista tai ominaisuuksista, joilla on alhainen tiedonsaanti, saatat pystyä harjoittelemaan datan osajoukkoa ja lyhentämään lataus- ja harjoitusaikaa sekä käyttämään pienempää esiintymää ja Amazonin elastisten lohkojen myymälä (Amazon EBS) äänenvoimakkuus. Katso esimerkki Käytä tietokeskeistä lähestymistapaa minimoidaksesi Amazon SageMaker -mallien kouluttamiseen tarvittavan tiedon määrän. Lisäksi, Amazon SageMaker Data Wrangler voi yksinkertaistaa koulutusnäytteiden analysointia ja luomista. Lisätietoja on kohdassa Luo satunnaisia ​​ja kerrostettuja näytteitä tiedoista Amazon SageMaker Data Wranglerin avulla.

SageMaker-virheenkorjaus

Tehokkaan koulutuksen ja resurssien käytön varmistamiseksi SageMaker voi profiloida koulutustyösi käyttämällä Amazon SageMaker -korjaamo. Debuggeri tarjoaa sisäänrakennetut säännöt ilmoittaaksesi yleisistä ongelmista, jotka vaikuttavat harjoitteluun, kuten suorittimen pullonkaula, GPU-muistin lisäys tai I/O-pullonkaula, tai voit luoda omia sääntöjä. Voit tarkastella ja analysoida luotua raporttia Amazon SageMaker Studio. Lisätietoja on kohdassa Amazon SageMaker Debugger UI Amazon SageMaker Studio Experimentsissa. Seuraava kuvakaappaus näyttää Debugger-näkymän Studiossa.

Analysoi Amazon SageMakerin kulutusta ja määritä kustannusten optimointimahdollisuudet käytön perusteella, Osa 4: Koulutustyöt | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Voit syventyä Python-operaattoreihin ja funktioihin ( Parhaat toiminnot GPU:lla osio), jotka ajetaan suorittamaan koulutustyötä. Debuggerin sisäänrakennetut säännöt kellon kehyksen toimintaan liittyvien ongelmien profiloimiseksi, mukaan lukien liiallinen harjoituksen alustusaika, joka johtuu tietojen lataamisesta ennen harjoituksen alkamista ja vaiheiden keston poikkeavuudet harjoitussilmukaissa. Huomaa, että vaikka sisäänrakennettujen sääntöjen käyttö on ilmaista, mukautettujen sääntöjen kustannukset veloitetaan määrittämäsi ilmentymän mukaan koulutustyön ja siihen liitetyn tallennustilan ajaksi.

Yhteenveto

Tässä viestissä annoimme ohjeita kustannusanalyysiin ja parhaisiin käytäntöihin koulutettaessa ML-malleja SageMaker-koulutustehtävillä. Koska koneoppimisesta tulee tehokas työkalu kaikilla toimialoilla, ML-mallien koulutuksen ja käytön on säilyttävä kustannustehokkaina. SageMaker tarjoaa laajan ja syvän ominaisuusjoukon ML-prosessin jokaisen vaiheen helpottamiseksi ja tarjoaa kustannusoptimointimahdollisuuksia vaikuttamatta suorituskykyyn tai ketteryyteen.


Tietoja Tekijät

Analysoi Amazon SageMakerin kulutusta ja määritä kustannusten optimointimahdollisuudet käytön perusteella, Osa 4: Koulutustyöt | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Deepali Rajale on AWS:n vanhempi AI/ML-asiantuntija. Hän työskentelee yritysasiakkaiden kanssa ja tarjoaa teknisiä ohjeita parhaista käytännöistä AI/ML-ratkaisujen käyttöönotossa ja ylläpidossa AWS-ekosysteemissä. Hän on työskennellyt useiden organisaatioiden kanssa erilaisissa syväoppimisen käyttötapauksissa, joihin liittyy NLP ja tietokonenäkö. Hän haluaa antaa organisaatioille mahdollisuuden hyödyntää luovaa tekoälyä käyttökokemuksensa parantamiseksi. Vapaa-ajallaan hän nauttii elokuvista, musiikista ja kirjallisuudesta.

Analysoi Amazon SageMakerin kulutusta ja määritä kustannusten optimointimahdollisuudet käytön perusteella, Osa 4: Koulutustyöt | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Uri Rosenberg on AI & ML Specialist Technical Manager Euroopassa, Lähi-idässä ja Afrikassa. Israelin ulkopuolella sijaitseva Uri pyrkii antamaan yritysasiakkaille mahdollisuuden kaikessa ML:n suunnittelussa, rakentamisessa ja toiminnassa mittakaavassa. Vapaa-ajallaan hän harrastaa pyöräilyä, patikointia ja entropian kasvattamista.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen