Vuonna 2021 aloitimme AWS-tuki ennakoivia palveluita osana AWS-yritystuki suunnitelma. Sen käyttöönoton jälkeen olemme auttaneet satoja asiakkaita optimoimaan työkuormituksensa, asettamaan suojakaiteet ja parantamaan koneoppimisen (ML) työkuormien kustannusten ja käytön näkyvyyttä.
Tässä viestisarjassa jaamme oppitunteja kustannusten optimoinnista vuonna Amazon Sage Maker. sisään Osa 1, näytimme, kuinka aloitat käytön AWS-kustannuslaskuri kustannusten optimointimahdollisuuksien tunnistamiseen SageMakerissa. Tässä viestissä keskitymme SageMaker-johtopäätösympäristöihin: reaaliaikainen päättely, erämuunnos, asynkroninen johtopäätös ja palvelinton päättely.
SageMaker tarjoaa useita päättelyvaihtoehtoja joista voit valita työmäärävaatimustesi perusteella:
- Reaaliaikainen päätelmä online-, alhaisen viiveen tai suuren suorituskyvyn vaatimuksiin
- Erämuunnos offline-tilassa, ajoitettua käsittelyä varten ja kun et tarvitse pysyvää päätepistettä
- Asynkroninen päättely kun sinulla on suuria hyötykuormia, joilla on pitkät käsittelyajat ja haluat asettaa pyyntöjä jonoon
- Palvelimeton päätelmä kun sinulla on ajoittaisia tai arvaamattomia liikennemalleja ja siedät kylmäkäynnistystä
Seuraavissa osioissa käsittelemme jokaista päättelyvaihtoehtoa yksityiskohtaisemmin.
SageMakerin reaaliaikainen päättely
Kun luot päätepisteen, SageMaker liittää Amazonin elastisten lohkojen myymälä (Amazon EBS) tallennustilaa Amazonin elastinen laskentapilvi (Amazon EC2) -esiintymä, joka isännöi päätepistettä. Tämä koskee kaikkia ilmentymätyyppejä, joiden mukana ei toimiteta SSD-tallennustilaa. Koska d*-instanssityypeissä on NVMe SSD -tallennustila, SageMaker ei liitä EBS-tallennustilaa näihin ML-laskentaesiintymiin. Viitata Isäntäinstanssin tallennustilastot tallennustilavuuksien koosta, jotka SageMaker liittää kullekin ilmentymätyypille yhdelle päätepisteelle ja usean mallin päätepisteelle.
SageMakerin reaaliaikaisten päätepisteiden hinta perustuu kunkin ilmentymän kulutettuun ilmentymän tuntiin päätepisteen ollessa käynnissä, Gt-kuukauden varatun tallennustilan (EBS-määrän) hintaan sekä sisään ja ulos käsiteltyyn GB-tietoon. päätepisteinstanssista, kuten kohdassa on kuvattu Amazon SageMaker -hinnoittelu. Cost Explorerissa voit tarkastella reaaliaikaisia päätepisteiden kustannuksia käyttämällä suodatinta käyttötyyppiin. Näiden käyttötyyppien nimet on rakennettu seuraavasti:
REGION-Host:instanceType
(esimerkiksi,USE1-Host:ml.c5.9xlarge
)REGION-Host:VolumeUsage.gp2
(esimerkiksi,USE1-Host:VolumeUsage.gp2
)REGION-Hst:Data-Bytes-Out
(esimerkiksi,USE2-Hst:Data-Bytes-In
)REGION-Hst:Data-Bytes-Out
(esimerkiksi,USW2-Hst:Data-Bytes-Out)
Kuten seuraavassa kuvakaappauksessa näkyy, suodatus käyttötyypin mukaan Host:
näyttää luettelon tilin reaaliaikaisista hosting-käyttötyypeistä.
Voit joko valita tietyt käyttötyypit tai valita Valitse kaikki Ja valitse käyttää näyttääksesi SageMakerin reaaliaikaisen hosting-käytön kustannuserittelyn. Jos haluat nähdä kustannus- ja käyttöerittelyn esiintymien tuntien mukaan, sinun on poistettava kaikki valinnat REGION-Host:VolumeUsage.gp2
käyttötyypit ennen kuin käytät käyttötyyppisuodatinta. Voit myös käyttää lisäsuodattimia, kuten tilinumeroa, EC2-ilmentymän tyyppiä, kustannusten allokointitunnistetta, aluetta ja lisää. Seuraava kuvakaappaus näyttää kustannus- ja käyttökaaviot valituille hosting-käyttötyypeille.
Lisäksi voit tutkia yhteen tai useampaan isännöintiinstanssiin liittyviä kustannuksia käyttämällä Ilmentymän tyyppi suodattaa. Seuraava kuvakaappaus näyttää kustannus- ja käyttöerittelyn isännöintiinstanssille ml.p2.xlarge.
Vastaavasti sisään- ja uloskäsiteltyjen GB-tietojen hinta voidaan näyttää valitsemalla niihin liittyvät käyttötyypit käytetyksi suodattimeksi, kuten seuraavassa kuvakaappauksessa näkyy.
Kun olet saavuttanut haluamasi tulokset suodattimilla ja ryhmittelyillä, voit joko ladata tulokset valitsemalla Lataa CSV-muodossa tai tallenna raportti valitsemalla Tallenna raporttikirjastoon. Yleisiä ohjeita Cost Explorerin käytöstä on kohdassa AWS Cost Explorerin uusi ulkoasu ja yleiset käyttötapaukset.
Valinnaisesti voit ottaa käyttöön AWS-kustannus- ja käyttöraportit (AWS CUR) saadaksesi tietoa tiliesi kustannus- ja käyttötiedoista. AWS CUR sisältää tuntikohtaiset AWS-kulutustiedot. Se on tallennettu Amazonin yksinkertainen tallennuspalvelu (Amazon S3) maksajatilillä, joka yhdistää tiedot kaikista linkitetyistä tileistä. Voit suorittaa kyselyitä analysoidaksesi käyttösi suuntauksia ja ryhtyä tarvittaviin toimiin kustannusten optimoimiseksi. Amazon Athena on palvelimeton kyselypalvelu, jonka avulla voit analysoida AWS CUR:n tietoja Amazon S3:ssa käyttämällä tavallista SQL:ää. Lisätietoja ja esimerkkikyselyitä löytyy osoitteesta AWS CUR -kyselykirjasto.
Voit myös syöttää AWS CUR -tietoja Amazon QuickSight, jossa voit viipaloida sen haluamallasi tavalla raportointi- tai visualisointitarkoituksiin. Katso ohjeet Kuinka saan ja visualisoin AWS-kustannus- ja käyttöraportin (CUR) Amazon QuickSightiin.
Voit hankkia AWS CUR:sta resurssitason tietoja, kuten päätepisteen ARN, päätepisteiden ilmentymien tyypit, tuntikohtaiset ilmentymät, päivittäiset käyttötunnit ja paljon muuta. Voit myös sisällyttää kyselyyn kustannusten kohdistustunnisteita tarkkuuden lisäämiseksi. Seuraava esimerkkikysely palauttaa reaaliaikaisen isännöintiresurssin käytön viimeisen 3 kuukauden ajalta tietylle maksajatilille:
Seuraava kuvakaappaus näyttää tulokset, jotka saatiin kyselyn suorittamisesta Athenen avulla. Lisätietoja on kohdassa Kustannus- ja käyttöraporttien kysely Amazon Athenalla.
Kyselyn tulos näyttää kyseisen päätepisteen mme-xgboost-housing
ml.x4.xlarge-instanssi raportoi 24 tunnin suoritusajan useiden peräkkäisten päivien ajan. Ilmentymän hinta on 0.24 dollaria/tunti ja vuorokausikulut 24 tunnin ajan on 5.76 dollaria.
AWS CUR -tulokset voivat auttaa sinua tunnistamaan päätepisteiden mallit, jotka toimivat peräkkäisinä päivinä jokaisessa linkitetyssä tilissä, sekä päätepisteitä, joiden kuukausikustannukset ovat korkeimmat. Tämä voi myös auttaa sinua päättämään, voidaanko muiden kuin tuotantotilien päätepisteet poistaa kustannusten säästämiseksi.
Optimoi reaaliaikaisten päätepisteiden kustannukset
Kustannushallinnan näkökulmasta on tärkeää tunnistaa vajaakäyttöiset (tai ylikokoiset) ilmentymät ja saattaa ilmentymien koko ja määrä tarvittaessa vastaamaan työmäärävaatimuksia. Yleiset järjestelmämittaukset, kuten suorittimen/grafiikkasuorittimen käyttö ja muistin käyttö, kirjoitetaan amazonin pilvikello kaikille isännöintitapauksille. Reaaliaikaisia päätepisteitä varten SageMaker tarjoaa useita lisämittareita saatavilla CloudWatchissa. Jotkut yleisesti valvotuista mittareista sisältävät kutsujen määrät ja kutsujen 4xx/5xx-virheet. Täydellinen luettelo mittareista on kohdassa Seuraa Amazon SageMakeria Amazon CloudWatch -sovelluksella.
Mittari CPUUtilization
tarjoaa kunkin yksittäisen CPU-ytimen käytön summan. Kunkin ydinalueen suorittimen käyttöaste on 0–100. Jos prosessoreita on esimerkiksi neljä, CPUUtilization
vaihteluväli on 0-400 %. Mittari MemoryUtilization
on esiintymän säilöjen käyttämä prosenttiosuus muistista. Tämä arvoalue on 0–100 %. Seuraava kuvakaappaus näyttää esimerkin CloudWatch-mittareista CPUUtilization
ja MemoryUtilization
päätepisteinstanssille ml.m4.10xlarge, jossa on 40 vCPU:ta ja 160 GiB muistia.
Nämä mittauskaaviot osoittavat suorittimen maksimikäyttöasteen noin 3,000 30 %, mikä vastaa 30 vCPU:ta. Tämä tarkoittaa, että tämä päätepiste ei käytä enempää kuin 40 vCPU:ta 6 vCPU:n kokonaiskapasiteetista. Vastaavasti muistin käyttöaste on alle XNUMX %. Näiden tietojen avulla voit mahdollisesti kokeilla pienempää esiintymää, joka vastaa tätä resurssien tarvetta. Lisäksi, CPUUtilization
metriikka näyttää klassisen säännöllisen korkean ja alhaisen suorittimen kysynnän, mikä tekee tästä päätepisteestä hyvän ehdokkaan automaattiseen skaalaukseen. Voit aloittaa pienemmällä ilmentymällä ja skaalata ensin, kun laskentatarpeesi muuttuu. Katso lisätietoja Skaalaa automaattisesti Amazon SageMaker -mallit.
SageMaker on loistava uusien mallien testaamiseen, koska voit helposti ottaa ne käyttöön A/B-testausympäristössä käyttämällä tuotantoversiot, ja maksat vain siitä, mitä käytät. Kukin tuotantoversio toimii omassa laskentaesiintymässään, ja sinulta veloitetaan kustakin esiintymästä kulutettua ilmentymää kohti, kun versio on käynnissä.
SageMaker tukee myös varjomuunnelmia, joissa on samat komponentit kuin tuotantoversiossa ja jotka toimivat omassa laskentaesiintymässä. Varjovarianttien avulla SageMaker ottaa mallin käyttöön automaattisesti testiympäristössä, reitittää kopion tuotantomallin vastaanottamista päätelmäpyynnöistä testimalliin reaaliajassa ja kerää suorituskykymittareita, kuten viivettä ja suorituskykyä. Tämän avulla voit vahvistaa mallin näyttöpinon minkä tahansa uuden ehdokaskomponentin ennen sen tuomista tuotantoon.
Kun olet suorittanut testit etkä käytä päätepistettä tai muunnelmia enää laajasti, sinun tulee poistaa se kustannusten säästämiseksi. Koska malli on tallennettu Amazon S3:een, voit luoda sen uudelleen tarpeen mukaan. Voit tunnistaa nämä päätepisteet automaattisesti ja tehdä korjaavia toimia (kuten poistaa ne) käyttämällä Amazon CloudWatch -tapahtumat ja AWS Lambda toimintoja. Voit käyttää esimerkiksi Invocations
metriikka, jotta saadaan mallin päätepisteeseen lähetettyjen pyyntöjen kokonaismäärä ja havaitaan sitten, ovatko päätepisteet olleet käyttämättömänä viimeisten tuntien ajan (ilman kutsuja tietyn ajanjakson, kuten 24 tunnin aikana).
Jos sinulla on useita vajaakäytössä olevia päätepisteesiintymiä, harkitse isännöintivaihtoehtoja, kuten usean mallin päätepisteet (MME), usean kontin päätepisteet (MCE) ja sarjapäätelmäputkia käytön yhdistämiseksi harvempiin päätepisteinstanssiin.
Reaaliaikaista ja asynkronista päättelymallin käyttöönottoa varten voit optimoida kustannukset ja suorituskyvyn ottamalla malleja käyttöön SageMakerissa käyttämällä AWS Graviton. AWS Graviton on AWS:n suunnittelema prosessoriperhe, joka tarjoaa parhaan hintasuorituskyvyn ja ovat energiatehokkaampia kuin x86-vastineet. Ohjeita ML-mallin käyttöönotosta AWS Graviton-pohjaisissa instansseissa ja tietoja hintatehokkuudesta on kohdassa Suorita koneoppimispäätelmien työkuormia AWS Graviton -pohjaisissa tapauksissa Amazon SageMakerin avulla. SageMaker tukee myös AWS Inferencia kiihdyttimet kautta ml.inf2 instanssiperhe ML-mallien käyttöönottamiseksi reaaliaikaista ja asynkronista päättelyä varten. Voit käyttää näitä tapauksia SageMakerissa saavuttaaksesi korkean suorituskyvyn alhaisin kustannuksin generatiivisille tekoälyn malleille, mukaan lukien suuret kielimallit (LLM) ja näkömuuntajat.
Lisäksi voit käyttää Amazon SageMakerin päätelmäsuositus suorittaaksesi kuormitustestejä ja arvioidaksesi hinta-tehokkuusetuja mallin käyttöönotosta näissä tapauksissa. Lisätietoja käyttämättömien SageMaker-päätepisteiden automaattisesta tunnistamisesta sekä ilmentymän oikean koon muuttamisesta ja SageMaker-päätepisteiden automaattisesta skaalauksesta on kohdassa Varmista tehokkaat laskentaresurssit Amazon SageMakerissa.
SageMaker-erämuunnos
Eräpäätelmä tai offline-johtopäätös, on prosessi, jossa luodaan ennusteita havaintojen erästä. Offline-ennusteet sopivat suuremmille tietojoukoille ja tapauksissa, joissa sinulla on varaa odottaa vastausta useita minuutteja tai tunteja.
SageMaker-erämuunnoksen hinta perustuu kunkin esiintymän kulutettuun ilmentymän tuntiin, kun erämuunnostyö on käynnissä, kuten kohdassa on kuvattu. Amazon SageMaker -hinnoittelu. Cost Explorerissa voit tutkia erämuunnoskustannuksia käyttämällä suodatinta käyttötyyppiin. Tämän käyttötyypin nimi on rakenteeltaan muotoiltu REGION-Tsform:instanceType
(esimerkiksi, USE1-Tsform:ml.c5.9xlarge
).
Kuten seuraavassa kuvakaappauksessa näkyy, suodatus käyttötyypin mukaan Tsform:
näyttää luettelon SageMakerin erämuunnosten käyttötyypeistä tilillä.
Voit joko valita tietyt käyttötyypit tai valita Valitse kaikki Ja valitse käyttää näyttääksesi valittujen tyyppien erämuunnosilmentymien käytön kustannuserittelyn. Kuten aiemmin mainittiin, voit käyttää myös lisäsuodattimia. Seuraava kuvakaappaus näyttää kustannus- ja käyttökaaviot valituille erämuunnosten käyttötyypeille.
Optimoi erämuunnoskustannukset
SageMakerin erämuunnos veloittaa sinua vain töiden ollessa käynnissä käytetyistä instansseista. Jos tietosi ovat jo Amazon S3:ssa, Amazon S3:n syöttötietojen lukeminen ja lähtötietojen kirjoittaminen Amazon S3:een ei maksa mitään. Kaikki tulosobjektit yritetään ladata Amazon S3:een. Jos kaikki onnistuvat, erämuunnostyö merkitään valmiiksi. Jos yksi tai useampi objekti epäonnistuu, erämuunnostyö merkitään epäonnistuneeksi.
Erämuunnostöistä veloitetaan seuraavissa tilanteissa:
- Työ on onnistunut
- Epäonnistuminen johtuu
ClientError
ja mallisäiliö on SageMaker tai SageMaker-hallittu kehys - Epäonnistuminen johtuu
AlgorithmError
orClientError
ja mallisäiliö on oma mukautettu kontti (BYOC)
Seuraavassa on joitain parhaita käytäntöjä SageMakerin erämuunnostyön optimointiin. Nämä suositukset voivat lyhentää erämuunnostyösi kokonaisajoaikaa, mikä alentaa kustannuksia:
- Asettaa Erästrategia että
MultiRecord
jaSplitType
ettäLine
jos tarvitset erämuunnostyötä tehdäksesi minieriä syöttötiedostosta. Jos se ei pysty jakamaan tietojoukkoa automaattisesti minieriin, voit jakaa sen minieriin asettamalla kunkin erän erilliseen syöttötiedostoon, joka sijoitetaan tietolähteen S3-ämpäriin. - Varmista, että eräkoko mahtuu muistiin. SageMaker käsittelee tämän yleensä automaattisesti; kuitenkin, kun eriä jaetaan manuaalisesti, tämä on viritettävä muistin perusteella.
- Erämuunnos osittaa syötteen S3-objektit avaimella ja kartoittaa nämä objektit ilmentymiin. Jos sinulla on useita tiedostoja, yksi esiintymä saattaa käsitellä
input1.csv
, ja toinen esiintymä saattaa käsitelläinput2.csv
. Jos sinulla on yksi syöttötiedosto, mutta alustat useita laskentaesiintymiä, vain yksi ilmentymä käsittelee syöttötiedoston ja loput ilmentymät ovat käyttämättömiä. Varmista, että tiedostojen määrä on yhtä suuri tai suurempi kuin esiintymien lukumäärä. - Jos sinulla on suuri määrä pieniä tiedostoja, voi olla hyödyllistä yhdistää useita tiedostoja pieneksi määräksi suurempia tiedostoja Amazon S3:n vuorovaikutusajan lyhentämiseksi.
- Jos käytät LuoTransformJob API, voit lyhentää erämuunnostöiden suorittamiseen kuluvaa aikaa käyttämällä optimaalisia arvoja parametreille, kuten MaxPayloadInMB, MaxConcurrentTransformstai Erästrategia:
MaxConcurrentTransforms
ilmaisee rinnakkaisten pyyntöjen enimmäismäärän, joka voidaan lähettää kullekin muunnostyön ilmentymälle. Ihanteellinen arvoMaxConcurrentTransforms
on yhtä suuri kuin esiintymän vCPU-ytimien lukumäärä.MaxPayloadInMB
on hyötykuorman suurin sallittu koko, megatavuina. Arvo sisäänMaxPayloadInMB
on oltava suurempi tai yhtä suuri kuin yhden tietueen koko. Jos haluat arvioida tietueen koon megatavuina, jaa tietojoukon koko tietueiden määrällä. Varmistaaksesi, että tietueet mahtuvat maksimihyötykuorman kokoon, suosittelemme käyttämään hieman suurempaa arvoa. Oletusarvo on 6 MB.MaxPayloadInMB
ei saa olla suurempi kuin 100 Mt. Jos määrität valinnaisenMaxConcurrentTransforms
parametri, sitten arvo (MaxConcurrentTransforms
*MaxPayloadInMB
) ei myöskään saa ylittää 100 megatavua.- Jos hyötykuorma saattaa olla mielivaltaisen suuri ja se lähetetään HTTP-lohkokoodauksella, aseta MaxPayloadInMB-arvoksi 0. Tämä ominaisuus toimii vain tuetuissa algoritmeissa. Tällä hetkellä sisäänrakennetut SageMaker-algoritmit eivät tue HTTP-lohkokoodausta.
- Eräpäättelytehtävät ovat yleensä hyviä ehdokkaita vaakasuuntaiseen skaalaukseen. Jokainen klusterin työntekijä voi käyttää erilaista dataa tarvitsematta vaihtaa tietoja muiden työntekijöiden kanssa. AWS tarjoaa useita tallennus- ja laskentavaihtoehtoja, jotka mahdollistavat vaakasuuntaisen skaalauksen. Jos yksittäinen esiintymä ei riitä täyttämään suorituskykyvaatimuksiasi, harkitse useiden esiintymien käyttöä rinnakkain työkuorman jakamiseksi. Katso tärkeimmät seikat erämuunnostöiden suunnittelussa kohdasta Eräpäätelmä mittakaavassa Amazon SageMakerin avulla.
- Seuraa jatkuvasti SageMaker-erämuunnostöiden suorituskykymittauksia CloudWatchin avulla. Etsi pullonkauloja, kuten korkea suorittimen tai grafiikkasuorittimen käyttöaste, muistin käyttö tai verkon suorituskyky, jotta voit määrittää, tarvitseeko sinun muuttaa ilmentymien kokoa tai kokoonpanoja.
- SageMaker käyttää Amazon S3:a moniosainen lataussovellusliittymä lähettääksesi erämuunnostyön tulokset Amazon S3:een. Jos tapahtuu virhe, ladatut tulokset poistetaan Amazon S3:sta. Joissakin tapauksissa, kuten verkkokatkoksen sattuessa, epätäydellinen moniosainen lataus saattaa jäädä Amazon S3:een. Tallennuskulujen välttämiseksi suosittelemme, että lisäät S3-ämpäripolitiikka S3:n kauhan elinkaaren sääntöihin. Tämä käytäntö poistaa epätäydelliset moniosaiset lataukset, jotka voidaan tallentaa S3-säilöyn. Katso lisätietoja Tallennustilan elinkaaren hallinta.
SageMakerin asynkroninen päättely
Asynkroninen päättely on loistava valinta kustannusherkille työkuormille, joissa on suuri hyötykuorma ja purskeliikenne. Pyyntöjen käsittely voi kestää jopa 1 tunnin, ja niiden hyötykuorma on enintään 1 Gt, joten se sopii paremmin työkuormille, joissa on kevennetyt viivevaatimukset.
Asynkronisten päätepisteiden kutsuminen eroaa reaaliaikaisista päätepisteistä. Sen sijaan, että välität pyynnön hyötykuorman synkronisesti pyynnön kanssa, lataat hyötykuorman Amazon S3:een ja välität S3 URI:n osana pyyntöä. Sisäisesti SageMaker ylläpitää jonoa näiden pyyntöjen kanssa ja käsittelee ne. Päätepisteen luomisen aikana voit valinnaisesti määrittää Amazonin yksinkertainen ilmoituspalvelu (Amazon SNS) -aiheeseen saadaksesi onnistumis- tai virheilmoituksia. Kun saat ilmoituksen, että päättelypyyntösi on käsitelty onnistuneesti, voit käyttää tulosta Amazon S3 -tulostussijainnissa.
Asynkronisen päättelyn hinta perustuu kunkin ilmentymän kulutettuun ilmentymän tuntiin päätepisteen ollessa käynnissä, varatun tallennustilan Gt-kuukauden hintaan sekä päätepisteinstanssissa ja sieltä pois käsiteltyyn GB-tietoon, kuten kohdassa on kuvattu. Amazon SageMaker -hinnoittelu. Cost Explorerissa voit suodattaa asynkronisia päättelykuluja käyttämällä suodatinta käyttötyypissä. Tämän käyttötyypin nimi on rakenteeltaan muotoiltu REGION-AsyncInf:instanceType
(esimerkiksi, USE1-AsyncInf:ml.c5.9xlarge
). Huomaa, että GB-määrän ja GB-tietojen käsitellyt käyttötyypit ovat samat kuin reaaliaikaiset päätepisteet, kuten aiemmin tässä viestissä mainittiin.
Kuten seuraavassa kuvakaappauksessa näkyy, suodatus käyttötyypin mukaan AsyncInf:
Cost Explorerissa näyttää kustannuserittelyn asynkronisten päätepisteiden käyttötyypeittäin.
Jos haluat nähdä kustannus- ja käyttöerittelyn esiintymien tuntien mukaan, sinun on poistettava kaikki valinnat REGION-Host:VolumeUsage.gp2
käyttötyypit ennen kuin käytät käyttötyyppisuodatinta. Voit myös käyttää lisäsuodattimia. Resurssitason tietoja, kuten päätepisteen ARN, päätepisteiden ilmentymien tyypit, tuntikohtaiset ilmentymät ja päivittäiset käyttötunnit, voidaan saada AWS CUR:sta. Seuraavassa on esimerkki AWS CUR -kyselystä asynkronisen isännöintiresurssin käytön saamiseksi viimeisten 3 kuukauden ajalta:
Seuraava kuvakaappaus näyttää tulokset, jotka on saatu suorittamalla AWS CUR -kysely Athenalla.
Kyselyn tulos näyttää kyseisen päätepisteen sagemaker-abc-model-5
ml.m5.xlarge-instanssi raportoi 24 tunnin suoritusajan useiden peräkkäisten päivien ajan. Ilmentymähinta on 0.23 dollaria/tunti ja vuorokausikulut 24 tunnin käytössä on 5.52 dollaria.
Kuten aiemmin mainittiin, AWS CUR -tulokset voivat auttaa sinua tunnistamaan päätepisteiden mallit, jotka ovat käynnissä peräkkäisinä päivinä, sekä päätepisteitä, joiden kuukausikustannukset ovat korkeimmat. Tämä voi myös auttaa sinua päättämään, voidaanko muiden kuin tuotantotilien päätepisteet poistaa kustannusten säästämiseksi.
Optimoi asynkronisen päättelyn kustannukset
Aivan kuten reaaliaikaisten päätepisteiden, asynkronisten päätepisteiden kustannukset perustuvat ilmentymän tyypin käyttöön. Siksi on tärkeää tunnistaa vajaakäytössä olevat esiintymät ja muuttaa niiden kokoa työkuormitusvaatimusten mukaan. Asynkronisten päätepisteiden tarkkailemiseksi SageMaker tekee useita mittareita kuten ApproximateBacklogSize
, HasBacklogWithoutCapacity
ja paljon muuta saatavilla CloudWatchissa. Nämä mittarit voivat näyttää pyynnöt ilmentymän jonossa ja niitä voidaan käyttää päätepisteen automaattiseen skaalaukseen. SageMakerin asynkroninen päättely sisältää myös isäntätason mittareita. Lisätietoja isäntätason mittareista on kohdassa SageMaker-työt ja päätepistemittarit. Nämä mittarit voivat näyttää resurssien käytön, mikä voi auttaa sinua valitsemaan ilmentymän oikean kokoisena.
SageMaker tukee automaattinen skaalaus asynkronisille päätepisteille. Toisin kuin reaaliaikaiset isännöidyt päätepisteet, asynkroniset päätepäätepisteet tukevat ilmentymien skaalausta nollaan asettamalla vähimmäiskapasiteetin nollaan. Asynkronisille päätepisteille SageMaker suosittelee vahvasti, että luot käytäntömäärityksen kohteen seurannan skaalausta varten käyttöön otetun mallin (muunnelman) osalta. Sinun on määritettävä skaalauskäytäntö, joka skaalattiin ApproximateBacklogPerInstance
mukautettu mittari ja aseta MinCapacity
arvo nollaan.
Asynkronisen päättelyn avulla voit säästää kustannuksissa skaalaamalla ilmentymien lukumäärän automaattisesti nollaan, kun käsiteltäviä pyyntöjä ei ole, joten maksat vain, kun päätepiste käsittelee pyyntöjä. Pyynnöt, jotka vastaanotetaan, kun esiintymiä on nolla, asetetaan käsittelyjonoon päätepisteen skaalaamisen jälkeen. Siksi käyttötapauksissa, jotka voivat sietää muutaman minuutin kylmäkäynnistysrangaistuksen, voit halutessasi pienentää päätepisteiden lukumäärän nollaan, kun odottamattomia pyyntöjä ei ole, ja skaalata takaisin sitä mukaa, kun uusia pyyntöjä saapuu. Kylmäkäynnistysaika riippuu ajasta, joka tarvitaan uuden päätepisteen käynnistämiseen tyhjästä. Lisäksi, jos itse malli on suuri, aika voi olla pidempi. Jos työsi odotetaan kestävän pidempään kuin 1 tunnin käsittelyaika, kannattaa harkita SageMaker-erämuunnoksia.
Lisäksi voit myös harkita pyyntösi jonotusaikaa yhdistettynä käsittelyaikaan instanssityypin valinnassa. Jos käyttötapauksesi kestää esimerkiksi tuntikausien odotusajan, voit säästää kustannuksia valitsemalla pienemmän esiintymän.
Lisätietoja esimerkiksi SageMaker-päätepisteiden oikean koon muuttamisesta ja automaattisesta skaalauksesta on kohdassa Varmista tehokkaat laskentaresurssit Amazon SageMakerissa.
Palvelimeton päätelmä
Palvelimeton päättely antaa sinun ottaa käyttöön ML-malleja johtopäätösten tekemiseen ilman, että sinun tarvitsee määrittää tai hallita taustalla olevaa infrastruktuuria. Mallinne vastaanottamien päättelypyyntöjen määrän perusteella SageMaker-palvelimeton johtopäätös tekee, skaalaa ja sammuttaa laskentakapasiteetin automaattisesti. Tämän seurauksena maksat vain laskenta-ajasta päättelykoodisi suorittamiseen ja käsitellyn tiedon määrästä, et joutoajasta. Palvelimettomissa päätepisteissä ilmentymien hallintaa ei tarvita. Sinun on annettava muistin koko ja suurin samanaikaisuus. Koska palvelimettomat päätepisteet laskevat resursseja pyynnöstä, päätepisteessäsi voi esiintyä muutaman sekunnin ylimääräinen viive (kylmäkäynnistys) ensimmäisellä kutsulla lepotilan jälkeen. Maksat päättelypyyntöjen käsittelyyn käytetystä laskentakapasiteetista, joka laskutetaan millisekunnin, GB-kuukauden ja käsiteltyjen tietojen mukaan. Laskentamaksu riippuu valitsemastasi muistikokoonpanosta.
Cost Explorerissa voit suodattaa palvelimettomien päätepisteiden kustannuksia käyttämällä suodatinta käyttötyypille. Tämän käyttötyypin nimi on rakenteeltaan muotoiltu REGION-ServerlessInf:Mem-MemorySize
(esimerkiksi, USE2-ServerlessInf:Mem-4GB
). Huomaa, että GB-määrän ja Gt:n datan käsitellyt käyttötyypit ovat samat kuin reaaliaikaiset päätepisteet.
Voit nähdä kustannuserittelyn käyttämällä lisäsuodattimia, kuten tilinumeroa, ilmentymän tyyppiä, aluetta ja paljon muuta. Seuraava kuvakaappaus näyttää kustannuserittelyn käyttämällä suodattimia palvelimettoman päättelyn käyttötyypille.
Optimoi kustannukset palvelimettomille päätelmille
Kun määrität palvelimetonta päätepistettä, voit määrittää muistin koon ja samanaikaisten kutsujen enimmäismäärän. SageMaker-palvelimeton päättely määrittää automaattisesti laskentaresurssit verrannollisesti valitsemaasi muistiin. Jos valitset suuremman muistikoon, säilösi voi käyttää useampia vCPU:ita. Palvelimettomalla päättelyllä maksat vain laskentakapasiteetista, jota käytetään johtopäätöspyyntöjen käsittelyyn, joka laskutetaan millisekunnin mukaan, ja käsitellyn tiedon määrästä. Laskentamaksu riippuu valitsemastasi muistikokoonpanosta. Valittavissa olevat muistikoot ovat 1024 Mt, 2048 Mt, 3072 Mt, 4096 Mt, 5120 Mt ja 6144 Mt. Hinnoittelu nousee muistin koon kasvaessa, kuten kohdassa selitetään Amazon SageMaker -hinnoittelu, joten on tärkeää valita oikea muistin koko. Yleissääntönä on, että muistin koon tulee olla vähintään yhtä suuri kuin mallisi koko. On kuitenkin hyvä käytäntö viitata muistin käyttöön päätepisteen muistin kokoa päätettäessä itse mallin koon lisäksi.
Yleiset parhaat käytännöt SageMaker-päätelmien kustannusten optimointiin
Isännöintikulujen optimointi ei ole kertaluonteinen tapahtuma. Se on jatkuva prosessi, jossa seurataan käyttöön otettua infrastruktuuria, käyttötapoja ja suorituskykyä sekä seurataan tarkasti AWS:n julkaisemia uusia innovatiivisia ratkaisuja, jotka voivat vaikuttaa kustannuksiin. Harkitse seuraavia parhaita käytäntöjä:
- Valitse sopiva esiintymätyyppi – SageMaker tukee useita ilmentymätyyppejä, joista jokaisessa on erilaisia prosessorin, grafiikkasuorittimen, muistin ja tallennuskapasiteetin yhdistelmiä. Valitse mallisi resurssivaatimusten perusteella ilmentymätyyppi, joka tarjoaa tarvittavat resurssit ilman ylivarausta. Lisätietoja käytettävissä olevista SageMaker-instanssityypeistä, niiden teknisistä tiedoista ja oikean ilmentymän valitsemisesta on kohdassa Varmista tehokkaat laskentaresurssit Amazon SageMakerissa.
- Testaa käyttämällä paikallista tilaa – Vikojen havaitsemiseksi ja virheenkorjauksen nopeuttamiseksi on suositeltavaa testata koodi ja säilö (BYOC:n tapauksessa) paikallinen tila ennen kuin suoritat päättelytyökuorman SageMaker-etäilmentymässä. Paikallinen tila on loistava tapa testata komentosarjojasi ennen niiden suorittamista SageMaker-hallitussa hosting-ympäristössä.
- Optimoi mallit ollaksesi tehokkaampia – Optimoimattomat mallit voivat pidentää käyttöaikoja ja käyttää enemmän resursseja. Voit käyttää useampia tai suurempia esiintymiä suorituskyvyn parantamiseksi; tämä kuitenkin johtaa korkeampiin kustannuksiin. Optimoimalla mallisi suorituskykyisemmiksi saatat pystyä alentamaan kustannuksia käyttämällä vähemmän tai pienempiä esiintymiä säilyttäen samalla samat tai paremmat suorituskykyominaisuudet. Voit käyttää Amazon SageMaker Neo SageMaker-päätelmän avulla mallien automaattinen optimointi. Katso lisätietoja ja näytteitä Optimoi mallin suorituskyky Neolla.
- Käytä tunnisteita ja kustannustenhallintatyökaluja – Päättelytyökuormien näkyvyyden säilyttämiseksi on suositeltavaa käyttää tunnisteita sekä AWS-kustannustenhallintatyökaluja, kuten AWS-budjetit, The AWS-laskutuskonsolija Cost Explorerin ennusteominaisuuden. Voit myös tutustua SageMakerin säästösuunnitelmiin joustavana hinnoittelumallina. Lisätietoja näistä vaihtoehdoista on kohdassa Osa 1 tämän sarjan.
Yhteenveto
Tässä viestissä annoimme ohjeita kustannusanalyysiin ja parhaisiin käytäntöihin käytettäessä SageMaker-johtopäätösvaihtoehtoja. Koska koneoppimisesta tulee tehokas työkalu kaikilla toimialoilla, ML-mallien koulutuksen ja käytön on säilyttävä kustannustehokkaina. SageMaker tarjoaa laajan ja syvän ominaisuusjoukon ML-prosessin jokaisen vaiheen helpottamiseksi ja tarjoaa kustannusoptimointimahdollisuuksia vaikuttamatta suorituskykyyn tai ketteryyteen. Ota yhteyttä AWS-tiimiisi saadaksesi kustannusohjeita SageMaker-työkuormituksillesi.
Tietoja Tekijät
Deepali Rajale on AWS:n vanhempi AI/ML-asiantuntija. Hän työskentelee yritysasiakkaiden kanssa ja tarjoaa teknisiä ohjeita parhaista käytännöistä AI/ML-ratkaisujen käyttöönotossa ja ylläpidossa AWS-ekosysteemissä. Hän on työskennellyt useiden organisaatioiden kanssa erilaisissa syväoppimisen käyttötapauksissa, joihin liittyy NLP ja tietokonenäkö. Hän haluaa antaa organisaatioille mahdollisuuden hyödyntää luovaa tekoälyä käyttökokemuksensa parantamiseksi. Vapaa-ajallaan hän nauttii elokuvista, musiikista ja kirjallisuudesta.
Uri Rosenberg on AI & ML Specialist Technical Manager Euroopassa, Lähi-idässä ja Afrikassa. Israelin ulkopuolella sijaitseva Uri pyrkii antamaan yritysasiakkaille mahdollisuuden kaikessa ML:n suunnittelussa, rakentamisessa ja toiminnassa mittakaavassa. Vapaa-ajallaan hän harrastaa pyöräilyä, patikointia ja rock and roll -kiipeilyä.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoAiStream. Web3 Data Intelligence. Tietoa laajennettu. Pääsy tästä.
- Tulevaisuuden lyöminen Adryenn Ashley. Pääsy tästä.
- Osta ja myy osakkeita PRE-IPO-yhtiöissä PREIPO®:lla. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/part-5-analyze-amazon-sagemaker-spend-and-determine-cost-optimization-opportunities-based-on-usage-part-5-hosting/
- :on
- :On
- :ei
- :missä
- $ YLÖS
- 000
- 1
- 100
- 2021
- 24
- 30
- 40
- 500
- 7
- 8
- a
- pystyy
- Meistä
- kiihdyttimiä
- pääsy
- Tili
- Tilit
- Saavuttaa
- saavutettu
- poikki
- Toiminta
- toimet
- lisätä
- Lisäksi
- lisä-
- Afrikka
- Jälkeen
- AI
- AI / ML
- algoritmit
- Kaikki
- jako
- mahdollistaa
- jo
- Myös
- Amazon
- Amazon EC2
- Amazon Sage Maker
- Amazon Web Services
- määrä
- an
- analyysi
- analysoida
- ja
- Toinen
- Kaikki
- enää
- api
- sovellettu
- käyttää
- Hakeminen
- sopiva
- suunnilleen
- OVAT
- keinotekoinen
- tekoäly
- Tekoäly (AI)
- AS
- liittyvä
- At
- liittää
- yritettiin
- auto
- automaattisesti
- saatavissa
- välttää
- AWS
- takaisin
- perustua
- BE
- koska
- ollut
- ennen
- alle
- suotuisa
- hyödyttää
- Hyödyt
- PARAS
- parhaat käytännöt
- Paremmin
- Iso
- suurempi
- laskutus
- Tukkia
- Erittely
- tuoda
- rakentaa
- sisäänrakennettu
- mutta
- by
- CAN
- ehdokkaat
- ehdokkaat
- valmiuksia
- Koko
- tapaus
- tapauksissa
- tietty
- Muutokset
- ominaisuudet
- lataus
- peritään
- maksut
- valinta
- Valita
- valita
- klassinen
- Kiipeily
- Cluster
- koodi
- kylmä
- yhdistelmät
- yhdistää
- yhdistetty
- Tulla
- tulee
- Yhteinen
- yleisesti
- täydellinen
- komponentti
- osat
- Laskea
- tietokone
- Tietokoneen visio
- samanaikainen
- Konfigurointi
- peräkkäinen
- Harkita
- näkökohdat
- lujittaa
- konsolidoi
- kulutetaan
- kulutus
- Kontti
- Kontit
- sisältää
- jatkuva
- Ydin
- korjata
- Hinta
- Kulujen hallinta
- kustannustehokas
- kustannukset
- voisi
- luoda
- luominen
- Tällä hetkellä
- asiakassuhde
- Asiakkaat
- päivittäin
- tiedot
- aineistot
- päivää
- päättää
- Päätetään
- syvä
- syvä oppiminen
- oletusarvo
- Kysyntä
- riippuu
- sijoittaa
- käyttöön
- levityspinnalta
- käyttöönotto
- lauennut
- Malli
- suunniteltu
- haluttu
- yksityiskohta
- yksityiskohdat
- Määrittää
- eri
- pohtia
- näyttö
- näytöt
- jakaa
- do
- ei
- tehty
- Dont
- kaksinkertainen
- alas
- download
- kaksi
- aikana
- kukin
- Aikaisemmin
- helposti
- Itään
- ekosysteemi
- tehokas
- myöskään
- valtuuttaa
- valtuuttamisesta
- mahdollistaa
- mahdollistaa
- päätepiste
- energia
- parantaa
- varmistaa
- yritys
- ympäristö
- ympäristöissä
- yhtäläinen
- Vastaava
- virhe
- virheet
- laatii
- arvio
- Eurooppa
- arvioida
- tapahtuma
- esimerkki
- ylittää
- Vaihdetaan
- odotettu
- experience
- kokeilu
- selitti
- tutkia
- tutkimusmatkailija
- laajasti
- lisää
- silmä
- helpottaminen
- FAIL
- Epäonnistui
- perhe
- nopeampi
- Ominaisuus
- harvat
- vähemmän
- filee
- Asiakirjat
- suodattaa
- suodatus
- suodattimet
- Etunimi
- sovittaa
- joustava
- Keskittää
- jälkeen
- seuraa
- varten
- löytyi
- neljä
- alkaen
- koko
- tehtävät
- Lisäksi
- Saada
- general
- tuottaa
- generatiivinen
- Generatiivinen AI
- saada
- tietty
- hyvä
- GPU
- kaaviot
- suuri
- suurempi
- Ryhmä
- ohjaus
- Vetimet
- Olla
- ottaa
- he
- auttaa
- auttanut
- hänen
- Korkea
- korkeampi
- suurin
- hänen
- Vaakasuora
- isännöi
- hotellit
- isännöintikulut
- isännät
- tunti
- TUNTIA
- Miten
- Miten
- Kuitenkin
- HTML
- http
- HTTPS
- Sadat
- i
- ihanteellinen
- tunnistaa
- Idle
- if
- Vaikutus
- vaikuttavia
- tärkeä
- parantaa
- in
- sisältää
- sisältää
- Mukaan lukien
- Lisäykset
- ilmaisee
- henkilökohtainen
- teollisuuden
- tiedot
- Infrastruktuuri
- innovatiivinen
- panos
- oivalluksia
- esimerkki
- ohjeet
- Älykkyys
- vuorovaikutus
- sisäisesti
- tulee
- esittely
- johon
- Israel
- IT
- SEN
- itse
- Job
- Työpaikat
- jpg
- Innokas
- pito
- avain
- Kieli
- suuri
- suurempi
- Sukunimi
- Viive
- käynnistää
- käynnistettiin
- johtaa
- Liidit
- oppinut
- oppiminen
- vähiten
- Lessons
- Lessons Learned
- Taso
- Vaikutusvalta
- elinkaari
- pitää
- linja
- liittyvät
- Lista
- kirjallisuus
- kuormitus
- paikallinen
- sijainti
- Pitkät
- kauemmin
- katso
- Matala
- alentaa
- Alentaminen
- kone
- koneoppiminen
- ylläpitää
- ylläpitäminen
- ylläpitää
- tehdä
- TEE
- hoitaa
- onnistui
- johto
- hallinta Työkalut
- johtaja
- käsin
- Kartat
- merkitty
- ottelu
- maksimi
- Saattaa..
- välineet
- Tavata
- Muisti
- mainitsi
- metrinen
- Metrics
- Keskimmäinen
- Lähi-itä
- ehkä
- minimi
- minuuttia
- ML
- tila
- malli
- mallit
- monitori
- seurataan
- seuranta
- Kuukausi
- kuukausittain
- kk
- lisää
- Elokuvat
- Monen mallin päätepiste
- moninkertainen
- Musiikki
- täytyy
- nimi
- nimet
- välttämätön
- Tarve
- tarvitaan
- tarpeet
- verkko
- VERKKOKATKO
- Uusi
- NLP
- Nro
- ilmoituksen
- ilmoitukset
- numero
- esineet
- saada
- saatu
- of
- pois
- Tarjoukset
- offline
- on
- ONE
- verkossa
- vain
- käyttää
- Mahdollisuudet
- optimaalinen
- optimointi
- Optimoida
- optimoimalla
- Vaihtoehto
- Vaihtoehdot
- or
- tilata
- organisaatioiden
- Muut
- ulos
- sähkökatkos
- hahmoteltu
- ulostulo
- erinomainen
- yli
- oma
- Parallel
- parametri
- parametrit
- osa
- kulkea
- Ohimenevä
- intohimoinen
- Ohi
- Kuvio
- kuviot
- Maksaa
- osuus
- suorituskyky
- aika
- ajoittainen
- näkökulma
- poimia
- putki
- suunnitelma
- suunnitelmat
- Platon
- Platonin tietotieto
- PlatonData
- politiikka
- mahdollisesti
- Kirje
- Viestejä
- voimakas
- harjoitusta.
- käytännöt
- Ennusteet
- hinta
- hinnoittelu
- hinnoittelumalli
- Ennakoiva
- prosessi
- Käsitelty
- Prosessit
- käsittely
- prosessorit
- tuotanto
- Edistäminen
- toimittaa
- mikäli
- tarjoaa
- tarjoamalla
- säännös
- tarkoituksiin
- Putting
- kyselyt
- alue
- hinta
- pikemminkin
- tavoittaa
- Lukeminen
- todellinen
- reaaliaikainen
- vastaanottaa
- sai
- vastaanottaa
- suositella
- suosituksia
- suositeltu
- suosittelee
- ennätys
- asiakirjat
- vähentää
- alue
- Tiedotteet
- jäädä
- kaukosäädin
- poistettu
- raportti
- Raportointi
- Raportit
- pyyntö
- pyynnöt
- tarvitaan
- vaatimukset
- resurssi
- Esittelymateriaalit
- vastaus
- REST
- johtua
- tulokset
- Tuotto
- oikein
- rock
- rulla
- reitit
- Sääntö
- säännöt
- ajaa
- juoksu
- sagemaker
- SageMaker-johtopäätös
- sama
- Säästä
- Säästöt
- Asteikko
- asteikot
- skaalaus
- skenaariot
- suunniteltu
- raapia
- skriptejä
- sekuntia
- osiot
- nähdä
- valittu
- valitsemalla
- vanhempi
- lähetetty
- erillinen
- Sarjat
- serverless
- palvelu
- Palvelut
- palvelevat
- setti
- asetus
- useat
- varjo
- Jaa:
- hän
- shouldnt
- näyttää
- osoittivat
- esitetty
- Näytä
- samalla lailla
- Yksinkertainen
- koska
- single
- Koko
- koot
- Viipale
- pieni
- pienempiä
- So
- Ratkaisumme
- jonkin verran
- lähde
- asiantuntija
- erityinen
- tekniset tiedot
- viettää
- jakaa
- pino
- standardi
- Alkaa
- alkoi
- Vaihe
- Levytila
- tallennettu
- voimakkaasti
- jäsennelty
- menestys
- onnistunut
- Onnistuneesti
- niin
- riittävä
- sopiva
- tuki
- tukea ennakoivaa
- Tuetut
- Tukee
- järjestelmä
- TAG
- ottaa
- vie
- tehtävät
- joukkue-
- Tekninen
- testi
- Testaus
- testit
- kuin
- että
- -
- heidän
- Niitä
- sitten
- Siellä.
- siten
- siksi
- Nämä
- asiat
- tätä
- ne
- Kautta
- suoritusteho
- aika
- kertaa
- että
- työkalu
- työkalut
- aihe
- Yhteensä
- liikenne
- koulutus
- Muuttaa
- muuntajat
- Trendit
- totta
- kääntyy
- tyyppi
- tyypit
- taustalla oleva
- toisin kuin
- ennalta arvaamaton
- ladattu
- Käyttö
- käyttää
- käyttölaukku
- käytetty
- käyttötarkoituksiin
- käyttämällä
- yleensä
- Hyödyntämällä
- VAHVISTA
- arvo
- arvot
- variantti
- eri
- Näytä
- näkyvyys
- visio
- visualisointi
- tilavuus
- volyymit
- odottaa
- haluta
- Tapa..
- we
- verkko
- verkkopalvelut
- HYVIN
- Mitä
- kun
- onko
- joka
- vaikka
- leveä
- Laaja valikoima
- tulee
- with
- sisällä
- ilman
- työskenteli
- työntekijä
- työntekijöitä
- toimii
- kirjoittaminen
- kirjallinen
- Voit
- Sinun
- zephyrnet
- nolla-