Mallin isännöintimallit Amazon SageMakerissa, osa 1: Yleiset suunnittelumallit ML-sovellusten rakentamiseen Amazon SageMakerissa

Julkaissut Platon

seuraajia: 0

Koneoppimissovellukset (ML) ovat monimutkaisia ottaa käyttöön ja vaativat usein kykyä skaalata, ja niillä on erittäin alhaiset latenssivaatimukset ja tiukat kustannusbudjetit. Käyttötapaukset, kuten petosten havaitseminen, tuotesuositukset ja liikenteen ennustaminen, ovat esimerkkejä, joissa millisekunneilla on merkitystä ja ne ovat kriittisiä liiketoiminnan menestykselle. Tiukat palvelutason sopimukset (SLA) on täytettävä, ja tyypillinen pyyntö voi vaatia useita vaiheita, kuten esikäsittelyä, tietojen muuntamista, ominaisuuksien suunnittelua, mallinvalintalogiikkaa, mallien yhdistämistä ja jälkikäsittelyä.

ML-mallien käyttöönotto mittakaavassa optimoiduilla kustannuksilla ja laskentatehokkuudella voi olla pelottava ja raskas tehtävä. Jokaisella mallilla on omat etunsa ja riippuvuutensa, jotka perustuvat ulkoisiin tietolähteisiin sekä ajonaikaiseen ympäristöön, kuten taustalla olevien laskentaresurssien CPU/GPU-tehoon. Sovellus voi vaatia useita ML-malleja palvelemaan yhtä päättelypyyntöä. Tietyissä skenaarioissa pyyntö voi virrata useiden mallien välillä. Ei ole olemassa yksikokoista lähestymistapaa, ja ML-harjoittajien on tärkeää etsiä hyväksi havaittuja menetelmiä toistuvien ML-isännöintihaasteiden ratkaisemiseksi. Tämä on johtanut ML-mallin isännöinnin suunnittelumallien kehitykseen.

Tässä viestissä tutkimme yleisiä suunnittelumalleja ML-sovellusten rakentamiseen Amazon Sage Maker.

Suunnittelumallit ML-sovellusten rakentamiseen

Katsotaanpa seuraavia suunnittelumalleja ML-sovellusten isännöintiin.

Yksi mallipohjaiset ML-sovellukset

Tämä on loistava vaihtoehto, kun ML-käyttötapaus vaatii yhden mallin pyynnön palvelemiseen. Malli on otettu käyttöön erillisessä laskentainfrastruktuurissa, joka voidaan skaalata tuloliikenteen perusteella. Tämä vaihtoehto on ihanteellinen myös silloin, kun asiakassovelluksella on pieni latenssi (millisekuntien tai sekuntien luokkaa) päättelyvaatimus.

Monimallipohjaiset ML-sovellukset

Jotta isännöinti olisi kustannustehokkaampaa, tämä suunnittelumalli mahdollistaa useiden mallien isännöinnin samassa vuokralaisen infrastruktuurissa. Useat ML-mallit voivat jakaa isäntä- tai säilöresursseja, mukaan lukien eniten käytetyt ML-mallit tallentamalla välimuistiin, mikä parantaa muistin ja laskentaresurssien käyttöä. Riippuen käyttöönotettavien mallien tyypeistä, mallin yhteisisännöinti voi käyttää seuraavia menetelmiä:

Usean mallin isännöinti – Tämän vaihtoehdon avulla voit isännöidä useita malleja käyttämällä jaettua käyttösäilöä yhdessä päätepisteessä. Tämä ominaisuus on ihanteellinen, kun sinulla on suuri määrä samankaltaisia malleja, joita voit tarjota jaetun tarjoilusäiliön kautta, eikä sinun tarvitse käyttää kaikkia malleja samanaikaisesti.
Monen kontin isännöinti – Tämä vaihtoehto on ihanteellinen, kun sinulla on useita malleja käynnissä eri palvelupinoissa, joilla on samanlaiset resurssitarpeet, ja kun yksittäisillä malleilla ei ole riittävästi liikennettä hyödyntämään päätepisteinstanssien täyttä kapasiteettia. Usean kontin isännöinti mahdollistaa useiden eri mallien tai puitteiden käyttämisen yhdessä päätepisteessä. Mallit voivat olla täysin heterogeenisia, ja niissä on oma itsenäinen tarjoilupino.
Malliyhtyeitä – Monissa tuotantokäyttötapauksissa voi usein olla useita ylävirran malleja, jotka syöttävät syötteitä tiettyyn loppupään malliin. Tässä yhtyeistä on hyötyä. Ensemble-kuvioihin kuuluu yhden tai useamman perusmallin tulosteen sekoittaminen yleistysvirhe ennustuksesta. Perusmallit voivat olla erilaisia ja niitä voidaan kouluttaa eri algoritmeilla. Malliryhmät voivat ylittää yksittäisten mallien, koska mallin ennustevirhe pienenee, kun käytetään ensemble-lähestymistapaa.

Seuraavat ovat yleisiä yhdistelmäkuvioiden käyttötapauksia ja niitä vastaavia suunnittelukuvioita:

Haja-kerää – Sironta-keräyskuviossa päättelypyyntö reititetään useille malleille. Aggregaattoria käytetään sitten keräämään vastaukset ja tislaamaan ne yhdeksi päättelyvasteeksi. Esimerkiksi kuvien luokittelun käyttötapaus voi käyttää kolmea eri mallia tehtävän suorittamiseen. Sironta-keräyskuvion avulla voit yhdistää kolmella eri mallilla suoritettujen päätelmien tuloksia ja valita todennäköisimmän luokitusmallin.

Mallin isännöintimallit Amazon SageMakerissa, Osa 1: Yleiset suunnittelumallit ML-sovellusten rakentamiseen Amazon SageMaker PlatoBlockchain Data Intelligence -sovelluksessa. Pystysuuntainen haku. Ai.

Malliaggregaatti – Yhdistelmämallissa useiden mallien tuotokset lasketaan keskiarvoiksi. Luokittelumalleissa useiden mallien ennusteet arvioidaan eniten ääniä saaneen luokan määrittämiseksi, ja sitä käsitellään kokonaisuuden lopullisena tuloksena. Esimerkiksi kahden luokan luokittelutehtävässä hedelmäjoukon luokittelemiseksi appelsiiniksi tai omeniksi, jos kaksi mallia äänestää appelsiinia ja yksi malli äänestää omenaa, yhteenlaskettu tulos on appelsiini. Aggregointi auttaa torjumaan yksittäisten mallien epätarkkuuksia ja tekee tulosteesta tarkempaa.

Dynaaminen valinta – Toinen ryhmämallien malli on suorittaa dynaamisesti mallin valinta annetuille syöttömääritteille. Esimerkiksi tietyssä hedelmäkuvien syötteessä, jos syöte sisältää appelsiinin, käytetään mallia A, koska se on erikoistunut appelsiineihin. Jos syöte sisältää omenan, mallia B käytetään, koska se on erikoistunut omenoihin.

Sarjapäättely ML-sovellukset – Sarjapäätelmämallissa, joka tunnetaan myös johtopäätösputkena, käyttötapauksissa on vaatimus esikäsitellä saapuva data ennen kuin ohjataan esikoulutettua ML-mallia päätelmien luomista varten. Lisäksi joissakin tapauksissa generoituja päätelmiä voidaan joutua prosessoimaan edelleen, jotta ne voivat helposti kuluttaa alavirran sovelluksia. Päätelmäliukuhihnan avulla voit käyttää uudelleen samaa esikäsittelykoodia, jota käytettiin mallin koulutuksen aikana, prosessoimaan ennusteissa käytettyjä päättelypyyntötietoja.

Liikelogiikka – ML:n tuotantoon liittyy aina liiketoimintalogiikka. Liiketoimintalogiikkamallit sisältävät kaiken, mitä tarvitaan sellaisen ML-tehtävän suorittamiseen, joka ei ole ML-mallin päättely. Tämä sisältää mallin lataamisen Amazonin yksinkertainen tallennuspalvelu (Amazon S3), esimerkiksi tietokantahakuja syötteen vahvistamiseksi, esilaskettujen ominaisuuksien hankkiminen ominaisuusvarastosta ja niin edelleen. Kun nämä liiketoimintalogiikan vaiheet on suoritettu, syötteet välitetään ML-malleihin.

ML-johtopäätösvaihtoehdot

Mallin käyttöönoton kannalta on tärkeää työskennellä taaksepäin käyttötapauksestasi. Mikä on ennusteen tiheys? Odotatko live-liikennettä sovelluksellesi ja reaaliaikaista vastausta asiakkaillesi? Onko sinulla useita malleja, jotka on koulutettu erilaisille datan osajouksille samaa käyttötapausta varten? Vaihteleeko ennusteliikenne? Onko päättelyn latenssi huolenaihe? Näiden tietojen perusteella kaikki edelliset suunnittelumallit voidaan toteuttaa käyttämällä seuraavia käyttöönottovaihtoehtoja:

Reaaliaikainen päätelmä – Reaaliaikainen päättely on ihanteellinen päättelytyökuormille, joissa sinulla on reaaliaikaisia, vuorovaikutteisia, alhaisen latenssin vaatimuksia. Reaaliaikaiset ML-päättelytyökuormat voivat sisältää yhteen malliin perustuvan ML-sovelluksen, jossa sovellus vaatii vain yhden ML-mallin palvelemaan yhtä pyyntöä, tai monimallipohjaisen ML-sovelluksen, jossa sovellus vaatii useita ML-malleja palvelemaan yhtä pyyntö.
Lähes reaaliaikainen (asynkroninen) päättely – Lähes reaaliaikaisen päättelyn avulla voit asettaa saapuvat pyynnöt jonoon. Tätä voidaan käyttää päätelmien suorittamiseen tuloista, jotka ovat satoja megatavuja. Se toimii lähes reaaliajassa ja antaa käyttäjille mahdollisuuden käyttää syötettä johtopäätösten tekemiseen ja lukea loppupisteen ulostuloa S3-ämpäristä. Se voi olla erityisen kätevä NLP- ja tietokonenäön tapauksissa, joissa on suuria hyötykuormia, jotka vaativat pidempiä esikäsittelyaikoja.
Erän päättely – Eräpäätelmää voidaan käyttää päättelyn suorittamiseen offline-tilassa suuressa tietojoukossa. Koska se toimii offline-tilassa, eräpäättely ei tarjoa alhaisinta viivettä. Tässä päättelypyyntö käsitellään joko ajoitetulla tai tapahtumapohjaisella eräpäättelytyön laukaisulla.
Palvelimeton päätelmä – Palvelimeton päättely on ihanteellinen työkuormille, joissa on joutojaksoja liikennespurttien välillä ja jotka voivat sietää muutaman ylimääräisen sekunnin viiveen (kylmäkäynnistys) ensimmäiselle kutsulle tyhjäkäynnin jälkeen. Esimerkiksi chatbot-palvelu tai sovellus lomakkeiden käsittelyyn tai asiakirjojen datan analysointiin. Tässä tapauksessa saatat haluta online-johtopäätösvaihtoehdon, joka pystyy automaattisesti tarjoamaan ja skaalaamaan laskentakapasiteetin päättelypyyntöjen määrän perusteella. Ja käyttämättömänä aikana sen pitäisi pystyä sammuttamaan laskentakapasiteetti kokonaan, jotta sinua ei lataudu. Palvelimeton päättely poistaa palvelinten valinnasta ja hallinnasta aiheutuvan erottumattoman raskaan työn käynnistämällä automaattisesti laskentaresurssit ja skaalaamalla niitä sisään ja ulos liikenteestä riippuen.

Käytä kuntotoimintoja valitaksesi oikean ML-johtopäätösvaihtoehdon

Oikean isännöintivaihtoehdon valitseminen on tärkeää, koska se vaikuttaa sovelluksiesi tuottamiin loppukäyttäjiin. Tätä tarkoitusta varten lainaamme käsitteen kuntoilutoiminnot, jonka loivat Neal Ford ja hänen kollegansa AWS Partner ThoughtWorksistä työssään Evoluutioarkkitehtuurien rakentaminen. Fitness-toiminnot tarjoavat ohjaavan arvion erilaisista isännöintivaihtoehdoista asiakkaan tavoitteiden pohjalta. Kuntotoiminnot auttavat sinua saamaan tarvittavat tiedot arkkitehtuurisi suunniteltua kehitystä varten. He asettavat mitattavia arvoja arvioidakseen, kuinka lähellä ratkaisusi on asetettujen tavoitteiden saavuttamiseen. Kuntotoimintoja voidaan ja pitää mukauttaa arkkitehtuurin kehittyessä ohjaamaan haluttua muutosprosessia. Tämä tarjoaa arkkitehdeille työkalun ohjata tiimejä ja säilyttää samalla tiimin autonomian.

Asiakkaille on viisi tärkeintä kuntoilutoimintoa, kun he valitsevat oikean ML-johtopäätösvaihtoehdon ML-mallien ja -sovellusten isännöintiä varten.

Fitness-toiminto	Kuvaus
Hinta	ML-mallin ja ML-sovelluksen käyttöönotto ja ylläpito skaalautuvassa kehyksessä on kriittinen liiketoimintaprosessi, ja kustannukset voivat vaihdella suuresti riippuen valinnoista, jotka on tehty mallin isännöintiinfrastruktuurin, isännöintivaihtoehdon, ML-kehysten, ML-mallin ominaisuuksien, optimoinnin, skaalauskäytännön, ja enemmän. Työkuormien tulee hyödyntää laitteistoinfrastruktuuria optimaalisesti, jotta kustannukset pysyvät kurissa. Tämä kuntotoiminto viittaa erityisesti infrastruktuurikustannuksiin, jotka ovat osa kokonaiskustannuksista (TCO). Infrastruktuurikustannukset ovat tallennuksen, verkon ja laskennan kustannuksia. On myös tärkeää ymmärtää muut TCO:n osatekijät, mukaan lukien käyttökustannukset sekä turvallisuus- ja vaatimustenmukaisuuskustannukset. Käyttökustannukset ovat ML-infrastruktuurin käyttö-, valvonta- ja ylläpitokustannuksia. Käyttökustannukset lasketaan kunkin skenaarion perusteella tarvittavana insinöörimääränä ja insinöörien vuosipalkana tietyltä ajanjaksolta. Asiakkaat, jotka käyttävät itsehallittuja ML-ratkaisuja Amazonin elastinen laskentapilvi (Amazon EC2), Amazonin elastisten säiliöiden palvelu (Amazon ECS) ja Amazonin elastisten kuberneettien palvelu (Amazon EKS) tarvitsee itse rakentaa toiminnalliset työkalut. SageMakeria käyttävät asiakkaat maksavat huomattavasti vähemmän TCO:ta. SageMaker-päätelmä on täysin hallittu palvelu, joka tarjoaa valmiit valmiudet ML-mallien käyttöönottoon päätelmiä varten. Sinun ei tarvitse valmistaa ilmentymiä, valvoa ilmentymän kuntoa, hallita tietoturvapäivityksiä tai -korjauksia, lähettää toiminnallisia mittareita tai rakentaa valvontaa ML-johtopäätöstyökuormituksillesi. Siinä on sisäänrakennetut ominaisuudet korkean käytettävyyden ja joustavuuden varmistamiseksi. SageMaker tukee turvallisuutta päästä päähän -salauksella levossa ja kuljetuksen aikana, mukaan lukien juuritaltion ja Amazonin elastisten lohkojen myymälä (Amazon EBS) äänenvoimakkuus, Amazonin virtuaalinen yksityinen pilvi (Amazon VPC) tuki, AWS PrivateLink, asiakkaan hallinnoimat avaimet, AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) hienorakeinen kulunvalvonta, AWS CloudTrail tarkastukset, solmujen välinen salaus koulutusta varten, tunnistepohjainen kulunvalvonta, verkon eristäminen ja interaktiivinen sovellusvälityspalvelin. Kaikki nämä suojausominaisuudet ovat valmiina SageMakerissa, ja ne voivat säästää yrityksiä kymmenien kuukausien suunnittelutyötä kolmen vuoden aikana. SageMaker on HIPAA-kelpoinen palvelu, ja sillä on PCI-, SOC-, GDPR- ja ISO-sertifikaatit. SageMaker tukee myös FIPS-päätepisteitä. Lisätietoja TCO:sta on osoitteessa Amazon SageMakerin kokonaisomistuskustannukset.
Päätelmälatenssi	Monet ML-mallit ja -sovellukset ovat latenssikriittisiä, jolloin päättelyviiveen on oltava palvelutason tavoitteen määrittämien rajojen sisällä. Päätelmäviive riippuu monista tekijöistä, kuten mallin koosta ja monimutkaisuudesta, laitteistoalustasta, ohjelmistoympäristöstä ja verkkoarkkitehtuurista. Esimerkiksi suurempien ja monimutkaisempien mallien tekeminen voi kestää kauemmin.
Suorituskyky (tapahtumat sekunnissa)	Mallin päättelyn kannalta suorituskyvyn optimointi on ratkaisevan tärkeää suorituskyvyn virittämiseksi ja ML-sovelluksen liiketoimintatavoitteen saavuttamiseksi. Koska jatkamme nopeaa edistymistä kaikilla ML:n osa-alueilla, mukaan lukien matemaattisten operaatioiden matalan tason toteutukset sirusuunnittelussa, laitteistokohtaisilla kirjastoilla on suurempi rooli suorituskyvyn optimoinnissa. ML-mallin suorituskykyyn vaikuttavat useat tekijät, kuten hyötykuorman koko, verkon hyppyt, hyppyjen luonne, mallikaavion ominaisuudet, mallin operaattorit sekä mallin isännöintiesiintymien CPU, GPU ja muistiprofiili.
Skaalauskokoonpanon monimutkaisuus	On erittäin tärkeää, että ML-mallit tai sovellukset toimivat skaalautuvassa kehyksessä, joka pystyy käsittelemään vaihtelevan liikenteen kysyntää. Se mahdollistaa myös CPU- ja GPU-resurssien maksimaalisen käytön ja estää laskentaresurssien liiallisen käytön.
Odotettu liikennekuvio	ML-malleilla tai sovelluksilla voi olla erilaisia liikennemalleja, jotka vaihtelevat jatkuvasta reaaliaikaisesta reaaliaikaisesta liikenteestä säännöllisiin tuhansien pyyntöjen sekunnissa huippuihin ja harvoin, arvaamattomista pyyntömalleista suurempien tietojoukkojen offline-eräpyyntöihin. On suositeltavaa työskennellä taaksepäin odotetusta liikennemallista, jotta voit valita oikean isännöintivaihtoehdon ML-mallillesi.

Mallien käyttöönotto SageMakerilla

SageMaker on täysin hallittu AWS-palvelu, joka tarjoaa jokaiselle kehittäjälle ja datatieteilijälle mahdollisuuden nopeasti rakentaa, kouluttaa ja ottaa käyttöön ML-malleja mittakaavassa. SageMaker-päätelmän avulla voit ottaa käyttöön ML-mallejasi isännöityihin päätepisteisiin ja saada johtopäätöstuloksia. SageMaker tarjoaa laajan valikoiman laitteistoja ja ominaisuuksia, jotka vastaavat työkuormitusvaatimuksiasi, joten voit valita yli 70 ilmentymätyyppiä laitteistokiihdytyksellä. SageMaker voi myös tarjota päättelyilmentymien tyyppisuosituksia käyttämällä uutta ominaisuutta nimeltä SageMaker Inference Recommender, jos et ole varma, mikä niistä olisi optimaalinen työkuormillesi.

Voit valita käyttöönottovaihtoehdot, jotka vastaavat parhaiten käyttötapauksiasi, kuten reaaliaikaiset päättelyt, asynkroniset, erä- ja jopa palvelimettomat päätepisteet. Lisäksi SageMaker tarjoaa erilaisia käyttöönottostrategioita, kuten kanarian, sinivihreä, varjo, ja A/B-testaus mallin käyttöönotolle sekä kustannustehokas käyttöönotto usean mallin, usean säilön päätepisteillä ja joustavalla skaalaumalla. SageMaker-päätelmän avulla voit tarkastella päätepisteidesi suorituskykymittareita amazonin pilvikello, skaalaa automaattisesti päätepisteitä liikenteen perusteella ja päivitä mallisi tuotannossa menettämättä saatavuutta.

SageMaker tarjoaa neljä vaihtoehtoa mallin käyttöönottoon, jotta voit alkaa tehdä ennusteita:

Reaaliaikainen päätelmä – Tämä sopii työkuormille, joiden viivevaatimukset ovat millisekuntia, hyötykuorman koot enintään 6 MB ja käsittelyajat jopa 60 sekuntia.
Erämuunnos – Tämä on ihanteellinen offline-ennusteille suurista tietoeristä, jotka ovat saatavilla etukäteen.
Asynkroninen päättely – Tämä on suunniteltu työkuormille, joilla ei ole alle sekunnin viivevaatimuksia, hyötykuorman koot enintään 1 Gt ja käsittelyajat jopa 15 minuuttia.
Palvelimeton päätelmä – Palvelimeton päättelyn avulla voit nopeasti ottaa käyttöön ML-malleja johtopäätösten tekemiseen ilman, että sinun tarvitsee määrittää tai hallita taustalla olevaa infrastruktuuria. Lisäksi maksat vain päättelypyyntöjen käsittelyyn käytetystä laskentakapasiteetista, mikä on ihanteellinen satunnaisiin työkuormiin.

Seuraava kaavio voi auttaa sinua ymmärtämään SageMaker-isännöintimallin käyttöönottovaihtoehdot ja niihin liittyvät kuntotoimintojen arvioinnit.

Tutkitaan jokaista käyttöönottovaihtoehtoa yksityiskohtaisemmin.

Reaaliaikainen päättely SageMakerissa

SageMakerin reaaliaikaista päättelyä suositellaan, jos sinulla on jatkuvaa liikennettä ja tarvitset pienemmän ja yhdenmukaisen viiveen pyyntöillesi, joiden hyötykuorma on enintään 6 Mt ja käsittelyaika jopa 60 sekuntia. Otat mallin käyttöön SageMaker-isännöintipalveluihin ja saat päätepisteen, jota voidaan käyttää päätelmien tekemiseen. Nämä päätepisteet ovat täysin hallittuja ja tukevat automaattista skaalausta. Reaaliaikainen päättely on suosittu käyttötapauksissa, joissa odotat matalan viiveen synkronista vastausta ennustettavissa olevilla liikennemalleilla, kuten henkilökohtaisia suosituksia tuotteille ja palveluille tai tapahtumapetosten havaitsemisen käyttötapauksia.

Tyypillisesti asiakassovellus lähettää pyyntöjä SageMakerin HTTPS-päätepisteeseen saadakseen päätelmiä käyttöönotetusta mallista. Voit ottaa käyttöön useita mallin muunnelmia samaan SageMakerin HTTPS-päätepisteeseen. Tämä on hyödyllistä testattaessa mallin muunnelmia tuotannossa. Automaattinen skaalaus antaa sinun säätää dynaamisesti mallille varattujen esiintymien määrää vasteena työmääräsi muutoksiin.

Seuraava taulukko antaa ohjeita SageMakerin reaaliaikaisten päätelmien arvioimiseen kuntotoimintojen perusteella.

Fitness-toiminto	Kuvaus
Hinta	Reaaliaikaiset päätepisteet tarjoavat synkronisen vastauksen päättelypyyntöihin. Koska päätepiste on aina käynnissä ja käytettävissä antamaan reaaliaikaista synkronista päättelyvastausta, maksat ilmentymän käytöstä. Kustannukset voivat kasvaa nopeasti, kun otat käyttöön useita päätepisteitä, varsinkin jos päätepisteet eivät hyödynnä täysin taustalla olevia ilmentymiä. Oikean ilmentymän valitseminen mallillesi auttaa varmistamaan, että sinulla on tehokkain ilmentymä malleillesi alhaisin kustannuksin. Automaattista skaalausta suositellaan kapasiteetin säätämiseksi dynaamisesti liikenteestä riippuen tasaisen ja ennustettavan suorituskyvyn ylläpitämiseksi mahdollisimman alhaisin kustannuksin. SageMaker laajentaa pääsyn Graviton2- ja Graviton3-pohjaisiin ML-instanssiperheisiin. AWS Graviton Amazon Web Services on räätälöinyt prosessorit käyttämällä 64-bittisiä Arm Neoveren ytimiä, jotka tarjoavat parhaan hintasuorituskyvyn Amazon EC2:ssa käynnissä oleville pilvityökuormille. Graviton-pohjaisten esiintymien avulla sinulla on enemmän vaihtoehtoja kustannusten ja suorituskyvyn optimointiin, kun otat ML-mallejasi käyttöön SageMakerissa. SageMaker tukee myös Inf1-esiintymät, joka tarjoaa korkean suorituskyvyn ja kustannustehokkaan ML-päätelmän. 1-16 kanssa AWS Inferentia -sirut Esimerkiksi Inf1-instanssit voivat skaalata suorituskykyä ja tarjota jopa kolme kertaa suuremman suorituskyvyn ja jopa 50 % alhaisemmat kustannukset per päätelmä verrattuna AWS-grafiikkasuorittimeen. Jos haluat käyttää Inf1-esiintymiä SageMakerissa, voit kääntää koulutetut mallisi käyttämällä Amazon SageMaker Neo ja valitse Inf1-esiintymät ottaaksesi käännetyn mallin käyttöön SageMakerissa. Voit myös tutkia Säästösuunnitelmat SageMakerille hyötyä jopa 64 % kustannussäästöistä tilaushintaan verrattuna. Kun luot päätepisteen, SageMaker liittää EBS-tallennustaltion jokaiseen päätepistettä isännöivään ML-laskentaesiintymään. Tallennustilavuuden koko riippuu ilmentymän tyypistä. Reaaliaikaisten päätepisteiden lisäkustannukset sisältävät Gt:n kuukauden varatun tallennustilan sekä päätepisteinstanssissa käsitellyn Gt:n datan ja ulos käsitellyn Gt:n datan.
Päätelmälatenssi	Reaaliaikainen päättely on ihanteellinen, kun tarvitset pysyvän päätepisteen millisekunnin latenssivaatimuksilla. Se tukee jopa 6 MB:n hyötykuorman kokoa ja jopa 60 sekunnin käsittelyaikoja.
suoritusteho	Päätelmien suorituskyvyn ihanteellinen arvo riippuu tekijöistä, kuten mallista, mallin syötteen koosta, erän koosta ja päätepisteen ilmentymän tyypistä. Parhaana käytäntönä on tarkistaa CloudWatch-mittarit syöttöpyyntöjen ja resurssien käytön osalta ja valita sopiva ilmentymätyyppi optimaalisen suorituskyvyn saavuttamiseksi. Yrityssovellus voi olla joko suoritustehooptimoitu tai latenssioptimoitu. Esimerkiksi dynaaminen eräajo voi auttaa lisäämään latenssiherkkien sovellusten suorituskykyä reaaliaikaisen päättelyn avulla. Erän koolla on kuitenkin rajoituksia, joita ilman päättelyviive voi vaikuttaa. Päätelmäviive kasvaa, kun lisäät eräkokoa suorituskyvyn parantamiseksi. Siksi reaaliaikainen päättely on ihanteellinen vaihtoehto latenssiherkille sovelluksille. SageMaker tarjoaa asynkronisen päättelyn ja erämuunnosvaihtoehdot, jotka on optimoitu antamaan suurempi suorituskyky verrattuna reaaliaikaiseen päättelyyn, jos yrityssovellukset sietävät hieman korkeampaa viivettä.
Skaalauskokoonpanon monimutkaisuus	SageMakerin reaaliaikainen päätepistetuki automaattinen skaalaus ulos laatikosta. Kun työmäärä kasvaa, automaattinen skaalaus tuo lisää esiintymiä verkkoon. Kun työmäärä vähenee, automaattinen skaalaus poistaa tarpeettomat esiintymät, mikä auttaa sinua vähentämään laskentakustannuksia. Ilman automaattista skaalausta sinun on varauduttava ruuhkahuippuihin tai riskimallin epäkäytettävyyteen. Ellei liikenne malliisi ole tasaista koko päivän ajan, käytössä on ylimääräistä kapasiteettia. Tämä johtaa alhaiseen käyttöasteeseen ja resurssien hukkaan. SageMakerilla voit määrittää erilaisia skaalausasetuksia odotetun liikennekuvion perusteella. Yksinkertainen skaalaus tai kohteen seurannan skaalaus on ihanteellinen, kun haluat skaalata tietyn CloudWatch-mittarin perusteella. Voit tehdä tämän valitsemalla tietyn mittarin ja asettamalla kynnysarvot. Tämän vaihtoehdon suositellut tiedot ovat keskimääräisiä `CPUUtilization` or `SageMakerVariantInvocationsPerInstance`. Jos tarvitset lisämäärityksiä, voit määrittää askelskaalauskäytännön säätämään dynaamisesti skaalattavien esiintymien määrää hälytysrikkomuksen koon mukaan. Tämä auttaa sinua määrittämään aggressiivisemman vastauksen, kun kysyntä saavuttaa tietyn tason. Voit käyttää ajoitettua skaalausvaihtoehtoa, kun tiedät, että kysyntä noudattaa tiettyä aikataulua päivän, viikon, kuukauden tai vuoden aikana. Tämä auttaa sinua määrittämään kertaluontoisen aikataulun tai toistuvan aikataulun tai cron-lausekkeet sekä aloitus- ja lopetusajat, jotka muodostavat rajan sille, milloin automaattinen skaalaustoiminto alkaa ja päättyy. Katso lisätietoja kohdasta Autoscaling johtopäätösten päätepisteiden määrittäminen Amazon SageMakerissa ja Lataustesti ja optimoi Amazon SageMaker -päätepiste käyttämällä automaattista skaalausta.
Liikennekuvio	Reaaliaikainen päättely on ihanteellinen työkuormille, joissa on jatkuva tai säännöllinen liikennekuvio.

Asynkroninen päättely SageMakerissa

SageMakerin asynkroninen päättely on SageMakerin uusi ominaisuus, joka asettaa saapuvat pyynnöt jonoon ja käsittelee ne asynkronisesti. Tämä vaihtoehto on ihanteellinen pyyntöihin, joissa on suuri hyötykuorma (jopa 1 Gt), pitkät käsittelyajat (jopa 15 minuuttia) ja lähes reaaliaikaiset latenssivaatimukset. Esimerkkejä asynkronisen päättelyn työkuormista ovat terveydenhuoltoyritykset, jotka käsittelevät korkearesoluutioisia biolääketieteellisiä kuvia tai videoita, kuten kaikukardiogrammia, poikkeamien havaitsemiseksi. Nämä sovellukset vastaanottavat saapuvan liikenteen purskeita eri vuorokaudenaikoina ja vaativat lähes reaaliaikaista käsittelyä alhaisin kustannuksin. Näiden pyyntöjen käsittelyajat voivat vaihdella minuuttien luokkaa, mikä poistaa tarpeen suorittaa reaaliaikaisia päätelmiä. Sen sijaan syöttöhyötykuormia voidaan käsitellä asynkronisesti objektivarastosta, kuten Amazon S3:sta, automaattisella jonolla ja ennalta määritetyllä samanaikaisuuskynnyksellä. Käsittelyn jälkeen SageMaker sijoittaa johtopäätösvastauksen aiemmin palautettuun Amazon S3 -sijaintiin. Voit halutessasi vastaanottaa onnistumis- tai virheilmoituksia kautta Amazonin yksinkertainen ilmoituspalvelu (Amazon SNS).

Seuraava taulukko antaa ohjeita SageMakerin asynkronisen päättelyn arvioimiseen kuntotoimintojen perusteella.

Fitness-toiminto	Kuvaus
Hinta	Asynkroninen päättely on loistava valinta kustannusherkille työkuormille, joissa on suuri hyötykuorma ja purskeliikenne. Asynkronisen päättelyn avulla voit säästää kustannuksissa skaalaamalla ilmentymien lukumäärän automaattisesti nollaan, kun käsiteltäviä pyyntöjä ei ole, joten maksat vain, kun päätepiste käsittelee pyyntöjä. Pyynnöt, jotka vastaanotetaan, kun esiintymiä on nolla, asetetaan käsittelyjonoon päätepisteen skaalaamisen jälkeen.
Päätelmälatenssi	Asynkroninen päättely on ihanteellinen lähes reaaliaikaisiin latenssivaatimuksiin. Pyynnöt asetetaan jonoon ja käsitellään heti, kun laskenta on käytettävissä. Tämä johtaa tyypillisesti kymmenien millisekuntien latenssiin.
suoritusteho	Asynkroninen päättely on ihanteellinen ei-latenssiherkissä käyttötapauksissa, koska sovellusten ei tarvitse tinkiä suorituskyvystä. Pyyntöjä ei hylätä liikennepiikkien aikana, koska asynkroninen päätepäätepiste asettaa pyynnöt jonoon sen sijaan, että ne hylättäisiin.
Skaalauskokoonpanon monimutkaisuus	SageMaker tukee automaattinen skaalaus asynkroniselle päätepisteelle. Toisin kuin reaaliaikaiset isännöidyt päätepisteet, asynkroniset päätepäätepisteet tukevat ilmentymien skaalausta nollaan asettamalla vähimmäiskapasiteetin nollaan. Asynkronisille päätepisteille SageMaker suosittelee vahvasti, että luot käytäntömäärityksen kohteen seurannan skaalausta varten käyttöön otetun mallin (muunnelman) osalta. Käyttötapauksissa, jotka kestävät muutaman minuutin kylmäkäynnistysrangaistuksen, voit halutessasi pienentää päätepisteiden lukumäärän nollaan, kun odottamattomia pyyntöjä ei ole, ja skaalata takaisin sitä mukaa kun uusia pyyntöjä saapuu, jotta maksat vain siltä ajalta, jonka päätepisteet käsittelevät pyyntöjä aktiivisesti.
Liikennekuvio	Asynkroniset päätepisteet asettavat saapuvat pyynnöt jonoon ja käsittelevät ne asynkronisesti. Ne ovat hyvä vaihtoehto ajoittaisille tai harvoin liikennemalleille.

Eräpäätelmä SageMakerissa

SageMaker-erämuunnos on ihanteellinen offline-ennusteisiin suurista tietoeristä, jotka ovat saatavilla etukäteen. Erämuunnosominaisuus on korkean suorituskyvyn ja suuren suorituskyvyn menetelmä tietojen muuntamiseen ja päätelmien luomiseen. Se sopii ihanteellisesti skenaarioihin, joissa käsittelet suuria tietoeriä, et tarvitse sekunnin jälkeistä viivettä tai sinun on sekä esikäsiteltävä että muunnettava harjoitustiedot. Asiakkaiden tietyillä aloilla, kuten mainonnassa ja markkinoinnissa tai terveydenhuollossa, on usein tehtävä offline-ennusteita hypermittakaavan tietojoukoissa, joissa käyttötapauksen tavoitteena on usein korkea suorituskyky eikä latenssi ole huolenaihe.

Kun erämuunnostyö alkaa, SageMaker alustaa laskentaesiintymät ja jakaa päättelytyökuorman niiden kesken. Se vapauttaa resurssit, kun työt ovat valmiit, joten maksat vain siitä, mitä on käytetty työsi aikana. Kun työ on valmis, SageMaker tallentaa ennusteen tulokset määrittämääsi S3-säihöön. Eräpäättelytehtävät ovat yleensä hyviä ehdokkaita vaakasuuntaiseen skaalaukseen. Jokainen klusterin työntekijä voi käyttää erilaista dataa tarvitsematta vaihtaa tietoja muiden työntekijöiden kanssa. AWS tarjoaa useita tallennus- ja laskentavaihtoehtoja, jotka mahdollistavat vaakasuuntaisen skaalauksen. Esimerkkejä SageMaker-erämuunnoksen työkuormista ovat offline-sovellukset, kuten pankkisovellukset asiakkaiden vaihtuvuuden ennustamiseksi, kun offline-työ voidaan ajoittaa suoritettavaksi säännöllisesti.

Seuraava taulukko antaa ohjeita SageMaker-erämuunnoksen arvioimiseen kuntotoimintojen perusteella.

Fitness-toiminto	Kuvaus
Hinta	SageMaker erämuunnos antaa sinun suorittaa ennusteita suurille tai pienille erätietojoukoille. Sinua veloitetaan valitsemastasi ilmentymätyypistä käytön keston perusteella. SageMaker hallitsee resurssien varaamista työn alussa ja vapauttaa ne, kun työ on valmis. Tietojen käsittelystä ei aiheudu ylimääräisiä kustannuksia.
Päätelmälatenssi	Voit käyttää tapahtumapohjaista tai ajoitettua kutsua. Latenssi voi vaihdella päättelytietojen koon, työn samanaikaisuuden, mallin monimutkaisuuden ja laskenta-ilmentymien kapasiteetin mukaan.
suoritusteho	Erämuunnostöitä voidaan tehdä useille tietojoukoille, petabtavuista erittäin pieniin tietojoukkoon. Suurempien tietojoukkojen kokoa ei tarvitse muuttaa pieniksi tietopaloiksi. Voit nopeuttaa erämuunnostöitä käyttämällä optimaalisia arvoja parametreille, kuten MaxPayloadInMB, MaxConcurrentTransformstai Erästrategia. Ihanteellinen arvo `MaxConcurrentTransforms` on yhtä suuri kuin erämuunnostyön laskentatyöntekijöiden lukumäärä. Eräkäsittely voi lisätä suorituskykyä ja optimoida resursseja, koska se auttaa suorittamaan suuremman määrän päätelmiä tietyssä ajassa latenssin kustannuksella. Mallin käyttöönoton optimoimiseksi suuremman suorituskyvyn saavuttamiseksi yleinen ohje on suurentaa eräkokoa, kunnes suorituskyky pienenee.
Skaalauskokoonpanon monimutkaisuus	SageMaker-erämuunnosa käytetään offline-johtopäätökseen, joka ei ole latenssiherkkä.
Liikennekuvio	Offline-päätelmiä varten erämuunnostyö ajoitetaan tai aloitetaan käyttämällä tapahtumapohjaista liipaisinta.

Palvelimeton päättely SageMakerissa

SageMaker-palvelimettoman päättelyn avulla voit ottaa käyttöön ML-malleja johtopäätösten tekemiseen ilman, että sinun tarvitsee määrittää tai hallita taustalla olevaa infrastruktuuria. Mallinne vastaanottamien päättelypyyntöjen määrän perusteella SageMaker-palvelimeton johtopäätös tekee, skaalaa ja sammuttaa laskentakapasiteetin automaattisesti. Tämän seurauksena maksat vain laskenta-ajasta päättelykoodisi suorittamiseen ja käsitellyn tiedon määrästä, et joutoajasta. Voit käyttää SageMakerin sisäänrakennettuja algoritmeja ja ML-kehystä palvelevia säilöjä ottaaksesi mallin käyttöön palvelimettomaan päätepisteeseen tai tuoda oman säilön. Jos liikenteestä tulee ennustettavaa ja vakaata, voit helposti päivittää palvelimettomasta päätepäätepisteestä reaaliaikaiseen SageMaker-päätepisteeseen ilman, että sinun tarvitsee tehdä muutoksia säilökuvaan. Palvelimettomalla päättelyllä hyödyt myös muista SageMaker-ominaisuuksista, kuten sisäänrakennetuista mittareista, kuten kutsujen määrästä, vioista, latenssista, isäntämittareista ja CloudWatchin virheistä.

Seuraava taulukko antaa ohjeita SageMaker-palvelimettomien päätelmien arvioimiseen kuntotoimintojen perusteella.

Fitness-toiminto	Kuvaus
Hinta	Palvelimeton päättely on kustannustehokas vaihtoehto, jos käytössäsi on satunnaisia tai ajoittaisia liikennemalleja. Maksat vain siltä ajalta, jonka päätepiste käsittelee pyynnön, ja siksi voit säästää kustannuksia, jos liikennekuvio on katkonainen.
Päätelmälatenssi	Palvelimettomat päätepisteet tarjoavat alhaisen päättelyviiveen (millisekunneista sekunteihin), ja ne voivat skaalata hetkessä kymmenistä tuhansista johtopäätöksistä sekunneissa käyttötapojen perusteella, mikä tekee siitä ihanteellisen ML-sovelluksiin, joissa on ajoittaista tai arvaamatonta liikennettä. Koska palvelimettomat päätepisteet laskevat resursseja tarpeen mukaan, päätepisteessäsi voi esiintyä muutaman sekunnin ylimääräinen viive (kylmäkäynnistys) ensimmäisessä kutsussa lepotilan jälkeen. Kylmäkäynnistysaika riippuu mallin koosta, kuinka kauan mallin lataaminen kestää ja konttisi käynnistysajasta.
suoritusteho	Kun määrität palvelimetonta päätepistettä, voit määrittää muistin koon ja samanaikaisten kutsujen enimmäismäärän. SageMaker-palvelimeton päättely määrittää automaattisesti laskentaresurssit verrannollisesti valitsemaasi muistiin. Jos valitset suuremman muistikoon, säilösi voi käyttää useampia vCPU:ita. Yleissääntönä on, että muistin koon tulee olla vähintään yhtä suuri kuin mallisi koko. Valittavissa olevat muistikoot ovat 1024 Mt, 2048 Mt, 3072 Mt, 4096 Mt, 5120 Mt ja 6144 Mt. Riippumatta valitsemastasi muistin koosta, palvelimettomissa päätepisteissä on käytettävissä 5 Gt lyhytaikaista levytilaa.
Skaalauskokoonpanon monimutkaisuus	Palvelimettomat päätepisteet käynnistävät automaattisesti laskentaresurssit ja skaalaavat niitä sisään ja ulos liikenteestä riippuen, jolloin ei tarvitse valita ilmentymätyyppejä tai hallita skaalauskäytäntöjä. Tämä poistaa palvelinten valintaan ja hallintaan liittyvän erottumattoman raskaan työn.
Liikennekuvio	Palvelimeton päättely on ihanteellinen työkuormille, joissa liikennekuvioita on harvoin tai ajoittainen.

Mallin isännöintisuunnittelumallit SageMakerissa

SageMaker-päätelmäpäätepisteet käyttävät Docker-säilöjä ML-mallien isännöintiin. Säilöillä voit pakata ohjelmistoja standardoituihin yksiköihin, jotka toimivat johdonmukaisesti millä tahansa Dockeria tukevalla alustalla. Tämä varmistaa siirrettävyyden eri alustojen välillä, muuttumattomat infrastruktuurin käyttöönotot ja helpomman muutoksenhallinnan ja CI/CD-toteutukset. SageMaker tarjoaa valmiiksi rakennettuja hallittuja säilöjä suosituille kehyksille, kuten Apache MXNet, TensorFlow, PyTorch, Sklearn ja Hugging Face. Täydellinen luettelo saatavilla olevista SageMaker-säiliökuvista on kohdassa Käytettävissä olevat Deep Learning Containers -kuvat. Jos SageMakerilla ei ole tuettua säilöä, voit myös rakentaa oman säilön (BYOC) ja työntää oman mukautetun otoksen asentamalla mallillesi tarvittavat riippuvuudet.

Mallin käyttöönottamiseksi SageMakerissa tarvitset säilön (SageMakerin hallitut kehyssäilöt tai BYOC) ja laskentaesiintymän säilön isännöimiseksi. SageMaker tukee useita kehittyneitä vaihtoehtoja yleisille ML-mallien isännöintisuunnittelumalleille, joissa malleja voidaan isännöidä yhdessä säilössä tai yhdessä jaetussa säilössä.

Reaaliaikainen ML-sovellus voi käyttää yhtä mallia tai useita malleja yhden ennustuspyynnön palvelemiseen. Seuraava kaavio näyttää erilaisia johtopäätösskenaarioita ML-sovellukselle.

Tutkitaan sopiva SageMaker-isännöintivaihtoehto jokaiselle edelliselle päättelyskenaariolle. Kuntotoimintojen avulla voit arvioida, onko se oikea vaihtoehto tiettyyn käyttötapaukseen.

Yksi mallipohjaisen ML-sovelluksen isännöinti

On olemassa useita vaihtoehtoja isännöidä yksimallipohjaisia ML-sovelluksia käyttämällä SageMaker-isännöintipalveluita käyttöönottoskenaariosta riippuen.

Yhden mallin päätepiste

SageMakerin yhden mallin päätepisteiden avulla voit isännöidä yhtä mallia säilössä, jota isännöidään omistetuissa tapauksissa alhaisen viiveen ja suuren suorituskyvyn saavuttamiseksi. Nämä päätepisteet ovat täysin hallittuja ja tukevat automaattista skaalausta. Voit määrittää yhden mallin päätepisteen konfiguroiduksi päätepisteeksi, jossa ohitat päätepisteen infrastruktuurin määritykset, kuten ilmentymän tyypin ja lukumäärän, tai palvelimettomaksi päätepisteeksi, jossa SageMaker käynnistää automaattisesti laskentaresurssit ja skaalaa ne sisään ja ulos liikenteestä riippuen, mikä eliminoi tarpeen. valitaksesi ilmentymätyypit tai hallitaksesi skaalauskäytäntöjä. Palvelimettomat päätepisteet on tarkoitettu sovelluksille, joilla on ajoittaista tai arvaamatonta liikennettä.

Seuraava kaavio näyttää yhden mallin päätepisteen päättelyskenaariot.

Seuraavassa taulukossa on ohjeita kuntotoimintojen arvioimiseen valmistetulle yhden mallin päätepisteelle. Katso palvelimettomien päätepisteiden kuntotoimintojen arvioinnit tämän viestin palvelimettomasta päätepisteestä.

Fitness-toiminto	Kuvaus
Hinta	Sinua veloitetaan valitsemasi ilmentymän tyypin käytöstä. Koska päätepiste on aina käynnissä ja käytettävissä, kustannukset voivat kasvaa nopeasti. Oikean ilmentymän valitseminen mallillesi auttaa varmistamaan, että sinulla on tehokkain ilmentymä malleillesi alhaisin kustannuksin. Automaattista skaalausta suositellaan kapasiteetin säätämiseksi dynaamisesti liikenteestä riippuen tasaisen ja ennustettavan suorituskyvyn ylläpitämiseksi mahdollisimman alhaisin kustannuksin.
Päätelmälatenssi	Yhden mallin päätepiste tarjoaa reaaliaikaisen, vuorovaikutteisen, synkronisen päättelyn millisekunnin viivevaatimuksilla.
suoritusteho	Suorituskykyyn voivat vaikuttaa useat tekijät, kuten mallin syötteen koko, eräkoko, päätepisteen ilmentymän tyyppi ja niin edelleen. On suositeltavaa tarkastella CloudWatch-mittareita syöttöpyyntöjen ja resurssien käytön osalta ja valita sopiva ilmentymätyyppi optimaalisen suorituskyvyn saavuttamiseksi. SageMaker tarjoaa ominaisuuksia resurssien hallintaan ja päättelyn suorituskyvyn optimoimiseen ML-malleja käytettäessä. Sinä pystyt optimoi mallin suorituskyky käyttämällä Neoatai käytä Inf1-esiintymiä parantaaksesi SageMaker-isännöityjen malliesi suorituskykyä käyttämällä päätepisteeksesi GPU-esiintymää.
Skaalauskokoonpanon monimutkaisuus	Automaattista skaalausta tuetaan heti alusta alkaen. SageMaker suosittelee valitsemaan sopivan skaalauskokoonpano esiintymällä kuormitustestit.
Liikennekuvio	Yhden mallin päätepiste on ihanteellinen työkuormille, joissa on ennakoitavissa olevia liikennemalleja.

Useiden mallien yhteisisännöinti

Kun käsittelet suurta määrää malleja, kunkin yksittäisen päätepisteen ottaminen käyttöön erillisen säilön ja ilmentymän kanssa voi johtaa huomattavaan kustannusten nousuun. Lisäksi on myös vaikeaa hallita niin monia malleja tuotannossa, varsinkin kun sinun ei tarvitse kutsua kaikkia malleja samanaikaisesti, mutta silti niiden on oltava aina saatavilla. Useiden mallien yhteisisännöinti samoissa taustalla olevissa laskentaresursseissa tekee ML-käyttöönottojen hallinnasta helppoa mittakaavassa ja alentaa isännöintikustannuksia päätepisteen ja sen taustalla olevien laskentaresurssien lisääntyneen käytön ansiosta. SageMaker tukee kehittyneitä mallien yhteispalvelinvaihtoehtoja, kuten multi-model endpoint (MME) homogeenisille malleille ja multi-container endpoint (MCE) heterogeenisille malleille. Homogeeniset mallit käyttävät samaa ML-kehystä jaetussa palvelusäiliössä, kun taas heterogeenisten mallien avulla voit ottaa käyttöön useita käyttösäilöjä, jotka käyttävät eri malleja tai kehyksiä yhdessä päätepisteessä.

Seuraava kaavio näyttää mallin yhteisisännöintivaihtoehdot SageMakerilla.

SageMakerin usean mallin päätepisteet

SageMaker MME:t avulla voit isännöidä useita malleja käyttämällä jaettua käyttösäilöä yhdessä päätepisteessä. Tämä on skaalautuva ja kustannustehokas ratkaisu, jolla voidaan ottaa käyttöön suuri määrä malleja, jotka vastaavat samaa käyttötapausta, kehystä tai päättelylogiikkaa. MME:t voivat palvella pyyntöjä dynaamisesti soittajan kutsuman mallin perusteella. Se myös vähentää käyttöönoton yleiskustannuksia, koska SageMaker hallitsee mallien lataamista muistiin ja skaalaa niitä niihin suuntautuvien liikennemallien perusteella. Tämä ominaisuus on ihanteellinen, kun sinulla on suuri määrä samankaltaisia malleja, joita voit tarjota jaetun tarjoilusäiliön kautta, eikä sinun tarvitse käyttää kaikkia malleja samanaikaisesti. Usean mallin päätepisteet mahdollistavat myös muistiresurssien aikajaon malleissasi. Tämä toimii parhaiten, kun mallit ovat kooltaan ja kutsuviiveiltä melko samanlaisia, jolloin MME:t voivat käyttää esiintymiä tehokkaasti kaikissa malleissa. SageMaker MME:t tukevat sekä CPU- että GPU-tuettujen mallien isännöintiä. Käyttämällä GPU-tuettuja malleja voit alentaa mallin käyttöönottokustannuksia lisäämällä päätepisteen ja sen taustalla olevien kiihdytettyjen laskentaesiintymien käyttöä. Katso MME:n käyttötapaus tosielämässä Koneoppimispäätelmän skaalaaminen usean vuokralaisen SaaS-käyttötapauksissa.

Seuraava taulukko antaa ohjeita MME:n kuntotoimintojen arvioimiseen.

Fitness-toiminto	Kuvaus
Hinta	MME:t mahdollistavat jaetun käyttösäiliön käytön tuhansien mallien isännöimiseen yhdessä päätepisteessä. Tämä vähentää ylläpitokustannuksia merkittävästi parantamalla päätepisteiden käyttöä verrattuna yhden mallin päätepisteiden käyttöön. Jos sinulla on esimerkiksi 10 mallia käyttöönotettavana käyttämällä ml.c5.large-instanssia, joka perustuu SageMaker hinnoittelu, 10 yhden mallin pysyvän päätepisteen hinta on: 10 * 0.102 $ = 1.02 $ tunnissa. Kun taas yksi MME isännöi 10 mallia, saavutamme 10-kertaiset kustannussäästöt: 1 * 0.102 dollaria = 0.102 dollaria tunnissa.
Päätelmälatenssi	Oletusarvoisesti MME:t tallentavat usein käytetyt mallit muistiin ja levylle tarjotakseen alhaisen viiveen päätelmiä. Välimuistissa olevat mallit puretaan tai poistetaan levyltä vain, kun säiliön muisti tai levytila loppuu äskettäin kohdistetun mallin vastaanottamiseksi. MME:t sallivat mallien laiskan lataamisen, mikä tarkoittaa, että mallit ladataan muistiin, kun niitä kutsutaan ensimmäisen kerran. Tämä optimoi muistin käytön; Se aiheuttaa kuitenkin vasteaikapiikkejä ensimmäisellä kuormituksella, mikä johtaa kylmäkäynnistysongelmaan. Siksi MME:t sopivat hyvin myös skenaarioihin, jotka voivat sietää satunnaisia kylmäkäynnistykseen liittyviä viivemaksuja, joita esiintyy harvoin käytettyjä malleja vedettäessä. ML-sovellusten viive- ja suoritustehotavoitteiden saavuttamiseksi GPU-instanssit ovat etusijalla CPU-instanssien sijaan (koska GPU:iden tarjoama laskentateho). GPU:n MME-tuen avulla voit ottaa käyttöön tuhansia syväoppimismalleja yhden SageMaker-päätepisteen takana. MME:t voivat käyttää useita malleja GPU-ytimessä, jakaa GPU-esiintymiä päätepisteen takana useiden mallien välillä sekä ladata ja purkaa malleja dynaamisesti saapuvan liikenteen perusteella. Tämän avulla voit säästää merkittävästi kustannuksia ja saavuttaa parhaan hintasuorituksen. Jos käyttötapauksesi vaatii huomattavasti korkeampia transaktioita sekunnissa (TPS) tai viivevaatimuksia, suosittelemme mallien isännöimistä omistetuissa päätepisteissä.
suoritusteho	MME-päätelmän suorituskyvyn ihanteellinen arvo riippuu tekijöistä, kuten mallista, hyötykuorman koosta ja päätepisteen ilmentymän tyypistä. Suurempi määrä ilmentymämuistia mahdollistaa useampien mallien lataamisen ja valmiuden palvelemaan päättelypyyntöjä. Sinun ei tarvitse tuhlata aikaa mallin lataamiseen. Suurempi määrä vCPU:ita mahdollistaa ainutlaatuisempien mallien käynnistämisen samanaikaisesti. MME:t lataavat ja purkavat mallin dynaamisesti ilmentymän muistiin ja sieltä pois, mikä voi vaikuttaa I/O-suorituskykyyn. GPU:lla varustetut SageMaker MME:t toimivat käyttäen NVIDIA Triton Inference Server, joka on avoimen lähdekoodin päätelmien palveleva ohjelmisto, joka yksinkertaistaa päätelmien toimitusprosessia ja tarjoaa korkean johtopäätöksen suorituskyvyn. SageMaker lataa mallin NVIDIA Triton -säiliön muistiin GPU-kiihdytetyssä ilmentymässä ja palvelee päättelypyyntöä. Grafiikkasuorittimen ydin jaetaan kaikkien esiintymän mallien kesken. Jos malli on jo ladattu säilömuistiin, seuraavat pyynnöt toimitetaan nopeammin, koska SageMakerin ei tarvitse ladata ja ladata sitä uudelleen. Kunnollinen suorituskyvyn testaus ja analyysi on suositeltavaa onnistuneissa tuotantokäytöissä. SageMaker tarjoaa CloudWatch-mittareita usean mallin päätepisteille, jotta voit määrittää päätepisteen käytön ja välimuistin osumasuhteen päätepisteesi optimoimiseksi.
Skaalauskokoonpanon monimutkaisuus	SageMakerin usean mallin päätepisteet tukevat täysin automaattista skaalausta, joka hallitsee mallien jäljennöksiä varmistaakseen, että mallit skaalautuvat liikennemalleihin perustuen. Asianmukaista kuormitustestausta suositellaan kuitenkin päätepisteen automaattisen skaalauksen ilmentymien optimaalisen koon määrittämiseksi. MME-kaluston oikea koko on tärkeää, jotta vältytään liian monen mallin purkamiselta. Satojen mallien lataaminen muutamaan suurempaan esiintymään voi joissakin tapauksissa johtaa kuristukseen, ja useampien ja pienempien ilmentymien käyttäminen voisi olla parempi. Hyödynnä automaattista mallin skaalausta SageMakerissa varmistamalla, että sinulla on esimerkiksi automaattinen skaalaus tarjota lisää esiintymäkapasiteettia. Määritä päätepistetason skaalauskäytäntö joko mukautetuilla parametreilla tai kutsuilla minuutissa (suositus), jotta voit lisätä päätepistekalustoon lisää esiintymiä. Automaattisen skaalaustapahtuman käynnistämiseen käytetyt kutsunopeudet perustuvat päätepisteen palvelemien mallien kokonaisjoukon ennusteisiin.
Liikennekuvio	MME:t ovat ihanteellisia, kun sinulla on suuri määrä samankokoisia malleja, joita voit palvella jaetun tarjoilusäiliön kautta, eikä sinun tarvitse käyttää kaikkia malleja samanaikaisesti.

SageMaker-monisäiliöpäätepisteet

SageMaker MCE:t tukee jopa 15 eri mallia tai kehystä käyttävän säilön käyttöönottoa yhdessä päätepisteessä ja niiden kutsumista itsenäisesti tai peräkkäin alhaisen viiveen päätelmien ja kustannussäästöjen saavuttamiseksi. Mallit voivat olla täysin heterogeenisia, ja niissä on oma itsenäinen tarjoilupino. Useiden eri kehysten mallien turvallinen isännöinti yhdessä esiintymässä voi säästää jopa 90 % kustannuksissa.

MCE-kutsumallit ovat seuraavat:

Päätelmäputket – MME:n säilöjä voidaan kutsua lineaarisessa sekvenssissä, joka tunnetaan myös nimellä a sarjapäätelmäputki. Niitä käytetään tyypillisesti esikäsittelyn, mallin päättelyn ja jälkikäsittelyn erottamiseen itsenäisiksi säiliöiksi. Nykyisen säilön lähtö välitetään syötteenä seuraavaan. Ne esitetään yhtenä putkimallina SageMakerissa. Päätelmäliukuhihna voidaan ottaa käyttöön MME:nä, jossa yksi liukuhihnan säilöistä voi palvella dynaamisesti pyyntöjä, jotka perustuvat kutsuttavaan malliin.
Suora kutsuminen - Kanssa suora kutsuminen, pyyntö voidaan lähettää tiettyyn MCE:ssä isännöityyn päättelysäilöön.

Seuraava taulukko antaa ohjeita MCE:iden kuntotoimintojen arvioimiseen.

Fitness-toiminto	Kuvaus
Hinta	MCE:iden avulla voit käyttää jopa 15 erilaista ML-säilöä yhdessä päätepisteessä ja kutsua niitä itsenäisesti, mikä säästää kustannuksia. Tämä vaihtoehto on ihanteellinen, kun sinulla on useita malleja käynnissä eri palvelupinoissa, joilla on samanlaiset resurssitarpeet, ja kun yksittäisillä malleilla ei ole riittävästi liikennettä hyödyntämään päätepisteinstanssien täyttä kapasiteettia. MCE:t ovat siksi kustannustehokkaampia kuin yhden mallin päätepiste. MCE:t tarjoavat synkronisen päättelyvasteen, mikä tarkoittaa, että päätepiste on aina saatavilla ja maksat ilmentymän käyttöajasta. Kustannukset voivat kasvaa tapausten lukumäärän ja tyypin mukaan.
Päätelmälatenssi	MCE:t ovat ihanteellisia ML-sovellusten suorittamiseen, joissa on eri ML-kehykset ja -algoritmit jokaiselle mallille, joita käytetään harvoin, mutta jotka vaativat silti alhaisen latenssin päättelyn. Mallit ovat aina saatavilla alhaisen latenssin päättelyyn, eikä kylmäkäynnistysongelmaa ole.
suoritusteho	MCE:t on rajoitettu enintään 15 säilöön usean säilön päätepisteessä, eikä GPU-päätelmiä tueta resurssikiistan vuoksi. Usean säilön päätepisteille, jotka käyttävät suoraa kutsumistilaa, SageMaker ei tarjoa vain ilmentymätason mittareita, kuten se tarjoaa muiden yleisten päätepisteiden kanssa, vaan tukee myös säilökohtaisia mittareita. Parhaana käytäntönä on tarkastella CloudWatchin mittareita syöttöpyyntöjen ja resurssien käytön osalta sekä valita sopiva ilmentymätyyppi optimaalisen suorituskyvyn saavuttamiseksi.
Skaalauskokoonpanon monimutkaisuus	MCE:t tukevat automaattista skaalausta. Automaattisen skaalauksen määrittämiseksi on kuitenkin suositeltavaa, että kunkin säilön mallissa on samanlainen suorittimen käyttöaste ja viive jokaisessa päättelypyynnössä. Tämä on suositeltavaa, koska jos liikenne monisäilön päätepisteeseen siirtyy alhaisen suorittimen käyttöasteen mallista korkean prosessorin käyttöasteen malliin, mutta puheluiden kokonaismäärä pysyy samana, päätepiste ei skaalaudu ja esiintymiä ei ehkä ole tarpeeksi. käsittelemään kaikki pyynnöt korkean suorittimen käyttöasteen malliin.
Liikennekuvio	MCE:t ovat ihanteellisia työkuormituksille, joissa on jatkuvat tai säännölliset liikennemallit, ja mallien isännöimiseen eri kehyksissä (kuten TensorFlow, PyTorch tai Sklearn), joilla ei välttämättä ole riittävästi liikennettä päätepisteinstanssin täyden kapasiteetin kyllästämiseksi.

Monimallipohjaisen ML-sovelluksen isännöinti

Monien yrityssovellusten on käytettävä useita ML-malleja palvellakseen yhtä ennustuspyyntöä kuluttajille. Esimerkiksi vähittäiskauppayritys, joka haluaa antaa suosituksia käyttäjilleen. Tässä käyttötapauksessa ML-sovellus saattaa haluta käyttää erilaisia mukautettuja malleja eri tuoteluokkien suosittelemiseen. Jos yritys haluaa lisätä suosituksiin personointia yksittäisten käyttäjätietojen avulla, räätälöityjen mallien määrä kasvaa entisestään. Kunkin mukautetun mallin isännöiminen erillisessä laskentaesiintymässä ei ole pelkästään kohtuutonta, vaan se johtaa myös isännöintiresurssien vajaakäyttöön, jos kaikkia malleja ei käytetä usein. SageMaker tarjoaa tehokkaita isännöintivaihtoehtoja monimallipohjaisille ML-sovelluksille.

Seuraava kaavio näyttää usean mallin isännöintivaihtoehdot yhdelle päätepisteelle SageMakeria käyttämällä.

Sarjapäättelyputki

Päätelmäliukuhihna on SageMaker-malli, joka koostuu 2–15 säilön lineaarisesta sekvenssistä, joka käsittelee dataa koskevia päätelmäpyyntöjä. Käytät päättelyputkea määrittääksesi ja ottaaksesi käyttöön minkä tahansa yhdistelmän valmiiksi koulutettuja sisäänrakennettuja SageMaker-algoritmeja ja omia mukautettuja algoritmeja, jotka on pakattu Docker-säiliöihin. Päättelyputken avulla voit yhdistää datatieteen esikäsittely-, ennusteet ja jälkikäsittelytehtävät. Yhden säilön tulos välitetään syötteenä seuraavaan. Kun määrität säiliöitä putkimallille, määrität myös järjestyksen, jossa säiliöitä ajetaan. Ne esitetään yhtenä putkimallina SageMakerissa. Päätelmäliukuhihna voidaan ottaa käyttöön MME:nä, jossa yksi liukuhihnan säiliöistä voi palvella dynaamisesti pyyntöjä, jotka perustuvat kutsuttavaan malliin. Voit myös ajaa a erämuunnos työ päättelyputken kanssa. Päätelmäputket ovat täysin hallittuja.

Seuraavassa taulukossa on ohjeita ML-mallin isännöinnin kuntofunktioiden arvioimiseen sarjapäätelmäliukulinjan avulla.

Fitness-toiminto	Kuvaus
Hinta	Sarjapäättelyputken avulla voit ajaa jopa 15 erilaista ML-säilöä yhdessä päätepisteessä, mikä johtaa päättelysäilöjen isännöinnin kustannustehokkuuteen. Tämän ominaisuuden käyttämisestä ei aiheudu lisäkustannuksia. Maksat vain päätepisteessä suoritettavista ilmentymistä. Kustannukset voivat kasvaa tapausten lukumäärän ja tyypin mukaan.
Päätelmälatenssi	Kun ML-sovellus otetaan käyttöön päätelmäliukuhihnana, eri mallien välinen data ei jätä säilötilaa. Ominaisuuden käsittely ja päätelmät toimivat pienellä viiveellä, koska säilöt sijaitsevat samoissa EC2-esiintymissä.
suoritusteho	Päätelmäputkimallissa SageMaker käsittelee kutsuja HTTP-pyyntöjen sarjana. Liukulinjan ensimmäinen kontti käsittelee alkuperäisen pyynnön, sitten välivastaus lähetetään pyyntönä toiselle säiliölle ja niin edelleen jokaiselle liukuhihnassa olevalle kontille. SageMaker palauttaa lopullisen vastauksen asiakkaalle. Suorituskyky riippuu sellaisista tekijöistä kuin malli, mallin syöttökoko, eräkoko ja päätepisteen ilmentymän tyyppi. Parhaana käytäntönä on tarkistaa CloudWatch-mittarit syöttöpyyntöjen ja resurssien käytön osalta ja valita sopiva ilmentymätyyppi optimaalisen suorituskyvyn saavuttamiseksi.
Skaalauskokoonpanon monimutkaisuus	Sarjapäättelyputket tukevat automaattista skaalausta. Automaattisen skaalauksen määrittämiseksi on kuitenkin suositeltavaa, että kunkin säilön mallissa on samanlainen suorittimen käyttöaste ja viive jokaisessa päättelypyynnössä. Tämä on suositeltavaa, koska jos liikenne monisäilön päätepisteeseen siirtyy alhaisen suorittimen käyttöasteen mallista korkean prosessorin käyttöasteen malliin, mutta puheluiden kokonaismäärä pysyy samana, päätepiste ei skaalaudu ja esiintymiä ei ehkä ole tarpeeksi käsittelee kaikki pyynnöt korkean suorittimen käyttöasteen malliin.
Liikennekuvio	Sarjapäättelyputket ovat ihanteellisia ennustettavissa oleville liikennemalleille, joissa mallit toimivat peräkkäin samassa päätepisteessä.

Mallikokonaisuuksien käyttöönotto (Triton DAG):

SageMaker tarjoaa integroinnin NVIDIA Triton Inference Server kautta Triton Inference Server Containers. Näihin säilöihin kuuluu NVIDIA Triton Inference Server, tuki yleisille ML-kehyksille ja hyödyllisiä ympäristömuuttujia, joiden avulla voit optimoida SageMakerin suorituskykyä. NVIDIA Triton -säiliökuvien avulla voit helposti palvella ML-malleja ja hyötyä NVIDIA Tritonin tarjoamista suorituskyvyn optimoinneista, dynaamisesta erästä ja monikehystuesta. Triton auttaa maksimoimaan grafiikkasuorittimen ja prosessorin käytön alentaen entisestään päättelykustannuksia.

Yrityskäyttötapauksissa, joissa ML-sovellukset käyttävät useita malleja ennustepyynnön palvelemiseen, jos jokainen malli käyttää eri viitekehystä tai sitä isännöidään erillisessä ilmentymässä, se voi johtaa lisääntyneeseen työmäärään ja kustannuksiin sekä yleiseen viiveeseen. SageMaker NVIDIA Triton Inference Server tukee mallien käyttöönottoa kaikista tärkeimmistä kehyksistä, kuten TensorFlow GraphDef, TensorFlow SavedModel, ONNX, PyTorch TorchScript, TensorRT ja Python/C++-mallimuodot ja muut. Triton-mallikokonaisuus edustaa yhden tai useamman mallin liukuhihnaa tai esi- ja jälkikäsittelylogiikkaa ja niiden välistä tulo- ja lähtötensorien yhteyttä. Yksittäinen päättelypyyntö ryhmälle käynnistää koko liukuhihnan ajon. Tritonissa on myös useita sisäänrakennettuja ajoitus- ja eräalgoritmeja, jotka yhdistävät yksittäiset päättelypyynnöt päättelyn suorituskyvyn parantamiseksi. Nämä aikataulu- ja eräpäätökset ovat avoimia päätelmiä pyytävälle asiakkaalle. Malleja voidaan käyttää prosessoreilla tai GPU:illa maksimaalisen joustavuuden ja heterogeenisten laskentavaatimusten tukemiseksi.

Useiden GPU-tuettujen mallien isännöintiä usean mallin päätepisteissä tuetaan SageMaker Triton-päätelmäpalvelin. NVIDIA Triton Inference Server -palvelinta on laajennettu toteuttamaan MME API sopimus, integroidaksesi MME:iden kanssa. Voit käyttää NVIDIA Triton Inference Serveriä, joka luo mallivaraston kokoonpanon eri kehyksen taustajärjestelmille, ottaaksesi käyttöön automaattisen skaalauksen sisältävän MME:n. Tämän ominaisuuden avulla voit skaalata satoja hyperpersonoituja malleja, jotka on hienosäädetty palvelemaan ainutlaatuisia loppukäyttäjien kokemuksia tekoälysovelluksissa. Voit myös käyttää tätä ominaisuutta saavuttaaksesi tarvittavan hintasuorituskyvyn päättelysovelluksellesi käyttämällä murto-osia GPU:ia. Lisätietoja saat osoitteesta Suorita useita syväoppimismalleja GPU:ssa Amazon SageMaker -monimallipäätepisteiden avulla.

Seuraava taulukko antaa ohjeita kuntotoimintojen arvioimiseen ML-mallin isännöinnissä käyttämällä MME:itä, joissa on GPU-tuki Triton-päätelmäsäiliöissä. Katso yhden mallin päätepisteet ja palvelimettomat päätepisteiden kuntotoimintojen arvioinnit tämän viestin aiemmissa osissa.

Fitness-toiminto	Kuvaus
Hinta	SageMaker MME:t, joissa on Triton Inference Serverin GPU-tuki, tarjoavat skaalautuvan ja kustannustehokkaan tavan ottaa käyttöön suuri määrä syväoppimismalleja yhden SageMaker-päätepisteen takana. MME:illä useat mallit jakavat GPU-ilmentymän päätepisteen takana. Näin voit katkaista useiden mallien isännöinnin lineaarisesti nousevat kustannukset ja käyttää infrastruktuuria uudelleen kaikissa malleissa. Maksat ilmentymän käyttöajasta.
Päätelmälatenssi	SageMaker Triton Inference Server -palvelimella on suunniteltu maksimoimaan suorituskyky ja laitteiston käyttö erittäin alhaisella (yksinumeroisella millisekunnin) päättelyviiveellä. Siinä on laaja valikoima tuettuja ML-kehyksiä (mukaan lukien TensorFlow, PyTorch, ONNX, XGBoost ja NVIDIA TensorRT) ja infrastruktuurin taustaohjelmia, mukaan lukien NVIDIA GPU:t, CPU:t ja AWS Inferencia. SageMaker Triton Inference Serverin GPU:n MME-tuen avulla voit ottaa käyttöön tuhansia syväoppimismalleja yhden SageMaker-päätepisteen takana. SageMaker lataa mallin NVIDIA Triton -säiliön muistiin GPU-kiihdytetyssä ilmentymässä ja palvelee päättelypyyntöä. Grafiikkasuorittimen ydin jaetaan kaikkien esiintymän mallien kesken. Jos malli on jo ladattu säilömuistiin, seuraavat pyynnöt toimitetaan nopeammin, koska SageMakerin ei tarvitse ladata ja ladata sitä uudelleen.
suoritusteho	MME:t tarjoavat ominaisuudet useiden syväoppimis- tai ML-mallien ajamiseen GPU:ssa samanaikaisesti Triton Inference Serverin kanssa. Tämän avulla voit helposti käyttää NVIDIA Triton -monikehystä, korkean suorituskyvyn johtopäätöspalvelua täysin hallitun SageMaker-mallin käyttöönoton kanssa. Triton tukee kaikkia NVIDIA GPU-, x86-, Arm® CPU- ja AWS Inferentia -pohjaisia päätelmiä. Se tarjoaa dynaamisen erän, samanaikaiset ajot, optimaalisen mallin kokoonpanon, mallikokonaisuuden sekä suoratoiston ääni- ja videotulot suorituskyvyn ja käytön maksimoimiseksi. Muilla tekijöillä, kuten verkon ja hyötykuorman koolla, voi olla minimaalinen rooli päättelyyn liittyvissä yleiskustannuksissa.
Skaalauskokoonpanon monimutkaisuus	MME:t voivat skaalata vaakasuunnassa käyttämällä automaattista skaalauskäytäntöä ja tarjota lisää GPU-laskentaesiintymiä esimerkiksi mittareiden perusteella. `InvocationsPerInstance` ja `GPUUtilization` palvelemaan liikennepiikkiä MME-päätepisteisiin. Tritonin päättelypalvelimen avulla voit helposti rakentaa mukautetun säilön, joka sisältää mallisi Tritonin kanssa, ja tuoda sen SageMakeriin. SageMaker Inference käsittelee pyynnöt ja skaalaa säilön automaattisesti käytön lisääntyessä, mikä helpottaa mallin käyttöönottoa Tritonin kanssa AWS:ssä.
Liikennekuvio	MME:t ovat ihanteellisia ennustettavissa oleville liikennemalleille, joissa mallit toimivat DAG:ina samassa päätepisteessä. SageMaker huolehtii liikenteen muokkaamisesta MME-päätepisteeseen ja ylläpitää optimaalisia mallikopioita GPU-esiintymissä parhaan hintasuorituksen saavuttamiseksi. Se jatkaa liikenteen reitittämistä esiintymään, jossa malli ladataan. Jos ilmentymän resurssit saavuttavat kapasiteetin korkean käyttöasteen vuoksi, SageMaker purkaa vähiten käytetyt mallit säiliöstä vapauttaakseen resursseja useammin käytettyjen mallien lataamiseen.

Parhaat käytännöt

Harkitse seuraavia parhaita käytäntöjä:

Korkea koheesio ja alhainen kytkentä mallien välillä – Isännöi mallit samassa säiliössä, jossa on korkea koheesio (joka tukee yhden yrityksen toimintoja) ja kapseloi ne yhteen päivityksen ja hallittavuuden helpottamiseksi. Samanaikaisesti irrota nämä mallit toisistaan (isännöi ne eri säilöön), jotta voit helposti päivittää yhden mallin vaikuttamatta muihin malleihin. Isännöi useita malleja, jotka käyttävät eri säilöjä yhden päätepisteen takana ja kutsuvat sen sitten itsenäisesti tai lisää mallin esikäsittely- ja jälkikäsittelylogiikka sarjapäätelmäputkeksi.
Päätelmälatenssi – Ryhmittele mallit, jotka ovat yhden yrityksen toiminnallisia, ja isännöi ne yhteen säiliöön minimoidaksesi hyppyjen määrän ja siten kokonaisviiveen. On muitakin varoituksia, kuten jos ryhmitetyt mallit käyttävät useita kehyksiä; voit myös valita isännöinnin useissa säilöissä mutta samassa isännässä vähentääksesi viivettä ja minimoiksesi kustannukset.
Ryhmittele loogisesti ML-mallit korkealla koheesiolla – Looginen ryhmä voi koostua malleista, jotka ovat homogeenisia (esimerkiksi kaikki XGBoost-mallit) tai heterogeenisia (esimerkiksi muutama XGBoost ja muutama BERT). Se voi koostua malleista, jotka jaetaan useiden liiketoimintatoimintojen kesken, tai ne voivat olla erityisiä vain yhden liiketoimintatoiminnon toteuttamiseen.
- Jaetut mallit – Jos looginen ryhmä koostuu jaetuista malleista, mallien päivittämisen helppous ja latenssi ovat tärkeitä SageMaker-päätepisteiden suunnittelussa. Jos esimerkiksi latenssi on prioriteetti, on parempi sijoittaa kaikki mallit yhteen säiliöön yhden SageMaker-päätepisteen taakse useiden hyppyjen välttämiseksi. Huono puoli on, että jos jokin malleista on päivitettävä, se johtaa kaikkien asiaankuuluvien SageMaker-päätepisteiden päivittämiseen, jotka isännöivät tätä mallia.
- Ei-jaetut mallit – Jos looginen ryhmä koostuu vain liiketoimintakohtaisista malleista eikä sitä ole jaettu muiden ryhmien kanssa, pakkauksen monimutkaisuus ja latenssimitat ovat avainasemassa. On suositeltavaa isännöidä nämä mallit yhdessä säilössä yhden SageMaker-päätepisteen takana.
Tehokas laitteiston käyttö (CPU, GPU) – Ryhmittele CPU-pohjaiset mallit yhteen ja isännöi niitä samassa isännässä, jotta voit käyttää prosessoria tehokkaasti. Vastaavasti ryhmittele GPU-pohjaiset mallit yhteen, jotta voit käyttää ja skaalata niitä tehokkaasti. On olemassa hybridityökuormia, jotka vaativat sekä CPU:n että GPU:n samassa isännässä. Vain CPU- ja GPU-mallien isännöinnin samassa isännässä pitäisi olla korkeiden koheesio- ja sovellusviivevaatimusten taustalla. Lisäksi kustannukset, skaalautumiskyky ja räjähdyssäde vian sattuessa ovat keskeisiä tarkasteltavia ulottuvuuksia.
Fitness -toiminnot – Käytä kuntotoimintoja ohjeena ML-hosting-vaihtoehdon valinnassa.

Yhteenveto

Mitä tulee ML-isännöintiin, ei ole olemassa kaikille sopivaa lähestymistapaa. ML-harjoittajien on valittava oikea suunnittelumalli vastatakseen ML-isännöintihaasteisiinsa. Kuntotoimintojen arviointi antaa ohjeellisia ohjeita oikean ML-isännöintivaihtoehdon valitsemiseen.

Lisätietoja kustakin isännöintivaihtoehdosta on seuraavissa tämän sarjan viesteissä:

Tietoja kirjoittajista

Dhawal Patel on AWS:n koneoppimisarkkitehti. Hän on työskennellyt organisaatioiden kanssa suurista yrityksistä keskikokoisiin startup-yrityksiin hajautettuun tietojenkäsittelyyn ja tekoälyyn liittyvien ongelmien parissa. Hän keskittyy syväoppimiseen, mukaan lukien NLP- ja Computer Vision -alueet. Hän auttaa asiakkaita tekemään korkean suorituskyvyn mallipäätelmiä SageMakerissa.

Deepali Rajale on AI/ML Specialist Technical Account Manager Amazon Web Servicesissä. Hän työskentelee yritysasiakkaiden kanssa ja tarjoaa teknistä ohjausta koneoppimisratkaisujen toteuttamiseen parhaiden käytäntöjen avulla. Vapaa-ajallaan hän nauttii vaelluksesta, elokuvista ja hengailusta perheen ja ystävien kanssa.

Saurabh Trikande on Amazon SageMaker Inferencen -tuotepäällikkö. Hän on intohimoinen asiakkaiden kanssa työskentelyyn, ja häntä motivoi tavoite demokratisoida koneoppimista. Hän keskittyy ydinhaasteisiin, jotka liittyvät monimutkaisten ML-sovellusten käyttöönottoon, usean vuokralaisen ML-malleihin, kustannusten optimointiin ja syvän oppimismallien käyttöönoton helpottamiseen. Vapaa-ajallaan Saurabh nauttii vaeltamisesta, innovatiivisten teknologioiden oppimisesta, TechCrunchien seuraamisesta ja perheensä kanssa viettämisestä.