Mudeli hostimise mustrid rakenduses Amazon SageMaker, 1. osa: tavalised kujundusmustrid ML-rakenduste loomiseks Amazon SageMakeris

Taasavaldanud Platon

järgijaid: 0

Masinõppe (ML) rakendusi on keeruline juurutada ja sageli on vaja hüperskaala ning neil on ülimadalad latentsusalased nõuded ja ranged kulueelarved. Kasutusjuhtumid, nagu pettuste tuvastamine, tootesoovitused ja liikluse prognoosimine, on näited, mille puhul millisekundid on olulised ja on äriedu jaoks üliolulised. Tuleb täita rangeid teenusetaseme lepinguid (SLA-d) ja tüüpiline taotlus võib nõuda mitut etappi, nagu eeltöötlus, andmete teisendamine, funktsioonide projekteerimine, mudelivaliku loogika, mudelite koondamine ja järeltöötlus.

Optimeeritud kulu- ja arvutusefektiivsusega ML-mudelite ulatuslik juurutamine võib olla hirmutav ja tülikas ülesanne. Igal mudelil on oma eelised ja sõltuvused, mis põhinevad nii välistel andmeallikatel kui ka käituskeskkonnal, näiteks aluseks olevate arvutusressursside CPU/GPU võimsusel. Rakendus võib nõuda ühe järelduspäringu teenindamiseks mitut ML-mudelit. Teatud stsenaariumide korral võib päring liikuda mitme mudeli vahel. Pole olemas universaalset lähenemisviisi ning ML-i praktikutel on oluline otsida järeleproovitud meetodeid korduvate ML-hostimise probleemide lahendamiseks. See on viinud ML-mudelite hostimise disainimustrite arenguni.

Selles postituses uurime levinud disainimustreid ML-rakenduste ehitamiseks Amazon SageMaker.

Disainimustrid ML-rakenduste ehitamiseks

Vaatame järgmisi kujundusmustreid, mida kasutada ML-rakenduste majutamiseks.

Ühe mudelipõhised ML-rakendused

See on suurepärane võimalus, kui teie ML-i kasutusjuhtum nõuab päringu esitamiseks ühte mudelit. Mudel on juurutatud spetsiaalses arvutusinfrastruktuuris, mida saab sisendliikluse põhjal skaleerida. See valik on ideaalne ka siis, kui klientrakendusel on madala latentsusajaga (millisekundite või sekundite suurusjärgus) järeldusnõue.

Mitme mudelipõhised ML-rakendused

Hostimise kuluefektiivsemaks muutmiseks võimaldab see kujundusmuster majutada mitut mudelit samas rentniku infrastruktuuris. Mitu ML-mudelit saavad hosti või konteineri ressursse jagada, sealhulgas enimkasutatud ML-mudelite vahemällu salvestamiseks, mille tulemuseks on mälu- ja arvutusressursside parem kasutamine. Olenevalt juurutamiseks valitud mudelite tüüpidest võib mudeli kaashostimisel kasutada järgmisi meetodeid.

Mitme mudeli hostimine – See suvand võimaldab hostida mitut mudelit, kasutades jagatud teeninduskonteinerit ühes lõpp-punktis. See funktsioon on ideaalne, kui teil on palju sarnaseid mudeleid, mida saate serveerida jagatud serveerimismahuti kaudu ja teil pole vaja korraga juurdepääsu kõigile mudelitele.
Mitme konteineri hostimine – See suvand on ideaalne, kui teil on mitu mudelit, mis töötab erinevatel samade ressursivajadustega serveerimispakkidel, ja kui üksikutel mudelitel pole lõpp-punkti eksemplaride täisvõimsuse ärakasutamiseks piisavalt liiklust. Mitme konteineri hostimine võimaldab juurutada mitu konteinerit, mis kasutavad ühes lõpp-punktis erinevaid mudeleid või raamistikke. Mudelid võivad olla täiesti heterogeensed ja neil on oma sõltumatu serveerimispakk.
Modelliansamblid – Paljudel tootmiskasutuse juhtudel võib sageli olla palju ülesvoolu mudeleid, mis toidavad sisendeid konkreetsele allavoolu mudelile. Siin on ansamblid kasulikud. Ansambli mustrid hõlmavad ühe või mitme põhimudeli väljundi segamist, et vähendada üldistusviga ennustusest. Baasmudelid võivad olla mitmekesised ja koolitatud erinevate algoritmidega. Mudelikomplektid võivad ületada üksikute mudelite jõudlust, kuna mudeli ennustusviga väheneb, kui kasutatakse ansamblimeetodit.

Järgmised on ansamblimustrite levinumad kasutusjuhud ja neile vastavad kujundusmustrite diagrammid:

Hajutada-koguda – Hajutus-kogumismustri korral suunatakse järeldustaotlus mitmele mudelile. Seejärel kasutatakse agregaatorit vastuste kogumiseks ja nende üheks järeldusvastuseks. Näiteks piltide klassifitseerimise kasutusjuhtum võib ülesande täitmiseks kasutada kolme erinevat mudelit. Hajumis-kogumismuster võimaldab kombineerida kolme erineva mudeliga tehtud järelduste tulemusi ja valida kõige tõenäolisema klassifitseerimismudeli.

Mudeli hostimise mustrid rakenduses Amazon SageMaker, 1. osa: levinud disainimustrid ML-rakenduste loomiseks rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Mudeli agregaat – Koondamismustris keskmistatakse mitme mudeli väljundid. Klassifitseerimismudelite puhul hinnatakse mitme mudeli ennustusi, et määrata kindlaks enim hääli saanud klass ja seda käsitletakse ansambli lõpliku väljundina. Näiteks kahe klassi klassifitseerimise ülesandes liigitada puuviljad apelsinideks või õunteks, kui kaks mudelit hääletavad apelsini ja üks mudel õuna poolt, on koondväljundiks apelsin. Agregeerimine aitab võidelda üksikute mudelite ebatäpsusega ja muudab väljundi täpsemaks.

Mudeli hostimise mustrid rakenduses Amazon SageMaker, 1. osa: levinud disainimustrid ML-rakenduste loomiseks rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Dünaamiline valik – Teine ansamblimudelite muster on dünaamiline mudelivalik antud sisendatribuutide jaoks. Näiteks kui puuvilja kujutiste sisend sisaldab apelsini, kasutatakse mudelit A, kuna see on spetsialiseerunud apelsinidele. Kui sisend sisaldab õuna, kasutatakse mudelit B, kuna see on spetsialiseerunud õuntele.

Mudeli hostimise mustrid rakenduses Amazon SageMaker, 1. osa: levinud disainimustrid ML-rakenduste loomiseks rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Jadajärelduste ML-rakendused – Jadajäreldusmustri (tuntud ka kui järelduskonveieri) puhul on kasutusjuhtudel nõuded sissetulevate andmete eeltöötlemiseks enne eelkoolitatud ML-mudeli käivitamist järelduste genereerimiseks. Lisaks võib mõnel juhul olla vaja genereeritud järeldusi täiendavalt töödelda, et neid saaksid allavoolurakendused hõlpsasti kasutada. Järelduskonveier võimaldab teil uuesti kasutada sama eeltöötluskoodi, mida kasutati mudeli koolituse ajal, et töödelda prognooside jaoks kasutatavaid järelduspäringu andmeid.

Mudeli hostimise mustrid rakenduses Amazon SageMaker, 1. osa: levinud disainimustrid ML-rakenduste loomiseks rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Äriloogika – ML-i tootmine hõlmab alati äriloogikat. Äriloogika mustrid hõlmavad kõike, mida on vaja ML-ülesande täitmiseks, mis ei ole ML-mudeli järeldus. See hõlmab mudeli laadimist Amazoni lihtne salvestusteenus (Amazon S3), näiteks andmebaasi otsingud sisendi kinnitamiseks, eelarvutatud funktsioonide hankimine funktsioonide poest jne. Pärast nende äriloogika sammude lõpetamist edastatakse sisendid ML-mudelitele.

Mudeli hostimise mustrid rakenduses Amazon SageMaker, 1. osa: levinud disainimustrid ML-rakenduste loomiseks rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

ML-i järeldamisvalikud

Mudeli juurutamiseks on oluline töötada oma kasutusjuhtumist tagasi. Mis on ennustuse sagedus? Kas ootate oma rakendusele reaalajas liiklust ja klientidele reaalajas reageerimist? Kas teil on palju mudeleid, mis on koolitatud sama kasutusjuhu jaoks erinevate andmete alamhulkade jaoks? Kas prognoositav liiklus kõigub? Kas järelduste latentsus on muret tekitav? Nende üksikasjade põhjal saab kõiki eelnevaid kujundusmustreid rakendada järgmiste juurutusvalikute abil.

Reaalajas järeldus – Reaalajas järeldus on ideaalne järelduste tegemiseks, kui teil on reaalajas, interaktiivsed ja madala latentsusega nõuded. Reaalajas ML-i järelduste töökoormused võivad hõlmata ühel mudelil põhinevat ML-rakendust, kus rakendus vajab ühe päringu teenindamiseks ainult ühte ML-mudelit, või mitme mudelipõhist ML-rakendust, kus rakendus nõuab ühe ML-i teenindamiseks mitut ML-mudelit. nõuda.
Peaaegu reaalajas (asünkroonne) järeldus - Peaaegu reaalajas järeldamise abil saate sissetulevad päringud järjekorda panna. Seda saab kasutada järelduste tegemiseks sadade MB suuruste sisendite kohta. See töötab peaaegu reaalajas ja võimaldab kasutajatel kasutada sisendit järelduste tegemiseks ja lugeda lõpp-punkti väljundit S3 ämbrist. See võib olla eriti kasulik NLP ja arvutinägemise korral, kus on suured kasulikud koormused, mis nõuavad pikemat eeltöötlusaega.
Partii järeldus - Partii järeldusi saab kasutada suure andmestiku võrguühenduseta järelduste tegemiseks. Kuna see töötab võrguühenduseta, ei paku pakettjäreldamine madalaimat latentsust. Siin töödeldakse järeldamistaotlust pakettjäreldamistöö ajastatud või sündmusepõhise käivitajaga.
Serverita järeldus - Serverivaba järeldus sobib ideaalselt töökoormuste jaoks, mille liiklusspurtide vahel on jõudeperioodid ja mis taluvad pärast jõudeolekuperioodi esimesel käivitamisel mõnesekundilist latentsust (külmkäivitus). Näiteks vestlusroboti teenus või rakendus vormide töötlemiseks või dokumentide andmete analüüsimiseks. Sel juhul võite soovida veebipõhist järeldamisvalikut, mis suudab automaatselt varustada ja skaleerida arvutusvõimsust järeldamispäringute mahu põhjal. Ja jõudeoleku ajal peaks see suutma arvutusvõimsuse täielikult välja lülitada, et teil ei tekiks tasu. Serveriteta järeldused eemaldavad serverite valimise ja haldamise raskused, käivitades automaatselt arvutusressursse ja skaleerides neid sõltuvalt liiklusest.

Kasutage sobivuse funktsioone, et valida õige ML-i järeldus

Õige hostimisvaliku üle otsustamine on oluline, kuna see mõjutab teie rakenduste renderdatavaid lõppkasutajaid. Sel eesmärgil laename kontseptsiooni fitness funktsioonid, mille lõi Neal Ford ja tema kolleegid AWS Partner ThoughtWorksist oma töös Evolutsioonilise arhitektuuri ehitamine. Fitnessi funktsioonid annavad ettekirjutava hinnangu erinevatele majutusvõimalustele, mis põhinevad kliendi eesmärkidel. Fitnessfunktsioonid aitavad teil hankida vajalikke andmeid, et võimaldada teie arhitektuuri kavandatud arengut. Nad määravad mõõdetavad väärtused, et hinnata, kui lähedal on teie lahendus seatud eesmärkide saavutamisele. Fitnessfunktsioone saab ja tuleks kohandada, kui arhitektuur areneb, et suunata soovitud muudatusprotsessi. See annab arhitektidele tööriista meeskonna juhtimiseks, säilitades samal ajal meeskonna autonoomia.

ML-mudelite ja rakenduste hostimiseks õige ML-i järelduse valikul on viis peamist treeningfunktsiooni, millest kliendid hoolivad.

Fitnessi funktsioon	Kirjeldus
Maksma	ML-mudeli ja ML-rakenduse juurutamine ja hooldamine skaleeritavas raamistikus on kriitiline äriprotsess ning kulud võivad suuresti erineda sõltuvalt mudeli hostimise infrastruktuuri, hostimisvaliku, ML-raamistike, ML-mudeli omaduste, optimeerimiste, skaleerimispoliitika, ja veel. Töökoormused peavad riistvara infrastruktuuri optimaalselt kasutama, et tagada kulude kontrolli all hoidmine. See sobivuse funktsioon viitab konkreetselt infrastruktuuri kuludele, mis on osa kogu omamise kulust (TCO). Infrastruktuuri kulud on salvestus-, võrgu- ja arvutuskulud. Samuti on oluline mõista teisi TCO komponente, sealhulgas tegevuskulusid ning turbe- ja vastavuskulusid. Tegevuskulud on ML infrastruktuuri käitamise, jälgimise ja hooldamise kombineeritud kulud. Tegevuskulud arvutatakse iga stsenaariumi alusel vajalike inseneride arvuna ja inseneride aastapalgana, mis on liidetud kindla perioodi jooksul. Kliendid, kes kasutavad isehallatavaid ML-lahendusi Amazon Elastic Compute Cloud (Amazon EC2), Amazoni elastsete konteinerite teenus (Amazon ECS) ja Amazoni elastse Kubernetese teenus (Amazon EKS) peavad ise töötööriistad looma. SageMakerit kasutavatel klientidel on oluliselt väiksem TCO. SageMakeri järeldus on täielikult hallatav teenus ja pakub ML-mudelite juurutamise võimalusi järelduste tegemiseks. Te ei pea ette valmistama eksemplare, jälgima eksemplari tervist, haldama turbevärskendusi või -paiku, väljastama töömõõdikuid ega koostama oma ML-i järelduste töökoormuste jälgimist. Sellel on sisseehitatud võimalused kõrge kättesaadavuse ja vastupidavuse tagamiseks. SageMaker toetab turvalisust täieliku krüptimisega puhkeolekus ja transpordi ajal, sealhulgas juurmahu ja Amazoni elastsete plokkide pood (Amazon EBS) maht, Amazoni virtuaalne privaatpilv (Amazon VPC) tugi, AWS PrivateLink, kliendi hallatavad võtmed, AWS-i identiteedi- ja juurdepääsuhaldus (IAM) peeneteraline juurdepääsukontroll, AWS CloudTrail auditid, sõlmedevaheline krüpteerimine koolituse jaoks, sildipõhine juurdepääsukontroll, võrgu isoleerimine ja interaktiivne rakenduste puhverserver. Kõik need turvafunktsioonid on SageMakeris karbist väljas ja võivad säästa ettevõtetel kümneid kuid arendustööst 3-aastase perioodi jooksul. SageMaker on HIPAA-kõlbulik teenus ning sellel on PCI, SOC, GDPR ja ISO sertifikaat. SageMaker toetab ka FIPS lõpp-punkte. TCO kohta lisateabe saamiseks vaadake Amazon SageMakeri kogu omamiskulu.
Järelduste latentsus	Paljud ML-i mudelid ja rakendused on latentsuskriitilised, mille puhul järelduste latentsus peab jääma teenusetaseme eesmärgiga määratud piiridesse. Järelduste latentsus sõltub paljudest teguritest, sealhulgas mudeli suurusest ja keerukusest, riistvaraplatvormist, tarkvarakeskkonnast ja võrguarhitektuurist. Näiteks suuremate ja keerukamate mudelite puhul võib järelduste tegemine kauem aega võtta.
Läbilaskevõime (tehinguid sekundis)	Mudeli järeldamiseks on läbilaskevõime optimeerimine jõudluse häälestamiseks ja ML-rakenduse ärieesmärgi saavutamiseks ülioluline. Kuna jätkame kiiret edenemist kõigis ML-i aspektides, sealhulgas matemaatiliste toimingute madala taseme rakendamisel kiibikujunduses, mängivad riistvaraspetsiifilised teegid jõudluse optimeerimisel suuremat rolli. ML-mudeli läbilaskevõimet mõjutavad mitmesugused tegurid, nagu kasulik koormuse suurus, võrgu hüpped, hüpete olemus, mudeli graafiku funktsioonid, mudeli operaatorid ning mudeli hostijuhtumite protsessor, graafikaprotsessor ja mäluprofiil.
Skaleerimise konfiguratsiooni keerukus	ML-mudelite või rakenduste jaoks on ülioluline töötada skaleeritavas raamistikus, mis suudab tulla toime erineva liikluse nõudlusega. See võimaldab ka CPU ja GPU ressursse maksimaalselt ära kasutada ning takistab arvutusressursside ülevarustamist.
Eeldatav liiklusmuster	ML-mudelitel või rakendustel võivad olla erinevad liiklusmustrid, ulatudes pidevast reaalajas reaalajas liiklusest kuni perioodiliste tippudeni tuhandete päringuteni sekundis ja harvaesinevatest ettearvamatutest päringumustritest kuni võrguühenduseta pakettpäringuteni suuremates andmekogudes. Soovitatav on töötada eeldatavast liiklusmustrist tagasi, et valida oma ML-mudeli jaoks õige hostimisvalik.

Mudelite juurutamine SageMakeriga

SageMaker on täielikult hallatav AWS-teenus, mis annab igale arendajale ja andmeteadlasele võimaluse kiiresti luua, koolitada ja mastaapselt juurutada ML-mudeleid. SageMakeri järelduse abil saate juurutada oma ML-mudeleid hostitud lõpp-punktides ja saada järeldustulemusi. SageMaker pakub laia valikut riistvara ja funktsioone, mis vastavad teie töökoormuse nõuetele, võimaldades teil valida riistvaralise kiirendusega üle 70 eksemplari tüübi. SageMaker võib pakkuda ka järelduste tüüpi soovitusi, kasutades uut funktsiooni nimega SageMaker Inference Recommender juhuks, kui te pole kindel, milline neist oleks teie töökoormuse jaoks kõige optimaalsem.

Saate valida juurutussuvandid, mis vastavad teie kasutusjuhtudele kõige paremini, näiteks reaalajas järeldused, asünkroonsed, pakett- ja isegi serverita lõpp-punktid. Lisaks pakub SageMaker erinevaid juurutamisstrateegiaid, nagu kanaarilind, sinine Roheline, vari, ja A/B-testimine mudeli juurutamiseks koos kulutõhusa juurutamisega mitme mudeli, mitme konteineri lõpp-punktide ja elastse skaleerimisega. SageMakeri järelduse abil saate vaadata oma lõpp-punktide jõudlusmõõdikuid Amazon CloudWatch, automaatselt skaleerida lõpp-punkte liikluse põhjal ja värskendage oma mudeleid tootmises ilma saadavust kaotamata.

SageMaker pakub nelja võimalust oma mudeli juurutamiseks, et saaksite hakata ennustama:

Reaalajas järeldus – See sobib töökoormustele, mille latentsusajad on millisekundid, kasuliku koormuse suurus kuni 6 MB ja töötlemisaeg kuni 60 sekundit.
Partii teisendus – See on ideaalne võrguühenduseta prognoosimiseks suurte andmehulkade puhul, mis on juba saadaval.
Asünkroonne järeldus – See on mõeldud töökoormustele, millel ei ole allasekundi latentsusnõudeid, kasuliku koormuse suurus kuni 1 GB ja töötlemisaeg kuni 15 minutit.
Serverita järeldus – Serverita järeldamisega saate kiiresti juurutada ML-mudeleid järelduste tegemiseks, ilma et peaksite konfigureerima või haldama aluseks olevat infrastruktuuri. Lisaks maksate ainult järeldustaotluste töötlemiseks kasutatava arvutusvõimsuse eest, mis sobib ideaalselt vahelduvate töökoormuste jaoks.

Järgmine diagramm aitab teil mõista SageMakeri hostimismudeli juurutamisvalikuid ja nendega seotud sobivuse funktsioonide hinnanguid.

Mudeli hostimise mustrid rakenduses Amazon SageMaker, 1. osa: levinud disainimustrid ML-rakenduste loomiseks rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Uurime üksikasjalikumalt kõiki juurutamisvõimalusi.

Reaalajas järeldused SageMakeris

SageMakeri reaalajas järeldamist soovitatakse, kui teil on pidev liiklus ja vajate kuni 6 MB kasuliku koormuse ja kuni 60-sekundilise töötlemisajaga päringute jaoks väiksemat ja ühtlast latentsust. Juurutate oma mudeli SageMakeri hostimisteenustesse ja saate lõpp-punkti, mida saab kasutada järelduste tegemiseks. Neid lõpp-punkte hallatakse täielikult ja need toetavad automaatset skaleerimist. Reaalajas järeldamine on populaarne kasutusjuhtudel, kus ootate madala latentsusajaga sünkroonset reaktsiooni prognoositavate liiklusmustritega, näiteks toodete ja teenuste isikupärastatud soovitused või tehingupettuste tuvastamise kasutusjuhtumid.

Tavaliselt saadab klientrakendus SageMakeri HTTPS-i lõpp-punktile päringuid, et saada juurutatud mudelist järeldusi. Saate juurutada mitu mudeli varianti samasse SageMakeri HTTPS-i lõpp-punkti. See on kasulik mudeli variatsioonide testimiseks tootmises. Automaatne skaleerimine võimaldab teil dünaamiliselt kohandada mudeli jaoks ette nähtud eksemplaride arvu vastavalt töökoormuse muutustele.

Järgmine tabel annab juhiseid SageMakeri reaalajas järelduste hindamiseks sobivuse funktsioonide põhjal.

Fitnessi funktsioon	Kirjeldus
Maksma	Reaalajas lõpp-punktid pakuvad sünkroonset vastust järeldustaotlustele. Kuna lõpp-punkt töötab alati ja on reaalajas sünkroonse järeldusvastuse pakkumiseks saadaval, maksate eksemplari kasutamise eest. Mitme lõpp-punkti juurutamisel võivad kulud kiiresti suureneda, eriti kui lõpp-punktid ei kasuta aluseks olevaid eksemplare täielikult ära. Mudeli jaoks õige eksemplari valimine aitab tagada, et teil on mudelite jaoks kõige tõhusam eksemplar madalaima hinnaga. Automaatne skaleerimine on soovitatav võimsuse dünaamiliseks reguleerimiseks sõltuvalt liiklusest, et säilitada ühtlane ja prognoositav jõudlus võimalikult madalate kuludega. SageMaker laiendab juurdepääsu Graviton2- ja Graviton3-põhistele ML-i eksemplariperedele. AWS Graviton protsessorid on kohandatud loonud Amazon Web Services, kasutades 64-bitiseid Arm Neoverse'i tuumasid, et pakkuda Amazon EC2-s töötava pilvetöökoormuste jaoks parimat hinda. Gravitonipõhiste eksemplaride puhul on teil ML-mudelite SageMakeris juurutamisel rohkem võimalusi kulude ja jõudluse optimeerimiseks. SageMaker toetab ka Inf1 juhtumid, mis pakub suure jõudlusega ja kulutõhusat ML-i järeldust. Koos 1.–16 AWS Inferentia kiibid Näiteks võivad Inf1 eksemplarid suurendada jõudlust ja pakkuda AWS-i GPU-põhiste eksemplaridega võrreldes kuni kolm korda suuremat läbilaskevõimet ja kuni 50% madalamat kulu järelduse kohta. Inf1 eksemplaride kasutamiseks SageMakeris saate oma koolitatud mudelid kompileerida kasutades Amazon SageMaker Neo ja valige Inf1 eksemplarid, et juurutada kompileeritud mudel SageMakeris. Samuti saate uurida SageMakeri säästuplaanid saada kasu kulude kokkuhoiust kuni 64% võrreldes tellitava hinnaga. Lõpp-punkti loomisel lisab SageMaker igale lõpp-punkti hostivale ML-i arvutuseksemplarile EBS-i salvestusmahu. Salvestusmahu suurus sõltub eksemplari tüübist. Reaalajas lõpp-punktide lisakulud hõlmavad GB-kuu eraldatud salvestusruumi maksumust, millele lisanduvad lõpp-punkti eksemplaris töödeldud GB andmed ja lõpp-punktist välja töödeldud GB andmed.
Järelduste latentsus	Reaalajas järeldus on ideaalne, kui vajate millisekundite latentsusnõuetega püsivat lõpp-punkti. See toetab kasuliku koorma suurust kuni 6 MB ja töötlemisaega kuni 60 sekundit.
Läbilaskevõime	Järelduste läbilaskevõime ideaalne väärtus sõltub sellistest teguritest nagu mudel, mudeli sisendi suurus, partii suurus ja lõpp-punkti eksemplari tüüp. Parima tavana vaadake üle CloudWatchi mõõdikud sisendpäringute ja ressursside kasutamise kohta ning valige optimaalse läbilaskevõime saavutamiseks sobiv eksemplari tüüp. Ärirakendus võib olla optimeeritud läbilaskevõimega või optimeeritud latentsusajaga. Näiteks võib dünaamiline komplekteerimine aidata suurendada latentsustundlike rakenduste läbilaskevõimet, kasutades reaalajas järeldusi. Siiski on partii suurusel piirangud, ilma milleta võib järelduste latentsusaeg mõjutada. Järelduste latentsus suureneb, kui suurendate läbilaskevõime parandamiseks partii suurust. Seetõttu on reaalajas järeldamine ideaalne võimalus latentsustundlike rakenduste jaoks. SageMaker pakub asünkroonse järelduse ja pakkteisenduse valikuid, mis on optimeeritud tagama suurema läbilaskevõime võrreldes reaalajas järeldustega, kui ärirakendused taluvad veidi suuremat latentsust.
Skaleerimise konfiguratsiooni keerukus	SageMakeri reaalajas lõpp-punktide tugi automaatne skaleerimine Karbist välja. Kui töökoormus suureneb, toob automaatne skaleerimine võrku rohkem eksemplare. Kui töökoormus väheneb, eemaldab automaatne skaleerimine mittevajalikud eksemplarid, mis aitab teil arvutuskulusid vähendada. Ilma automaatse skaleerimiseta peate ette nägema maksimaalse liikluse või riskimudeli kättesaamatuse. Kui teie mudeli liiklus ei ole kogu päeva jooksul ühtlane, on kasutamata võimsust üleliigne. See toob kaasa madala kasutamise ja ressursside raiskamise. SageMakeriga saate eeldatava liiklusmustri alusel konfigureerida erinevaid skaleerimisvalikuid. Lihtne skaleerimine või sihtmärgi jälgimise skaleerimine on ideaalne, kui soovite skaleerida konkreetse CloudWatchi mõõdiku alusel. Seda saate teha, valides konkreetse mõõdiku ja määrates läviväärtused. Selle valiku soovitatavad mõõdikud on keskmised `CPUUtilization` or `SageMakerVariantInvocationsPerInstance`. Kui vajate täpsemat konfigureerimist, saate määrata astmelise skaleerimise reegli, et dünaamiliselt kohandada skaleeritavate eksemplaride arvu häire rikkumise suuruse alusel. See aitab teil konfigureerida agressiivsemat reaktsiooni, kui nõudlus jõuab teatud tasemeni. Saate kasutada ajastatud skaleerimise valikut, kui teate, et nõudlus järgib päeva, nädala, kuu või aasta teatud ajakava. See aitab teil määrata ühekordse ajakava või korduva ajakava või cron-avaldisi koos algus- ja lõpuaegadega, mis määravad automaatse skaleerimise toimingu algus- ja lõpp-aja. Lisateavet leiate aadressilt Automaatse skaleerimise järelduste lõpp-punktide konfigureerimine rakenduses Amazon SageMaker ja Laadige test ja optimeerige Amazon SageMakeri lõpp-punkti automaatse skaleerimise abil.
Liiklusmuster	Reaalajas järeldus on ideaalne pideva või regulaarse liiklusmustriga töökoormuste jaoks.

Asünkroonne järeldus SageMakeris

SageMakeri asünkroonne järeldus on SageMakeri uus võimalus, mis seab sissetulevad päringud järjekorda ja töötleb neid asünkroonselt. See valik sobib ideaalselt suurte kasulike koormuste (kuni 1 GB), pikkade töötlemisaegade (kuni 15 minutit) ja peaaegu reaalajas latentsusnõuete jaoks. Asünkroonsete järelduste töökoormuste näideteks on tervishoiuettevõtted, kes töötlevad kõrvalekalde tuvastamiseks kõrge eraldusvõimega biomeditsiinilisi pilte või videoid, nagu ehhokardiogrammid. Need rakendused võtavad vastu sissetulevat liiklust erinevatel kellaaegadel ja vajavad peaaegu reaalajas töötlemist madala hinnaga. Nende päringute töötlemisajad võivad ulatuda minutite suurusjärgus, välistades vajaduse reaalajas järeldusi teha. Selle asemel saab sisendkoormust töödelda asünkroonselt objektipoest, näiteks Amazon S3, automaatse järjekorra ja eelmääratletud samaaegsuse lävega. Töötlemisel asetab SageMaker järeldusvastuse varem tagastatud Amazon S3 asukohta. Saate valikuliselt valida, kas soovite edu- või veateatisi saada Amazoni lihtne teavitusteenus (Amazon SNS).

Järgmine tabel annab juhiseid SageMakeri asünkroonse järelduse hindamiseks sobivuse funktsioonide põhjal.

Fitnessi funktsioon	Kirjeldus
Maksma	Asünkroonne järeldus on suurepärane valik kulutundlike töökoormuste jaoks, millel on suur kandevõime ja sarivõtteliiklus. Asünkroonne järeldus võimaldab teil säästa kulusid, skaleerides eksemplaride arvu automaatselt nullini, kui töödeldavaid taotlusi pole, nii et maksate ainult siis, kui teie lõpp-punkt töötleb taotlusi. Päringud, mis saadakse siis, kui eksemplare on null, pannakse pärast lõpp-punkti skaleerimist töötlemise järjekorda.
Järelduste latentsus	Asünkroonne järeldus on ideaalne peaaegu reaalajas latentsusnõuete jaoks. Päringud asetatakse järjekorda ja neid töödeldakse niipea, kui arvutus on saadaval. Selle tulemuseks on tavaliselt kümnete millisekundite latentsusaeg.
Läbilaskevõime	Asünkroonne järeldus on ideaalne mittelatentsustundlikel kasutusjuhtudel, sest rakendused ei pea läbilaskevõimes järeleandmisi tegema. Päringuid ei jäeta ära liikluse hüpete ajal, kuna asünkroonse järelduse lõpp-punkt seab päringud järjekorda, mitte ei loobu neid.
Skaleerimise konfiguratsiooni keerukus	SageMaker toetab automaatne skaleerimine asünkroonse lõpp-punkti jaoks. Erinevalt reaalajas hostitud lõpp-punktidest toetavad asünkroonse järelduse lõpp-punktid eksemplaride skaleerimist nullini, määrates minimaalse võimsuse nulliks. Asünkroonsete lõpp-punktide puhul soovitab SageMaker tungivalt luua juurutatud mudeli (variandi) sihtmärgi jälgimise skaleerimiseks poliitikakonfiguratsiooni. Kasutusjuhtudel, mis taluvad mõneminutilist külmkäivituse trahvi, saate soovi korral vähendada lõpp-punkti esinemisjuhtumite arvu nullini, kui täitmata päringuid pole, ja suurendada uute taotluste saabudes, nii et maksate ainult selle aja eest, mil lõpp-punktid töötlevad taotlusi aktiivselt.
Liiklusmuster	Asünkroonsed lõpp-punktid panevad sissetulevad päringud järjekorda ja töötlevad neid asünkroonselt. Need on hea valik vahelduvate või harvaesinevate liiklusmustrite jaoks.

Partii järeldus SageMakeris

SageMakeri pakkteisendus sobib ideaalselt võrguühenduseta prognoosimiseks suurte andmehulkade puhul, mis on juba saadaval. Pakettmuundamisfunktsioon on suure jõudlusega ja suure läbilaskevõimega meetod andmete teisendamiseks ja järelduste tegemiseks. See sobib ideaalselt stsenaariumide jaoks, kus on tegemist suurte andmehulkadega, te ei vaja alamsekundi latentsusaega või peate treeningandmeid nii eeltöötlema kui ka teisendama. Teatud valdkondades, nagu reklaam ja turundus või tervishoid, peavad kliendid sageli tegema võrguühenduseta ennustusi hüperskaala andmekogumite kohta, kus kasutusjuhtumi eesmärk on sageli suur läbilaskevõime ja latentsus ei ole probleem.

Kui pakettteisendustöö käivitub, lähtestab SageMaker arvutusjuhtumid ja jaotab nende vahel järelduste töökoormuse. See vabastab ressursid, kui tööd on lõpetatud, nii et maksate ainult selle eest, mida teie töö käigus kasutati. Kui töö on lõpetatud, salvestab SageMaker ennustuse tulemused teie määratud S3 ämbrisse. Partii järeldamisülesanded on tavaliselt head kandidaadid horisontaalseks skaleerimiseks. Iga klastri töötaja saab töötada erineva andmehulgaga, ilma et oleks vaja teiste töötajatega teavet vahetada. AWS pakub mitut salvestus- ja arvutusvalikut, mis võimaldavad horisontaalset skaleerimist. SageMakeri pakkteisenduste töökoormuse näited hõlmavad võrguühenduseta rakendusi, näiteks pangarakendusi, mis ennustavad klientide katkemist, kui võrguühenduseta töö saab perioodiliselt käitada.

Järgmine tabel annab juhiseid SageMakeri partii teisenduse hindamiseks sobivuse funktsioonide põhjal.

Fitnessi funktsioon	Kirjeldus
Maksma	SageMakeri partii teisendus võimaldab teil käivitada ennustusi suurte või väikeste partiiandmete puhul. Teilt võetakse tasu valitud eksemplari tüübi eest, olenevalt kasutamise kestusest. SageMaker haldab ressursside varustamist töö alguses ja vabastab need pärast töö lõpetamist. Täiendavaid andmetöötluskulusid ei kaasne.
Järelduste latentsus	Saate kasutada sündmusepõhist või ajastatud kutsumist. Latentsusaeg võib varieeruda olenevalt järeldusandmete suurusest, töö samaaegsusest, mudeli keerukusest ja arvutuseksemplari võimsusest.
Läbilaskevõime	Pakettmuundamistöid saab teha mitmesugustes andmekogumites, alates petabaitidest kuni väga väikeste andmekogumiteni. Pole vaja muuta suuremate andmekogumite suurust väikesteks andmetükkideks. Saate kiirendada partii teisendustöid, kasutades optimaalseid väärtusi selliste parameetrite jaoks nagu MaxPayloadInMB, Max ConcurrentTransformsvõi Partiistrateegia. Ideaalne väärtus `MaxConcurrentTransforms` on võrdne arvutustööliste arvuga pakkteisendustöös. Paketttöötlus võib suurendada läbilaskevõimet ja optimeerida teie ressursse, kuna see aitab latentsusaja arvelt teatud aja jooksul lõpule viia suurema hulga järeldusi. Mudeli juurutamise optimeerimiseks suurema läbilaskevõime saavutamiseks on üldine juhis suurendada partii suurust, kuni läbilaskevõime väheneb.
Skaleerimise konfiguratsiooni keerukus	SageMakeri partii teisendust kasutatakse võrguühenduseta järelduste tegemiseks, mis ei ole latentsustundlik.
Liiklusmuster	Võrguühenduseta järelduste tegemiseks ajastatakse või käivitatakse pakettteisendustöö sündmusepõhise päästiku abil.

Serverita järeldused SageMakeris

SageMakeri serverita järeldus võimaldab juurutada ML-mudeleid järelduste tegemiseks, ilma et peaksite konfigureerima või haldama aluseks olevat infrastruktuuri. Teie mudeli poolt vastuvõetud järelduspäringute mahu põhjal loob SageMaker serverita järeldus automaatselt, skaleerib ja lülitab arvutusvõimsuse välja. Selle tulemusena maksate ainult oma järelduskoodi käitamiseks kulunud arvutusaja ja töödeldud andmete hulga, mitte jõudeaja eest. Saate kasutada SageMakeri sisseehitatud algoritme ja ML-i raamistikku teenindavaid konteinereid, et juurutada oma mudel serverita järelduse lõpp-punkti või tuua kaasa oma konteineri. Kui liiklus muutub prognoositavaks ja stabiilseks, saate hõlpsalt värskendada serverita järeldusotspunktilt SageMakeri reaalajas lõpp-punktiks, ilma et peaksite oma konteineri kujutist muutma. Serverita järeldamisega saate kasu ka muudest SageMakeri funktsioonidest, sealhulgas sisseehitatud mõõdikutest, nagu kutsete arv, tõrked, latentsus, hostimõõdikud ja CloudWatchi vead.

Järgmine tabel annab juhiseid SageMakeri serverita järelduste hindamiseks treeningfunktsioonide põhjal.

Fitnessi funktsioon	Kirjeldus
Maksma	Käituspõhise tasustamise mudeli puhul on serverita järelduste tegemine kulutõhus valik, kui liiklusmustrid on harvad või katkendlikud. Maksate ainult selle kestuse eest, mille jooksul lõpp-punkt päringut töötleb, ja seetõttu saate kulusid kokku hoida, kui liiklusmuster on katkendlik.
Järelduste latentsus	Serverivabad lõpp-punktid pakuvad madalat järelduste latentsust (suurusjärgus millisekunditest sekunditeni) koos võimalusega skaleerida kasutusmustrite põhjal sekundite jooksul kümnetest järeldustest tuhandeteni, muutes selle ideaalseks katkendliku või ettearvamatu liiklusega ML-rakenduste jaoks. Kuna serverita lõpp-punktid arvutavad ressursse nõudmisel, võib teie lõpp-punktil pärast jõudeolekuperioodi esimesel kutsumisel tekkida mõni lisasekundiline latentsusaeg (külmkäivitus). Külmkäivitusaeg sõltub teie mudeli suurusest, mudeli allalaadimiseks kuluvast ajast ja konteineri käivitusajast.
Läbilaskevõime	Serverita lõpp-punkti konfigureerimisel saate määrata mälumahu ja samaaegsete kutsete maksimaalse arvu. SageMakeri serverita järeldus määrab automaatselt arvutusressursid proportsionaalselt teie valitud mäluga. Kui valite suurema mälumahu, on teie konteineril juurdepääs rohkematele vCPU-dele. Üldreeglina peaks mälumaht olema vähemalt sama suur kui teie mudeli suurus. Mälu suurused, mida saate valida, on 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB ja 6144 MB. Sõltumata valitud mälu suurusest on serverita lõpp-punktidel saadaval 5 GB lühiajalist kettaruumi.
Skaleerimise konfiguratsiooni keerukus	Serverita lõpp-punktid käivitavad automaatselt arvutusressursid ja skaleerivad neid sõltuvalt liiklusest sisse ja välja, välistades vajaduse valida eksemplaritüüpe või hallata skaleerimispoliitikaid. See eemaldab serverite valimise ja haldamise eristamata raskused.
Liiklusmuster	Serverita järeldamine sobib ideaalselt harvaesinevate või katkendlike liiklusmustritega töökoormuste jaoks.

Mudelimajutuse disainimustrid SageMakeris

SageMakeri järelduste lõpp-punktid kasutavad ML-mudelite hostimiseks Dockeri konteinereid. Konteinerid võimaldavad teil tarkvara pakkida standardsetesse üksustesse, mis töötavad järjepidevalt mis tahes platvormil, mis toetab Dockerit. See tagab kaasaskantavuse platvormide vahel, muutumatu infrastruktuuri juurutamise ning lihtsama muudatuste haldamise ja CI/CD juurutamise. SageMaker pakub eelehitatud hallatud konteinereid selliste populaarsete raamistike jaoks nagu Apache MXNet, TensorFlow, PyTorch, Sklearn ja Hugging Face. Saadaolevate SageMakeri konteineri piltide täieliku loendi leiate aadressilt Saadaolevad süvaõppekonteinerite pildid. Kui SageMakeril pole toetatud konteinerit, saate luua ka oma konteineri (BYOC) ja lükata oma kohandatud pildi, installides teie mudeli jaoks vajalikud sõltuvused.

Mudeli juurutamiseks SageMakeris on teil vaja konteinerit (SageMakeri hallatud raamistiku konteinerid või BYOC) ja konteineri hostimiseks arvutuseksemplari. SageMaker toetab tavaliste ML-mudelite hostimise kujundusmustrite jaoks mitut täiustatud valikut, kus mudeleid saab majutada ühes konteineris või ühises konteineris.

Reaalajas ML-rakendus võib ühe ennustuspäringu teenindamiseks kasutada ühte mudelit või mitut mudelit. Järgmine diagramm näitab ML-rakenduse erinevaid järeldusstsenaariume.

Mudeli hostimise mustrid rakenduses Amazon SageMaker, 1. osa: levinud disainimustrid ML-rakenduste loomiseks rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Uurime iga eelneva järeldusstsenaariumi jaoks sobivat SageMakeri hostimisvalikut. Võite vaadata sobivuse funktsioone, et hinnata, kas see on antud kasutusjuhtumi jaoks õige valik.

Ühe mudelipõhise ML-rakenduse hostimine

Ühe mudelipõhiste ML-rakenduste majutamiseks, kasutades SageMakeri hostimisteenuseid, on olenevalt juurutamise stsenaariumist mitu võimalust.

Ühe mudeli lõpp-punkt

SageMakeri ühe mudeli lõpp-punktid võimaldavad väikese latentsuse ja suure läbilaskevõime tagamiseks hostida ühte mudelit spetsiaalsetel eksemplaridel hostitud konteineris. Neid lõpp-punkte hallatakse täielikult ja need toetavad automaatset skaleerimist. Saate konfigureerida ühe mudeli lõpp-punkti ettevalmistatud lõpp-punktina, kus edastate lõpp-punkti infrastruktuuri konfiguratsiooni (nt eksemplari tüüp ja arv), või serverita lõpp-punkti, kus SageMaker käivitab automaatselt arvutusressursse ja skaleerib neid sõltuvalt liiklusest sisse ja välja, kõrvaldades vajaduse eksemplaritüüpide valimiseks või skaleerimispoliitika haldamiseks. Serverita lõpp-punktid on mõeldud katkendliku või ettearvamatu liiklusega rakendustele.

Järgmine diagramm näitab ühe mudeli lõpp-punkti järeldusstsenaariume.

Mudeli hostimise mustrid rakenduses Amazon SageMaker, 1. osa: levinud disainimustrid ML-rakenduste loomiseks rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Järgmine tabel annab juhiseid ette nähtud ühe mudeli lõpp-punkti sobivuse funktsioonide hindamiseks. Serverita lõpp-punkti sobivuse funktsioonide hindamiseks vaadake selle postituse serverita lõpp-punkti jaotist.

Fitnessi funktsioon	Kirjeldus
Maksma	Teilt võetakse teie valitud eksemplari tüübi kasutamise eest tasu. Kuna lõpp-punkt töötab ja on alati saadaval, võivad kulud kiiresti suureneda. Mudeli jaoks õige eksemplari valimine aitab tagada, et teil on mudelite jaoks kõige tõhusam eksemplar madalaima hinnaga. Automaatne skaleerimine on soovitatav võimsuse dünaamiliseks reguleerimiseks sõltuvalt liiklusest, et säilitada ühtlane ja prognoositav jõudlus võimalikult madalate kuludega.
Järelduste latentsus	Ühe mudeli lõpp-punkt pakub reaalajas interaktiivset sünkroonset järeldust millisekundite latentsusnõuetega.
Läbilaskevõime	Läbilaskevõimet võivad mõjutada mitmesugused tegurid, nagu mudeli sisendi suurus, partii suurus, lõpp-punkti eksemplari tüüp jne. Soovitatav on vaadata üle CloudWatchi mõõdikud sisendpäringute ja ressursikasutuse kohta ning valida optimaalse läbilaskevõime saavutamiseks sobiv eksemplari tüüp. SageMaker pakub funktsioone ressursside haldamiseks ja järelduste toimivuse optimeerimiseks ML-mudelite juurutamisel. Sa saad optimeerige mudeli jõudlust Neo abilvõi kasutage SageMakeri hostitud mudelite paremaks läbilaskevõimeks Inf1 eksemplare, kasutades lõpp-punkti GPU eksemplari.
Skaleerimise konfiguratsiooni keerukus	Automaatset skaleerimist toetatakse juba karbist välja. SageMaker soovitab valida sobiva skaleerimise konfiguratsioon esinemise teel koormustestid.
Liiklusmuster	Ühe mudeli lõpp-punkt sobib ideaalselt prognoositavate liiklusmustritega töökoormuste jaoks.

Mitme mudeli kaasmajutamine

Kui tegemist on suure hulga mudelitega, võib igaühe juurutamine eraldi lõpp-punktis koos spetsiaalse konteineri ja eksemplariga kaasa tuua märkimisväärse kulude suurenemise. Lisaks muutub nii paljude tootmises olevate mudelite haldamine keeruliseks, eriti kui teil pole vaja kõiki mudeleid korraga käivitada, kuid siiski on vaja, et need oleksid kogu aeg saadaval. Mitme mudeli kaashostimine samadel aluseks olevatel arvutusressurssidel muudab ML-i juurutamise mastaabis haldamise lihtsaks ja vähendab teie hostimiskulusid lõpp-punkti ja selle aluseks olevate arvutusressursside suurema kasutamise tõttu. SageMaker toetab täiustatud mudeli kaashostimise valikuid, nagu mitme mudeli lõpp-punkt (MME) homogeensete mudelite jaoks ja mitme konteineri lõpp-punkt (MCE) heterogeensete mudelite jaoks. Homogeensed mudelid kasutavad jagatud teenuse konteineris sama ML-i raamistikku, samas kui heterogeensed mudelid võimaldavad juurutada mitu teeninduskonteinerit, mis kasutavad ühes lõpp-punktis erinevaid mudeleid või raamistikke.

Järgmine diagramm näitab mudeli kaashostimise võimalusi SageMakeri abil.

Mudeli hostimise mustrid rakenduses Amazon SageMaker, 1. osa: levinud disainimustrid ML-rakenduste loomiseks rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

SageMakeri mitme mudeli lõpp-punktid

SageMaker MME-d võimaldab hostida mitut mudelit, kasutades jagatud esituskonteinerit ühes lõpp-punktis. See on skaleeritav ja kulutõhus lahendus suure hulga mudelite juurutamiseks, mis vastavad samale kasutusjuhtumile, raamistikule või järeldusloogikale. MME-d saavad dünaamiliselt teenindada päringuid, mis põhinevad helistaja poolt välja kutsutud mudelil. See vähendab ka juurutamise üldkulusid, kuna SageMaker haldab mudelite mällu laadimist ja nende skaleerimist nende liiklusmustrite alusel. See funktsioon on ideaalne, kui teil on palju sarnaseid mudeleid, mida saate serveerida jagatud serveerimismahuti kaudu ja teil pole vaja korraga juurdepääsu kõigile mudelitele. Mitme mudeli lõpp-punktid võimaldavad ka mäluressursside ajajagamist teie mudelite vahel. See toimib kõige paremini, kui mudelid on oma suuruse ja väljakutsumise latentsuse poolest üsna sarnased, võimaldades MME-del eksemplare tõhusalt kasutada kõigis mudelites. SageMakeri MME-d toetavad nii CPU kui ka GPU-ga toetatud mudelite hostimist. Kasutades GPU-ga toetatud mudeleid, saate lõpp-punkti ja selle aluseks olevate kiirendatud arvutusjuhtumite suurema kasutamise kaudu vähendada oma mudeli juurutamiskulusid. MME-de tegeliku kasutamise juhtumite kohta vaadake Kuidas skaleerida masinõppe järeldust mitme rentniku SaaS-i kasutusjuhtude jaoks.

Järgmine tabel annab juhiseid MME-de sobivuse funktsioonide hindamiseks.

Fitnessi funktsioon	Kirjeldus
Maksma	MME-d võimaldavad kasutada jagatud teeninduskonteinerit tuhandete mudelite majutamiseks ühes lõpp-punktis. See vähendab oluliselt hostimiskulusid, parandades lõpp-punkti kasutamist võrreldes ühe mudeli lõpp-punktide kasutamisega. Näiteks kui teil on 10 mudelit, mida juurutada, kasutades eksemplari ml.c5.large, mis põhineb SageMakeri hinnakujundus, on 10 ühe mudeli püsiva lõpp-punkti maksumus: 10 * 0.102 $ = 1.02 $ tunnis. Kui ühe MME-ga, mis majutab 10 mudelit, saavutame 10-kordse kulude kokkuhoiu: 1 * 0.102 $ = 0.102 $ tunnis.
Järelduste latentsus	Vaikimisi salvestavad MME-d sageli kasutatavad mudelid mällu ja kettale vahemällu, et teha väikese latentsusega järeldusi. Vahemällu salvestatud mudelid laaditakse maha või kustutatakse kettalt ainult siis, kui konteineris saab uue sihitud mudeli jaoks mälu- või kettaruum otsa. MME-d võimaldavad mudelite laiska laadimist, mis tähendab, et mudelid laaditakse esmakordsel käivitamisel mällu. See optimeerib mälukasutust; see põhjustab aga reageerimisaja hüppeid esimesel laadimisel, mille tulemuseks on külmkäivituse probleem. Seetõttu sobivad MME-d hästi ka stsenaariumide jaoks, mis taluvad aeg-ajalt külmkäivitusega seotud latentsuskaristusi, mis ilmnevad harva kasutatavate mudelite käivitamisel. ML-rakenduste latentsus- ja läbilaskevõimeeesmärkide saavutamiseks eelistatakse GPU eksemplare CPU eksemplaridele (arvestades GPU-de arvutusvõimsust). GPU MME toega saate ühe SageMakeri lõpp-punkti taga juurutada tuhandeid süvaõppemudeleid. MME-d saavad GPU tuumal käitada mitut mudelit, jagada GPU eksemplare lõpp-punkti taga mitme mudeli vahel ning dünaamiliselt laadida ja maha laadida mudeleid sissetuleva liikluse põhjal. Sellega saate oluliselt säästa kulusid ja saavutada parima hinnanäitaja. Kui teie kasutusjuhtum nõuab oluliselt suuremaid tehingute arvu sekundis (TPS) või latentsusaja nõudeid, soovitame majutada mudeleid spetsiaalsetes lõpp-punktides.
Läbilaskevõime	MME järelduste läbilaskevõime ideaalne väärtus sõltub sellistest teguritest nagu mudel, kasuliku koormuse suurus ja lõpp-punkti eksemplari tüüp. Suurem hulk eksemplari mälu võimaldab teil laadida rohkem mudeleid ja olla valmis järeldustaotlusi teenindama. Te ei pea mudeli laadimisele aega raiskama. Suurem arv vCPU-sid võimaldab teil samaaegselt käivitada rohkem unikaalseid mudeleid. MME-d laadivad mudelit dünaamiliselt eksemplari mällu ja sealt maha, mis võib mõjutada I/O jõudlust. GPU-ga SageMaker MME-d töötavad kasutades NVIDIA Tritoni järeldusserver, mis on avatud lähtekoodiga järelduste teenindamise tarkvara, mis lihtsustab järelduste esitamise protsessi ja tagab kõrge järelduste jõudluse. SageMaker laadib mudeli GPU kiirendatud eksemplari NVIDIA Tritoni konteineri mällu ja teenindab järelduspäringu. GPU tuuma jagavad kõik eksemplari mudelid. Kui mudel on konteineri mällu juba laaditud, edastatakse järgmised päringud kiiremini, kuna SageMaker ei pea seda alla laadima ja uuesti laadima. Edukate tootmisrakenduste puhul on soovitatav läbi viia korralik jõudluse testimine ja analüüs. SageMaker pakub CloudWatchi mõõdikuid mitme mudeli lõpp-punktide jaoks, et saaksite oma lõpp-punkti optimeerimiseks määrata lõpp-punkti kasutuse ja vahemälu tabamussageduse.
Skaleerimise konfiguratsiooni keerukus	SageMakeri mitme mudeli lõpp-punktid toetavad täielikult automaatset skaleerimist, mis haldab mudelite koopiaid, et tagada mudelite skaleerimine liiklusmustrite alusel. Siiski on soovitatav läbi viia korralik koormustest, et määrata eksemplaride optimaalne suurus lõpp-punkti automaatseks skaleerimiseks. MME-pargi õige suurus on oluline, et vältida liiga paljude mudelite mahalaadimist. Sadade mudelite laadimine mõnele suuremale eksemplarile võib mõnel juhul põhjustada piiranguid ning eelistada võiks rohkemate ja väiksemate eksemplaride kasutamist. SageMakeri automaatse mudeli skaleerimise eeliste kasutamiseks veenduge, et teil on eksemplari automaatse skaleerimise seadistamine et pakkuda täiendavat eksemplari võimsust. Seadistage lõpp-punkti tasemel skaleerimispoliitika kas kohandatud parameetrite või väljakutsete arvuga minutis (soovitatav), et lisada lõpp-punktiparki rohkem eksemplare. Automaatse mastaabi sündmuse käivitamiseks kasutatavad kutsumismäärad põhinevad ennustuste koondkomplektil, mis hõlmab lõpp-punkti teenindatavate mudelite kogumit.
Liiklusmuster	MME-d on ideaalsed, kui teil on palju sarnase suurusega mudeleid, mida saate jagada jagatud serveerimismahuti kaudu ja teil pole vaja korraga juurdepääsu kõigile mudelitele.

SageMakeri mitme konteineri lõpp-punktid

SageMaker MCE-d toetab kuni 15 konteineri juurutamist, mis kasutavad ühes lõpp-punktis erinevaid mudeleid või raamistikke, ja nende iseseisvalt või järjestikust väljakutsumist madala latentsusajaga järelduste tegemiseks ja kulude kokkuhoiuks. Mudelid võivad olla täiesti heterogeensed ja neil on oma sõltumatu serveerimispakk. Mitme mudeli turvaline hostimine erinevatest raamistikest ühel eksemplaril võib säästa kuni 90% kulusid.

MCE kutsumismustrid on järgmised:

Järeldustorustikud – MME konteinereid saab käivitada lineaarses järjestuses, mida tuntakse ka kui a jadajärelduskonveier. Tavaliselt kasutatakse neid eeltöötluse, mudeli järelduste ja järeltöötluse eraldamiseks sõltumatutesse konteineritesse. Praeguse konteineri väljund edastatakse sisendina järgmisele. Need on SageMakeris esitatud ühe torujuhtme mudelina. Järelduskonveieri saab juurutada MME-na, kus üks konveieri konteineritest saab dünaamiliselt teenindada päringuid, mis põhinevad käivitataval mudelil.
Otsene kutsumine - Koos otsene kutsumine, saab päringu saata konkreetsesse MCE-s hostitud järelduskonteinerisse.

Järgmine tabel annab juhiseid MCE-de sobivuse funktsioonide hindamiseks.

Fitnessi funktsioon	Kirjeldus
Maksma	MCE-d võimaldavad teil ühes lõpp-punktis käitada kuni 15 erinevat ML-konteinerit ja neid iseseisvalt kutsuda, säästes sellega kulusid. See suvand on ideaalne, kui teil on mitu mudelit, mis töötab erinevatel samade ressursivajadustega serveerimispakkidel, ja kui üksikutel mudelitel pole lõpp-punkti eksemplaride täisvõimsuse ärakasutamiseks piisavalt liiklust. Seetõttu on MCE-d kuluefektiivsemad kui ühe mudeli lõpp-punkt. MCE-d pakuvad sünkroonset järeldusvastust, mis tähendab, et lõpp-punkt on alati saadaval ja maksate eksemplari tööaja eest. Kulud võivad suureneda sõltuvalt juhtumite arvust ja tüübist.
Järelduste latentsus	MCE-d sobivad ideaalselt erinevate ML-raamistike ja algoritmidega ML-rakenduste käitamiseks iga mudeli jaoks, millele pääseb juurde harva, kuid mis nõuavad siiski madala latentsusajaga järeldusi. Mudelid on alati saadaval madala latentsusajaga järelduste tegemiseks ja külmkäivituse probleemi pole.
Läbilaskevõime	MCE-d on mitme konteineriga lõpp-punktis piiratud kuni 15 konteineriga ja GPU järeldusi ei toetata ressursikonkurentsi tõttu. Otsese kutsumisrežiimi kasutavate mitme konteineri lõpp-punktide jaoks pakub SageMaker mitte ainult eksemplari tasemel mõõdikuid, nagu see on muude levinud lõpp-punktide puhul, vaid toetab ka konteineripõhiseid mõõdikuid. Parima tavana vaadake üle CloudWatchi mõõdikud sisendpäringute ja ressursside kasutamise kohta ning valige optimaalse läbilaskevõime saavutamiseks sobiv eksemplari tüüp.
Skaleerimise konfiguratsiooni keerukus	MCE-d toetavad automaatset skaleerimist. Siiski on automaatse skaleerimise konfigureerimiseks soovitatav, et igas konteineris olev mudel näitaks iga järelduspäringu puhul sarnast protsessori kasutust ja latentsust. See on soovitatav, sest kui liiklus mitmest konteinerist koosnevasse lõpp-punkti nihkub madala CPU kasutusega mudelilt kõrge CPU kasutusega mudelile, kuid kõne üldine maht jääb samaks, siis lõpp-punkti ei skaleerita ja juhtumeid ei pruugi olla piisavalt. et käsitleda kõiki taotlusi kõrge protsessori kasutusega mudelile.
Liiklusmuster	MCE-d sobivad ideaalselt pidevate või regulaarsete liiklusmustritega töökoormuste jaoks, mudelite hostimiseks erinevates raamistikes (nt TensorFlow, PyTorch või Sklearn), millel ei pruugi olla piisavalt liiklust lõpp-punkti eksemplari täisvõimsuse küllastamiseks.

Mitme mudelipõhise ML-rakenduse hostimine

Paljud ärirakendused peavad kasutama mitut ML-mudelit, et esitada oma tarbijatele üks ennustuspäring. Näiteks jaemüügiettevõte, kes soovib oma kasutajatele soovitusi anda. ML-rakendus võib sel juhul soovida erinevate tootekategooriate soovitamiseks kasutada erinevaid kohandatud mudeleid. Kui ettevõte soovib lisada soovitustele isikupärastamist, kasutades individuaalset kasutajateavet, suureneb kohandatud mudelite arv veelgi. Iga kohandatud mudeli majutamine eraldi arvutuseksemplaris pole mitte ainult kallis, vaid põhjustab ka hostimisressursside alakasutamist, kui kõiki mudeleid sageli ei kasutata. SageMaker pakub tõhusaid hostimisvõimalusi mitmel mudelil põhinevate ML-rakenduste jaoks.

Järgmine diagramm näitab mitme mudeli hostimisvõimalusi ühe lõpp-punkti jaoks, kasutades SageMakerit.

Mudeli hostimise mustrid rakenduses Amazon SageMaker, 1. osa: levinud disainimustrid ML-rakenduste loomiseks rakenduses Amazon SageMaker PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Jadajärelduskonveier

Järelduste konveier on SageMakeri mudel, mis koosneb 2–15 konteinerist koosnevast lineaarsest jadast, mis töötleb andmete järeldamistaotlusi. Kasutate järelduskonveieri, et määratleda ja juurutada mis tahes kombinatsiooni eelkoolitatud SageMakeri sisseehitatud algoritmidest ja teie enda kohandatud algoritmidest, mis on pakitud Dockeri konteineritesse. Eeltöötluse, prognooside ja järeltöötluse andmeteaduslike ülesannete kombineerimiseks saate kasutada järelduskonveieri. Ühe konteineri väljund edastatakse sisendina järgmisele. Konteinerite määratlemisel konveierimudeli jaoks määrate ka konteinerite käitamise järjekorra. Need on SageMakeris esitatud ühe torujuhtme mudelina. Järelduskonveieri saab juurutada MME-na, kus üks konveieri konteineritest saab dünaamiliselt teenindada päringuid, mis põhinevad käivitataval mudelil. Samuti võite joosta a partii teisendus töö järelduskonveieriga. Järelduste torujuhtmeid hallatakse täielikult.

Järgmises tabelis on juhised ML-mudelite hostimise sobivuse funktsioonide hindamiseks, kasutades jadajärelduskonveierit.

Fitnessi funktsioon	Kirjeldus
Maksma	Jadajärelduskonveier võimaldab teil ühes lõpp-punktis käitada kuni 15 erinevat ML-konteinerit, mis viib järelduskonteinerite hostimise kulutasuvuseni. Selle funktsiooni kasutamise eest ei kaasne lisakulusid. Maksate ainult lõpp-punktis töötavate eksemplaride eest. Kulud võivad suureneda sõltuvalt juhtumite arvust ja tüübist.
Järelduste latentsus	Kui ML-rakendus juurutatakse järelduste konveierina, ei jäta erinevate mudelite vahelised andmed konteineriruumi. Funktsioonide töötlemine ja järeldused töötavad väikese latentsusega, kuna konteinerid asuvad samadel EC2 eksemplaridel.
Läbilaskevõime	Järelduskonveieri mudelis käsitleb SageMaker kutseid HTTP-päringute jadana. Konveieri esimene konteiner käsitleb esialgset päringut, seejärel saadetakse vahevastus päringuna teisele konteinerile ja nii edasi iga torujuhtme konteineri kohta. SageMaker tagastab kliendile lõpliku vastuse. Läbilaskevõime sõltub sellistest teguritest nagu mudel, mudeli sisendi suurus, partii suurus ja lõpp-punkti eksemplari tüüp. Parima tavana vaadake üle CloudWatchi mõõdikud sisendpäringute ja ressursside kasutamise kohta ning valige optimaalse läbilaskevõime saavutamiseks sobiv eksemplari tüüp.
Skaleerimise konfiguratsiooni keerukus	Jadajärelduskonveierid toetavad automaatset skaleerimist. Siiski on automaatse skaleerimise konfigureerimiseks soovitatav, et igas konteineris olev mudel näitaks iga järelduspäringu puhul sarnast protsessori kasutust ja latentsust. See on soovitatav, sest kui liiklus mitme konteineriga lõpp-punktini nihkub madala CPU kasutusega mudelilt kõrge CPU kasutusega mudelile, kuid kõne üldine maht jääb samaks, siis lõpp-punkti ei skaleerita ja juhtumeid ei pruugi olla piisavalt käsitleb kõiki taotlusi kõrge protsessori kasutamise mudelile.
Liiklusmuster	Jadajärelduskonveierid sobivad ideaalselt prognoositavate liiklusmustrite jaoks mudelitega, mis töötavad järjestikku samas lõpp-punktis.

Mudelansamblite juurutamine (Triton DAG):

SageMaker pakub integreerimist NVIDIA Tritoni järeldusserver läbi Tritoni järeldusserveri konteinerid. Need konteinerid sisaldavad NVIDIA Triton Inference Serverit, tavaliste ML-raamistike tuge ja kasulikke keskkonnamuutujaid, mis võimaldavad optimeerida SageMakeri jõudlust. NVIDIA Tritoni konteinerkujutistega saate hõlpsasti teenindada ML-mudeleid ja saada kasu NVIDIA Tritoni pakutavast jõudluse optimeerimisest, dünaamilisest komplekteerimisest ja mitme raamistiku toest. Triton aitab maksimeerida GPU ja CPU ärakasutamist, vähendades veelgi järelduste maksumust.

Ärikasutuse juhtudel, kus ML-rakendused kasutavad ennustuspäringu teenindamiseks mitut mudelit, võib iga mudel kasutada erinevat raamistikku või hostida eraldi eksemplari, mis võib kaasa tuua töökoormuse ja kulude suurenemise ning üldise latentsusaja pikenemise. SageMaker NVIDIA Triton Inference Server toetab kõigi suuremate raamistike mudelite juurutamist, nagu TensorFlow GraphDef, TensorFlow SavedModel, ONNX, PyTorch TorchScript, TensorRT ja Python/C++ mudelivormingud ja palju muud. Tritoni mudeliansambel kujutab ühest või mitmest mudelist koosnevat konveierit või eel- ja järeltöötlusloogikat ning nendevahelist sisend- ja väljundtensorite ühendust. Üksainus järeldustaotlus ansamblile käivitab kogu torujuhtme käitamise. Tritonil on ka mitu sisseehitatud ajastamis- ja pakkimisalgoritmi, mis kombineerivad individuaalseid järelduspäringuid, et parandada järelduste läbilaskevõimet. Need ajastamise ja komplekteerimise otsused on järeldusi taotlevale kliendile läbipaistvad. Mudeleid saab kasutada CPU-del või GPU-del, et tagada maksimaalne paindlikkus ja toetada heterogeenseid andmetöötlusnõudeid.

Mitme GPU-ga toetatud mudeli hostimist mitme mudeli lõpp-punktides toetatakse selle kaudu SageMaker Tritoni järeldusserver. NVIDIA Triton Inference Serverit on laiendatud, et rakendada MME API leping, et integreerida MME-dega. Automaatse skaleerimisega MME juurutamiseks saate kasutada NVIDIA Triton Inference Serverit, mis loob erinevate raamistiku taustaprogrammide jaoks mudelihoidla konfiguratsiooni. See funktsioon võimaldab teil skaleerida sadu ülipersonaliseeritud mudeleid, mis on peenhäälestatud, et rahuldada AI rakendustes ainulaadseid lõppkasutaja kogemusi. Samuti saate seda funktsiooni kasutada, et saavutada oma järeldusrakenduse jaoks vajalik hinnajõudlus, kasutades murdosa GPU-sid. Lisateabe saamiseks vaadake Käitage GPU-s mitut süvaõppe mudelit Amazon SageMakeri mitme mudeli lõpp-punktiga.

Järgmine tabel annab juhiseid ML-mudelite hostimise sobivuse funktsioonide hindamiseks, kasutades GPU toega MME-sid Tritoni järelduskonteinerites. Ühe mudeli lõpp-punktide ja serverita lõpp-punkti sobivuse funktsioonide hindamiste kohta vaadake selle postituse varasemaid jaotisi.

Fitnessi funktsioon	Kirjeldus
Maksma	GPU toega SageMaker MME-d, mis kasutavad Triton Inference Serverit, pakuvad skaleeritavat ja kulutõhusat viisi suure hulga süvaõppemudelite juurutamiseks ühe SageMakeri lõpp-punkti taga. MME-de puhul jagavad mitu mudelit GPU eksemplari lõpp-punkti taga. See võimaldab teil vähendada mitme mudeli hostimise lineaarselt kasvavaid kulusid ja taaskasutada kõigi mudelite infrastruktuuri. Maksate eksemplari tööaja eest.
Järelduste latentsus	SageMaker koos Triton Inference Serveriga on loodud selleks, et maksimeerida läbilaskevõimet ja riistvara kasutust ülimadala (ühekohalise millisekundi) järelduste latentsusega. Sellel on lai valik toetatud ML-raamistikke (sh TensorFlow, PyTorch, ONNX, XGBoost ja NVIDIA TensorRT) ja infrastruktuuri taustaprogramme, sealhulgas NVIDIA GPU-sid, protsessoreid ja AWS Inferentia. SageMaker Triton Inference Serverit kasutava GPU MME toega saate ühe SageMakeri lõpp-punkti taga juurutada tuhandeid süvaõppe mudeleid. SageMaker laadib mudeli GPU kiirendatud eksemplari NVIDIA Tritoni konteineri mällu ja teenindab järelduspäringu. GPU tuuma jagavad kõik eksemplari mudelid. Kui mudel on konteineri mällu juba laaditud, edastatakse järgmised päringud kiiremini, kuna SageMaker ei pea seda alla laadima ja uuesti laadima.
Läbilaskevõime	MME-d pakuvad võimalusi mitme süvaõppe või ML-mudeli käitamiseks GPU-s samaaegselt Triton Inference Serveriga. See võimaldab teil hõlpsasti kasutada NVIDIA Tritoni mitme raamiga suure jõudlusega järelduste teenust koos täielikult hallatava SageMakeri mudeli juurutamisega. Triton toetab kõiki NVIDIA GPU-, x86-, Arm® CPU- ja AWS Inferentia-põhiseid järeldusi. See pakub dünaamilist komplekteerimist, samaaegseid käitusi, optimaalset mudeli konfiguratsiooni, mudelite komplekti ning heli- ja videosisendi voogesitust, et maksimeerida läbilaskevõimet ja kasutamist. Muud tegurid, nagu võrk ja kasuliku koormuse suurus, võivad järeldusega seotud üldkuludes mängida minimaalset rolli.
Skaleerimise konfiguratsiooni keerukus	MME-d saavad automaatse skaleerimise poliitika abil horisontaalselt skaleerida ja pakkuda täiendavaid GPU arvutusjuhtumeid selliste mõõdikute alusel nagu `InvocationsPerInstance` ja `GPUUtilization` et teenindada MME lõpp-punktide liiklust. Tritoni järeldusserveriga saate hõlpsasti luua kohandatud konteineri, mis sisaldab teie mudelit koos Tritoniga, ja tuua selle SageMakerisse. SageMaker Inference käsitleb taotlusi ja skaleerib konteinerit automaatselt kasutuse kasvades, muutes mudeli juurutamise Tritoniga AWS-is lihtsamaks.
Liiklusmuster	MME-d sobivad ideaalselt prognoositavate liiklusmustrite jaoks, kui mudelid töötavad DAG-idena samas lõpp-punktis. SageMaker hoolitseb liikluse kujundamise eest MME lõpp-punktini ja säilitab GPU eksemplaridel optimaalseid mudelikoopiaid, et tagada parima hinna jõudlus. See jätkab liikluse suunamist eksemplari, kus mudel laaditakse. Kui eksemplari ressursid saavutavad suure kasutuse tõttu võimsuse, laadib SageMaker konteinerist välja kõige vähem kasutatud mudelid, et vabastada ressursse sagedamini kasutatavate mudelite laadimiseks.

parimad tavad

Kaaluge järgmisi parimaid tavasid.

Kõrge sidusus ja väike mudelitevaheline haakejõud – Hoiustage mudelid samas mahutis, millel on suur sidusus (juutab ühe ettevõtte funktsionaalsust) ja kapseldage need uuendamise ja hallatavuse hõlbustamiseks kokku. Samal ajal eraldage need mudelid üksteisest (majutage need erinevatesse konteineritesse), et saaksite üht mudelit hõlpsalt uuendada ilma teisi mudeleid mõjutamata. Hostige mitu mudelit, mis kasutavad ühe lõpp-punkti taga erinevaid konteinereid ja käivitavad seejärel iseseisvalt või lisage mudeli eeltöötluse ja järeltöötluse loogika järjestikuse järelduste konveierina.
Järelduste latentsus – Grupeerige mudelid, mis on juhitud ühe ettevõtte funktsioonidele, ja majutage need ühte konteinerisse, et minimeerida hüpete arvu ja seega minimeerida üldist latentsust. On ka teisi hoiatusi, näiteks kui rühmitatud mudelid kasutavad mitut raamistikku; latentsuse vähendamiseks ja kulude minimeerimiseks võite valida ka hostimise mitmes konteineris, kuid samal hostil.
Loogiliselt rühmitage ML-mudelid suure sidususega – Loogiline rühm võib koosneda mudelitest, mis on homogeensed (näiteks kõik XGBoosti mudelid) või heterogeensed (näiteks mõned XGBoost ja mõned BERT). See võib koosneda mudelitest, mida jagatakse mitme ärifunktsiooni vahel, või võib olla spetsiifiline ainult ühe ärifunktsiooni täitmiseks.
- Jagatud mudelid – Kui loogiline rühm koosneb jagatud mudelitest, mängib SageMakeri lõpp-punktide kujundamisel suurt rolli mudelite uuendamise lihtsus ja latentsusaeg. Näiteks kui latentsus on prioriteet, on parem paigutada kõik mudelid ühte konteinerisse ühe SageMakeri lõpp-punkti taha, et vältida mitut hüpet. Negatiivne külg on see, et kui mõnda mudelit on vaja uuendada, uuendatakse kõiki seda mudelit hostivaid asjakohaseid SageMakeri lõpp-punkte.
- Mittejagatavad mudelid – Kui loogiline rühm koosneb ainult ärifunktsiooni spetsiifilistest mudelitest ja seda ei jagata teiste rühmadega, on pakendi keerukuse ja latentsusaja mõõtmed saavutamisel võtmetähtsusega. Neid mudeleid on soovitatav majutada ühes konteineris ühe SageMakeri lõpp-punkti taga.
Riistvara tõhus kasutamine (CPU, GPU) – Rühmitage CPU-põhised mudelid kokku ja hostige neid samas hostis, et saaksite protsessorit tõhusalt kasutada. Samamoodi rühmitage GPU-põhised mudelid kokku, et saaksite neid tõhusalt kasutada ja skaleerida. On hübriidseid töökoormusi, mis nõuavad nii protsessorit kui ka GPU-d samal hostil. Ainult protsessoriga ja ainult GPU-ga mudelite hostimine samas hostis peaks olema ajendatud kõrgetest ühtekuuluvus- ja rakenduse latentsusnõuetest. Lisaks on peamised mõõtmed, mida tuleb uurida, maksumus, mastaapimisvõime ja lööklaine raadius rikke korral.
Fitness funktsioonid – Kasutage ML-i hostimisvaliku valimisel juhendina fitnessfunktsioone.

Järeldus

Mis puutub ML-majutusse, siis pole ühtset lähenemisviisi, mis sobiks kõigile. ML-i praktikud peavad oma ML-i hostimisprobleemide lahendamiseks valima õige kujundusmustri. Treeningufunktsioonide hindamine annab ettekirjutavaid juhiseid õige ML-i hostimisvaliku valimiseks.

Iga hostimisvaliku kohta lisateabe saamiseks vaadake selle seeria järgmisi postitusi:

Autoritest

Dhawal Patel on AWS-i peamine masinõppearhitekt. Ta on töötanud hajutatud andmetöötluse ja tehisintellektiga seotud probleemide lahendamisel organisatsioonidega alates suurettevõtetest kuni keskmise suurusega idufirmadeni. Ta keskendub süvaõppele, sealhulgas NLP ja Computer Vision domeenidele. Ta aitab klientidel teha SageMakeris suure jõudlusega mudeli järeldusi.

Deepali Rajale on AI/ML spetsialiseerunud tehniline kontohaldur ettevõttes Amazon Web Services. Ta töötab äriklientidega, pakkudes tehnilisi juhiseid masinõppelahenduste rakendamiseks parimate tavadega. Vabal ajal meeldib talle matkata, filme vaadata ning pere ja sõpradega aega veeta.

Saurabh Trikande on Amazon SageMaker Inference'i vanemtootejuht. Ta on kirglik töö klientidega ja teda motiveerib eesmärk demokratiseerida masinõpe. Ta keskendub põhiprobleemidele, mis on seotud keeruliste ML-rakenduste, mitme rentniku ML-mudelite, kulude optimeerimise ja süvaõppemudelite juurutamise kättesaadavamaks muutmisega. Vabal ajal naudib Saurabh matkamist, uuenduslike tehnoloogiate õppimist, TechCrunchi jälgimist ja perega aega veetmist.