Amazon SageMaker omogoča preprosto uvajanje modelov strojnega učenja (ML) za sklepanje v realnem času in ponuja širok izbor primerkov ML, ki obsegajo CPE in pospeševalnike, kot je npr. Sklepanje AWS. Kot popolnoma upravljana storitev lahko razširite svoje uvedbe modelov, minimizirate stroške sklepanja in učinkoviteje upravljate svoje modele v proizvodnji z zmanjšanim operativnim bremenom. Končna točka sklepanja v realnem času SageMaker je sestavljena iz končne točke HTTPs in primerkov ML, ki so razporejeni v več območjih razpoložljivosti za visoko razpoložljivost. SageMaker samodejno skaliranje aplikacije lahko dinamično prilagaja število primerkov ML, ki so predvideni za model kot odgovor na spremembe delovne obremenitve. Končna točka enakomerno porazdeli dohodne zahteve primerkom ML z uporabo krožnega algoritma.
Ko modeli ML, nameščeni na instancah, prejmejo klice API-ja od velikega števila odjemalcev, lahko naključna porazdelitev zahtev deluje zelo dobro, če v vaših zahtevah in odgovorih ni veliko variabilnosti. Toda v sistemih z generativnimi delovnimi obremenitvami umetne inteligence so lahko zahteve in odgovori zelo spremenljivi. V teh primerih je pogosto zaželeno izravnati obremenitev z upoštevanjem zmogljivosti in izkoriščenosti primerka namesto naključnega uravnoteženja obremenitve.
V tej objavi razpravljamo o strategiji usmerjanja najmanj neporavnanih zahtev (LOR) SageMaker in o tem, kako lahko minimizira zakasnitev za določene vrste delovnih obremenitev sklepanja v realnem času z upoštevanjem zmogljivosti in uporabe primerkov ML. Govorimo o njegovih prednostih v primerjavi s privzetim mehanizmom usmerjanja in o tem, kako lahko omogočite LOR za uvedbe svojih modelov. Nazadnje predstavljamo primerjalno analizo izboljšav zakasnitev z LOR v primerjavi s privzeto strategijo usmerjanja naključnega usmerjanja.
Strategija SageMaker LOR
Privzeto imajo končne točke SageMaker naključno strategijo usmerjanja. SageMaker zdaj podpira strategijo LOR, ki SageMakerju omogoča optimalno usmerjanje zahtev do instance, ki je najprimernejša za oskrbo te zahteve. SageMaker to omogoča s spremljanjem obremenitve instanc za vašo končno točko in modelov ali komponent sklepanja, ki so nameščene na vsaki instanci.
Naslednji interaktivni diagram prikazuje privzeto politiko usmerjanja, kjer se zahteve, ki prihajajo do končnih točk modela, naključno posredujejo primerkom ML.
Naslednji interaktivni diagram prikazuje strategijo usmerjanja, kjer bo SageMaker usmeril zahtevo do primerka, ki ima najmanj odprtih zahtev.
Na splošno usmerjanje LOR deluje dobro za temeljne modele ali generativne modele AI, ko se vaš model odzove v stotinah milisekund do minutah. Če ima odziv vašega modela nižjo zakasnitev (do več sto milisekund), vam bo morda bolj koristilo naključno usmerjanje. Ne glede na to priporočamo, da preizkusite in prepoznate najboljši usmerjevalni algoritem za vaše delovne obremenitve.
Kako nastaviti strategije usmerjanja SageMaker
SageMaker vam zdaj omogoča nastavitev RoutingStrategy
parameter med ustvarjanjem EndpointConfiguration
za končne točke. Drugačen RoutingStrategy
vrednosti, ki jih podpira SageMaker, so:
LEAST_OUTSTANDING_REQUESTS
RANDOM
Sledi primer razmestitve modela na končni točki sklepanja, ki ima omogočen LOR:
- Ustvarite konfiguracijo končne točke z nastavitvijo
RoutingStrategy
asLEAST_OUTSTANDING_REQUESTS
: - Ustvarite končno točko s konfiguracijo končne točke (brez sprememb):
Rezultati uspešnosti
Izvedli smo primerjalno analizo zmogljivosti, da bi izmerili zakasnitev sklepanja od konca do konca in prepustnost codegen2-7B model gostuje na instancah ml.g5.24xl s privzetim usmerjanjem in končnimi točkami pametnega usmerjanja. Model CodeGen2 spada v družino avtoregresivnih jezikovnih modelov in ustvari izvedljivo kodo, ko prejme angleške pozive.
V naši analizi smo povečali število primerkov ml.g5.24xl za vsako končno točko za vsak preskusni zagon, ko se je povečalo število sočasnih uporabnikov, kot je prikazano v naslednji tabeli.
Test | Število sočasnih uporabnikov | Število primerkov |
1 | 4 | 1 |
2 | 20 | 5 |
3 | 40 | 10 |
4 | 60 | 15 |
5 | 80 | 20 |
Izmerili smo zakasnitev P99 od konca do konca za obe končni točki in opazili 4–33-odstotno izboljšanje zakasnitve, ko se je število primerkov povečalo s 5 na 20, kot je prikazano v naslednjem grafu.
Podobno smo opazili 15–16-odstotno izboljšanje prepustnosti na minuto na instanco, ko smo število instanc povečali s 5 na 20.
To ponazarja, da lahko pametno usmerjanje izboljša porazdelitev prometa med končnimi točkami, kar vodi do izboljšav zakasnitve od konca do konca in splošne prepustnosti.
zaključek
V tej objavi smo razložili strategije usmerjanja SageMaker in novo možnost za omogočanje usmerjanja LOR. Pojasnili smo, kako omogočiti LOR in kako lahko koristi uvajanju vaših modelov. Naši testi delovanja so pokazali izboljšave zakasnitve in prepustnosti med sklepanjem v realnem času. Če želite izvedeti več o funkcijah usmerjanja SageMaker, glejte Dokumentacija. Spodbujamo vas, da ocenite svoje sklepne delovne obremenitve in ugotovite, ali ste optimalno konfigurirani s strategijo usmerjanja.
O avtorjih
James Park je arhitekt rešitev pri Amazon Web Services. Sodeluje z Amazon.com pri oblikovanju, gradnji in uvajanju tehnoloških rešitev na AWS, posebej pa ga zanimata umetna inteligenca in strojno učenje. V prostem času uživa v iskanju novih kultur, novih izkušenj in spremljanju najnovejših tehnoloških trendov. Najdete ga na LinkedIn.
Venugopal Pai je arhitekt rešitev pri AWS. Živi v Bengaluruju v Indiji in pomaga digitalno domačim strankam razširiti in optimizirati njihove aplikacije na AWS.
David Nigenda je višji inženir za razvoj programske opreme v ekipi Amazon SageMaker, ki trenutno dela na izboljšanju delovnih tokov produkcijskega strojnega učenja in uvaja nove funkcije sklepanja. V prostem času poskuša biti v koraku s svojimi otroki.
Deepti Ragha je inženir za razvoj programske opreme v ekipi Amazon SageMaker. Njeno trenutno delo se osredotoča na gradnjo funkcij za učinkovito gostovanje modelov strojnega učenja. V prostem času rada potuje, planinari in goji rastline.
Alan Tan je višji produktni vodja pri podjetju SageMaker, ki vodi prizadevanja za sklepanje velikih modelov. Navdušen je nad uporabo strojnega učenja na področju analitike. Izven dela uživa na prostem.
Dhawal Patel je glavni arhitekt strojnega učenja pri AWS. Sodeloval je z organizacijami, od velikih podjetij do srednje velikih zagonskih podjetij, pri problemih, povezanih s porazdeljenim računalništvom in umetno inteligenco. Osredotoča se na poglobljeno učenje, vključno s področja NLP in računalniškega vida. Strankam pomaga doseči visoko zmogljivo sklepanje o modelih na SageMakerju.
- Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
- PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
- PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
- PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
- PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
- vir: https://aws.amazon.com/blogs/machine-learning/minimize-real-time-inference-latency-by-using-amazon-sagemaker-routing-strategies/
- :ima
- : je
- :ne
- :kje
- $GOR
- 1
- 100
- 125
- 150
- 17
- 1870
- 20
- 7
- 9
- a
- Sposobna
- O meni
- pospeševalniki
- Doseči
- čez
- AI
- AI modeli
- Alan
- algoritem
- omogoča
- Amazon
- Amazon SageMaker
- Amazon Web Services
- Amazon.com
- med
- an
- Analiza
- analitika
- in
- API
- aplikacije
- Uporaba
- SE
- OBMOČJE
- umetni
- Umetna inteligenca
- AS
- At
- avto
- razpoložljivost
- AWS
- Ravnovesje
- uravnoteženje
- BE
- zadaj
- pripada
- primerjalna analiza
- koristi
- Prednosti
- BEST
- tako
- široka
- izgradnjo
- Building
- obremenitev
- vendar
- by
- poziva
- CAN
- kapaciteta
- primeri
- nekatere
- spremenite
- Spremembe
- stranke
- Koda
- COM
- prihajajo
- deli
- računalnik
- Računalniška vizija
- računalništvo
- sočasno
- konfiguracija
- konfigurirano
- premislek
- upoštevamo
- vsebuje
- stroški
- Ustvarjanje
- Trenutna
- Trenutno
- Stranke, ki so
- Datum
- globoko
- globoko učenje
- privzeto
- razporedi
- razporejeni
- uvajanje
- razmestitve
- Oblikovanje
- Ugotovite,
- Razvoj
- drugačen
- razpravlja
- porazdeljena
- porazdeljeno računalništvo
- distribucija
- domen
- med
- dinamično
- vsak
- učinkovito
- učinkovito
- prizadevanja
- omogočajo
- omogočena
- spodbujanje
- konec koncev
- Končna točka
- inženir
- Angleščina
- podjetja
- oceniti
- Primer
- Doživetja
- razložiti
- izredno
- družina
- Lastnosti
- končno
- Najdi
- Osredotoča
- po
- za
- temeljno
- iz
- v celoti
- splošno
- ustvarja
- generativno
- Generativna AI
- gif
- dana
- graf
- Pridelovanje
- Imajo
- he
- Pomaga
- jo
- visoka
- ga
- njegov
- gostitelj
- gostila
- Kako
- Kako
- HTML
- HTTPS
- Stotine
- identificirati
- if
- ponazarja
- izboljšanje
- Izboljšanje
- Izboljšave
- izboljšanju
- in
- Vključno
- Dohodni
- povečal
- india
- primer
- Intelligence
- interaktivno
- obresti
- v
- IT
- ITS
- jpg
- Imejte
- otroci
- jezik
- velika
- Velika podjetja
- Latenca
- Zadnji
- začetek
- vodi
- UČITE
- učenje
- vsaj
- živi
- obremenitev
- Sklop
- nižje
- stroj
- strojno učenje
- IZDELA
- upravljanje
- upravlja
- upravitelj
- Način
- Maj ..
- merjenje
- Mehanizem
- milisekund
- min
- Minute
- ML
- Model
- modeli
- spremljanje
- več
- več
- Novo
- nlp
- št
- zdaj
- Številka
- of
- Ponudbe
- pogosto
- on
- operativno
- Optimizirajte
- Možnost
- or
- organizacije
- naši
- ven
- na prostem
- zunaj
- Neporavnani
- več
- Splošni
- parameter
- zlasti
- strastno
- za
- performance
- Rastline
- platon
- Platonova podatkovna inteligenca
- PlatoData
- politika
- mogoče
- Prispevek
- predstaviti
- , ravnateljica
- Težave
- Izdelek
- produktni vodja
- proizvodnja
- pozove
- naključno
- obsegu
- precej
- v realnem času
- prejeti
- Priporočamo
- Zmanjšana
- glejte
- Ne glede na to
- povezane
- zahteva
- zahteva
- Odgovor
- odgovorov
- Pot
- usmerjanje
- Run
- sagemaker
- Lestvica
- iskanju
- izbor
- višji
- služijo
- Storitev
- Storitve
- nastavite
- nastavitev
- je
- je pokazala,
- pokazale
- Razstave
- pametna
- Software
- Razvoj programske opreme
- rešitve
- napetost
- Ustanavljanjem
- ostati
- naravnost
- strategije
- Strategija
- taka
- Podprti
- Podpira
- sistemi
- miza
- ob
- Pogovor
- skupina
- Tehnologija
- Test
- testi
- kot
- da
- O
- Območje
- njihove
- Tukaj.
- te
- ta
- pretočnost
- čas
- do
- Prometa
- Potovanje
- Trends
- Vrste
- Uporabniki
- uporabo
- Vrednote
- spremenljivka
- zelo
- Vizija
- we
- web
- spletne storitve
- Dobro
- so bili
- kdaj
- ki
- medtem
- bo
- z
- delo
- delal
- delovnih tokov
- deluje
- deluje
- Vi
- Vaša rutina za
- zefirnet
- cone