Zmanjšajte zakasnitev sklepanja v realnem času z uporabo strategij usmerjanja Amazon SageMaker

Ponovno objavil Platon

Spremljevalci: 0

Amazon SageMaker omogoča preprosto uvajanje modelov strojnega učenja (ML) za sklepanje v realnem času in ponuja širok izbor primerkov ML, ki obsegajo CPE in pospeševalnike, kot je npr. Sklepanje AWS. Kot popolnoma upravljana storitev lahko razširite svoje uvedbe modelov, minimizirate stroške sklepanja in učinkoviteje upravljate svoje modele v proizvodnji z zmanjšanim operativnim bremenom. Končna točka sklepanja v realnem času SageMaker je sestavljena iz končne točke HTTPs in primerkov ML, ki so razporejeni v več območjih razpoložljivosti za visoko razpoložljivost. SageMaker samodejno skaliranje aplikacije lahko dinamično prilagaja število primerkov ML, ki so predvideni za model kot odgovor na spremembe delovne obremenitve. Končna točka enakomerno porazdeli dohodne zahteve primerkom ML z uporabo krožnega algoritma.

Ko modeli ML, nameščeni na instancah, prejmejo klice API-ja od velikega števila odjemalcev, lahko naključna porazdelitev zahtev deluje zelo dobro, če v vaših zahtevah in odgovorih ni veliko variabilnosti. Toda v sistemih z generativnimi delovnimi obremenitvami umetne inteligence so lahko zahteve in odgovori zelo spremenljivi. V teh primerih je pogosto zaželeno izravnati obremenitev z upoštevanjem zmogljivosti in izkoriščenosti primerka namesto naključnega uravnoteženja obremenitve.

V tej objavi razpravljamo o strategiji usmerjanja najmanj neporavnanih zahtev (LOR) SageMaker in o tem, kako lahko minimizira zakasnitev za določene vrste delovnih obremenitev sklepanja v realnem času z upoštevanjem zmogljivosti in uporabe primerkov ML. Govorimo o njegovih prednostih v primerjavi s privzetim mehanizmom usmerjanja in o tem, kako lahko omogočite LOR za uvedbe svojih modelov. Nazadnje predstavljamo primerjalno analizo izboljšav zakasnitev z LOR v primerjavi s privzeto strategijo usmerjanja naključnega usmerjanja.

Strategija SageMaker LOR

Privzeto imajo končne točke SageMaker naključno strategijo usmerjanja. SageMaker zdaj podpira strategijo LOR, ki SageMakerju omogoča optimalno usmerjanje zahtev do instance, ki je najprimernejša za oskrbo te zahteve. SageMaker to omogoča s spremljanjem obremenitve instanc za vašo končno točko in modelov ali komponent sklepanja, ki so nameščene na vsaki instanci.

Naslednji interaktivni diagram prikazuje privzeto politiko usmerjanja, kjer se zahteve, ki prihajajo do končnih točk modela, naključno posredujejo primerkom ML.

Zmanjšajte zakasnitev sklepanja v realnem času z uporabo strategij usmerjanja Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Naslednji interaktivni diagram prikazuje strategijo usmerjanja, kjer bo SageMaker usmeril zahtevo do primerka, ki ima najmanj odprtih zahtev.

Zmanjšajte zakasnitev sklepanja v realnem času z uporabo strategij usmerjanja Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Na splošno usmerjanje LOR deluje dobro za temeljne modele ali generativne modele AI, ko se vaš model odzove v stotinah milisekund do minutah. Če ima odziv vašega modela nižjo zakasnitev (do več sto milisekund), vam bo morda bolj koristilo naključno usmerjanje. Ne glede na to priporočamo, da preizkusite in prepoznate najboljši usmerjevalni algoritem za vaše delovne obremenitve.

Kako nastaviti strategije usmerjanja SageMaker

SageMaker vam zdaj omogoča nastavitev RoutingStrategy parameter med ustvarjanjem EndpointConfiguration za končne točke. Drugačen RoutingStrategy vrednosti, ki jih podpira SageMaker, so:

LEAST_OUTSTANDING_REQUESTS
RANDOM

Sledi primer razmestitve modela na končni točki sklepanja, ki ima omogočen LOR:

Ustvarite konfiguracijo končne točke z nastavitvijo RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:

endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
)

Ustvarite končno točko s konfiguracijo končne točke (brez sprememb):

create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
)

Rezultati uspešnosti

Izvedli smo primerjalno analizo zmogljivosti, da bi izmerili zakasnitev sklepanja od konca do konca in prepustnost codegen2-7B model gostuje na instancah ml.g5.24xl s privzetim usmerjanjem in končnimi točkami pametnega usmerjanja. Model CodeGen2 spada v družino avtoregresivnih jezikovnih modelov in ustvari izvedljivo kodo, ko prejme angleške pozive.

V naši analizi smo povečali število primerkov ml.g5.24xl za vsako končno točko za vsak preskusni zagon, ko se je povečalo število sočasnih uporabnikov, kot je prikazano v naslednji tabeli.

Test	Število sočasnih uporabnikov	Število primerkov
1	4	1
2	20	5
3	40	10
4	60	15
5	80	20

Izmerili smo zakasnitev P99 od konca do konca za obe končni točki in opazili 4–33-odstotno izboljšanje zakasnitve, ko se je število primerkov povečalo s 5 na 20, kot je prikazano v naslednjem grafu.

Zmanjšajte zakasnitev sklepanja v realnem času z uporabo strategij usmerjanja Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Podobno smo opazili 15–16-odstotno izboljšanje prepustnosti na minuto na instanco, ko smo število instanc povečali s 5 na 20.

Zmanjšajte zakasnitev sklepanja v realnem času z uporabo strategij usmerjanja Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

To ponazarja, da lahko pametno usmerjanje izboljša porazdelitev prometa med končnimi točkami, kar vodi do izboljšav zakasnitve od konca do konca in splošne prepustnosti.

zaključek

V tej objavi smo razložili strategije usmerjanja SageMaker in novo možnost za omogočanje usmerjanja LOR. Pojasnili smo, kako omogočiti LOR in kako lahko koristi uvajanju vaših modelov. Naši testi delovanja so pokazali izboljšave zakasnitve in prepustnosti med sklepanjem v realnem času. Če želite izvedeti več o funkcijah usmerjanja SageMaker, glejte Dokumentacija. Spodbujamo vas, da ocenite svoje sklepne delovne obremenitve in ugotovite, ali ste optimalno konfigurirani s strategijo usmerjanja.

O avtorjih

Zmanjšajte zakasnitev sklepanja v realnem času z uporabo strategij usmerjanja Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai. James Park je arhitekt rešitev pri Amazon Web Services. Sodeluje z Amazon.com pri oblikovanju, gradnji in uvajanju tehnoloških rešitev na AWS, posebej pa ga zanimata umetna inteligenca in strojno učenje. V prostem času uživa v iskanju novih kultur, novih izkušenj in spremljanju najnovejših tehnoloških trendov. Najdete ga na LinkedIn.

Venugopal Pai je arhitekt rešitev pri AWS. Živi v Bengaluruju v Indiji in pomaga digitalno domačim strankam razširiti in optimizirati njihove aplikacije na AWS.

David Nigenda je višji inženir za razvoj programske opreme v ekipi Amazon SageMaker, ki trenutno dela na izboljšanju delovnih tokov produkcijskega strojnega učenja in uvaja nove funkcije sklepanja. V prostem času poskuša biti v koraku s svojimi otroki.

Deepti Ragha je inženir za razvoj programske opreme v ekipi Amazon SageMaker. Njeno trenutno delo se osredotoča na gradnjo funkcij za učinkovito gostovanje modelov strojnega učenja. V prostem času rada potuje, planinari in goji rastline.

Alan Tan je višji produktni vodja pri podjetju SageMaker, ki vodi prizadevanja za sklepanje velikih modelov. Navdušen je nad uporabo strojnega učenja na področju analitike. Izven dela uživa na prostem.

Dhawal Patel je glavni arhitekt strojnega učenja pri AWS. Sodeloval je z organizacijami, od velikih podjetij do srednje velikih zagonskih podjetij, pri problemih, povezanih s porazdeljenim računalništvom in umetno inteligenco. Osredotoča se na poglobljeno učenje, vključno s področja NLP in računalniškega vida. Strankam pomaga doseči visoko zmogljivo sklepanje o modelih na SageMakerju.

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
vir: https://aws.amazon.com/blogs/machine-learning/minimize-real-time-inference-latency-by-using-amazon-sagemaker-routing-strategies/

Časovni žig: November 30, 2023

Časovni žig: April 19, 2024

Ponovno objavil Platon

Uporabite natančne kontrole dostopa do podatkov z AWS Lake Formation in Amazon EMR iz Amazon SageMaker Studio

Zaženite segmentacijo slike z Amazon SageMaker JumpStart

Zaznavanje anomalij z Amazon SageMaker Edge Manager z uporabo AWS IoT Greengrass V2

Predstavljamo samodejno usposabljanje za rešitve v storitvi Amazon Personalize | Spletne storitve Amazon

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun