Zmanjšajte zakasnitev sklepanja v realnem času z uporabo strategij usmerjanja Amazon SageMaker | Spletne storitve Amazon

Zmanjšajte zakasnitev sklepanja v realnem času z uporabo strategij usmerjanja Amazon SageMaker | Spletne storitve Amazon

Amazon SageMaker omogoča preprosto uvajanje modelov strojnega učenja (ML) za sklepanje v realnem času in ponuja širok izbor primerkov ML, ki obsegajo CPE in pospeševalnike, kot je npr. Sklepanje AWS. Kot popolnoma upravljana storitev lahko razširite svoje uvedbe modelov, minimizirate stroške sklepanja in učinkoviteje upravljate svoje modele v proizvodnji z zmanjšanim operativnim bremenom. Končna točka sklepanja v realnem času SageMaker je sestavljena iz končne točke HTTPs in primerkov ML, ki so razporejeni v več območjih razpoložljivosti za visoko razpoložljivost. SageMaker samodejno skaliranje aplikacije lahko dinamično prilagaja število primerkov ML, ki so predvideni za model kot odgovor na spremembe delovne obremenitve. Končna točka enakomerno porazdeli dohodne zahteve primerkom ML z uporabo krožnega algoritma.

Ko modeli ML, nameščeni na instancah, prejmejo klice API-ja od velikega števila odjemalcev, lahko naključna porazdelitev zahtev deluje zelo dobro, če v vaših zahtevah in odgovorih ni veliko variabilnosti. Toda v sistemih z generativnimi delovnimi obremenitvami umetne inteligence so lahko zahteve in odgovori zelo spremenljivi. V teh primerih je pogosto zaželeno izravnati obremenitev z upoštevanjem zmogljivosti in izkoriščenosti primerka namesto naključnega uravnoteženja obremenitve.

V tej objavi razpravljamo o strategiji usmerjanja najmanj neporavnanih zahtev (LOR) SageMaker in o tem, kako lahko minimizira zakasnitev za določene vrste delovnih obremenitev sklepanja v realnem času z upoštevanjem zmogljivosti in uporabe primerkov ML. Govorimo o njegovih prednostih v primerjavi s privzetim mehanizmom usmerjanja in o tem, kako lahko omogočite LOR za uvedbe svojih modelov. Nazadnje predstavljamo primerjalno analizo izboljšav zakasnitev z LOR v primerjavi s privzeto strategijo usmerjanja naključnega usmerjanja.

Strategija SageMaker LOR

Privzeto imajo končne točke SageMaker naključno strategijo usmerjanja. SageMaker zdaj podpira strategijo LOR, ki SageMakerju omogoča optimalno usmerjanje zahtev do instance, ki je najprimernejša za oskrbo te zahteve. SageMaker to omogoča s spremljanjem obremenitve instanc za vašo končno točko in modelov ali komponent sklepanja, ki so nameščene na vsaki instanci.

Naslednji interaktivni diagram prikazuje privzeto politiko usmerjanja, kjer se zahteve, ki prihajajo do končnih točk modela, naključno posredujejo primerkom ML.

Zmanjšajte zakasnitev sklepanja v realnem času z uporabo strategij usmerjanja Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Naslednji interaktivni diagram prikazuje strategijo usmerjanja, kjer bo SageMaker usmeril zahtevo do primerka, ki ima najmanj odprtih zahtev.

Zmanjšajte zakasnitev sklepanja v realnem času z uporabo strategij usmerjanja Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Na splošno usmerjanje LOR deluje dobro za temeljne modele ali generativne modele AI, ko se vaš model odzove v stotinah milisekund do minutah. Če ima odziv vašega modela nižjo zakasnitev (do več sto milisekund), vam bo morda bolj koristilo naključno usmerjanje. Ne glede na to priporočamo, da preizkusite in prepoznate najboljši usmerjevalni algoritem za vaše delovne obremenitve.

Kako nastaviti strategije usmerjanja SageMaker

SageMaker vam zdaj omogoča nastavitev RoutingStrategy parameter med ustvarjanjem EndpointConfiguration za končne točke. Drugačen RoutingStrategy vrednosti, ki jih podpira SageMaker, so:

  • LEAST_OUTSTANDING_REQUESTS
  • RANDOM

Sledi primer razmestitve modela na končni točki sklepanja, ki ima omogočen LOR:

  1. Ustvarite konfiguracijo končne točke z nastavitvijo RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:
    endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
    )

  2. Ustvarite končno točko s konfiguracijo končne točke (brez sprememb):
    create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
    )

Rezultati uspešnosti

Izvedli smo primerjalno analizo zmogljivosti, da bi izmerili zakasnitev sklepanja od konca do konca in prepustnost codegen2-7B model gostuje na instancah ml.g5.24xl s privzetim usmerjanjem in končnimi točkami pametnega usmerjanja. Model CodeGen2 spada v družino avtoregresivnih jezikovnih modelov in ustvari izvedljivo kodo, ko prejme angleške pozive.

V naši analizi smo povečali število primerkov ml.g5.24xl za vsako končno točko za vsak preskusni zagon, ko se je povečalo število sočasnih uporabnikov, kot je prikazano v naslednji tabeli.

Test Število sočasnih uporabnikov Število primerkov
1 4 1
2 20 5
3 40 10
4 60 15
5 80 20

Izmerili smo zakasnitev P99 od konca do konca za obe končni točki in opazili 4–33-odstotno izboljšanje zakasnitve, ko se je število primerkov povečalo s 5 na 20, kot je prikazano v naslednjem grafu.

Zmanjšajte zakasnitev sklepanja v realnem času z uporabo strategij usmerjanja Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Podobno smo opazili 15–16-odstotno izboljšanje prepustnosti na minuto na instanco, ko smo število instanc povečali s 5 na 20.

Zmanjšajte zakasnitev sklepanja v realnem času z uporabo strategij usmerjanja Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

To ponazarja, da lahko pametno usmerjanje izboljša porazdelitev prometa med končnimi točkami, kar vodi do izboljšav zakasnitve od konca do konca in splošne prepustnosti.

zaključek

V tej objavi smo razložili strategije usmerjanja SageMaker in novo možnost za omogočanje usmerjanja LOR. Pojasnili smo, kako omogočiti LOR in kako lahko koristi uvajanju vaših modelov. Naši testi delovanja so pokazali izboljšave zakasnitve in prepustnosti med sklepanjem v realnem času. Če želite izvedeti več o funkcijah usmerjanja SageMaker, glejte Dokumentacija. Spodbujamo vas, da ocenite svoje sklepne delovne obremenitve in ugotovite, ali ste optimalno konfigurirani s strategijo usmerjanja.


O avtorjih

Zmanjšajte zakasnitev sklepanja v realnem času z uporabo strategij usmerjanja Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.James Park je arhitekt rešitev pri Amazon Web Services. Sodeluje z Amazon.com pri oblikovanju, gradnji in uvajanju tehnoloških rešitev na AWS, posebej pa ga zanimata umetna inteligenca in strojno učenje. V prostem času uživa v iskanju novih kultur, novih izkušenj in spremljanju najnovejših tehnoloških trendov. Najdete ga na LinkedIn.

Zmanjšajte zakasnitev sklepanja v realnem času z uporabo strategij usmerjanja Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Venugopal Pai je arhitekt rešitev pri AWS. Živi v Bengaluruju v Indiji in pomaga digitalno domačim strankam razširiti in optimizirati njihove aplikacije na AWS.

Zmanjšajte zakasnitev sklepanja v realnem času z uporabo strategij usmerjanja Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.David Nigenda je višji inženir za razvoj programske opreme v ekipi Amazon SageMaker, ki trenutno dela na izboljšanju delovnih tokov produkcijskega strojnega učenja in uvaja nove funkcije sklepanja. V prostem času poskuša biti v koraku s svojimi otroki.

Zmanjšajte zakasnitev sklepanja v realnem času z uporabo strategij usmerjanja Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Deepti Ragha je inženir za razvoj programske opreme v ekipi Amazon SageMaker. Njeno trenutno delo se osredotoča na gradnjo funkcij za učinkovito gostovanje modelov strojnega učenja. V prostem času rada potuje, planinari in goji rastline.

Alan TanAlan Tan je višji produktni vodja pri podjetju SageMaker, ki vodi prizadevanja za sklepanje velikih modelov. Navdušen je nad uporabo strojnega učenja na področju analitike. Izven dela uživa na prostem.

Zmanjšajte zakasnitev sklepanja v realnem času z uporabo strategij usmerjanja Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.Dhawal Patel je glavni arhitekt strojnega učenja pri AWS. Sodeloval je z organizacijami, od velikih podjetij do srednje velikih zagonskih podjetij, pri problemih, povezanih s porazdeljenim računalništvom in umetno inteligenco. Osredotoča se na poglobljeno učenje, vključno s področja NLP in računalniškega vida. Strankam pomaga doseči visoko zmogljivo sklepanje o modelih na SageMakerju.

Časovni žig:

Več od Strojno učenje AWS