Minimeerige reaalajas järelduste latentsusaeg, kasutades Amazon SageMakeri marsruutimisstrateegiaid | Amazoni veebiteenused

Minimeerige reaalajas järelduste latentsusaeg, kasutades Amazon SageMakeri marsruutimisstrateegiaid | Amazoni veebiteenused

Amazon SageMaker muudab masinõppe (ML) mudelite juurutamise reaalajas järelduste tegemiseks lihtsaks ja pakub laia valikut ML-i eksemplare, mis hõlmavad protsessoreid ja kiirendeid, nagu AWS Inferentia. Täielikult hallatava teenusena saate oma mudeli juurutusi skaleerida, minimeerida järelduskulusid ja hallata oma mudeleid tootmises tõhusamalt, vähendades töökoormust. SageMakeri reaalajas järelduse lõpp-punkt koosneb HTTP-i lõpp-punktist ja ML-eksemplaridest, mis on kõrge kättesaadavuse tagamiseks juurutatud mitmes saadavuse tsoonis. SageMaker rakenduse automaatne skaleerimine saab dünaamiliselt kohandada mudeli jaoks ette nähtud ML-eksemplaride arvu vastuseks töökoormuse muutustele. Lõpp-punkt jaotab sissetulevad päringud ühtlaselt ML-i eksemplaridele, kasutades ring-robin algoritmi.

Kui eksemplaridel juurutatud ML-mudelid saavad API-kõnesid suurelt arvult klientidelt, võib päringute juhuslik jaotus toimida väga hästi, kui teie päringud ja vastused ei ole palju varieeruvad. Kuid generatiivse tehisintellektiga töökoormusega süsteemides võivad päringud ja vastused olla väga erinevad. Sellistel juhtudel on sageli soovitav koormuse tasakaal võtta arvesse eksemplari võimsust ja kasutust, mitte juhuslikku koormuse tasakaalustamist.

Selles postituses käsitleme SageMakeri vähimate taotluste (LOR) marsruutimise strateegiat ja seda, kuidas see saab minimeerida teatud tüüpi reaalajas järelduste töökoormuse latentsust, võttes arvesse ML-juhtumite mahtu ja kasutamist. Räägime selle eelistest võrreldes vaikemarsruutimismehhanismiga ja kuidas saate lubada LOR-i oma mudeli juurutamiseks. Lõpuks esitame võrdleva analüüsi latentsusaja paranemise kohta LOR-iga võrreldes juhusliku marsruutimise vaikemarsruutimisstrateegiaga.

SageMaker LOR strateegia

Vaikimisi on SageMakeri lõpp-punktidel juhuslik marsruutimisstrateegia. SageMaker toetab nüüd LOR-strateegiat, mis võimaldab SageMakeril optimaalselt suunata päringud eksemplarile, mis sobib selle päringu teenindamiseks kõige paremini. SageMaker teeb selle võimalikuks, jälgides teie lõpp-punkti taga olevate eksemplaride koormust ja igal eksemplaril juurutatud mudeleid või järelduskomponente.

Järgmine interaktiivne diagramm näitab vaikemarsruutimispoliitikat, kus mudeli lõpp-punktidesse saabuvad päringud edastatakse juhuslikul viisil ML-eksemplaridele.

Minimeerige reaalajas järelduste latentsus, kasutades Amazon SageMakeri marsruutimisstrateegiaid | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Järgmine interaktiivne diagramm näitab marsruutimisstrateegiat, kus SageMaker suunab päringu eksemplarile, millel on kõige vähem rahuldamata taotlusi.

Minimeerige reaalajas järelduste latentsus, kasutades Amazon SageMakeri marsruutimisstrateegiaid | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Üldiselt töötab LOR-marsruutimine hästi põhimudelite või generatiivsete AI-mudelite puhul, kui teie mudel reageerib sadade millisekundite kuni minutitega. Kui teie mudeli vastuse latentsus on väiksem (kuni sadu millisekundeid), võite juhuslikust marsruutimisest rohkem kasu saada. Sellest hoolimata soovitame teil testida ja leida oma töökoormuse jaoks parim marsruutimisalgoritm.

Kuidas määrata SageMakeri marsruutimisstrateegiaid

SageMaker võimaldab nüüd määrata RoutingStrategy parameetri loomise ajal EndpointConfiguration lõpp-punktide jaoks. Erinevad RoutingStrategy SageMakeri toetatud väärtused on järgmised:

  • LEAST_OUTSTANDING_REQUESTS
  • RANDOM

Järgmine on mudeli juurutamise näide järelduse lõpp-punktis, millel on lubatud LOR:

  1. Loo lõpp-punkti konfiguratsioon sätte abil RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:
    endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
    )

  2. Looge lõpp-punkt, kasutades lõpp-punkti konfiguratsiooni (muutusteta):
    create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
    )

Tulemuslikkuse tulemused

Viisime läbi jõudluse võrdlusuuringu, et mõõta lõpp-otsa järelduste latentsust ja läbilaskevõimet codegen2-7B mudel, mis on hostitud ml.g5.24xl eksemplaridel vaikemarsruutimise ja nutika marsruutimise lõpp-punktidega. CodeGen2 mudel kuulub autoregressiivsete keelemudelite perekonda ja genereerib käivitatava koodi ingliskeelsete viipade korral.

Analüüsis suurendasime iga katsekäigu jaoks iga lõpp-punkti taga olevate ml.g5.24xl eksemplaride arvu, kuna samaaegsete kasutajate arv suurenes, nagu on näidatud järgmises tabelis.

test Samaaegsete kasutajate arv Juhtumite arv
1 4 1
2 20 5
3 40 10
4 60 15
5 80 20

Mõõtsime mõlema lõpp-punkti P99 latentsust ja täheldasime latentsusaja paranemist 4–33%, kui juhtude arvu suurendati 5-lt 20-le, nagu on näidatud järgmisel graafikul.

Minimeerige reaalajas järelduste latentsus, kasutades Amazon SageMakeri marsruutimisstrateegiaid | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Samamoodi täheldasime läbilaskevõime 15–16% paranemist eksemplari kohta, kui eksemplaride arvu suurendati 5-lt 20-le.

Minimeerige reaalajas järelduste latentsus, kasutades Amazon SageMakeri marsruutimisstrateegiaid | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

See näitab, et nutikas marsruutimine on võimeline parandama liikluse jaotust lõpp-punktide vahel, mis toob kaasa otspunktide latentsuse ja üldise läbilaskevõime paranemise.

Järeldus

Selles postituses selgitasime SageMakeri marsruutimisstrateegiaid ja uut võimalust LOR-marsruutimise lubamiseks. Selgitasime, kuidas LOR-i lubada ja kuidas see teie mudeli juurutamisel kasuks saab. Meie jõudlustestid näitasid reaalajas järelduste tegemisel latentsusaja ja läbilaskevõime paranemist. SageMakeri marsruutimise funktsioonide kohta lisateabe saamiseks vaadake dokumentatsioon. Soovitame teil hinnata oma järelduste töökoormust ja teha kindlaks, kas olete marsruutimisstrateegiaga optimaalselt konfigureeritud.


Autoritest

Minimeerige reaalajas järelduste latentsus, kasutades Amazon SageMakeri marsruutimisstrateegiaid | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Jamesi park on Amazon Web Servicesi lahenduste arhitekt. Ta teeb koostööd Amazon.com-iga, et kavandada, ehitada ja juurutada AWS-is tehnoloogilised lahendused ning ta on eriti huvitatud AI-st ja masinõppest. Vabal ajal meeldib talle otsida uusi kultuure, uusi kogemusi ja olla kursis uusimate tehnoloogiatrendidega. Leiad ta siit LinkedIn.

Minimeerige reaalajas järelduste latentsus, kasutades Amazon SageMakeri marsruutimisstrateegiaid | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Venugopal pai on AWS-i lahenduste arhitekt. Ta elab Indias Bengalurus ja aitab digitaalse päritoluga klientidel oma rakendusi AWS-is skaleerida ja optimeerida.

Minimeerige reaalajas järelduste latentsus, kasutades Amazon SageMakeri marsruutimisstrateegiaid | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.David Nigenda on Amazon SageMakeri meeskonna tarkvaraarenduse vaneminsener, kes töötab praegu tootmismasinõppe töövoogude täiustamise ja uute järeldusfunktsioonide käivitamise kallal. Vabal ajal püüab ta oma lastega sammu pidada.

Minimeerige reaalajas järelduste latentsus, kasutades Amazon SageMakeri marsruutimisstrateegiaid | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Sügav Ragha on Amazon SageMakeri meeskonna tarkvaraarenduse insener. Tema praegune töö keskendub masinõppemudelite tõhusaks hostimiseks funktsioonide loomisele. Vabal ajal naudib ta reisimist, matkamist ja taimede kasvatamist.

Alan TanAlan Tan on SageMakeri vanem tootejuht, kes juhib jõupingutusi suurte mudelite järelduste tegemisel. Ta on kirglik masinõppe rakendamisest analüütika valdkonnas. Väljaspool tööd naudib ta õues olemist.

Minimeerige reaalajas järelduste latentsus, kasutades Amazon SageMakeri marsruutimisstrateegiaid | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.Dhawal Patel on AWS-i peamine masinõppearhitekt. Ta on töötanud hajutatud andmetöötluse ja tehisintellektiga seotud probleemide lahendamisel organisatsioonidega alates suurettevõtetest kuni keskmise suurusega idufirmadeni. Ta keskendub süvaõppele, sealhulgas NLP ja Computer Vision domeenidele. Ta aitab klientidel teha SageMakeris suure jõudlusega mudeli järeldusi.

Ajatempel:

Veel alates AWS-i masinõpe