Minimalizálja a valós idejű következtetés késleltetését az Amazon SageMaker útválasztási stratégiáival | Amazon webszolgáltatások

Minimalizálja a valós idejű következtetés késleltetését az Amazon SageMaker útválasztási stratégiáival | Amazon webszolgáltatások

Amazon SageMaker egyszerűvé teszi a gépi tanulási (ML) modellek telepítését valós idejű következtetésekhez, és az ML-példányok széles választékát kínálja a CPU-kon és a gyorsítókon, mint pl. AWS Inferentia. Teljesen felügyelt szolgáltatásként méretezheti a modelltelepítéseket, minimalizálhatja a következtetési költségeket, és hatékonyabban kezelheti modelljeit a termelésben, csökkentett működési teher mellett. A SageMaker valós idejű következtetési végpont egy HTTPs-végpontból és ML-példányokból áll, amelyek több rendelkezésre állási zónára vannak telepítve a magas rendelkezésre állás érdekében. SageMaker alkalmazás automatikus méretezése dinamikusan módosíthatja a modellhez kiépített ML-példányok számát a munkaterhelés változásaira válaszul. A végpont egyenletesen osztja el a bejövő kéréseket az ML-példányok között, kör-robin algoritmus segítségével.

Amikor a példányokon telepített ML-modellek nagyszámú ügyféltől kapnak API-hívásokat, a kérelmek véletlenszerű elosztása nagyon jól működhet, ha a kérések és válaszok nem változnak nagy mértékben. A generatív AI-munkaterhelésű rendszerekben azonban a kérések és válaszok rendkívül változóak lehetnek. Ezekben az esetekben gyakran kívánatos a terheléselosztás a példány kapacitásának és kihasználtságának figyelembevételével a véletlenszerű terheléselosztás helyett.

Ebben a bejegyzésben megvitatjuk a SageMaker legkevésbé fennálló kérések (LOR) útválasztási stratégiáját, és azt, hogy miként csökkentheti minimálisra a késleltetést bizonyos típusú valós idejű következtetési munkaterheléseknél, figyelembe véve az ML-példányok kapacitását és kihasználtságát. Beszélünk annak előnyeiről az alapértelmezett útválasztási mechanizmushoz képest, és arról, hogyan engedélyezheti a LOR-t a modelltelepítésekhez. Végül bemutatunk egy összehasonlító elemzést a késleltetési idő javításáról a LOR-rel a véletlenszerű útválasztás alapértelmezett útválasztási stratégiájához képest.

SageMaker LOR stratégia

Alapértelmezés szerint a SageMaker-végpontok véletlenszerű útválasztási stratégiával rendelkeznek. A SageMaker mostantól támogatja a LOR stratégiát, amely lehetővé teszi, hogy a SageMaker optimálisan irányítsa a kéréseket a kérés kiszolgálására legalkalmasabb példányhoz. A SageMaker ezt úgy teszi lehetővé, hogy figyeli a végpont mögötti példányok terhelését, valamint az egyes példányokon telepített modelleket vagy következtetési összetevőket.

A következő interaktív diagram az alapértelmezett útválasztási házirendet mutatja, ahol a modell végpontjaihoz érkező kérések véletlenszerűen továbbítják az ML-példányokat.

Minimalizálja a valós idejű következtetés késleltetését az Amazon SageMaker útválasztási stratégiáival | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

A következő interaktív diagram azt az útválasztási stratégiát mutatja be, ahol a SageMaker arra a példányra irányítja a kérést, amelyiknek a legkevesebb függő kérése van.

Minimalizálja a valós idejű következtetés késleltetését az Amazon SageMaker útválasztási stratégiáival | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

Általánosságban elmondható, hogy a LOR-útválasztás jól működik az alapmodellek vagy a generatív AI-modellek esetében, ha a modell több száz ezredmásodperc vagy perc alatt válaszol. Ha a modellválasz alacsonyabb késleltetésű (akár több száz ezredmásodperc), akkor nagyobb hasznot húzhat a véletlenszerű útválasztásból. Ettől függetlenül azt javasoljuk, hogy tesztelje és azonosítsa a munkaterheléseihez legjobban illeszkedő útválasztási algoritmust.

A SageMaker útválasztási stratégiák beállítása

A SageMaker most lehetővé teszi a RoutingStrategy paraméter létrehozása közben EndpointConfiguration végpontokhoz. A más RoutingStrategy A SageMaker által támogatott értékek a következők:

  • LEAST_OUTSTANDING_REQUESTS
  • RANDOM

A következő példa egy modell telepítésére olyan következtetési végponton, amelynél engedélyezve van a LOR:

  1. Hozza létre a végpont konfigurációt beállítással RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:
    endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
    )

  2. Hozza létre a végpontot a végpont konfigurációjával (nincs változás):
    create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
    )

Teljesítmény eredményei

Teljesítmény-benchmarkingot futtattunk, hogy mérjük a végpontok közötti következtetések késleltetését és átviteli sebességét codegen2-7B ml.g5.24xl példányokon tárolt modell alapértelmezett útválasztással és intelligens útválasztási végpontokkal. A CodeGen2 modell az autoregresszív nyelvi modellek családjába tartozik, és végrehajtható kódot generál, amikor angol felszólításra.

Elemzésünkben megnöveltük az egyes végpontok mögötti ml.g5.24xl példányok számát minden tesztfutás során, mivel az egyidejű felhasználók száma nőtt, amint az a következő táblázatban látható.

Teszt Egyidejű felhasználók száma Példányok száma
1 4 1
2 20 5
3 40 10
4 60 15
5 80 20

Mindkét végpontnál mértük a végpontok közötti P99 késleltetést, és 4–33%-os javulást tapasztaltunk a késleltetésben, amikor az esetek számát 5-ről 20-ra növeltük, amint az a következő grafikonon látható.

Minimalizálja a valós idejű következtetés késleltetését az Amazon SageMaker útválasztási stratégiáival | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

Hasonlóképpen 15–16%-os javulást tapasztaltunk a percenkénti átviteli sebességben, amikor az esetek számát 5-ről 20-ra növelték.

Minimalizálja a valós idejű következtetés késleltetését az Amazon SageMaker útválasztási stratégiáival | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

Ez azt mutatja, hogy az intelligens útválasztás képes javítani a forgalom elosztását a végpontok között, ami a végpontok közötti késleltetés és az általános átviteli sebesség javulásához vezet.

Következtetés

Ebben a bejegyzésben elmagyaráztuk a SageMaker útválasztási stratégiákat és a LOR útválasztás engedélyezésének új lehetőségét. Elmagyaráztuk, hogyan engedélyezheti a LOR-t, és milyen előnyökkel járhat a modelltelepítéseknél. Teljesítménytesztjeink a késleltetés és az átviteli sebesség javulását mutatták a valós idejű következtetés során. Ha többet szeretne megtudni a SageMaker útválasztási funkcióiról, lásd: dokumentáció. Javasoljuk, hogy értékelje a következtetési munkaterhelést, és határozza meg, hogy optimálisan van-e konfigurálva az útválasztási stratégiával.


A szerzőkről

Minimalizálja a valós idejű következtetés késleltetését az Amazon SageMaker útválasztási stratégiáival | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.James Parker az Amazon Web Services megoldástervezője. Együttműködik az Amazon.com-tal az AWS technológiai megoldások tervezésében, kiépítésében és üzembe helyezésében, és különösen érdeklődik az AI és a gépi tanulás iránt. Szabadidejében szívesen keres új kultúrákat, új élményeket, és naprakész marad a legújabb technológiai trendekkel. Megtalálhatod rajta LinkedIn.

Minimalizálja a valós idejű következtetés késleltetését az Amazon SageMaker útválasztási stratégiáival | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.Venugopal Pai az AWS megoldási építésze. Bengaluruban, Indiában él, és segít a digitális bennszülött ügyfeleknek az AWS-en való alkalmazásaik méretezésében és optimalizálásában.

Minimalizálja a valós idejű következtetés késleltetését az Amazon SageMaker útválasztási stratégiáival | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.David Nigenda az Amazon SageMaker csapatának vezető szoftverfejlesztő mérnöke, jelenleg a termelési gépi tanulási munkafolyamatok javításán, valamint új következtetési funkciók bevezetésén dolgozik. Szabadidejében igyekszik lépést tartani a gyerekeivel.

Minimalizálja a valós idejű következtetés késleltetését az Amazon SageMaker útválasztási stratégiáival | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.Deepti Ragha az Amazon SageMaker csapat szoftverfejlesztő mérnöke. Jelenlegi munkája a gépi tanulási modellek hatékony tárolására szolgáló funkciók létrehozására összpontosít. Szabadidejében szeret utazni, túrázni és növényt termeszteni.

Alan TanAlan Tan a SageMaker vezető termékmenedzsere, aki a nagy modellkövetkeztetések terén tett erőfeszítéseket vezeti. Szenvedélyesen szereti a gépi tanulást az analitika területén alkalmazni. Munkán kívül élvezi a szabad levegőt.

Minimalizálja a valós idejű következtetés késleltetését az Amazon SageMaker útválasztási stratégiáival | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.Dhawal Patel az AWS vezető gépi tanulási építésze. Az elosztott számítástechnikával és a mesterséges intelligenciával kapcsolatos problémákon a nagyvállalatoktól a közepes méretű induló vállalkozásokig szervezetekkel dolgozott együtt. A mély tanulásra összpontosít, beleértve az NLP és a Computer Vision tartományokat. Segít az ügyfeleknek abban, hogy a SageMaker-en nagy teljesítményű modellkövetkeztetést érjenek el.

Időbélyeg:

Még több AWS gépi tanulás