Minimoi reaaliaikainen päättelyviive käyttämällä Amazon SageMaker -reititysstrategioita

Julkaissut Platon

seuraajia: 0

Amazon Sage Maker tekee koneoppimismallien (ML) käyttöönoton yksinkertaiseksi reaaliaikaista päättelyä varten ja tarjoaa laajan valikoiman ML-esiintymiä, jotka kattavat prosessorit ja kiihdytit, kuten AWS Inferencia. Täysin hallittavana palveluna voit skaalata mallien käyttöönottoja, minimoida päättelykustannukset ja hallita mallejasi tehokkaammin tuotannossa pienemmillä käyttökuormilla. SageMakerin reaaliaikainen päätelmäpäätepiste koostuu HTTPs-päätepisteestä ja ML-esiintymistä, jotka on otettu käyttöön useilla käytettävyysvyöhykkeillä korkean käytettävyyden varmistamiseksi. SageMaker sovelluksen automaattinen skaalaus voi dynaamisesti säätää mallille varattujen ML-ilmentymien määrää vasteena työmäärän muutoksiin. Päätepiste jakaa saapuvat pyynnöt tasaisesti ML-ilmentymiin käyttämällä round-robin-algoritmia.

Kun ilmentymiin asennetut ML-mallit vastaanottavat API-kutsuja suurelta määrältä asiakkaita, pyyntöjen satunnainen jakautuminen voi toimia erittäin hyvin, kun pyynnöissäsi ja vastauksissasi ei ole paljon vaihtelua. Mutta järjestelmissä, joissa on luovaa tekoälyä, pyynnöt ja vastaukset voivat olla erittäin vaihtelevia. Näissä tapauksissa on usein toivottavaa tasapainottaa kuormitusta ottamalla huomioon ilmentymän kapasiteetti ja käyttöaste satunnaisen kuormituksen tasapainotuksen sijaan.

Tässä viestissä keskustelemme SageMakerin vähiten jäljellä olevien pyyntöjen (LOR) reititysstrategiasta ja siitä, kuinka se voi minimoida latenssin tietyntyyppisissä reaaliaikaisissa päättelykuormissa ottamalla huomioon ML-esiintymien kapasiteetin ja käytön. Puhumme sen eduista oletusreititysmekanismiin verrattuna ja kuinka voit ottaa LOR:n käyttöön mallin käyttöönotoksissa. Lopuksi esitämme vertailevan analyysin latenssiparannuksista LOR:lla verrattuna satunnaisen reitityksen oletusreititysstrategiaan.

SageMaker LOR -strategia

Oletuksena SageMaker-päätepisteillä on satunnainen reititysstrategia. SageMaker tukee nyt LOR-strategiaa, jonka avulla SageMaker voi reitittää pyynnöt optimaalisesti ilmentymään, joka sopii parhaiten palvelemaan kyseistä pyyntöä. SageMaker tekee tämän mahdolliseksi valvomalla päätepisteesi takana olevien ilmentymien kuormitusta ja kuhunkin ilmentymään otettuja malleja tai päättelykomponentteja.

Seuraava interaktiivinen kaavio näyttää oletusreitityskäytännön, jossa mallin päätepisteisiin tulevat pyynnöt välitetään satunnaisesti ML-instanssiin.

Minimoi reaaliaikainen päättelyviive käyttämällä Amazon SageMakerin reititysstrategioita | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Seuraava interaktiivinen kaavio näyttää reititysstrategian, jossa SageMaker reitittää pyynnön ilmentymään, jolla on vähiten odottamattomia pyyntöjä.

Minimoi reaaliaikainen päättelyviive käyttämällä Amazon SageMakerin reititysstrategioita | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Yleensä LOR-reititys toimii hyvin perusmalleissa tai generatiivisissa AI-malleissa, kun mallisi reagoi sadoissa millisekunnissa tai minuuteissa. Jos mallivasteellasi on pienempi viive (jopa satoja millisekunteja), saatat hyötyä enemmän satunnaisesta reitityksestä. Siitä huolimatta suosittelemme, että testaat ja tunnistat parhaan reititysalgoritmin työkuormillesi.

SageMakerin reititysstrategioiden asettaminen

SageMakerin avulla voit nyt määrittää RoutingStrategy parametria luodessasi EndpointConfiguration päätepisteitä varten. Eri RoutingStrategy SageMakerin tukemat arvot ovat:

LEAST_OUTSTANDING_REQUESTS
RANDOM

Seuraavassa on esimerkki mallin käyttöönotosta päättelypäätepisteessä, jossa LOR on käytössä:

Luo päätepisteen määritys asettamalla RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:

endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
)

Luo päätepiste käyttämällä päätepistemäärityksiä (ei muutosta):

create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
)

Tulokset

Suoritimme suorituskyvyn vertailuanalyysin mitataksemme päästä-päähän-päätelmien viivettä ja suoritustehoa codegen2-7B malli, jota isännöidään ml.g5.24xl-esiintymissä oletusreitityksellä ja älykkäillä reitityspäätepisteillä. CodeGen2-malli kuuluu autoregressiivisten kielimallien perheeseen ja luo suoritettavan koodin englanninkielisistä kehotuksista.

Analyysissamme lisäsimme kunkin päätepisteen takana olevien ml.g5.24xl -esiintymien määrää jokaisessa testiajossa, kun samanaikaisten käyttäjien määrä kasvoi, kuten seuraavassa taulukossa näkyy.

Testi	Samanaikaisten käyttäjien määrä	Tapausten määrä
1	4	1
2	20	5
3	40	10
4	60	15
5	80	20

Mittasimme molempien päätepisteiden P99-viiveen päästä päähän ja havaitsimme 4–33 %:n parannuksen latenssissa, kun tapausten lukumäärä nostettiin 5:stä 20:een, kuten seuraavassa kaaviossa näkyy.

Minimoi reaaliaikainen päättelyviive käyttämällä Amazon SageMakerin reititysstrategioita | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Vastaavasti havaitsimme 15–16 %:n parannuksen minuuttia kohden tapausta kohden, kun tapausten lukumäärä nostettiin viidestä 5:een.

Minimoi reaaliaikainen päättelyviive käyttämällä Amazon SageMakerin reititysstrategioita | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Tämä osoittaa, että älykäs reititys pystyy parantamaan liikenteen jakautumista päätepisteiden välillä, mikä johtaa parannuksiin päästä päähän -viiveessä ja yleisessä suorituskyvyssä.

Yhteenveto

Tässä viestissä selitimme SageMaker-reititysstrategiat ja uuden vaihtoehdon LOR-reitityksen mahdollistamiseksi. Selitimme, kuinka LOR otetaan käyttöön ja kuinka se voi hyödyttää mallin käyttöönottoja. Suorituskykytestimme osoittivat viiveen ja suorituskyvyn parannuksia reaaliaikaisen päättelyn aikana. Lisätietoja SageMakerin reititysominaisuuksista on kohdassa dokumentointi. Suosittelemme sinua arvioimaan päättelytyökuormasi ja määrittämään, onko reititysstrategia määritetty optimaalisesti.

Tietoja Tekijät

Minimoi reaaliaikainen päättelyviive käyttämällä Amazon SageMakerin reititysstrategioita | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai. James Park on ratkaisuarkkitehti Amazon Web Servicesissä. Hän työskentelee Amazon.comin kanssa suunnitella, rakentaa ja ottaa käyttöön teknologiaratkaisuja AWS:ssä, ja hän on erityisen kiinnostunut tekoälystä ja koneoppimisesta. Vapaa-ajallaan hän nauttii uusien kulttuurien, uusien kokemusten etsimisestä ja uusimpien teknologiatrendien pysymisestä. Löydät hänet LinkedIn.

Venugopal Pai on ratkaisuarkkitehti AWS:ssä. Hän asuu Bengalurussa Intiassa ja auttaa digitaalisia asiakkaita skaalaamaan ja optimoimaan sovelluksiaan AWS:ssä.

David Nigenda on vanhempi ohjelmistokehitysinsinööri Amazon SageMaker -tiimissä, joka työskentelee parhaillaan tuotannon koneoppimisen työnkulkujen parantamiseksi sekä uusien päättelyominaisuuksien lanseeraamiseksi. Vapaa-ajallaan hän yrittää pysyä lastensa kanssa.

Deepti Ragha on ohjelmistokehitysinsinööri Amazon SageMaker -tiimissä. Hänen nykyinen työnsä keskittyy ominaisuuksien rakentamiseen koneoppimismallien tehokkaaseen isännöintiin. Vapaa-ajallaan hän nauttii matkustamisesta, retkeilystä ja kasvien kasvattamisesta.

Alan Tan on SageMakerin vanhempi tuotepäällikkö, joka johtaa suuria mallipäätelmiä. Hän on intohimoinen koneoppimisen soveltamisesta analytiikan alalla. Työn ulkopuolella hän viihtyy ulkona.

Dhawal Patel on AWS:n koneoppimisarkkitehti. Hän on työskennellyt organisaatioiden kanssa suurista yrityksistä keskikokoisiin startup-yrityksiin hajautettuun tietojenkäsittelyyn ja tekoälyyn liittyvien ongelmien parissa. Hän keskittyy syväoppimiseen, mukaan lukien NLP- ja Computer Vision -alueet. Hän auttaa asiakkaita tekemään korkean suorituskyvyn mallipäätelmiä SageMakerissa.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
Lähde: https://aws.amazon.com/blogs/machine-learning/minimize-real-time-inference-latency-by-using-amazon-sagemaker-routing-strategies/

Aikaleima: Marraskuussa 30, 2023

Aikaleima: Huhtikuu 19, 2024

Julkaissut Platon

Käytä hienojakoisia tietojen käyttövalvontaa Amazon SageMaker Studion AWS Lake Formationin ja Amazon EMR:n avulla

Suorita kuvien segmentointi Amazon SageMaker JumpStartilla

Poikkeamien havaitseminen Amazon SageMaker Edge Managerilla käyttämällä AWS IoT Greengrass V2:ta

Esittelyssä automaattinen koulutus ratkaisuille Amazon Personalize | Amazon Web Services

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili