Minimoi reaaliaikainen päättelyviive käyttämällä Amazon SageMakerin reititysstrategioita | Amazon Web Services

Minimoi reaaliaikainen päättelyviive käyttämällä Amazon SageMakerin reititysstrategioita | Amazon Web Services

Amazon Sage Maker tekee koneoppimismallien (ML) käyttöönoton yksinkertaiseksi reaaliaikaista päättelyä varten ja tarjoaa laajan valikoiman ML-esiintymiä, jotka kattavat prosessorit ja kiihdytit, kuten AWS Inferencia. Täysin hallittavana palveluna voit skaalata mallien käyttöönottoja, minimoida päättelykustannukset ja hallita mallejasi tehokkaammin tuotannossa pienemmillä käyttökuormilla. SageMakerin reaaliaikainen päätelmäpäätepiste koostuu HTTPs-päätepisteestä ja ML-esiintymistä, jotka on otettu käyttöön useilla käytettävyysvyöhykkeillä korkean käytettävyyden varmistamiseksi. SageMaker sovelluksen automaattinen skaalaus voi dynaamisesti säätää mallille varattujen ML-ilmentymien määrää vasteena työmäärän muutoksiin. Päätepiste jakaa saapuvat pyynnöt tasaisesti ML-ilmentymiin käyttämällä round-robin-algoritmia.

Kun ilmentymiin asennetut ML-mallit vastaanottavat API-kutsuja suurelta määrältä asiakkaita, pyyntöjen satunnainen jakautuminen voi toimia erittäin hyvin, kun pyynnöissäsi ja vastauksissasi ei ole paljon vaihtelua. Mutta järjestelmissä, joissa on luovaa tekoälyä, pyynnöt ja vastaukset voivat olla erittäin vaihtelevia. Näissä tapauksissa on usein toivottavaa tasapainottaa kuormitusta ottamalla huomioon ilmentymän kapasiteetti ja käyttöaste satunnaisen kuormituksen tasapainotuksen sijaan.

Tässä viestissä keskustelemme SageMakerin vähiten jäljellä olevien pyyntöjen (LOR) reititysstrategiasta ja siitä, kuinka se voi minimoida latenssin tietyntyyppisissä reaaliaikaisissa päättelykuormissa ottamalla huomioon ML-esiintymien kapasiteetin ja käytön. Puhumme sen eduista oletusreititysmekanismiin verrattuna ja kuinka voit ottaa LOR:n käyttöön mallin käyttöönotoksissa. Lopuksi esitämme vertailevan analyysin latenssiparannuksista LOR:lla verrattuna satunnaisen reitityksen oletusreititysstrategiaan.

SageMaker LOR -strategia

Oletuksena SageMaker-päätepisteillä on satunnainen reititysstrategia. SageMaker tukee nyt LOR-strategiaa, jonka avulla SageMaker voi reitittää pyynnöt optimaalisesti ilmentymään, joka sopii parhaiten palvelemaan kyseistä pyyntöä. SageMaker tekee tämän mahdolliseksi valvomalla päätepisteesi takana olevien ilmentymien kuormitusta ja kuhunkin ilmentymään otettuja malleja tai päättelykomponentteja.

Seuraava interaktiivinen kaavio näyttää oletusreitityskäytännön, jossa mallin päätepisteisiin tulevat pyynnöt välitetään satunnaisesti ML-instanssiin.

Minimoi reaaliaikainen päättelyviive käyttämällä Amazon SageMakerin reititysstrategioita | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Seuraava interaktiivinen kaavio näyttää reititysstrategian, jossa SageMaker reitittää pyynnön ilmentymään, jolla on vähiten odottamattomia pyyntöjä.

Minimoi reaaliaikainen päättelyviive käyttämällä Amazon SageMakerin reititysstrategioita | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Yleensä LOR-reititys toimii hyvin perusmalleissa tai generatiivisissa AI-malleissa, kun mallisi reagoi sadoissa millisekunnissa tai minuuteissa. Jos mallivasteellasi on pienempi viive (jopa satoja millisekunteja), saatat hyötyä enemmän satunnaisesta reitityksestä. Siitä huolimatta suosittelemme, että testaat ja tunnistat parhaan reititysalgoritmin työkuormillesi.

SageMakerin reititysstrategioiden asettaminen

SageMakerin avulla voit nyt määrittää RoutingStrategy parametria luodessasi EndpointConfiguration päätepisteitä varten. Eri RoutingStrategy SageMakerin tukemat arvot ovat:

  • LEAST_OUTSTANDING_REQUESTS
  • RANDOM

Seuraavassa on esimerkki mallin käyttöönotosta päättelypäätepisteessä, jossa LOR on käytössä:

  1. Luo päätepisteen määritys asettamalla RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:
    endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
    )

  2. Luo päätepiste käyttämällä päätepistemäärityksiä (ei muutosta):
    create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
    )

Tulokset

Suoritimme suorituskyvyn vertailuanalyysin mitataksemme päästä-päähän-päätelmien viivettä ja suoritustehoa codegen2-7B malli, jota isännöidään ml.g5.24xl-esiintymissä oletusreitityksellä ja älykkäillä reitityspäätepisteillä. CodeGen2-malli kuuluu autoregressiivisten kielimallien perheeseen ja luo suoritettavan koodin englanninkielisistä kehotuksista.

Analyysissamme lisäsimme kunkin päätepisteen takana olevien ml.g5.24xl -esiintymien määrää jokaisessa testiajossa, kun samanaikaisten käyttäjien määrä kasvoi, kuten seuraavassa taulukossa näkyy.

Testi Samanaikaisten käyttäjien määrä Tapausten määrä
1 4 1
2 20 5
3 40 10
4 60 15
5 80 20

Mittasimme molempien päätepisteiden P99-viiveen päästä päähän ja havaitsimme 4–33 %:n parannuksen latenssissa, kun tapausten lukumäärä nostettiin 5:stä 20:een, kuten seuraavassa kaaviossa näkyy.

Minimoi reaaliaikainen päättelyviive käyttämällä Amazon SageMakerin reititysstrategioita | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Vastaavasti havaitsimme 15–16 %:n parannuksen minuuttia kohden tapausta kohden, kun tapausten lukumäärä nostettiin viidestä 5:een.

Minimoi reaaliaikainen päättelyviive käyttämällä Amazon SageMakerin reititysstrategioita | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Tämä osoittaa, että älykäs reititys pystyy parantamaan liikenteen jakautumista päätepisteiden välillä, mikä johtaa parannuksiin päästä päähän -viiveessä ja yleisessä suorituskyvyssä.

Yhteenveto

Tässä viestissä selitimme SageMaker-reititysstrategiat ja uuden vaihtoehdon LOR-reitityksen mahdollistamiseksi. Selitimme, kuinka LOR otetaan käyttöön ja kuinka se voi hyödyttää mallin käyttöönottoja. Suorituskykytestimme osoittivat viiveen ja suorituskyvyn parannuksia reaaliaikaisen päättelyn aikana. Lisätietoja SageMakerin reititysominaisuuksista on kohdassa dokumentointi. Suosittelemme sinua arvioimaan päättelytyökuormasi ja määrittämään, onko reititysstrategia määritetty optimaalisesti.


Tietoja Tekijät

Minimoi reaaliaikainen päättelyviive käyttämällä Amazon SageMakerin reititysstrategioita | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.James Park on ratkaisuarkkitehti Amazon Web Servicesissä. Hän työskentelee Amazon.comin kanssa suunnitella, rakentaa ja ottaa käyttöön teknologiaratkaisuja AWS:ssä, ja hän on erityisen kiinnostunut tekoälystä ja koneoppimisesta. Vapaa-ajallaan hän nauttii uusien kulttuurien, uusien kokemusten etsimisestä ja uusimpien teknologiatrendien pysymisestä. Löydät hänet LinkedIn.

Minimoi reaaliaikainen päättelyviive käyttämällä Amazon SageMakerin reititysstrategioita | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Venugopal Pai on ratkaisuarkkitehti AWS:ssä. Hän asuu Bengalurussa Intiassa ja auttaa digitaalisia asiakkaita skaalaamaan ja optimoimaan sovelluksiaan AWS:ssä.

Minimoi reaaliaikainen päättelyviive käyttämällä Amazon SageMakerin reititysstrategioita | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.David Nigenda on vanhempi ohjelmistokehitysinsinööri Amazon SageMaker -tiimissä, joka työskentelee parhaillaan tuotannon koneoppimisen työnkulkujen parantamiseksi sekä uusien päättelyominaisuuksien lanseeraamiseksi. Vapaa-ajallaan hän yrittää pysyä lastensa kanssa.

Minimoi reaaliaikainen päättelyviive käyttämällä Amazon SageMakerin reititysstrategioita | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Deepti Ragha on ohjelmistokehitysinsinööri Amazon SageMaker -tiimissä. Hänen nykyinen työnsä keskittyy ominaisuuksien rakentamiseen koneoppimismallien tehokkaaseen isännöintiin. Vapaa-ajallaan hän nauttii matkustamisesta, retkeilystä ja kasvien kasvattamisesta.

Alan TanAlan Tan on SageMakerin vanhempi tuotepäällikkö, joka johtaa suuria mallipäätelmiä. Hän on intohimoinen koneoppimisen soveltamisesta analytiikan alalla. Työn ulkopuolella hän viihtyy ulkona.

Minimoi reaaliaikainen päättelyviive käyttämällä Amazon SageMakerin reititysstrategioita | Amazon Web Services PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.Dhawal Patel on AWS:n koneoppimisarkkitehti. Hän on työskennellyt organisaatioiden kanssa suurista yrityksistä keskikokoisiin startup-yrityksiin hajautettuun tietojenkäsittelyyn ja tekoälyyn liittyvien ongelmien parissa. Hän keskittyy syväoppimiseen, mukaan lukien NLP- ja Computer Vision -alueet. Hän auttaa asiakkaita tekemään korkean suorituskyvyn mallipäätelmiä SageMakerissa.

Aikaleima:

Lisää aiheesta AWS-koneoppiminen