Amazon Sage Maker tekee koneoppimismallien (ML) käyttöönoton yksinkertaiseksi reaaliaikaista päättelyä varten ja tarjoaa laajan valikoiman ML-esiintymiä, jotka kattavat prosessorit ja kiihdytit, kuten AWS Inferencia. Täysin hallittavana palveluna voit skaalata mallien käyttöönottoja, minimoida päättelykustannukset ja hallita mallejasi tehokkaammin tuotannossa pienemmillä käyttökuormilla. SageMakerin reaaliaikainen päätelmäpäätepiste koostuu HTTPs-päätepisteestä ja ML-esiintymistä, jotka on otettu käyttöön useilla käytettävyysvyöhykkeillä korkean käytettävyyden varmistamiseksi. SageMaker sovelluksen automaattinen skaalaus voi dynaamisesti säätää mallille varattujen ML-ilmentymien määrää vasteena työmäärän muutoksiin. Päätepiste jakaa saapuvat pyynnöt tasaisesti ML-ilmentymiin käyttämällä round-robin-algoritmia.
Kun ilmentymiin asennetut ML-mallit vastaanottavat API-kutsuja suurelta määrältä asiakkaita, pyyntöjen satunnainen jakautuminen voi toimia erittäin hyvin, kun pyynnöissäsi ja vastauksissasi ei ole paljon vaihtelua. Mutta järjestelmissä, joissa on luovaa tekoälyä, pyynnöt ja vastaukset voivat olla erittäin vaihtelevia. Näissä tapauksissa on usein toivottavaa tasapainottaa kuormitusta ottamalla huomioon ilmentymän kapasiteetti ja käyttöaste satunnaisen kuormituksen tasapainotuksen sijaan.
Tässä viestissä keskustelemme SageMakerin vähiten jäljellä olevien pyyntöjen (LOR) reititysstrategiasta ja siitä, kuinka se voi minimoida latenssin tietyntyyppisissä reaaliaikaisissa päättelykuormissa ottamalla huomioon ML-esiintymien kapasiteetin ja käytön. Puhumme sen eduista oletusreititysmekanismiin verrattuna ja kuinka voit ottaa LOR:n käyttöön mallin käyttöönotoksissa. Lopuksi esitämme vertailevan analyysin latenssiparannuksista LOR:lla verrattuna satunnaisen reitityksen oletusreititysstrategiaan.
SageMaker LOR -strategia
Oletuksena SageMaker-päätepisteillä on satunnainen reititysstrategia. SageMaker tukee nyt LOR-strategiaa, jonka avulla SageMaker voi reitittää pyynnöt optimaalisesti ilmentymään, joka sopii parhaiten palvelemaan kyseistä pyyntöä. SageMaker tekee tämän mahdolliseksi valvomalla päätepisteesi takana olevien ilmentymien kuormitusta ja kuhunkin ilmentymään otettuja malleja tai päättelykomponentteja.
Seuraava interaktiivinen kaavio näyttää oletusreitityskäytännön, jossa mallin päätepisteisiin tulevat pyynnöt välitetään satunnaisesti ML-instanssiin.
Seuraava interaktiivinen kaavio näyttää reititysstrategian, jossa SageMaker reitittää pyynnön ilmentymään, jolla on vähiten odottamattomia pyyntöjä.
Yleensä LOR-reititys toimii hyvin perusmalleissa tai generatiivisissa AI-malleissa, kun mallisi reagoi sadoissa millisekunnissa tai minuuteissa. Jos mallivasteellasi on pienempi viive (jopa satoja millisekunteja), saatat hyötyä enemmän satunnaisesta reitityksestä. Siitä huolimatta suosittelemme, että testaat ja tunnistat parhaan reititysalgoritmin työkuormillesi.
SageMakerin reititysstrategioiden asettaminen
SageMakerin avulla voit nyt määrittää RoutingStrategy
parametria luodessasi EndpointConfiguration
päätepisteitä varten. Eri RoutingStrategy
SageMakerin tukemat arvot ovat:
LEAST_OUTSTANDING_REQUESTS
RANDOM
Seuraavassa on esimerkki mallin käyttöönotosta päättelypäätepisteessä, jossa LOR on käytössä:
- Luo päätepisteen määritys asettamalla
RoutingStrategy
asLEAST_OUTSTANDING_REQUESTS
: - Luo päätepiste käyttämällä päätepistemäärityksiä (ei muutosta):
Tulokset
Suoritimme suorituskyvyn vertailuanalyysin mitataksemme päästä-päähän-päätelmien viivettä ja suoritustehoa codegen2-7B malli, jota isännöidään ml.g5.24xl-esiintymissä oletusreitityksellä ja älykkäillä reitityspäätepisteillä. CodeGen2-malli kuuluu autoregressiivisten kielimallien perheeseen ja luo suoritettavan koodin englanninkielisistä kehotuksista.
Analyysissamme lisäsimme kunkin päätepisteen takana olevien ml.g5.24xl -esiintymien määrää jokaisessa testiajossa, kun samanaikaisten käyttäjien määrä kasvoi, kuten seuraavassa taulukossa näkyy.
Testi | Samanaikaisten käyttäjien määrä | Tapausten määrä |
1 | 4 | 1 |
2 | 20 | 5 |
3 | 40 | 10 |
4 | 60 | 15 |
5 | 80 | 20 |
Mittasimme molempien päätepisteiden P99-viiveen päästä päähän ja havaitsimme 4–33 %:n parannuksen latenssissa, kun tapausten lukumäärä nostettiin 5:stä 20:een, kuten seuraavassa kaaviossa näkyy.
Vastaavasti havaitsimme 15–16 %:n parannuksen minuuttia kohden tapausta kohden, kun tapausten lukumäärä nostettiin viidestä 5:een.
Tämä osoittaa, että älykäs reititys pystyy parantamaan liikenteen jakautumista päätepisteiden välillä, mikä johtaa parannuksiin päästä päähän -viiveessä ja yleisessä suorituskyvyssä.
Yhteenveto
Tässä viestissä selitimme SageMaker-reititysstrategiat ja uuden vaihtoehdon LOR-reitityksen mahdollistamiseksi. Selitimme, kuinka LOR otetaan käyttöön ja kuinka se voi hyödyttää mallin käyttöönottoja. Suorituskykytestimme osoittivat viiveen ja suorituskyvyn parannuksia reaaliaikaisen päättelyn aikana. Lisätietoja SageMakerin reititysominaisuuksista on kohdassa dokumentointi. Suosittelemme sinua arvioimaan päättelytyökuormasi ja määrittämään, onko reititysstrategia määritetty optimaalisesti.
Tietoja Tekijät
James Park on ratkaisuarkkitehti Amazon Web Servicesissä. Hän työskentelee Amazon.comin kanssa suunnitella, rakentaa ja ottaa käyttöön teknologiaratkaisuja AWS:ssä, ja hän on erityisen kiinnostunut tekoälystä ja koneoppimisesta. Vapaa-ajallaan hän nauttii uusien kulttuurien, uusien kokemusten etsimisestä ja uusimpien teknologiatrendien pysymisestä. Löydät hänet LinkedIn.
Venugopal Pai on ratkaisuarkkitehti AWS:ssä. Hän asuu Bengalurussa Intiassa ja auttaa digitaalisia asiakkaita skaalaamaan ja optimoimaan sovelluksiaan AWS:ssä.
David Nigenda on vanhempi ohjelmistokehitysinsinööri Amazon SageMaker -tiimissä, joka työskentelee parhaillaan tuotannon koneoppimisen työnkulkujen parantamiseksi sekä uusien päättelyominaisuuksien lanseeraamiseksi. Vapaa-ajallaan hän yrittää pysyä lastensa kanssa.
Deepti Ragha on ohjelmistokehitysinsinööri Amazon SageMaker -tiimissä. Hänen nykyinen työnsä keskittyy ominaisuuksien rakentamiseen koneoppimismallien tehokkaaseen isännöintiin. Vapaa-ajallaan hän nauttii matkustamisesta, retkeilystä ja kasvien kasvattamisesta.
Alan Tan on SageMakerin vanhempi tuotepäällikkö, joka johtaa suuria mallipäätelmiä. Hän on intohimoinen koneoppimisen soveltamisesta analytiikan alalla. Työn ulkopuolella hän viihtyy ulkona.
Dhawal Patel on AWS:n koneoppimisarkkitehti. Hän on työskennellyt organisaatioiden kanssa suurista yrityksistä keskikokoisiin startup-yrityksiin hajautettuun tietojenkäsittelyyn ja tekoälyyn liittyvien ongelmien parissa. Hän keskittyy syväoppimiseen, mukaan lukien NLP- ja Computer Vision -alueet. Hän auttaa asiakkaita tekemään korkean suorituskyvyn mallipäätelmiä SageMakerissa.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/minimize-real-time-inference-latency-by-using-amazon-sagemaker-routing-strategies/
- :on
- :On
- :ei
- :missä
- $ YLÖS
- 1
- 100
- 125
- 150
- 17
- 1870
- 20
- 7
- 9
- a
- pystyy
- Meistä
- kiihdyttimiä
- Saavuttaa
- poikki
- AI
- AI-mallit
- Alan
- algoritmi
- mahdollistaa
- Amazon
- Amazon Sage Maker
- Amazon Web Services
- Amazon.com
- keskuudessa
- an
- analyysi
- Analytics
- ja
- api
- sovellukset
- Hakeminen
- OVAT
- ALUE
- keinotekoinen
- tekoäly
- AS
- At
- auto
- saatavuus
- AWS
- Balance
- tasapainotus
- BE
- takana
- kuuluu
- benchmarking
- hyödyttää
- Hyödyt
- PARAS
- sekä
- laaja
- rakentaa
- Rakentaminen
- taakka
- mutta
- by
- Puhelut
- CAN
- Koko
- tapauksissa
- tietty
- muuttaa
- Muutokset
- asiakkaat
- koodi
- KOM
- tuleva
- osat
- tietokone
- Tietokoneen visio
- tietojenkäsittely
- samanaikainen
- Konfigurointi
- määritetty
- harkinta
- ottaen huomioon
- muodostuu
- kustannukset
- Luominen
- Nykyinen
- Tällä hetkellä
- Asiakkaat
- Päivämäärä
- syvä
- syvä oppiminen
- oletusarvo
- sijoittaa
- käyttöön
- käyttöönotto
- käyttöönotot
- Malli
- Määrittää
- Kehitys
- eri
- pohtia
- jaettu
- hajautettu laskenta
- jakelu
- verkkotunnuksia
- aikana
- dynaamisesti
- kukin
- tehokkaasti
- tehokkaasti
- ponnisteluja
- mahdollistaa
- käytössä
- kannustaa
- päittäin
- päätepiste
- insinööri
- Englanti
- yrityksille
- arvioida
- esimerkki
- Elämykset
- selitti
- erittäin
- perhe
- Ominaisuudet
- Vihdoin
- Löytää
- keskittyy
- jälkeen
- varten
- perustava
- alkaen
- täysin
- general
- synnyttää
- generatiivinen
- Generatiivinen AI
- gif
- tietty
- kaavio
- Kasvava
- Olla
- he
- auttaa
- hänen
- Korkea
- häntä
- hänen
- isäntä
- isännöi
- Miten
- Miten
- HTML
- HTTPS
- Sadat
- tunnistaa
- if
- havainnollistaa
- parantaa
- parannus
- parannuksia
- parantaminen
- in
- Mukaan lukien
- Saapuva
- kasvoi
- Intia
- esimerkki
- Älykkyys
- vuorovaikutteinen
- korko
- tulee
- IT
- SEN
- jpg
- Pitää
- Lasten
- Kieli
- suuri
- Suuret yritykset
- Viive
- uusin
- käynnistäminen
- johtava
- OPPIA
- oppiminen
- vähiten
- Lives
- kuormitus
- Erä
- alentaa
- kone
- koneoppiminen
- TEE
- hoitaa
- onnistui
- johtaja
- tapa
- Saattaa..
- mitata
- mekanismi
- millisekuntia
- minuutti
- minuuttia
- ML
- malli
- mallit
- seuranta
- lisää
- moninkertainen
- Uusi
- NLP
- Nro
- nyt
- numero
- of
- Tarjoukset
- usein
- on
- toiminta-
- Optimoida
- Vaihtoehto
- or
- organisaatioiden
- meidän
- ulos
- ulkona
- ulkopuolella
- erinomainen
- yli
- yleinen
- parametri
- erityinen
- intohimoinen
- varten
- suorituskyky
- Kasvit
- Platon
- Platonin tietotieto
- PlatonData
- politiikka
- mahdollinen
- Kirje
- esittää
- Pääasiallinen
- ongelmia
- Tuotteet
- tuotepäällikkö
- tuotanto
- ohjeita
- satunnainen
- alainen
- pikemminkin
- reaaliaikainen
- vastaanottaa
- suositella
- Vähentynyt
- katso
- riippumatta
- liittyvä
- pyyntö
- pyynnöt
- vastaus
- vasteet
- Reitti
- reititys
- ajaa
- sagemaker
- Asteikko
- etsiä
- valinta
- vanhempi
- palvella
- palvelu
- Palvelut
- setti
- asetus
- hän
- osoittivat
- esitetty
- Näytä
- fiksu
- Tuotteemme
- ohjelmistokehitys
- Ratkaisumme
- jännitys
- Startups
- pysyminen
- suora
- strategiat
- Strategia
- niin
- Tuetut
- Tukee
- järjestelmät
- taulukko
- ottaen
- Puhua
- joukkue-
- Elektroniikka
- testi
- testit
- kuin
- että
- -
- Alue
- heidän
- Siellä.
- Nämä
- tätä
- suoritusteho
- aika
- että
- liikenne
- Matkustaminen
- Trendit
- tyypit
- Käyttäjät
- käyttämällä
- arvot
- muuttuja
- hyvin
- visio
- we
- verkko
- verkkopalvelut
- HYVIN
- olivat
- kun
- joka
- vaikka
- tulee
- with
- Referenssit
- työskenteli
- työnkulkuja
- työskentely
- toimii
- Voit
- Sinun
- zephyrnet
- alueet