Generatiivisten tekoälysovellusten nopean käyttöönoton myötä näiden sovellusten on reagoitava ajoissa, jotta havaittu latenssi vähenee suuremmalla suorituskyvyllä. Perusmallit (FM:t) ovat usein valmiiksi koulutettuja laajalle tietokokonaisuudelle, jonka parametrit vaihtelevat miljoonista miljardeihin ja enemmänkin. Suuret kielimallit (LLM) ovat FM-tyyppejä, jotka luovat tekstiä vastauksena käyttäjän päättelyyn. Näiden mallien päättäminen erilaisilla päättelyparametrien kokoonpanoilla voi johtaa epäjohdonmukaisiin viiveisiin. Epäjohdonmukaisuus voi johtua mallilta odottamiesi vastaustunnisteiden vaihtelevasta määrästä tai kiihdytintyypistä, jossa mallia käytetään.
Kummassakin tapauksessa sen sijaan, että odottaisit täyttä vastausta, voit omaksua vastausten suoratoiston johtopäätösten tekemiseen, joka lähettää takaisin tietopaloja heti, kun ne on luotu. Tämä luo interaktiivisen kokemuksen mahdollistamalla osittaisten vastausten suoratoiston reaaliajassa viivästyneen täyden vastauksen sijaan.
Virallisen ilmoituksen myötä Amazon SageMakerin reaaliaikainen päättely tukee nyt vastausten suoratoistoa, voit nyt jatkuvasti suoratoistaa päätelmävastauksia takaisin asiakkaalle käyttäessäsi Amazon Sage Maker reaaliaikainen päättely vastausten suoratoistolla. Tämä ratkaisu auttaa sinua rakentamaan interaktiivisia kokemuksia erilaisille generatiivisille tekoälysovelluksille, kuten chatboteille, virtuaalisille avustajille ja musiikkigeneraattoreille. Tämä viesti näyttää, kuinka voit toteuttaa nopeammat vasteajat Time to First Byte (TTFB) -muodossa ja vähentää yleistä havaittua latenssia päättäessäsi Llama 2 -malleista.
Ratkaisun toteuttamiseen käytämme SageMakeria, täysin hallittua palvelua tietojen valmistelemiseen sekä koneoppimismallien (ML) rakentamiseen, kouluttamiseen ja käyttöönottoon kaikissa käyttötapauksissa täysin hallitun infrastruktuurin, työkalujen ja työnkulkujen kanssa. Lisätietoja SageMakerin erilaisista käyttöönottovaihtoehdoista on kohdassa Amazon SageMaker -mallin hosting usein kysytyt kysymykset. Ymmärretään, kuinka voimme ratkaista latenssiongelmia käyttämällä reaaliaikaisia päätelmiä ja vastausten suoratoistoa.
Ratkaisun yleiskatsaus
Koska haluamme käsitellä edellä mainittuja viiveitä, jotka liittyvät reaaliaikaiseen päättelyyn LLM:ien kanssa, ymmärrämme ensin, kuinka voimme käyttää vastausten suoratoistotukea reaaliaikaiseen päättelyyn Llama 2:lle. Jokainen LLM voi kuitenkin hyödyntää vastausten suoratoistotukea reaaliajassa. -ajan päättely.
Llama 2 on kokoelma esikoulutettuja ja hienosäädettyjä generatiivisia tekstimalleja, joiden mittakaava vaihtelee 7 miljardista 70 miljardiin parametriin. Llama 2 -mallit ovat autoregressiivisiä malleja, joissa on vain dekooderiarkkitehtuuri. Kun Llama 2 -malleissa on kehote ja päättelyparametrit, ne pystyvät luomaan tekstivastauksia. Näitä malleja voidaan käyttää kääntämiseen, yhteenvetoon, kysymyksiin vastaamiseen ja keskusteluun.
Tässä viestissä käytämme Llama 2 Chat -mallia meta-llama/Llama-2-13b-chat-hf
SageMakerissa reaaliaikaisten johtopäätösten tekemiseen vastaussuoratoistolla.
Kun on kyse mallien käyttöönotosta SageMaker-päätepisteissä, voit säilöä mallit käyttämällä erikoistuneita AWS Deep Learning Container (DLC) -kuvia saatavilla suosittuihin avoimen lähdekoodin kirjastoihin. Llama 2 -mallit ovat tekstin sukupolven malleja; voit käyttää joko Hugging Face LLM-päätelmäsäiliöt SageMakerissa powered by Hugging Face Tekstin luomisen päättely (TGI) tai AWS DLC:t varten Suuri mallipäätelmä (LMI).
Tässä viestissä otamme käyttöön Llama 2 13B Chat -mallin käyttämällä DLC:itä SageMaker Hostingissa reaaliaikaisten johtopäätösten tekemiseen G5-esiintymien avulla. G5-instanssit ovat suorituskykyisiä GPU-pohjaisia ilmentymiä grafiikkaintensiivisille sovelluksille ja ML-päätelmille. Voit myös käyttää tuettuja ilmentymätyyppejä p4d, p3, g5 ja g4dn asianmukaisin muutoksin ilmentymän kokoonpanon mukaan.
Edellytykset
Tämän ratkaisun toteuttamiseksi sinulla tulee olla seuraavat:
- AWS-tili, jossa on AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) rooli, jolla on oikeudet hallita resursseja, jotka on luotu osana ratkaisua.
- Jos tämä on ensimmäinen kerta, kun työskentelet Amazon SageMaker Studio, sinun on ensin luotava a SageMaker-verkkotunnus.
- Hugging Face -tili. Luo tili sähköpostillasi, jos sinulla ei vielä ole tiliä.
- Hugging Facessa saatavilla olevien mallien, erityisesti porteilla varustettujen mallien, kuten Llaman, saumattoman käyttöösi hienosäätöä ja päätelmiä varten sinulla tulee olla Hugging Face -tili lukuoikeustunnisteen saamiseksi. Kun olet rekisteröitynyt Hugging Face -tilillesi, kirjaudu sisään vierailla https://huggingface.co/settings/tokens luodaksesi lukuoikeustunnuksen.
- Pääsy Llama 2:een käyttämällä samaa sähköpostiosoitetta, jota käytit rekisteröityessäsi Hugging Faceen.
- Hugging Facen kautta saatavilla olevat Llama 2 -mallit ovat aidattuja malleja. Llama-mallin käyttöä säätelee Meta-lisenssi. Voit ladata mallipainot ja tokenizerin, pyytää pääsyä lamaan ja hyväksyä heidän lisenssinsä.
- Kun sinulle on myönnetty käyttöoikeus (yleensä muutaman päivän kuluessa), saat sähköpostivahvistuksen. Tässä esimerkissä käytämme mallia
Llama-2-13b-chat-hf
, mutta sinun pitäisi pystyä käyttämään myös muita muunnelmia.
Lähestymistapa 1: Halaavat kasvot TGI
Tässä osiossa näytämme, kuinka voit ottaa käyttöön meta-llama/Llama-2-13b-chat-hf
mallin SageMakerin reaaliaikaiseen päätepisteeseen vastausten suoratoistolla Hugging Face TGI:n avulla. Seuraavassa taulukossa esitetään tämän käyttöönoton tekniset tiedot.
määrittely | Arvo |
Kontti | Hugging Face TGI |
Mallin nimi | meta-lama/Llama-2-13b-chat-hf |
ML-instanssi | ml.g5.12xsuuri |
Päättely | Reaaliaikainen vastausten suoratoisto |
Ota käyttöön malli
Ensin haet käyttöön otettavan LLM:n peruskuvan. Rakennat sitten mallin peruskuvan päälle. Lopuksi otat mallin käyttöön SageMaker Hostingin ML-esiintymään reaaliaikaisten päätelmien tekemiseksi.
Tarkastellaan kuinka käyttöönotto saavutetaan ohjelmallisesti. Lyhytyyden vuoksi tässä osiossa käsitellään vain koodia, joka auttaa käyttöönottovaiheissa. Täydellinen käyttöönoton lähdekoodi on saatavilla muistikirjassa llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.
Hae uusin Hugging Face LLM DLC, joka toimii TGI:llä valmiiksi rakennetun kautta SageMaker DLC:t. Käytät tätä kuvaa ottaaksesi käyttöön meta-llama/Llama-2-13b-chat-hf
malli SageMakerissa. Katso seuraava koodi:
Määritä mallin ympäristö konfigurointiparametreilla seuraavasti:
korvata <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
config-parametrille HUGGING_FACE_HUB_TOKEN
Hugging Face -profiilistasi saadun tunnuksen arvolla, kuten on kuvattu tämän viestin edellytysosiossa. Määrityksessä määrität mallin kopiota kohti käytettävien GPU:iden lukumääräksi 4 varten SM_NUM_GPUS
. Sitten voit ottaa käyttöön meta-llama/Llama-2-13b-chat-hf
malli ml.g5.12xlarge-esiintymässä, jossa on 4 GPU:ta.
Nyt voit rakentaa esiintymän HuggingFaceModel
edellä mainitulla ympäristökokoonpanolla:
Lopuksi ota malli käyttöön antamalla argumentit mallissa käytettävissä olevalle käyttöönottomenetelmälle erilaisilla parametriarvoilla, kuten endpoint_name
, initial_instance_count
ja instance_type
:
Suorita johtopäätös
Hugging Face TGI DLC sisältää mahdollisuuden suoratoistaa vastauksia ilman mukautuksia tai koodimuutoksia malliin. Voit käyttää invoke_endpoint_with_response_stream jos käytät Boto3:a tai InvokeEndpointWithResponseStream kun ohjelmoit SageMaker Python SDK:lla.
- InvokeEndpointWithResponseStream
SageMakerin API:n avulla kehittäjät voivat suoratoistaa vastauksia SageMaker-malleista, mikä voi auttaa parantamaan asiakastyytyväisyyttä vähentämällä havaittua viivettä. Tämä on erityisen tärkeää generatiivisilla tekoälymalleilla rakennetuissa sovelluksissa, joissa välitön käsittely on tärkeämpää kuin koko vastauksen odottaminen.
Tässä esimerkissä käytämme Boto3:a mallin päättelemiseen ja käytämme SageMaker API:ta invoke_endpoint_with_response_stream
seuraavasti:
Argumentti CustomAttributes
on asetettu arvoon accept_eula=false
. - accept_eula
parametri on asetettava arvoon true
saada onnistuneesti vastaus Llama 2 -malleista. Onnistuneen kutsun jälkeen invoke_endpoint_with_response_stream
, menetelmä palauttaa tavujen vastausvirran.
Seuraava kaavio kuvaa tätä työnkulkua.
Tarvitset iteraattorin, joka kiertää tavuvirran yli ja jäsentää ne luettavaksi tekstiksi. The LineIterator
toteutus löytyy osoitteesta llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Nyt olet valmis valmistelemaan kehotteen ja ohjeet niiden käyttämiseksi hyötykuormana, kun päätät mallista.
Valmistele kehote ja ohjeet
Tässä vaiheessa valmistelet kehotteen ja ohjeet LLM:llesi. Jos haluat pyytää Llama 2:ta, sinulla pitäisi olla seuraava kehotemalli:
Rakennat menetelmässä ohjelmoidusti määritellyn kehotemallin build_llama2_prompt
, joka on linjassa edellä mainitun kehotemallin kanssa. Määrität sitten ohjeet käyttötapauksen mukaan. Tässä tapauksessa ohjeistamme mallia luomaan sähköpostiviestin markkinointikampanjaa varten get_instructions
menetelmä. Näiden menetelmien koodi on kohdassa llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb muistikirja. Rakenna ohje yhdistettynä suoritettavaan tehtävään kohdassa kuvatulla tavalla user_ask_1
seuraavasti:
Välitämme ohjeet kehotteen rakentamiseksi build_llama2_promptin luoman kehotemallin mukaisesti.
Yhdistämme päättelyparametrit sekä kehotteen avaimella stream
arvon kanssa True
lopullisen hyötykuorman muodostamiseksi. Lähetä hyötykuorma osoitteeseen get_realtime_response_stream
, jota käytetään päätepisteen kutsumiseen vastausten suoratoistolla:
LLM:stä luotu teksti striimataan ulostuloon seuraavan animaation mukaisesti.
Lähestymistapa 2: LMI ja DJL-tarjoilu
Tässä osiossa esittelemme, kuinka meta-llama/Llama-2-13b-chat-hf
malli SageMakerin reaaliaikaiseen päätepisteeseen vasteen suoratoistolla käyttämällä LMI:tä DJL-palvelun kanssa. Seuraavassa taulukossa esitetään tämän käyttöönoton tekniset tiedot.
määrittely | Arvo |
Kontti | LMI-konttikuva DJL-tarjoilulla |
Mallin nimi | meta-lama/Llama-2-13b-chat-hf |
ML-instanssi | ml.g5.12xsuuri |
Päättely | Reaaliaikainen vastausten suoratoisto |
Lataa ensin malli ja tallenna se Amazonin yksinkertainen tallennuspalvelu (Amazon S3). Määritä sitten S3-URI, joka ilmaisee mallin S3-etuliitteen serving.properties
tiedosto. Seuraavaksi haet käyttöön otettavan LLM:n peruskuvan. Rakennat sitten mallin peruskuvan päälle. Lopuksi otat mallin käyttöön SageMaker Hostingin ML-esiintymään reaaliaikaisten päätelmien tekemiseksi.
Tarkastellaan, kuinka yllä mainitut käyttöönottovaiheet saavutetaan ohjelmallisesti. Lyhytyyden vuoksi tässä osiossa on kuvattu vain koodi, joka auttaa käyttöönottovaiheissa. Tämän käyttöönoton koko lähdekoodi on saatavilla muistikirjassa llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.
Lataa mallin tilannekuva Hugging Facesta ja lataa malliesineet Amazon S3:lle
Lataa malli SageMaker-muistikirjan ilmentymään edellä mainituin edellytyksin ja lataa se sitten S3-säihöön jatkokäyttöä varten:
Huomaa, että vaikka et antaisi kelvollista käyttöoikeustunnusta, malli latautuu. Mutta kun otat tällaisen mallin käyttöön, mallin käyttö ei onnistu. Siksi on suositeltavaa vaihtaa <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
argumentin puolesta token
Hugging Face -profiilistasi saadun tunnuksen arvolla edellytysten mukaisesti. Tässä viestissä määritämme Llama 2:n virallisen mallin nimen, joka on tunnistettu Hugging Facessa arvolla meta-llama/Llama-2-13b-chat-hf
. Pakkaamaton malli ladataan osoitteeseen local_model_path
edellä mainitun koodin suorittamisen seurauksena.
Lataa tiedostot Amazon S3:een ja hanki URI, jota käytetään myöhemmin serving.properties
.
Tulet pakkaamaan meta-llama/Llama-2-13b-chat-hf
mallia LMI-säilökuvassa, jossa on DJL Serving käyttäen määritettyä kokoonpanoa kautta serving.properties
. Sitten otat mallin käyttöön yhdessä Säilön kuvaan pakattujen mallin artefaktien kanssa SageMaker ML -esiintymässä ml.g5.12xlarge. Tämän jälkeen käytät tätä ML-instanssia SageMaker Hostingissa reaaliaikaiseen päättelyyn.
Valmistele malliesineet DJL-tarjoilua varten
Valmistele malliesineet luomalla a serving.properties
asetustiedosto:
Käytämme tässä asetustiedostossa seuraavia asetuksia:
- moottori – Tämä määrittää DJL:n käytettävän ajonaikaisen moottorin. Mahdollisia arvoja ovat mm
Python
,DeepSpeed
,FasterTransformer
jaMPI
. Tässä tapauksessa asetamme senMPI
. Model Parallelization and Inference (MPI) helpottaa mallin osiointia kaikkien käytettävissä olevien GPU:iden kesken ja nopeuttaa siten päättelyä. - option.entryPoint – Tämä vaihtoehto määrittää, mitä DJL Servingin tarjoamaa käsittelijää haluat käyttää. Mahdolliset arvot ovat
djl_python.huggingface
,djl_python.deepspeed
jadjl_python.stable-diffusion
. Käytämmedjl_python.huggingface
varten Hugging Face Accelerate. - option.tensor_parallel_degree – Tämä vaihtoehto määrittää mallille suoritettujen tensorin rinnakkaisten osioiden määrän. Voit määrittää niiden GPU-laitteiden määrän, joihin Acceleraten on osioitava malli. Tämä parametri ohjaa myös työntekijöiden määrää mallia kohti, jotka käynnistetään, kun DJL-palvelu suoritetaan. Jos meillä on esimerkiksi 4 GPU-kone ja luomme neljä osiota, meillä on yksi työntekijä mallia kohden palvelemaan pyyntöjä.
- option.low_cpu_mem_usage – Tämä vähentää suorittimen muistin käyttöä ladattaessa malleja. Suosittelemme, että asetat tämän asetuksen
TRUE
. - option.rolling_batch – Tämä mahdollistaa iteraatiotason eräajon käyttämällä yhtä tuetuista strategioista. Arvot sisältävät
auto
,scheduler
jalmi-dist
. Käytämmelmi-dist
jatkuvan annostelun kytkemiseksi päälle Llama 2:lle. - option.max_rolling_batch_size – Tämä rajoittaa samanaikaisten pyyntöjen määrää jatkuvassa erässä. Oletusarvo on 32.
- option.model_id – Sinun pitäisi vaihtaa
{{model_id}}
jossa on valmiiksi koulutetun mallin mallitunnus, jota isännöidään sisällä a mallivarasto Hugging Facessa tai S3 polku mallin artefakteihin.
Lisää konfigurointivaihtoehtoja löytyy osoitteesta Kokoonpanot ja asetukset.
Koska DJL Serving odottaa, että mallin artefaktit pakataan ja muotoillaan .tar-tiedostoon, suorita seuraava koodinpätkä .tar-tiedoston pakkaamiseksi ja lataamiseksi Amazon S3:een:
Hae uusin LMI-säilökuva DJL Servingin avulla
Seuraavaksi käytät SageMaker for LMI:n kanssa saatavilla olevia DLC:itä mallin käyttöönottoon. Hae SageMaker-kuvan URI:lle djl-deepspeed
säilö ohjelmallisesti käyttämällä seuraavaa koodia:
Voit käyttää yllä mainittua kuvaa ottaaksesi käyttöön meta-llama/Llama-2-13b-chat-hf
malli SageMakerissa. Nyt voit jatkaa mallin luomista.
Luo malli
Voit luoda mallin, jonka säiliö on rakennettu käyttämällä inference_image_uri
ja mallin palvelukoodi, joka sijaitsee S3 URI:ssa, jota osoittaa s3_code_artifact:
Nyt voit luoda mallin kokoonpanon, jossa on kaikki päätepisteen konfiguroinnin tiedot.
Luo mallin konfiguraatio
Käytä seuraavaa koodia luodaksesi mallin konfiguraatio mallille, jonka tunnistaa model_name
:
Mallin kokoonpano on määritetty ProductionVariants
parametri InstanceType
ML-instanssille ml.g5.12xlarge. Tarjoat myös ModelName
käyttämällä samaa nimeä, jota käytit luodessasi mallin aikaisemmassa vaiheessa, mikä muodostaa suhteen mallin ja päätepisteen kokoonpanon välille.
Nyt kun olet määrittänyt mallin ja mallin konfiguraation, voit luoda SageMaker-päätepisteen.
Luo SageMaker-päätepiste
Luo päätepiste mallin käyttöönottamiseksi käyttämällä seuraavaa koodinpätkää:
Voit tarkastella käyttöönoton edistymistä seuraavan koodinpätkän avulla:
Kun käyttöönotto on onnistunut, päätepisteen tila on InService
. Nyt kun päätepiste on valmis, tehdään päättely vastausten suoratoistolla.
Reaaliaikainen päättely vastausten suoratoistolla
Kuten kerroimme aiemmassa Hugging Face TGI:n lähestymistavassa, voit käyttää samaa menetelmää get_realtime_response_stream
käynnistää vastausten suoratoisto SageMaker-päätepisteestä. LMI-lähestymistapaa käyttävän päättelyn koodi on kohdassa llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb muistikirja. The LineIterator
toteutus sijaitsee llama-2-lmi/utils/LineIterator.py. Huomaa, että LineIterator
LMI-säilössä käyttöönotettu Llama 2 Chat -malli eroaa LineIterator
viitataan Hugging Face TGI -osiossa. The LineIterator
silmukat tavuvirran yli Llama 2 Chat -malleista, jotka on päätelty LMI-säilön avulla djl-deepspeed
versio 0.25.0. Seuraava aputoiminto jäsentää vastausvirran, joka on vastaanotettu :n kautta tehdystä päättelypyynnöstä invoke_endpoint_with_response_stream
API:t:
Edellinen menetelmä tulostaa tietovirran, jonka lukee LineIterator
ihmisen luettavassa muodossa.
Tutkitaan kuinka valmistella kehote ja ohjeet niiden käyttämiseen hyötykuormana, kun päätät mallista.
Koska päättelet saman mallin sekä Hugging Face TGI:ssä että LMI:ssä, kehotteen ja ohjeiden valmisteluprosessi on sama. Siksi voit käyttää menetelmiä get_instructions
ja build_llama2_prompt
päättelemistä varten.
- get_instructions
menetelmä palauttaa ohjeet. Rakenna ohjeet yhdessä suoritettavan tehtävän kanssa kohdassa kuvatulla tavalla user_ask_2
seuraavasti:
Välitä ohjeet kehotteen luomiseksi luoman kehotemallin mukaisesti build_llama2_prompt:
Yhdistämme päättelyparametrit kehotteen kanssa lopullisen hyötykuorman muodostamiseksi. Sitten lähetät hyötykuorman osoitteeseen get_realtime_response_stream,
jota käytetään päätepisteen kutsumiseen vastauksen suoratoistolla:
LLM:stä luotu teksti striimataan ulostuloon seuraavan animaation mukaisesti.
Puhdistaa
Vältä tarpeettomia kuluja käyttämällä AWS-hallintakonsoli poistaaksesi päätepisteet ja niihin liittyvät resurssit, jotka luotiin suoritettaessa viestissä mainittuja lähestymistapoja. Suorita molemmilla käyttöönottotavoilla seuraava puhdistusrutiini:
korvata <SageMaker_Real-time_Endpoint_Name>
muuttujalle endpoint_name
todellisen päätepisteen kanssa.
Toista lähestymistapaa varten tallensimme mallin ja koodin artefaktit Amazon S3:lle. Voit puhdistaa S3-kauhan seuraavalla koodilla:
Yhteenveto
Tässä viestissä keskustelimme siitä, kuinka vaihteleva määrä vastaustunnisteita tai erilainen päättelyparametrijoukko voi vaikuttaa LLM:ihin liittyviin latenssiin. Osoitimme, kuinka ongelma ratkaistaan vastausstriimauksen avulla. Sitten tunnistimme kaksi lähestymistapaa Llama 2 Chat -mallien käyttöönottoon ja päättelemiseen AWS DLC:itä käyttäen – LMI ja Hugging Face TGI.
Sinun pitäisi nyt ymmärtää suoratoistovasteen merkitys ja kuinka se voi vähentää havaittua viivettä. Suoratoistovaste voi parantaa käyttökokemusta, mikä muuten joutuisi odottamaan, kunnes LLM rakentaa koko vastauksen. Lisäksi Llama 2 Chat -mallien käyttöönotto vastaussuoratoistolla parantaa käyttökokemusta ja ilahduttaa asiakkaitasi.
Voit viitata virallisiin aws-näytteisiin amazon-sagemaker-llama2-response-streaming-recipes joka kattaa käyttöönoton muille Llama 2 -malliversioille.
Viitteet
Tietoja Tekijät
Pavan Kumar Rao Navule on ratkaisuarkkitehti Amazon Web Servicesissä. Hän työskentelee ISV:n kanssa Intiassa auttaakseen niitä innovoimaan AWS:ää. Hän on julkaissut kirjailijan kirjan "Getting Started with V Programming". Hän suoritti Executive M.Tech in Data Science in Indian Institute of Technology (IIT), Hyderabad. Hän suoritti myös Executive MBA -tutkinnon IT-erikoistuksessa Indian School of Business Management and Administrationista ja hänellä on B.Tech in Electronics and Communication Engineering Vaagdevi Institute of Technology and Sciencesta. Pavan on AWS Certified Solutions Architect Professional ja hänellä on muita sertifikaatteja, kuten AWS Certified Machine Learning Specialty, Microsoft Certified Professional (MCP) ja Microsoft Certified Technology Specialist (MCTS). Hän on myös avoimen lähdekoodin harrastaja. Vapaa-ajallaan hän kuuntelee mielellään Sian ja Rihannan upeita maagisia ääniä.
Sudhanshu Hate on AWS:n pääasiallinen AI/ML-asiantuntija ja työskentelee asiakkaiden kanssa neuvoakseen heitä heidän MLOpsissa ja generatiivisessa tekoälymatkassaan. Edellisessä tehtävässään ennen Amazonia hän käsitteli, loi ja johti tiimejä rakentamaan maaperän avoimeen lähdekoodiin perustuvia tekoäly- ja pelillistämisalustoja sekä kaupallistanut sen menestyksekkäästi yli 100 asiakkaan kanssa. Sudhanshu kiittää pari patenttia, on kirjoittanut kaksi kirjaa ja useita papereita ja blogeja sekä esittänyt näkemyksiään erilaisilla teknisillä foorumeilla. Hän on ollut ajatusjohtaja ja puhuja, ja hän on ollut alalla lähes 25 vuotta. Hän on työskennellyt Fortune 1000 -asiakkaiden kanssa ympäri maailmaa ja viimeksi digitaalisten alkuperäisasiakkaiden kanssa Intiassa.
- SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
- PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
- PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
- PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
- PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
- Lähde: https://aws.amazon.com/blogs/machine-learning/inference-llama-2-models-with-real-time-response-streaming-using-amazon-sagemaker/
- :on
- :On
- :missä
- $ YLÖS
- 1
- 10
- 100
- 11
- 12
- 14
- 15%
- 150
- 16
- 19
- 1st
- 25
- 32
- 385
- 50
- 7
- 70
- 8
- 9
- a
- kyky
- pystyy
- Meistä
- kiihdyttää
- kiihdyttää
- kiihdytin
- Hyväksyä
- pääsy
- Tili
- Saavuttaa
- poikki
- Toiminta
- todellinen
- Lisäksi
- osoite
- hallinto
- hyväksyä
- Hyväksyminen
- Etu
- neuvoa
- vaikuttaa
- Jälkeen
- AI
- AI-mallit
- AI / ML
- alice
- Kohdistaa
- Kaikki
- Salliminen
- mahdollistaa
- pitkin
- jo
- Myös
- Amazon
- Amazon Sage Maker
- Amazon Web Services
- an
- ja
- animaatio
- ilmoitti
- Ilmoitus
- Kaikki
- api
- sovellukset
- lähestymistapa
- lähestymistavat
- sopiva
- arkkitehtuurin
- arkkitehtuuri
- OVAT
- perustelu
- perustelut
- AS
- avustajat
- liittyvä
- At
- kirjoittaja
- saatavissa
- välttää
- AWS
- takaisin
- pohja
- annostelu-
- BE
- koska
- ollut
- ennen
- välillä
- Jälkeen
- Miljardi
- miljardeja
- BIN
- blogit
- elin
- kirja
- Kirjat
- sekä
- rakentaa
- rakentaa
- rakennettu
- liiketoiminta
- mutta
- by
- soittaa
- Kampanja
- CAN
- kykenee
- tapaus
- sertifikaatit
- Todistettu
- Muutokset
- maksut
- jutella
- chatbots
- puhdas
- asiakas
- asiakkaat
- maila
- koodi
- kokoelma
- KOM
- yhdistetty
- tulee
- Viestintä
- samanaikainen
- Konfigurointi
- vahvistus
- Kontti
- Kontit
- jatkuva
- jatkuvasti
- valvonta
- voisi
- Pari
- kuponki
- katettu
- Covers
- luoda
- luotu
- luo
- Luominen
- pisteitä
- asiakas
- Asiakastyytyväisyys
- Asiakkaat
- tiedot
- tietojenkäsittely
- päivää
- syvä
- syvä oppiminen
- oletusarvot
- määritellä
- määritelty
- Myöhässä
- osoittaa
- sijoittaa
- käyttöön
- levityspinnalta
- käyttöönotto
- yksityiskohtainen
- yksityiskohdat
- kehittäjille
- Laitteet
- eri
- digitaalinen
- keskusteltiin
- Dont
- download
- aikana
- Aikaisemmin
- myöskään
- Elektroniikka
- mahdollistaa
- päätepiste
- Moottori
- Tekniikka
- intoilija
- Koko
- ympäristö
- erityisesti
- perustamisesta
- Jopa
- esimerkki
- johtaja
- odottaa
- odottaa
- experience
- Elämykset
- tutkia
- Kasvot
- Helpottaa
- väärä
- nopeampi
- filee
- Asiakirjat
- lopullinen
- Vihdoin
- Etunimi
- ensimmäistä kertaa
- jälkeen
- seuraa
- varten
- muoto
- muoto
- rikkaus
- foorumit
- löytyi
- perusta
- neljä
- Ilmainen
- alkaen
- koko
- täysin
- toiminto
- edelleen
- gamification
- aidatulla
- tuottaa
- syntyy
- tuottaa
- sukupolvi
- generatiivinen
- Generatiivinen AI
- generaattorit
- saada
- gif
- maapallo
- Go
- säännellään
- GPU
- GPU
- myönnetty
- suuri
- onnellinen
- viha
- Olla
- he
- auttaa
- auttaa
- korkea suorituskyky
- korkeampi
- hänen
- pitää
- isännöi
- hotellit
- Miten
- Miten
- Kuitenkin
- HTML
- http
- HTTPS
- HalaaKasvot
- luettavaan
- ID
- tunnistettu
- Identiteetti
- if
- havainnollistaa
- kuva
- kuvien
- Välitön
- toteuttaa
- täytäntöönpano
- tuoda
- merkitys
- tärkeä
- parantaa
- parantaa
- in
- sisältää
- Mukaan lukien
- Intia
- intialainen
- ilmoitettu
- teollisuus
- tiedot
- Infrastruktuuri
- innovoida
- panos
- tuloa
- sisällä
- esimerkki
- sen sijaan
- Instituutti
- ohjeet
- vuorovaikutteinen
- Internet
- kysymykset
- IT
- SEN
- matka
- json
- avain
- Kumar
- Kieli
- suuri
- Viive
- latenssiongelmia
- myöhemmin
- uusin
- käynnistää
- johtaa
- johtaja
- oppiminen
- Led
- Pituus
- kirjastot
- Lisenssi
- pitää
- rajat
- linja
- kuunnella
- liekki
- OTK
- lastaus
- sijaitsevat
- rakastaa
- kone
- koneoppiminen
- tehty
- tehdä
- TEE
- hoitaa
- onnistui
- johto
- Marketing
- max
- Saattaa..
- MCP
- Muisti
- mainitsi
- Meta
- menetelmä
- menetelmät
- Microsoft
- miljoonia
- ML
- MLOps
- malli
- mallit
- kk
- lisää
- eniten
- Musiikki
- täytyy
- nimi
- nimetty
- syntyperäinen
- lähes
- Tarve
- tarpeet
- Uusi
- seuraava
- huomata
- muistikirja
- nyt
- numero
- esineet
- tarkkailla
- saada
- saatu
- of
- tarjotaan
- virallinen
- usein
- on
- ONE
- vain
- avata
- avoimen lähdekoodin
- Vaihtoehto
- Vaihtoehdot
- or
- Muut
- muuten
- ääriviivat
- ulostulo
- yli
- yleinen
- pakattu
- pakkaus
- paperit
- Parallel
- parametri
- parametrit
- osa
- kulkea
- Patentit
- polku
- varten
- koettu
- Suorittaa
- suoritettu
- Oikeudet
- Platforms
- Platon
- Platonin tietotieto
- PlatonData
- pistettä
- Suosittu
- mahdollinen
- Kirje
- powered
- edeltävä
- Valmistella
- valmistelee
- edellytyksiä
- esitetty
- edellinen
- Pääasiallinen
- tulosteet
- Ongelma
- jatkaa
- prosessi
- Käsitelty
- käsittely
- Tuotteet
- tuotejulkaisu
- ammatillinen
- Profiili
- Ohjelmointi
- Edistyminen
- ominaisuudet
- toimittaa
- mikäli
- tarjoaa
- tarjoamalla
- julkaistu
- tarkoituksiin
- Python
- pytorch
- kysymys
- alainen
- nopea
- pikemminkin
- Lue
- valmis
- todellinen
- reaaliaikainen
- ymmärtää
- vastaanottaa
- sai
- äskettäin
- suositella
- suositeltu
- vähentää
- vähentää
- vähentämällä
- katso
- suhde
- korvata
- vastaus
- säilytyspaikka
- pyyntö
- pyynnöt
- Esittelymateriaalit
- Vastata
- vastaus
- vasteet
- johtua
- palata
- Tuotto
- Rooli
- rutiini
- ajaa
- juoksu
- toimii
- runtime
- sagemaker
- sama
- tyytyväisyys
- Asteikko
- Koulu
- tiede
- sdk
- saumaton
- Toinen
- Osa
- nähdä
- lähettää
- lähettää
- palvella
- palvelu
- Palvelut
- palvelevat
- setti
- settings
- useat
- Lyhyt
- shouldnt
- näyttää
- osoittivat
- esitetty
- Näytä
- merkki
- Yksinkertainen
- Kuva
- pätkä
- ratkaisu
- Ratkaisumme
- pian
- lähde
- lähdekoodi
- Kaiutin
- asiantuntija
- erikoistunut
- Erikoisuus
- tekniset tiedot
- määritelty
- alkoi
- Tila
- Vaihe
- Askeleet
- stop
- Levytila
- verkkokaupasta
- tallennettu
- strategiat
- virta
- virtasi
- streaming
- Suoratoistopalvelu
- menestyä
- onnistunut
- Onnistuneesti
- niin
- tuki
- Tuetut
- Tukee
- taulukko
- ottaa
- Tehtävä
- tiimit
- teknologia
- Tekninen
- Elektroniikka
- sapluuna
- teksti
- kuin
- että
- -
- heidän
- Niitä
- sitten
- Siellä.
- siten
- siksi
- Nämä
- ne
- tätä
- vaikka?
- ajatus
- suoritusteho
- aika
- kertaa
- että
- symbolinen
- tokens
- työkalut
- Juna
- Kääntäminen
- totta
- Kääntyminen
- kaksi
- tyyppi
- tyypit
- tyypillisesti
- ymmärtää
- tarpeeton
- asti
- Käyttö
- käyttää
- käyttölaukku
- käytetty
- käyttäjä
- Käyttäjäkokemus
- käyttämällä
- pätevä
- arvo
- arvot
- muuttuja
- eri
- Vaihteleva
- valtava
- versio
- kautta
- Näytä
- Virtual
- Vierailla
- ÄÄNTÄ
- odottaa
- odotus
- haluta
- we
- verkko
- verkkopalvelut
- HYVIN
- olivat
- kun
- joka
- vaikka
- koko
- jonka
- tulee
- with
- sisällä
- ilman
- työskenteli
- työntekijä
- työntekijöitä
- työnkulku
- työnkulkuja
- työskentely
- toimii
- olisi
- kirjoittaa
- kirjallinen
- vuotta
- Voit
- Sinun
- zephyrnet