Päättele Llama 2 -malleja, joissa on reaaliaikainen vastausvirta Amazon SageMakerin avulla

Julkaissut Platon

seuraajia: 0

Generatiivisten tekoälysovellusten nopean käyttöönoton myötä näiden sovellusten on reagoitava ajoissa, jotta havaittu latenssi vähenee suuremmalla suorituskyvyllä. Perusmallit (FM:t) ovat usein valmiiksi koulutettuja laajalle tietokokonaisuudelle, jonka parametrit vaihtelevat miljoonista miljardeihin ja enemmänkin. Suuret kielimallit (LLM) ovat FM-tyyppejä, jotka luovat tekstiä vastauksena käyttäjän päättelyyn. Näiden mallien päättäminen erilaisilla päättelyparametrien kokoonpanoilla voi johtaa epäjohdonmukaisiin viiveisiin. Epäjohdonmukaisuus voi johtua mallilta odottamiesi vastaustunnisteiden vaihtelevasta määrästä tai kiihdytintyypistä, jossa mallia käytetään.

Kummassakin tapauksessa sen sijaan, että odottaisit täyttä vastausta, voit omaksua vastausten suoratoiston johtopäätösten tekemiseen, joka lähettää takaisin tietopaloja heti, kun ne on luotu. Tämä luo interaktiivisen kokemuksen mahdollistamalla osittaisten vastausten suoratoiston reaaliajassa viivästyneen täyden vastauksen sijaan.

Virallisen ilmoituksen myötä Amazon SageMakerin reaaliaikainen päättely tukee nyt vastausten suoratoistoa, voit nyt jatkuvasti suoratoistaa päätelmävastauksia takaisin asiakkaalle käyttäessäsi Amazon Sage Maker reaaliaikainen päättely vastausten suoratoistolla. Tämä ratkaisu auttaa sinua rakentamaan interaktiivisia kokemuksia erilaisille generatiivisille tekoälysovelluksille, kuten chatboteille, virtuaalisille avustajille ja musiikkigeneraattoreille. Tämä viesti näyttää, kuinka voit toteuttaa nopeammat vasteajat Time to First Byte (TTFB) -muodossa ja vähentää yleistä havaittua latenssia päättäessäsi Llama 2 -malleista.

Ratkaisun toteuttamiseen käytämme SageMakeria, täysin hallittua palvelua tietojen valmistelemiseen sekä koneoppimismallien (ML) rakentamiseen, kouluttamiseen ja käyttöönottoon kaikissa käyttötapauksissa täysin hallitun infrastruktuurin, työkalujen ja työnkulkujen kanssa. Lisätietoja SageMakerin erilaisista käyttöönottovaihtoehdoista on kohdassa Amazon SageMaker -mallin hosting usein kysytyt kysymykset. Ymmärretään, kuinka voimme ratkaista latenssiongelmia käyttämällä reaaliaikaisia päätelmiä ja vastausten suoratoistoa.

Ratkaisun yleiskatsaus

Koska haluamme käsitellä edellä mainittuja viiveitä, jotka liittyvät reaaliaikaiseen päättelyyn LLM:ien kanssa, ymmärrämme ensin, kuinka voimme käyttää vastausten suoratoistotukea reaaliaikaiseen päättelyyn Llama 2:lle. Jokainen LLM voi kuitenkin hyödyntää vastausten suoratoistotukea reaaliajassa. -ajan päättely.

Llama 2 on kokoelma esikoulutettuja ja hienosäädettyjä generatiivisia tekstimalleja, joiden mittakaava vaihtelee 7 miljardista 70 miljardiin parametriin. Llama 2 -mallit ovat autoregressiivisiä malleja, joissa on vain dekooderiarkkitehtuuri. Kun Llama 2 -malleissa on kehote ja päättelyparametrit, ne pystyvät luomaan tekstivastauksia. Näitä malleja voidaan käyttää kääntämiseen, yhteenvetoon, kysymyksiin vastaamiseen ja keskusteluun.

Tässä viestissä käytämme Llama 2 Chat -mallia meta-llama/Llama-2-13b-chat-hf SageMakerissa reaaliaikaisten johtopäätösten tekemiseen vastaussuoratoistolla.

Kun on kyse mallien käyttöönotosta SageMaker-päätepisteissä, voit säilöä mallit käyttämällä erikoistuneita AWS Deep Learning Container (DLC) -kuvia saatavilla suosittuihin avoimen lähdekoodin kirjastoihin. Llama 2 -mallit ovat tekstin sukupolven malleja; voit käyttää joko Hugging Face LLM-päätelmäsäiliöt SageMakerissa powered by Hugging Face Tekstin luomisen päättely (TGI) tai AWS DLC:t varten Suuri mallipäätelmä (LMI).

Tässä viestissä otamme käyttöön Llama 2 13B Chat -mallin käyttämällä DLC:itä SageMaker Hostingissa reaaliaikaisten johtopäätösten tekemiseen G5-esiintymien avulla. G5-instanssit ovat suorituskykyisiä GPU-pohjaisia ilmentymiä grafiikkaintensiivisille sovelluksille ja ML-päätelmille. Voit myös käyttää tuettuja ilmentymätyyppejä p4d, p3, g5 ja g4dn asianmukaisin muutoksin ilmentymän kokoonpanon mukaan.

Edellytykset

Tämän ratkaisun toteuttamiseksi sinulla tulee olla seuraavat:

AWS-tili, jossa on AWS-henkilöllisyyden ja käyttöoikeuksien hallinta (IAM) rooli, jolla on oikeudet hallita resursseja, jotka on luotu osana ratkaisua.
Jos tämä on ensimmäinen kerta, kun työskentelet Amazon SageMaker Studio, sinun on ensin luotava a SageMaker-verkkotunnus.
Hugging Face -tili. Luo tili sähköpostillasi, jos sinulla ei vielä ole tiliä.
- Hugging Facessa saatavilla olevien mallien, erityisesti porteilla varustettujen mallien, kuten Llaman, saumattoman käyttöösi hienosäätöä ja päätelmiä varten sinulla tulee olla Hugging Face -tili lukuoikeustunnisteen saamiseksi. Kun olet rekisteröitynyt Hugging Face -tilillesi, kirjaudu sisään vierailla https://huggingface.co/settings/tokens luodaksesi lukuoikeustunnuksen.
Pääsy Llama 2:een käyttämällä samaa sähköpostiosoitetta, jota käytit rekisteröityessäsi Hugging Faceen.
- Hugging Facen kautta saatavilla olevat Llama 2 -mallit ovat aidattuja malleja. Llama-mallin käyttöä säätelee Meta-lisenssi. Voit ladata mallipainot ja tokenizerin, pyytää pääsyä lamaan ja hyväksyä heidän lisenssinsä.
- Kun sinulle on myönnetty käyttöoikeus (yleensä muutaman päivän kuluessa), saat sähköpostivahvistuksen. Tässä esimerkissä käytämme mallia Llama-2-13b-chat-hf, mutta sinun pitäisi pystyä käyttämään myös muita muunnelmia.

Lähestymistapa 1: Halaavat kasvot TGI

Tässä osiossa näytämme, kuinka voit ottaa käyttöön meta-llama/Llama-2-13b-chat-hf mallin SageMakerin reaaliaikaiseen päätepisteeseen vastausten suoratoistolla Hugging Face TGI:n avulla. Seuraavassa taulukossa esitetään tämän käyttöönoton tekniset tiedot.

määrittely	Arvo
Kontti	Hugging Face TGI
Mallin nimi	meta-lama/Llama-2-13b-chat-hf
ML-instanssi	ml.g5.12xsuuri
Päättely	Reaaliaikainen vastausten suoratoisto

Ota käyttöön malli

Ensin haet käyttöön otettavan LLM:n peruskuvan. Rakennat sitten mallin peruskuvan päälle. Lopuksi otat mallin käyttöön SageMaker Hostingin ML-esiintymään reaaliaikaisten päätelmien tekemiseksi.

Tarkastellaan kuinka käyttöönotto saavutetaan ohjelmallisesti. Lyhytyyden vuoksi tässä osiossa käsitellään vain koodia, joka auttaa käyttöönottovaiheissa. Täydellinen käyttöönoton lähdekoodi on saatavilla muistikirjassa llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.

Hae uusin Hugging Face LLM DLC, joka toimii TGI:llä valmiiksi rakennetun kautta SageMaker DLC:t. Käytät tätä kuvaa ottaaksesi käyttöön meta-llama/Llama-2-13b-chat-hf malli SageMakerissa. Katso seuraava koodi:

from sagemaker.huggingface import get_huggingface_llm_image_uri # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri( "huggingface", version="1.0.3"
)

Määritä mallin ympäristö konfigurointiparametreilla seuraavasti:

instance_type = "ml.g5.12xlarge"
number_of_gpu = 4
config = { 'HF_MODEL_ID': "meta-llama/Llama-2-13b-chat-hf", # model_id from hf.co/models 'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica 'MAX_INPUT_LENGTH': json.dumps(2048), # Max length of input text 'MAX_TOTAL_TOKENS': json.dumps(4096), # Max length of the generation (including input text) 'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192), # Limits the number of tokens that can be processed in parallel during the generation 'HUGGING_FACE_HUB_TOKEN': "<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>"
}

korvata <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> config-parametrille HUGGING_FACE_HUB_TOKEN Hugging Face -profiilistasi saadun tunnuksen arvolla, kuten on kuvattu tämän viestin edellytysosiossa. Määrityksessä määrität mallin kopiota kohti käytettävien GPU:iden lukumääräksi 4 varten SM_NUM_GPUS. Sitten voit ottaa käyttöön meta-llama/Llama-2-13b-chat-hf malli ml.g5.12xlarge-esiintymässä, jossa on 4 GPU:ta.

Nyt voit rakentaa esiintymän HuggingFaceModel edellä mainitulla ympäristökokoonpanolla:

llm_model = HuggingFaceModel( role=role, image_uri=llm_image, env=config
)

Lopuksi ota malli käyttöön antamalla argumentit mallissa käytettävissä olevalle käyttöönottomenetelmälle erilaisilla parametriarvoilla, kuten endpoint_name, initial_instance_countja instance_type:

llm = llm_model.deploy( endpoint_name=endpoint_name, initial_instance_count=1, instance_type=instance_type, container_startup_health_check_timeout=health_check_timeout,
)

Suorita johtopäätös

Hugging Face TGI DLC sisältää mahdollisuuden suoratoistaa vastauksia ilman mukautuksia tai koodimuutoksia malliin. Voit käyttää invoke_endpoint_with_response_stream jos käytät Boto3:a tai InvokeEndpointWithResponseStream kun ohjelmoit SageMaker Python SDK:lla.

- InvokeEndpointWithResponseStream SageMakerin API:n avulla kehittäjät voivat suoratoistaa vastauksia SageMaker-malleista, mikä voi auttaa parantamaan asiakastyytyväisyyttä vähentämällä havaittua viivettä. Tämä on erityisen tärkeää generatiivisilla tekoälymalleilla rakennetuissa sovelluksissa, joissa välitön käsittely on tärkeämpää kuin koko vastauksen odottaminen.

Tässä esimerkissä käytämme Boto3:a mallin päättelemiseen ja käytämme SageMaker API:ta invoke_endpoint_with_response_stream seuraavasti:

def get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload): response_stream = sagemaker_runtime.invoke_endpoint_with_response_stream( EndpointName=endpoint_name, Body=json.dumps(payload), ContentType="application/json", CustomAttributes='accept_eula=false' ) return response_stream

Argumentti CustomAttributes on asetettu arvoon accept_eula=false. - accept_eula parametri on asetettava arvoon true saada onnistuneesti vastaus Llama 2 -malleista. Onnistuneen kutsun jälkeen invoke_endpoint_with_response_stream, menetelmä palauttaa tavujen vastausvirran.

Seuraava kaavio kuvaa tätä työnkulkua.

HF TGI -suoratoiston arkkitehtuurikaavio

Tarvitset iteraattorin, joka kiertää tavuvirran yli ja jäsentää ne luettavaksi tekstiksi. The LineIterator toteutus löytyy osoitteesta llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Nyt olet valmis valmistelemaan kehotteen ja ohjeet niiden käyttämiseksi hyötykuormana, kun päätät mallista.

Valmistele kehote ja ohjeet

Tässä vaiheessa valmistelet kehotteen ja ohjeet LLM:llesi. Jos haluat pyytää Llama 2:ta, sinulla pitäisi olla seuraava kehotemalli:

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>> {{ user_message }} [/INST]

Rakennat menetelmässä ohjelmoidusti määritellyn kehotemallin build_llama2_prompt, joka on linjassa edellä mainitun kehotemallin kanssa. Määrität sitten ohjeet käyttötapauksen mukaan. Tässä tapauksessa ohjeistamme mallia luomaan sähköpostiviestin markkinointikampanjaa varten get_instructions menetelmä. Näiden menetelmien koodi on kohdassa llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb muistikirja. Rakenna ohje yhdistettynä suoritettavaan tehtävään kohdassa kuvatulla tavalla user_ask_1 seuraavasti:

user_ask_1 = f'''
AnyCompany recently announced new service launch named AnyCloud Internet Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: EARLYB1RD to get 20% for 1st 3 months. '''
instructions = get_instructions(user_ask_1)
prompt = build_llama2_prompt(instructions)

Välitämme ohjeet kehotteen rakentamiseksi build_llama2_promptin luoman kehotemallin mukaisesti.

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "repetition_penalty": 1.03, "stop": ["</s>"], "return_full_text": False }
payload = { "inputs": prompt, "parameters": inference_params, "stream": True ## <-- to have response stream.
}

Yhdistämme päättelyparametrit sekä kehotteen avaimella stream arvon kanssa True lopullisen hyötykuorman muodostamiseksi. Lähetä hyötykuorma osoitteeseen get_realtime_response_stream, jota käytetään päätepisteen kutsumiseen vastausten suoratoistolla:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

LLM:stä luotu teksti striimataan ulostuloon seuraavan animaation mukaisesti.

Llama 2 13B Chat Response Streaming - HF TGI

Lähestymistapa 2: LMI ja DJL-tarjoilu

Tässä osiossa esittelemme, kuinka meta-llama/Llama-2-13b-chat-hf malli SageMakerin reaaliaikaiseen päätepisteeseen vasteen suoratoistolla käyttämällä LMI:tä DJL-palvelun kanssa. Seuraavassa taulukossa esitetään tämän käyttöönoton tekniset tiedot.

määrittely	Arvo
Kontti	LMI-konttikuva DJL-tarjoilulla
Mallin nimi	meta-lama/Llama-2-13b-chat-hf
ML-instanssi	ml.g5.12xsuuri
Päättely	Reaaliaikainen vastausten suoratoisto

Lataa ensin malli ja tallenna se Amazonin yksinkertainen tallennuspalvelu (Amazon S3). Määritä sitten S3-URI, joka ilmaisee mallin S3-etuliitteen serving.properties tiedosto. Seuraavaksi haet käyttöön otettavan LLM:n peruskuvan. Rakennat sitten mallin peruskuvan päälle. Lopuksi otat mallin käyttöön SageMaker Hostingin ML-esiintymään reaaliaikaisten päätelmien tekemiseksi.

Tarkastellaan, kuinka yllä mainitut käyttöönottovaiheet saavutetaan ohjelmallisesti. Lyhytyyden vuoksi tässä osiossa on kuvattu vain koodi, joka auttaa käyttöönottovaiheissa. Tämän käyttöönoton koko lähdekoodi on saatavilla muistikirjassa llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.

Lataa mallin tilannekuva Hugging Facesta ja lataa malliesineet Amazon S3:lle

Lataa malli SageMaker-muistikirjan ilmentymään edellä mainituin edellytyksin ja lataa se sitten S3-säihöön jatkokäyttöä varten:

model_name = 'meta-llama/Llama-2-13b-chat-hf'
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.txt", "*.model", "*.safetensors", "*.bin", "*.chk", "*.pth"] # Download the model snapshot
model_download_path = snapshot_download( repo_id=model_name, cache_dir=local_model_path, allow_patterns=allow_patterns, token='<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>'
)

Huomaa, että vaikka et antaisi kelvollista käyttöoikeustunnusta, malli latautuu. Mutta kun otat tällaisen mallin käyttöön, mallin käyttö ei onnistu. Siksi on suositeltavaa vaihtaa <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> argumentin puolesta token Hugging Face -profiilistasi saadun tunnuksen arvolla edellytysten mukaisesti. Tässä viestissä määritämme Llama 2:n virallisen mallin nimen, joka on tunnistettu Hugging Facessa arvolla meta-llama/Llama-2-13b-chat-hf. Pakkaamaton malli ladataan osoitteeseen local_model_path edellä mainitun koodin suorittamisen seurauksena.

Lataa tiedostot Amazon S3:een ja hanki URI, jota käytetään myöhemmin serving.properties.

Tulet pakkaamaan meta-llama/Llama-2-13b-chat-hf mallia LMI-säilökuvassa, jossa on DJL Serving käyttäen määritettyä kokoonpanoa kautta serving.properties. Sitten otat mallin käyttöön yhdessä Säilön kuvaan pakattujen mallin artefaktien kanssa SageMaker ML -esiintymässä ml.g5.12xlarge. Tämän jälkeen käytät tätä ML-instanssia SageMaker Hostingissa reaaliaikaiseen päättelyyn.

Valmistele malliesineet DJL-tarjoilua varten

Valmistele malliesineet luomalla a serving.properties asetustiedosto:

%%writefile chat_llama2_13b_hf/serving.properties
engine = MPI
option.entryPoint=djl_python.huggingface
option.tensor_parallel_degree=4
option.low_cpu_mem_usage=TRUE
option.rolling_batch=lmi-dist
option.max_rolling_batch_size=64
option.model_loading_timeout=900
option.model_id={{model_id}}
option.paged_attention=true

Käytämme tässä asetustiedostossa seuraavia asetuksia:

moottori – Tämä määrittää DJL:n käytettävän ajonaikaisen moottorin. Mahdollisia arvoja ovat mm Python, DeepSpeed, FasterTransformerja MPI. Tässä tapauksessa asetamme sen MPI. Model Parallelization and Inference (MPI) helpottaa mallin osiointia kaikkien käytettävissä olevien GPU:iden kesken ja nopeuttaa siten päättelyä.
option.entryPoint – Tämä vaihtoehto määrittää, mitä DJL Servingin tarjoamaa käsittelijää haluat käyttää. Mahdolliset arvot ovat djl_python.huggingface, djl_python.deepspeedja djl_python.stable-diffusion. Käytämme djl_python.huggingface varten Hugging Face Accelerate.
option.tensor_parallel_degree – Tämä vaihtoehto määrittää mallille suoritettujen tensorin rinnakkaisten osioiden määrän. Voit määrittää niiden GPU-laitteiden määrän, joihin Acceleraten on osioitava malli. Tämä parametri ohjaa myös työntekijöiden määrää mallia kohti, jotka käynnistetään, kun DJL-palvelu suoritetaan. Jos meillä on esimerkiksi 4 GPU-kone ja luomme neljä osiota, meillä on yksi työntekijä mallia kohden palvelemaan pyyntöjä.
option.low_cpu_mem_usage – Tämä vähentää suorittimen muistin käyttöä ladattaessa malleja. Suosittelemme, että asetat tämän asetuksen TRUE.
option.rolling_batch – Tämä mahdollistaa iteraatiotason eräajon käyttämällä yhtä tuetuista strategioista. Arvot sisältävät auto, schedulerja lmi-dist. Käytämme lmi-dist jatkuvan annostelun kytkemiseksi päälle Llama 2:lle.
option.max_rolling_batch_size – Tämä rajoittaa samanaikaisten pyyntöjen määrää jatkuvassa erässä. Oletusarvo on 32.
option.model_id – Sinun pitäisi vaihtaa {{model_id}} jossa on valmiiksi koulutetun mallin mallitunnus, jota isännöidään sisällä a mallivarasto Hugging Facessa tai S3 polku mallin artefakteihin.

Lisää konfigurointivaihtoehtoja löytyy osoitteesta Kokoonpanot ja asetukset.

Koska DJL Serving odottaa, että mallin artefaktit pakataan ja muotoillaan .tar-tiedostoon, suorita seuraava koodinpätkä .tar-tiedoston pakkaamiseksi ja lataamiseksi Amazon S3:een:

s3_code_prefix = f"{s3_prefix}/code" # folder within bucket where code artifact will go
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

Hae uusin LMI-säilökuva DJL Servingin avulla

Seuraavaksi käytät SageMaker for LMI:n kanssa saatavilla olevia DLC:itä mallin käyttöönottoon. Hae SageMaker-kuvan URI:lle djl-deepspeed säilö ohjelmallisesti käyttämällä seuraavaa koodia:

from sagemaker import image_uris
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=region, version="0.25.0"
)

Voit käyttää yllä mainittua kuvaa ottaaksesi käyttöön meta-llama/Llama-2-13b-chat-hf malli SageMakerissa. Nyt voit jatkaa mallin luomista.

Luo malli

Voit luoda mallin, jonka säiliö on rakennettu käyttämällä inference_image_uri ja mallin palvelukoodi, joka sijaitsee S3 URI:ssa, jota osoittaa s3_code_artifact:

from sagemaker.utils import name_from_base model_name = name_from_base(f"Llama-2-13b-chat-lmi-streaming") create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact, "Environment": {"MODEL_LOADING_TIMEOUT": "3600"}, },
)

Nyt voit luoda mallin kokoonpanon, jossa on kaikki päätepisteen konfiguroinnin tiedot.

Luo mallin konfiguraatio

Käytä seuraavaa koodia luodaksesi mallin konfiguraatio mallille, jonka tunnistaa model_name:

endpoint_config_name = f"{model_name}-config" endpoint_name = name_from_base(model_name) endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

Mallin kokoonpano on määritetty ProductionVariants parametri InstanceType ML-instanssille ml.g5.12xlarge. Tarjoat myös ModelName käyttämällä samaa nimeä, jota käytit luodessasi mallin aikaisemmassa vaiheessa, mikä muodostaa suhteen mallin ja päätepisteen kokoonpanon välille.

Nyt kun olet määrittänyt mallin ja mallin konfiguraation, voit luoda SageMaker-päätepisteen.

Luo SageMaker-päätepiste

Luo päätepiste mallin käyttöönottamiseksi käyttämällä seuraavaa koodinpätkää:

create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)

Voit tarkastella käyttöönoton edistymistä seuraavan koodinpätkän avulla:

resp = sm_client.describe_endpoint(EndpointName=endpoint_name)
status = resp["EndpointStatus"]

Kun käyttöönotto on onnistunut, päätepisteen tila on InService. Nyt kun päätepiste on valmis, tehdään päättely vastausten suoratoistolla.

Reaaliaikainen päättely vastausten suoratoistolla

Kuten kerroimme aiemmassa Hugging Face TGI:n lähestymistavassa, voit käyttää samaa menetelmää get_realtime_response_stream käynnistää vastausten suoratoisto SageMaker-päätepisteestä. LMI-lähestymistapaa käyttävän päättelyn koodi on kohdassa llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb muistikirja. The LineIterator toteutus sijaitsee llama-2-lmi/utils/LineIterator.py. Huomaa, että LineIterator LMI-säilössä käyttöönotettu Llama 2 Chat -malli eroaa LineIterator viitataan Hugging Face TGI -osiossa. The LineIterator silmukat tavuvirran yli Llama 2 Chat -malleista, jotka on päätelty LMI-säilön avulla djl-deepspeed versio 0.25.0. Seuraava aputoiminto jäsentää vastausvirran, joka on vastaanotettu :n kautta tehdystä päättelypyynnöstä invoke_endpoint_with_response_stream API:t:

from utils.LineIterator import LineIterator def print_response_stream(response_stream): event_stream = response_stream.get('Body') for line in LineIterator(event_stream): print(line, end='')

Edellinen menetelmä tulostaa tietovirran, jonka lukee LineIterator ihmisen luettavassa muodossa.

Tutkitaan kuinka valmistella kehote ja ohjeet niiden käyttämiseen hyötykuormana, kun päätät mallista.

Koska päättelet saman mallin sekä Hugging Face TGI:ssä että LMI:ssä, kehotteen ja ohjeiden valmisteluprosessi on sama. Siksi voit käyttää menetelmiä get_instructions ja build_llama2_prompt päättelemistä varten.

- get_instructions menetelmä palauttaa ohjeet. Rakenna ohjeet yhdessä suoritettavan tehtävän kanssa kohdassa kuvatulla tavalla user_ask_2 seuraavasti:

user_ask_2 = f'''
AnyCompany recently announced new service launch named AnyCloud Streaming Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: STREAM2DREAM to get 15% for 1st 6 months. ''' instructions = get_instructions(user_ask_2)
prompt = build_llama2_prompt(instructions)

Välitä ohjeet kehotteen luomiseksi luoman kehotemallin mukaisesti build_llama2_prompt:

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "return_full_text": False, } payload = { "inputs": prompt, "parameters": inference_params
}

Yhdistämme päättelyparametrit kehotteen kanssa lopullisen hyötykuorman muodostamiseksi. Sitten lähetät hyötykuorman osoitteeseen get_realtime_response_stream, jota käytetään päätepisteen kutsumiseen vastauksen suoratoistolla:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

LLM:stä luotu teksti striimataan ulostuloon seuraavan animaation mukaisesti.

Llama 2 13B Chat Response Streaming - LMI

Puhdistaa

Vältä tarpeettomia kuluja käyttämällä AWS-hallintakonsoli poistaaksesi päätepisteet ja niihin liittyvät resurssit, jotka luotiin suoritettaessa viestissä mainittuja lähestymistapoja. Suorita molemmilla käyttöönottotavoilla seuraava puhdistusrutiini:

import boto3
sm_client = boto3.client('sagemaker')
endpoint_name="<SageMaker_Real-time_Endpoint_Name>"
endpoint = sm_client.describe_endpoint(EndpointName=endpoint_name)
endpoint_config_name = endpoint['EndpointConfigName']
endpoint_config = sm_client.describe_endpoint_config(EndpointConfigName=endpoint_config_name)
model_name = endpoint_config['ProductionVariants'][0]['ModelName'] print(f"""
About to delete the following sagemaker resources:
Endpoint: {endpoint_name}
Endpoint Config: {endpoint_config_name}
Model: {model_name} """) # delete endpoint
sm_client.delete_endpoint(EndpointName=endpoint_name)
# delete endpoint config
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
# delete model
sm_client.delete_model(ModelName=model_name)

korvata <SageMaker_Real-time_Endpoint_Name> muuttujalle endpoint_name todellisen päätepisteen kanssa.

Toista lähestymistapaa varten tallensimme mallin ja koodin artefaktit Amazon S3:lle. Voit puhdistaa S3-kauhan seuraavalla koodilla:

s3 = boto3.resource('s3')
s3_bucket = s3.Bucket(bucket)
s3_bucket.objects.filter(Prefix=s3_prefix).delete()

Yhteenveto

Tässä viestissä keskustelimme siitä, kuinka vaihteleva määrä vastaustunnisteita tai erilainen päättelyparametrijoukko voi vaikuttaa LLM:ihin liittyviin latenssiin. Osoitimme, kuinka ongelma ratkaistaan vastausstriimauksen avulla. Sitten tunnistimme kaksi lähestymistapaa Llama 2 Chat -mallien käyttöönottoon ja päättelemiseen AWS DLC:itä käyttäen – LMI ja Hugging Face TGI.

Sinun pitäisi nyt ymmärtää suoratoistovasteen merkitys ja kuinka se voi vähentää havaittua viivettä. Suoratoistovaste voi parantaa käyttökokemusta, mikä muuten joutuisi odottamaan, kunnes LLM rakentaa koko vastauksen. Lisäksi Llama 2 Chat -mallien käyttöönotto vastaussuoratoistolla parantaa käyttökokemusta ja ilahduttaa asiakkaitasi.

Voit viitata virallisiin aws-näytteisiin amazon-sagemaker-llama2-response-streaming-recipes joka kattaa käyttöönoton muille Llama 2 -malliversioille.

Viitteet

Tietoja Tekijät

Pavan Kumar Rao Navule on ratkaisuarkkitehti Amazon Web Servicesissä. Hän työskentelee ISV:n kanssa Intiassa auttaakseen niitä innovoimaan AWS:ää. Hän on julkaissut kirjailijan kirjan "Getting Started with V Programming". Hän suoritti Executive M.Tech in Data Science in Indian Institute of Technology (IIT), Hyderabad. Hän suoritti myös Executive MBA -tutkinnon IT-erikoistuksessa Indian School of Business Management and Administrationista ja hänellä on B.Tech in Electronics and Communication Engineering Vaagdevi Institute of Technology and Sciencesta. Pavan on AWS Certified Solutions Architect Professional ja hänellä on muita sertifikaatteja, kuten AWS Certified Machine Learning Specialty, Microsoft Certified Professional (MCP) ja Microsoft Certified Technology Specialist (MCTS). Hän on myös avoimen lähdekoodin harrastaja. Vapaa-ajallaan hän kuuntelee mielellään Sian ja Rihannan upeita maagisia ääniä.

Sudhanshu Hate on AWS:n pääasiallinen AI/ML-asiantuntija ja työskentelee asiakkaiden kanssa neuvoakseen heitä heidän MLOpsissa ja generatiivisessa tekoälymatkassaan. Edellisessä tehtävässään ennen Amazonia hän käsitteli, loi ja johti tiimejä rakentamaan maaperän avoimeen lähdekoodiin perustuvia tekoäly- ja pelillistämisalustoja sekä kaupallistanut sen menestyksekkäästi yli 100 asiakkaan kanssa. Sudhanshu kiittää pari patenttia, on kirjoittanut kaksi kirjaa ja useita papereita ja blogeja sekä esittänyt näkemyksiään erilaisilla teknisillä foorumeilla. Hän on ollut ajatusjohtaja ja puhuja, ja hän on ollut alalla lähes 25 vuotta. Hän on työskennellyt Fortune 1000 -asiakkaiden kanssa ympäri maailmaa ja viimeksi digitaalisten alkuperäisasiakkaiden kanssa Intiassa.