Inferensi Model Llama 2 Dengan Streaming Respons Real-time Menggunakan Amazon SageMaker

Diterbitkan Ulang Oleh Plato

Followers: 0

Dengan pesatnya adopsi aplikasi AI generatif, aplikasi ini perlu merespons tepat waktu guna mengurangi latensi yang dirasakan dengan throughput yang lebih tinggi. Model dasar (Foundation Model/FM) sering kali telah dilatih sebelumnya pada kumpulan data yang sangat besar dengan parameter yang berkisar dalam skala jutaan hingga miliaran atau lebih. Model bahasa besar (LLM) adalah jenis FM yang menghasilkan teks sebagai respons dari inferensi pengguna. Menyimpulkan model ini dengan berbagai konfigurasi parameter inferensi dapat menyebabkan latensi tidak konsisten. Ketidakkonsistenan ini mungkin disebabkan oleh beragamnya jumlah token respons yang Anda harapkan dari model atau jenis akselerator tempat model diterapkan.

Apa pun kasusnya, daripada menunggu respons lengkap, Anda dapat mengadopsi pendekatan streaming respons untuk kesimpulan Anda, yang mengirimkan kembali potongan informasi segera setelah dihasilkan. Hal ini menciptakan pengalaman interaktif dengan memungkinkan Anda melihat sebagian respons yang dialirkan secara real-time, bukan respons penuh yang tertunda.

Dengan pengumuman resmi itu Inferensi real-time Amazon SageMaker kini mendukung streaming respons, Anda sekarang dapat terus mengalirkan respons inferensi kembali ke klien saat menggunakan Amazon SageMaker inferensi waktu nyata dengan streaming respons. Solusi ini akan membantu Anda membangun pengalaman interaktif untuk berbagai aplikasi AI generatif seperti chatbots, asisten virtual, dan generator musik. Postingan ini menunjukkan kepada Anda cara mewujudkan waktu respons yang lebih cepat dalam bentuk Time to First Byte (TTFB) dan mengurangi latensi yang dirasakan secara keseluruhan saat menyimpulkan model Llama 2.

Untuk mengimplementasikan solusi ini, kami menggunakan SageMaker, layanan yang terkelola sepenuhnya untuk menyiapkan data dan membangun, melatih, serta menerapkan model pembelajaran mesin (ML) untuk setiap kasus penggunaan dengan infrastruktur, alat, dan alur kerja yang terkelola sepenuhnya. Untuk informasi selengkapnya tentang berbagai opsi penerapan yang disediakan SageMaker, lihat FAQ Hosting Model Amazon SageMaker. Mari kita pahami bagaimana kita dapat mengatasi masalah latensi menggunakan inferensi real-time dengan streaming respons.

Ikhtisar solusi

Karena kita ingin mengatasi latensi yang disebutkan di atas terkait dengan inferensi real-time dengan LLM, pertama-tama mari kita pahami bagaimana kita dapat menggunakan dukungan streaming respons untuk inferensi real-time untuk Llama 2. Namun, LLM mana pun dapat memanfaatkan dukungan streaming respons dengan real-time -kesimpulan waktu.

Llama 2 adalah kumpulan model teks generatif yang telah dilatih dan disempurnakan dengan skala mulai dari 7 miliar hingga 70 miliar parameter. Model Llama 2 adalah model autoregresif dengan arsitektur decoder saja. Jika dilengkapi dengan parameter prompt dan inferensi, model Llama 2 mampu menghasilkan respons teks. Model-model ini dapat digunakan untuk penerjemahan, ringkasan, menjawab pertanyaan, dan mengobrol.

Untuk postingan ini, kami menerapkan model Obrolan Llama 2 meta-llama/Llama-2-13b-chat-hf di SageMaker untuk inferensi real-time dengan streaming respons.

Saat menerapkan model pada titik akhir SageMaker, Anda dapat memasukkan model ke dalam container menggunakan yang khusus Wadah Pembelajaran Mendalam AWS (DLC) gambar tersedia untuk perpustakaan sumber terbuka populer. Model Llama 2 adalah model pembuatan teks; Anda dapat menggunakan keduanya Kontainer inferensi Hugging Face LLM di SageMaker didukung oleh Memeluk Wajah Inferensi Pembuatan Teks (TGI) atau AWS DLC untuk Inferensi Model Besar (LMI).

Dalam postingan ini, kami menerapkan model Obrolan Llama 2 13B menggunakan DLC di SageMaker Hosting untuk inferensi real-time yang didukung oleh instans G5. Instans G5 adalah instans berbasis GPU berperforma tinggi untuk aplikasi intensif grafis dan inferensi ML. Anda juga dapat menggunakan jenis instans yang didukung p4d, p3, g5, dan g4dn dengan perubahan yang sesuai sesuai konfigurasi instans.

Prasyarat

Untuk menerapkan solusi ini, Anda harus memiliki hal berikut:

Akun AWS dengan Identitas AWS dan Manajemen Akses (IAM) peran dengan izin untuk mengelola sumber daya yang dibuat sebagai bagian dari solusi.
Jika ini adalah pertama kalinya Anda bekerja dengannya Studio Amazon SageMaker, Anda harus membuat terlebih dahulu Domain SageMaker.
Akun Wajah Memeluk. Mendaftarlah dengan email Anda jika Anda belum memiliki akun.
- Untuk akses tanpa batas ke model yang tersedia di Hugging Face, terutama model yang terjaga keamanannya seperti Llama, untuk tujuan penyesuaian dan inferensi, Anda harus memiliki akun Hugging Face untuk mendapatkan token akses baca. Setelah Anda mendaftar untuk akun Hugging Face Anda, masuk untuk mengunjungi https://huggingface.co/settings/tokens untuk membuat token akses baca.
Akses ke Llama 2, menggunakan ID email yang sama dengan yang Anda gunakan untuk mendaftar ke Hugging Face.
- Model Llama 2 yang tersedia melalui Hugging Face adalah model yang terjaga keamanannya. Penggunaan model Llama diatur oleh lisensi Meta. Untuk mengunduh bobot model dan tokenizer, meminta akses ke Llama dan menerima lisensi mereka.
- Setelah Anda diberikan akses (biasanya dalam beberapa hari), Anda akan menerima konfirmasi email. Untuk contoh ini, kami menggunakan model Llama-2-13b-chat-hf, namun Anda juga dapat mengakses varian lainnya.

Pendekatan 1: Memeluk Wajah TGI

Di bagian ini, kami menunjukkan cara menyebarkan meta-llama/Llama-2-13b-chat-hf model ke titik akhir real-time SageMaker dengan streaming respons menggunakan Hugging Face TGI. Tabel berikut menguraikan spesifikasi untuk penerapan ini.

Spesifikasi	Nilai
Wadah	Memeluk Wajah TGI
Model Nama	meta-llama/Llama-2-13b-chat-hf
Contoh ML	ml.g5.12xbesar
Kesimpulan	Real-time dengan streaming respons

Menyebarkan model

Pertama, Anda mengambil gambar dasar untuk LLM yang akan disebarkan. Anda kemudian membuat model pada gambar dasar. Terakhir, Anda menerapkan model ke instance ML untuk SageMaker Hosting untuk inferensi waktu nyata.

Mari kita amati cara mencapai penerapan secara terprogram. Untuk singkatnya, hanya kode yang membantu langkah penerapan yang dibahas di bagian ini. Kode sumber lengkap untuk penerapan tersedia di notebook llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.

Ambil DLC Hugging Face LLM terbaru yang didukung oleh TGI melalui pre-built DLC SageMaker. Anda menggunakan gambar ini untuk menyebarkan meta-llama/Llama-2-13b-chat-hf model di SageMaker. Lihat kode berikut:

from sagemaker.huggingface import get_huggingface_llm_image_uri # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri( "huggingface", version="1.0.3"
)

Tentukan lingkungan untuk model dengan parameter konfigurasi yang ditentukan sebagai berikut:

instance_type = "ml.g5.12xlarge"
number_of_gpu = 4
config = { 'HF_MODEL_ID': "meta-llama/Llama-2-13b-chat-hf", # model_id from hf.co/models 'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica 'MAX_INPUT_LENGTH': json.dumps(2048), # Max length of input text 'MAX_TOTAL_TOKENS': json.dumps(4096), # Max length of the generation (including input text) 'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192), # Limits the number of tokens that can be processed in parallel during the generation 'HUGGING_FACE_HUB_TOKEN': "<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>"
}

menggantikan <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> untuk parameter konfigurasi HUGGING_FACE_HUB_TOKEN dengan nilai token yang diperoleh dari profil Hugging Face Anda seperti yang dijelaskan di bagian prasyarat postingan ini. Dalam konfigurasi, Anda menentukan jumlah GPU yang digunakan per replika model sebanyak 4 SM_NUM_GPUS. Kemudian Anda dapat menyebarkannya meta-llama/Llama-2-13b-chat-hf model pada instance ml.g5.12xlarge yang dilengkapi dengan 4 GPU.

Sekarang Anda dapat membuat instance dari HuggingFaceModel dengan konfigurasi lingkungan yang disebutkan di atas:

llm_model = HuggingFaceModel( role=role, image_uri=llm_image, env=config
)

Terakhir, terapkan model dengan memberikan argumen pada metode penerapan yang tersedia pada model dengan berbagai nilai parameter seperti endpoint_name, initial_instance_count, dan instance_type:

llm = llm_model.deploy( endpoint_name=endpoint_name, initial_instance_count=1, instance_type=instance_type, container_startup_health_check_timeout=health_check_timeout,
)

Melakukan inferensi

DLC Hugging Face TGI hadir dengan kemampuan untuk mengalirkan respons tanpa penyesuaian atau perubahan kode apa pun pada model. Anda dapat gunakan panggil_endpoint_with_response_stream jika Anda menggunakan Boto3 atau PanggilEndpointWithResponseStream saat memprogram dengan SageMaker Python SDK.

Grafik InvokeEndpointWithResponseStream API SageMaker memungkinkan pengembang mengalirkan respons kembali dari model SageMaker, yang dapat membantu meningkatkan kepuasan pelanggan dengan mengurangi latensi yang dirasakan. Hal ini sangat penting terutama untuk aplikasi yang dibangun dengan model AI generatif, yang mana pemrosesan segera lebih penting daripada menunggu respons keseluruhan.

Untuk contoh ini, kami menggunakan Boto3 untuk menyimpulkan model dan menggunakan SageMaker API invoke_endpoint_with_response_stream sebagai berikut:

def get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload): response_stream = sagemaker_runtime.invoke_endpoint_with_response_stream( EndpointName=endpoint_name, Body=json.dumps(payload), ContentType="application/json", CustomAttributes='accept_eula=false' ) return response_stream

Argumen CustomAttributes diatur ke nilai accept_eula=false. Grafik accept_eula parameter harus diatur ke true untuk berhasil mendapatkan respon dari model Llama 2. Setelah pemanggilan berhasil menggunakan invoke_endpoint_with_response_stream, metode ini akan mengembalikan aliran respons byte.

Diagram berikut menggambarkan alur kerja ini.

Diagram Arsitektur Streaming HF TGI

Anda memerlukan iterator yang mengulang aliran byte dan menguraikannya menjadi teks yang dapat dibaca. Itu LineIterator implementasi dapat dilihat di llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Sekarang Anda siap menyiapkan perintah dan instruksi untuk menggunakannya sebagai payload saat menyimpulkan model.

Siapkan prompt dan instruksi

Pada langkah ini, Anda menyiapkan prompt dan instruksi untuk LLM Anda. Untuk meminta Llama 2, Anda harus memiliki template prompt berikut:

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>> {{ user_message }} [/INST]

Anda membuat templat prompt yang ditentukan secara terprogram dalam metode ini build_llama2_prompt, yang selaras dengan templat prompt yang disebutkan di atas. Anda kemudian menentukan instruksi sesuai kasus penggunaan. Dalam hal ini, kami menginstruksikan model untuk membuat email untuk kampanye pemasaran seperti yang tercakup dalam get_instructions metode. Kode untuk metode ini ada di llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb buku catatan. Bangun instruksi yang dikombinasikan dengan tugas yang akan dilakukan sebagaimana dirinci dalam user_ask_1 sebagai berikut:

user_ask_1 = f'''
AnyCompany recently announced new service launch named AnyCloud Internet Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: EARLYB1RD to get 20% for 1st 3 months. '''
instructions = get_instructions(user_ask_1)
prompt = build_llama2_prompt(instructions)

Kami meneruskan instruksi untuk membuat prompt sesuai template prompt yang dihasilkan oleh build_llama2_prompt.

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "repetition_penalty": 1.03, "stop": ["</s>"], "return_full_text": False }
payload = { "inputs": prompt, "parameters": inference_params, "stream": True ## <-- to have response stream.
}

Kami menggabungkan parameter inferensi bersama dengan prompt dengan kuncinya stream dengan nilai True untuk membentuk muatan akhir. Kirim muatannya ke get_realtime_response_stream, yang akan digunakan untuk memanggil titik akhir dengan streaming respons:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Teks yang dihasilkan dari LLM akan dialirkan ke output seperti yang ditunjukkan dalam animasi berikut.

Streaming Respons Obrolan Llama 2 13B - HF TGI

Pendekatan 2: LMI dengan DJL Serving

Di bagian ini, kami mendemonstrasikan cara menyebarkan meta-llama/Llama-2-13b-chat-hf model ke titik akhir real-time SageMaker dengan streaming respons menggunakan LMI dengan DJL Serving. Tabel berikut menguraikan spesifikasi untuk penerapan ini.

Spesifikasi	Nilai
Wadah	Gambar kontainer LMI dengan DJL Serving
Model Nama	meta-llama/Llama-2-13b-chat-hf
Contoh ML	ml.g5.12xbesar
Kesimpulan	Real-time dengan streaming respons

Anda terlebih dahulu mengunduh modelnya dan menyimpannya Layanan Penyimpanan Sederhana Amazon (Amazon S3). Anda kemudian menentukan URI S3 yang menunjukkan awalan S3 model di serving.properties mengajukan. Selanjutnya, Anda mengambil gambar dasar untuk LLM yang akan disebarkan. Anda kemudian membuat model pada gambar dasar. Terakhir, Anda menerapkan model ke instance ML untuk SageMaker Hosting untuk inferensi waktu nyata.

Mari kita amati cara mencapai langkah-langkah penerapan yang disebutkan di atas secara terprogram. Untuk singkatnya, hanya kode yang membantu langkah-langkah penerapan yang dirinci di bagian ini. Kode sumber lengkap untuk penerapan ini tersedia di notebook llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.

Unduh snapshot model dari Hugging Face dan unggah artefak model di Amazon S3

Dengan prasyarat yang disebutkan di atas, unduh model pada instans notebook SageMaker lalu unggah ke bucket S3 untuk penerapan lebih lanjut:

model_name = 'meta-llama/Llama-2-13b-chat-hf'
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.txt", "*.model", "*.safetensors", "*.bin", "*.chk", "*.pth"] # Download the model snapshot
model_download_path = snapshot_download( repo_id=model_name, cache_dir=local_model_path, allow_patterns=allow_patterns, token='<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>'
)

Perhatikan bahwa meskipun Anda tidak memberikan token akses yang valid, model akan diunduh. Namun saat Anda menerapkan model seperti itu, penyajian model tidak akan berhasil. Oleh karena itu, disarankan untuk menggantinya <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> untuk argumennya token dengan nilai token yang diperoleh dari profil Wajah Pelukan Anda sebagaimana dirinci dalam prasyarat. Untuk postingan ini, kami menentukan nama model resmi untuk Llama 2 seperti yang diidentifikasi di Wajah Memeluk dengan nilainya meta-llama/Llama-2-13b-chat-hf. Model yang tidak terkompresi akan diunduh local_model_path sebagai hasil dari menjalankan kode yang disebutkan di atas.

Unggah file ke Amazon S3 dan dapatkan URI, yang nantinya akan digunakan serving.properties.

Anda akan mengemasnya meta-llama/Llama-2-13b-chat-hf model pada gambar kontainer LMI dengan DJL Serving menggunakan konfigurasi yang ditentukan melalui serving.properties. Kemudian Anda menerapkan model tersebut bersama dengan artefak model yang dikemas pada gambar kontainer di instans ML SageMaker ml.g5.12xlarge. Anda kemudian menggunakan instance ML ini untuk SageMaker Hosting untuk inferensi waktu nyata.

Siapkan artefak model untuk DJL Serving

Siapkan artefak model Anda dengan membuat serving.properties file konfigurasi:

%%writefile chat_llama2_13b_hf/serving.properties
engine = MPI
option.entryPoint=djl_python.huggingface
option.tensor_parallel_degree=4
option.low_cpu_mem_usage=TRUE
option.rolling_batch=lmi-dist
option.max_rolling_batch_size=64
option.model_loading_timeout=900
option.model_id={{model_id}}
option.paged_attention=true

Kami menggunakan pengaturan berikut dalam file konfigurasi ini:

mesin – Ini menentukan mesin runtime yang akan digunakan DJL. Nilai yang mungkin termasuk Python, DeepSpeed, FasterTransformer, dan MPI. Dalam hal ini, kami menyetelnya ke MPI. Paralelisasi dan Inferensi Model (MPI) memfasilitasi pemartisian model di semua GPU yang tersedia dan karenanya mempercepat inferensi.
opsi.entryPoint – Opsi ini menentukan handler mana yang ditawarkan oleh DJL Serving yang ingin Anda gunakan. Nilai yang mungkin adalah djl_python.huggingface, djl_python.deepspeed, dan djl_python.stable-diffusion. Kita gunakan djl_python.huggingface untuk Memeluk Wajah Mempercepat.
opsi.tensor_parallel_degree – Opsi ini menentukan jumlah partisi paralel tensor yang dilakukan pada model. Anda dapat mengatur jumlah perangkat GPU yang dibutuhkan Accelerate untuk mempartisi modelnya. Parameter ini juga mengontrol jumlah pekerja per model yang akan dimulai saat layanan DJL berjalan. Misalnya, jika kita memiliki mesin 4 GPU dan kita membuat empat partisi, maka kita akan memiliki satu pekerja per model untuk melayani permintaan.
pilihan.low_cpu_mem_usage – Ini mengurangi penggunaan memori CPU saat memuat model. Kami menyarankan Anda menyetelnya ke TRUE.
opsi.rolling_batch – Hal ini memungkinkan pengelompokan tingkat iterasi menggunakan salah satu strategi yang didukung. Nilai meliputi auto, scheduler, dan lmi-dist. Kita gunakan lmi-dist untuk mengaktifkan pengelompokan berkelanjutan untuk Llama 2.
pilihan.max_rolling_batch_size – Ini membatasi jumlah permintaan bersamaan dalam batch berkelanjutan. Nilai defaultnya adalah 32.
pilihan.model_id – Anda harus mengganti {{model_id}} dengan ID model dari model terlatih yang dihosting di dalam a repositori model di Hugging Face atau jalur S3 ke artefak model.

Opsi konfigurasi lainnya dapat ditemukan di Konfigurasi dan pengaturan.

Karena DJL Serving mengharapkan artefak model dikemas dan diformat dalam file .tar, jalankan cuplikan kode berikut untuk mengompresi dan mengunggah file .tar ke Amazon S3:

s3_code_prefix = f"{s3_prefix}/code" # folder within bucket where code artifact will go
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

Ambil gambar container LMI terbaru dengan DJL Serving

Selanjutnya, Anda menggunakan DLC yang tersedia dengan SageMaker untuk LMI untuk menyebarkan model. Ambil URI gambar SageMaker untuk djl-deepspeed container secara terprogram menggunakan kode berikut:

from sagemaker import image_uris
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=region, version="0.25.0"
)

Anda dapat menggunakan gambar yang disebutkan di atas untuk menyebarkan meta-llama/Llama-2-13b-chat-hf model di SageMaker. Sekarang Anda dapat melanjutkan untuk membuat model.

Buat modelnya

Anda dapat membuat model yang wadahnya dibuat menggunakan inference_image_uri dan kode penyajian model terletak di URI S3 yang ditunjukkan oleh s3_code_artifact:

from sagemaker.utils import name_from_base model_name = name_from_base(f"Llama-2-13b-chat-lmi-streaming") create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact, "Environment": {"MODEL_LOADING_TIMEOUT": "3600"}, },
)

Sekarang Anda dapat membuat konfigurasi model dengan semua detail untuk konfigurasi titik akhir.

Buat konfigurasi model

Gunakan kode berikut untuk membuat konfigurasi model untuk model yang diidentifikasi oleh model_name:

endpoint_config_name = f"{model_name}-config" endpoint_name = name_from_base(model_name) endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

Konfigurasi model ditentukan untuk ProductionVariants parameter InstanceType untuk instance ML ml.g5.12xlarge. Anda juga menyediakan ModelName menggunakan nama yang sama yang Anda gunakan untuk membuat model pada langkah sebelumnya, sehingga membangun hubungan antara model dan konfigurasi titik akhir.

Sekarang setelah Anda menentukan model dan konfigurasi model, Anda dapat membuat titik akhir SageMaker.

Buat titik akhir SageMaker

Buat titik akhir untuk menyebarkan model menggunakan cuplikan kode berikut:

create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)

Anda dapat melihat kemajuan penerapan menggunakan cuplikan kode berikut:

resp = sm_client.describe_endpoint(EndpointName=endpoint_name)
status = resp["EndpointStatus"]

Setelah penerapan berhasil, status titik akhir akan menjadi InService. Sekarang titik akhir sudah siap, mari lakukan inferensi dengan streaming respons.

Inferensi waktu nyata dengan streaming respons

Seperti yang telah kita bahas pada pendekatan sebelumnya untuk Memeluk Wajah TGI, Anda dapat menggunakan metode yang sama get_realtime_response_stream untuk menjalankan streaming respons dari titik akhir SageMaker. Kode untuk melakukan inferensi menggunakan pendekatan LMI ada di llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb buku catatan. Itu LineIterator pelaksanaan terletak di llama-2-lmi/utils/LineIterator.py. Perhatikan bahwa LineIterator untuk model Obrolan Llama 2 yang diterapkan pada wadah LMI berbeda dengan LineIterator direferensikan di bagian Memeluk Wajah TGI. Itu LineIterator mengulang aliran byte dari model Obrolan Llama 2 yang disimpulkan dengan wadah LMI dengan djl-deepspeed versi 0.25.0. Fungsi pembantu berikut akan mengurai aliran respons yang diterima dari permintaan inferensi yang dibuat melalui invoke_endpoint_with_response_stream Lebah:

from utils.LineIterator import LineIterator def print_response_stream(response_stream): event_stream = response_stream.get('Body') for line in LineIterator(event_stream): print(line, end='')

Metode sebelumnya mencetak aliran data yang dibaca oleh LineIterator dalam format yang dapat dibaca manusia.

Mari kita jelajahi cara menyiapkan prompt dan instruksi untuk menggunakannya sebagai payload sambil menyimpulkan model.

Karena Anda menyimpulkan model yang sama di Hugging Face TGI dan LMI, proses persiapan prompt dan instruksinya sama. Oleh karena itu, Anda dapat menggunakan metode tersebut get_instructions dan build_llama2_prompt untuk menyimpulkan.

Grafik get_instructions metode mengembalikan instruksi. Bangun instruksi yang dikombinasikan dengan tugas yang akan dilakukan sebagaimana dirinci dalam user_ask_2 sebagai berikut:

user_ask_2 = f'''
AnyCompany recently announced new service launch named AnyCloud Streaming Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: STREAM2DREAM to get 15% for 1st 6 months. ''' instructions = get_instructions(user_ask_2)
prompt = build_llama2_prompt(instructions)

Berikan instruksi untuk membuat prompt sesuai template prompt yang dihasilkan oleh build_llama2_prompt:

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "return_full_text": False, } payload = { "inputs": prompt, "parameters": inference_params
}

Kami menggabungkan parameter inferensi bersama dengan perintah untuk membentuk payload akhir. Kemudian Anda mengirim muatannya ke get_realtime_response_stream, yang digunakan untuk memanggil titik akhir dengan streaming respons:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Teks yang dihasilkan dari LLM akan dialirkan ke output seperti yang ditunjukkan dalam animasi berikut.

Streaming Respons Obrolan Llama 2 13B - LMI

Membersihkan

Untuk menghindari timbulnya biaya yang tidak perlu, gunakan Konsol Manajemen AWS untuk menghapus titik akhir dan sumber daya terkait yang dibuat saat menjalankan pendekatan yang disebutkan dalam postingan. Untuk kedua pendekatan penerapan, lakukan rutinitas pembersihan berikut:

import boto3
sm_client = boto3.client('sagemaker')
endpoint_name="<SageMaker_Real-time_Endpoint_Name>"
endpoint = sm_client.describe_endpoint(EndpointName=endpoint_name)
endpoint_config_name = endpoint['EndpointConfigName']
endpoint_config = sm_client.describe_endpoint_config(EndpointConfigName=endpoint_config_name)
model_name = endpoint_config['ProductionVariants'][0]['ModelName'] print(f"""
About to delete the following sagemaker resources:
Endpoint: {endpoint_name}
Endpoint Config: {endpoint_config_name}
Model: {model_name} """) # delete endpoint
sm_client.delete_endpoint(EndpointName=endpoint_name)
# delete endpoint config
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
# delete model
sm_client.delete_model(ModelName=model_name)

menggantikan <SageMaker_Real-time_Endpoint_Name> untuk variabel endpoint_name dengan titik akhir sebenarnya.

Untuk pendekatan kedua, kami menyimpan artefak model dan kode di Amazon S3. Anda dapat membersihkan bucket S3 menggunakan kode berikut:

s3 = boto3.resource('s3')
s3_bucket = s3.Bucket(bucket)
s3_bucket.objects.filter(Prefix=s3_prefix).delete()

Kesimpulan

Dalam postingan ini, kita membahas bagaimana jumlah token respons yang bervariasi atau serangkaian parameter inferensi yang berbeda dapat memengaruhi latensi yang terkait dengan LLM. Kami menunjukkan cara mengatasi masalah dengan bantuan streaming respons. Kami kemudian mengidentifikasi dua pendekatan untuk menerapkan dan menyimpulkan model Obrolan Llama 2 menggunakan AWS DLC—LMI dan Hugging Face TGI.

Anda sekarang harus memahami pentingnya respons streaming dan bagaimana hal itu dapat mengurangi latensi yang dirasakan. Respons streaming dapat meningkatkan pengalaman pengguna, yang sebaliknya akan membuat Anda menunggu hingga LLM membuat respons keseluruhan. Selain itu, penerapan model Obrolan Llama 2 dengan streaming respons meningkatkan pengalaman pengguna dan membuat pelanggan Anda senang.

Anda dapat merujuk ke sampel aws resmi amazon-sagemaker-llama2-respons-streaming-resep yang mencakup penerapan untuk varian model Llama 2 lainnya.

Referensi

Tentang Penulis

Angkatan Laut Pavan Kumar Rao adalah Arsitek Solusi di Amazon Web Services. Dia bekerja dengan ISV di India untuk membantu mereka berinovasi di AWS. Dia adalah penulis terbitan untuk buku “Memulai dengan Pemrograman V.” Dia mengejar gelar M.Tech Eksekutif dalam Ilmu Data dari Institut Teknologi India (IIT), Hyderabad. Beliau juga meraih gelar MBA Eksekutif dalam spesialisasi TI dari Sekolah Manajemen dan Administrasi Bisnis India, dan meraih gelar B.Tech di bidang Teknik Elektronika dan Komunikasi dari Institut Teknologi dan Sains Vaagdevi. Pavan adalah Profesional Arsitek Solusi Tersertifikasi AWS dan memegang sertifikasi lain seperti Spesialisasi Pembelajaran Mesin Tersertifikasi AWS, Microsoft Certified Professional (MCP), dan Microsoft Certified Technology Specialist (MCTS). Dia juga seorang penggila open source. Di waktu luangnya, dia suka mendengarkan suara ajaib Sia dan Rihanna.

Sudhanshu Benci adalah spesialis AI/ML utama di AWS dan bekerja dengan klien untuk memberi saran tentang MLOps dan perjalanan AI generatif mereka. Dalam jabatan sebelumnya di Amazon, ia membuat konsep, membuat, dan memimpin tim untuk membangun platform AI dan gamifikasi berbasis sumber terbuka, dan berhasil mengkomersialkannya dengan lebih dari 100 klien. Sudhanshu memuji beberapa patennya, telah menulis dua buku dan beberapa makalah dan blog, dan telah menyajikan sudut pandangnya di berbagai forum teknis. Dia telah menjadi pemimpin pemikiran dan pembicara, dan telah berkecimpung dalam industri ini selama hampir 25 tahun. Dia telah bekerja dengan klien Fortune 1000 di seluruh dunia dan yang terbaru dengan klien asli digital di India.