Моделі Inference Llama 2 із потоковою передачею відповіді в реальному часі за допомогою Amazon SageMaker

Перевидано Платоном

читають: 0

Зі швидким впровадженням генеративних додатків штучного інтелекту існує потреба в тому, щоб ці додатки реагували вчасно, щоб зменшити очікувану затримку з більшою пропускною здатністю. Основні моделі (FM) часто попередньо тренуються на величезних масивах даних із параметрами, що варіюються в масштабах від мільйонів до мільярдів і більше. Великі мовні моделі (LLM) — це тип FM, які генерують текст як відповідь на висновки користувача. Виведення цих моделей із різними конфігураціями параметрів логічного висновку може призвести до непослідовних затримок. Невідповідність може бути через різну кількість маркерів відповіді, які ви очікуєте від моделі, або через тип прискорювача, на якому розгорнуто модель.

У будь-якому випадку, замість того, щоб чекати повної відповіді, ви можете застосувати підхід потокової передачі відповіді для ваших висновків, який надсилає назад порції інформації, щойно вони генеруються. Це створює інтерактивний досвід, дозволяючи вам бачити часткові відповіді, що транслюються в реальному часі, замість відкладеної повної відповіді.

З офіційним повідомленням про те Висновок у реальному часі Amazon SageMaker тепер підтримує потокове передавання відповідей, тепер ви можете безперервно передавати клієнтові відповіді на висновки під час використання Amazon SageMaker висновок у реальному часі з потоковою відповіддю. Це рішення допоможе вам створити інтерактивний досвід для різноманітних генеративних програм AI, таких як чат-боти, віртуальні помічники та музичні генератори. У цьому дописі показано, як реалізувати швидший час відповіді у формі часу до першого байта (TTFB) і зменшити загальну очікувану затримку під час визначення моделей Llama 2.

Щоб реалізувати рішення, ми використовуємо SageMaker, повністю керований сервіс для підготовки даних і створення, навчання та розгортання моделей машинного навчання (ML) для будь-яких варіантів використання з повністю керованою інфраструктурою, інструментами та робочими процесами. Додаткову інформацію про різні варіанти розгортання, які надає SageMaker, див Поширені запитання про хостинг моделі Amazon SageMaker. Давайте зрозуміємо, як ми можемо вирішити проблеми із затримкою, використовуючи висновок у реальному часі з потоковою передачею відповіді.

Огляд рішення

Оскільки ми хочемо розглянути вищезазначені затримки, пов’язані з висновком у реальному часі за допомогою LLM, давайте спочатку зрозуміємо, як ми можемо використовувати підтримку потокової відповіді для логічного висновку в реальному часі для Llama 2. Однак будь-який LLM може скористатися підтримкою потокової відповіді з реальним - часовий висновок.

Llama 2 — це набір попередньо підготовлених і точно налаштованих генеративних текстових моделей із масштабом від 7 до 70 мільярдів параметрів. Моделі Llama 2 — це авторегресійні моделі з архітектурою лише декодера. Коли моделі Llama 2 забезпечені підказкою та параметрами висновку, вони здатні генерувати текстові відповіді. Ці моделі можна використовувати для перекладу, конспектування, відповідей на запитання та спілкування.

Для цієї публікації ми розгортаємо модель Llama 2 Chat meta-llama/Llama-2-13b-chat-hf на SageMaker для висновків у реальному часі з потоковою відповіддю.

Коли справа доходить до розгортання моделей на кінцевих точках SageMaker, ви можете контейнеризувати моделі за допомогою спеціалізованих Контейнер глибокого навчання AWS (DLC) доступні зображення для популярних бібліотек з відкритим кодом. Моделі Llama 2 — це моделі генерації тексту; ви можете використовувати або Контейнери висновків Hugging Face LLM на SageMaker на основі Hugging Face Висновок про створення тексту (TGI) або AWS DLC для Висновок великої моделі (LMI).

У цій публікації ми розгортаємо модель Llama 2 13B Chat за допомогою DLC на SageMaker Hosting для висновків у реальному часі на базі G5. Екземпляри G5 — це високопродуктивні екземпляри на базі графічного процесора для додатків із інтенсивною графікою та ML. Ви також можете використовувати підтримувані типи екземплярів p4d, p3, g5 та g4dn із відповідними змінами відповідно до конфігурації екземпляра.

Передумови

Щоб реалізувати це рішення, ви повинні мати наступне:

Обліковий запис AWS із Управління ідентифікацією та доступом AWS (IAM) роль із дозволами на керування ресурсами, створеними як частина рішення.
Якщо ви вперше працюєте з Студія Amazon SageMaker, спочатку потрібно створити a Домен SageMaker.
Акаунт Hugging Face. Зареєструватися з вашою електронною поштою, якщо у вас ще немає облікового запису.
- Для безперебійного доступу до моделей, доступних на Hugging Face, особливо до моделей із закритим доступом, таких як Llama, для точного налаштування та висновків, ви повинні мати обліковий запис Hugging Face, щоб отримати маркер доступу для читання. Після того як ви зареєструєте обліковий запис Hugging Face, увійдіть відвідувати https://huggingface.co/settings/tokens щоб створити маркер доступу для читання.
Доступ до Llama 2, використовуючи той самий ідентифікатор електронної пошти, який ви використовували для реєстрації в Hugging Face.
- Моделі Llama 2, доступні через Hugging Face, є закритими моделями. Використання моделі Llama регулюється ліцензією Meta. Щоб завантажити вагові коефіцієнти моделі та токенізатор, запросити доступ до Llama і прийняти їх ліцензію.
- Після того як вам буде надано доступ (зазвичай через кілька днів), ви отримаєте підтвердження електронною поштою. Для цього прикладу ми використовуємо модель Llama-2-13b-chat-hf, але ви також повинні мати доступ до інших варіантів.

Підхід 1: Обіймати обличчя TGI

У цьому розділі ми покажемо вам, як розгорнути meta-llama/Llama-2-13b-chat-hf моделювати до кінцевої точки SageMaker у реальному часі з потоковою передачею відповіді за допомогою Hugging Face TGI. У наведеній нижче таблиці наведено специфікації для цього розгортання.

Специфікація	значення
Контейнер	Обіймати обличчя TGI
Назва моделі	meta-llama/Llama-2-13b-chat-hf
Екземпляр ML	мл.g5.12xвеликий
Висновок	У режимі реального часу з потоковою відповіддю

Розгортання моделі

Спочатку ви отримуєте базовий образ для LLM, який потрібно розгорнути. Потім ви будуєте модель на базовому зображенні. Нарешті, ви розгортаєте модель в екземплярі ML для SageMaker Hosting для висновків у реальному часі.

Давайте розглянемо, як досягти розгортання програмним шляхом. Для стислості в цьому розділі обговорюється лише код, який допомагає виконати кроки розгортання. Повний вихідний код для розгортання доступний у блокноті llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.

Отримайте найновіший DLC Hugging Face LLM на базі TGI через попередньо зібрану версію DLC SageMaker. Ви використовуєте це зображення для розгортання meta-llama/Llama-2-13b-chat-hf модель на SageMaker. Перегляньте наступний код:

from sagemaker.huggingface import get_huggingface_llm_image_uri # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri( "huggingface", version="1.0.3"
)

Визначте середовище для моделі з параметрами конфігурації, визначеними таким чином:

instance_type = "ml.g5.12xlarge"
number_of_gpu = 4
config = { 'HF_MODEL_ID': "meta-llama/Llama-2-13b-chat-hf", # model_id from hf.co/models 'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica 'MAX_INPUT_LENGTH': json.dumps(2048), # Max length of input text 'MAX_TOTAL_TOKENS': json.dumps(4096), # Max length of the generation (including input text) 'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192), # Limits the number of tokens that can be processed in parallel during the generation 'HUGGING_FACE_HUB_TOKEN': "<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>"
}

заміщати <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> для параметра конфігурації HUGGING_FACE_HUB_TOKEN зі значенням токена, отриманого з вашого профілю Hugging Face, як описано в розділі попередніх умов цієї публікації. У конфігурації ви визначаєте кількість графічних процесорів, які використовуються на репліку моделі, як 4 для SM_NUM_GPUS. Тоді ви можете розгортати meta-llama/Llama-2-13b-chat-hf модель на примірнику ml.g5.12xlarge, який постачається з 4 графічними процесорами.

Тепер ви можете створити екземпляр HuggingFaceModel із згаданою вище конфігурацією середовища:

llm_model = HuggingFaceModel( role=role, image_uri=llm_image, env=config
)

Нарешті, розгорніть модель, надавши аргументи для методу розгортання, доступного в моделі, з різними значеннями параметрів, такими як endpoint_name, initial_instance_count та instance_type:

llm = llm_model.deploy( endpoint_name=endpoint_name, initial_instance_count=1, instance_type=instance_type, container_startup_health_check_timeout=health_check_timeout,
)

Виконайте умовивід

Hugging Face TGI DLC має можливість транслювати відповіді без будь-яких налаштувань або змін коду моделі. Ви можете використовувати invoke_endpoint_with_response_stream якщо ви використовуєте Boto3 або InvokeEndpointWithResponseStream під час програмування за допомогою SDK SageMaker Python.

Команда InvokeEndpointWithResponseStream API SageMaker дозволяє розробникам потоково передавати відповіді з моделей SageMaker, що може допомогти підвищити задоволеність клієнтів шляхом зменшення сприйнятої затримки. Це особливо важливо для додатків, створених за допомогою генеративних моделей ШІ, де негайна обробка важливіша, ніж очікування повної відповіді.

У цьому прикладі ми використовуємо Boto3 для виведення моделі та використовуємо API SageMaker invoke_endpoint_with_response_stream наступним чином:

def get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload): response_stream = sagemaker_runtime.invoke_endpoint_with_response_stream( EndpointName=endpoint_name, Body=json.dumps(payload), ContentType="application/json", CustomAttributes='accept_eula=false' ) return response_stream

Аргумент CustomAttributes встановлено значення accept_eula=false. Команда accept_eula параметр повинен бути встановлений на true щоб успішно отримати відповідь від моделей Llama 2. Після успішного виклику за допомогою invoke_endpoint_with_response_stream, метод поверне потік байтів відповіді.

Наступна діаграма ілюструє цей робочий процес.

Архітектурна схема потокової передачі HF TGI

Вам потрібен ітератор, який циклично обходить потік байтів і аналізує їх до читабельного тексту. The LineIterator реалізацію можна знайти за адресою llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Тепер ви готові підготувати підказку та інструкції, щоб використовувати їх як корисне навантаження під час виведення моделі.

Підготуйте підказку та інструкцію

На цьому кроці ви підготуєте підказку та інструкції для свого LLM. Щоб підказати Llama 2, ви повинні мати наступний шаблон підказки:

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>> {{ user_message }} [/INST]

Ви створюєте шаблон підказки, програмно визначений у методі build_llama2_prompt, який узгоджується з вищезгаданим шаблоном запиту. Потім ви визначаєте інструкції відповідно до випадку використання. У цьому випадку ми наказуємо моделі створити електронний лист для маркетингової кампанії, як описано в get_instructions метод. Код цих методів знаходиться в llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb блокнот. Створіть інструкцію разом із завданням, яке потрібно виконати, як описано в user_ask_1 наступним чином:

user_ask_1 = f'''
AnyCompany recently announced new service launch named AnyCloud Internet Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: EARLYB1RD to get 20% for 1st 3 months. '''
instructions = get_instructions(user_ask_1)
prompt = build_llama2_prompt(instructions)

Ми передаємо інструкції зі створення підказки відповідно до шаблону підказки, згенерованого build_llama2_prompt.

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "repetition_penalty": 1.03, "stop": ["</s>"], "return_full_text": False }
payload = { "inputs": prompt, "parameters": inference_params, "stream": True ## <-- to have response stream.
}

Ми об’єднуємо параметри висновку разом із підказкою з ключем stream зі значенням True для формування остаточного корисного навантаження. Надіслати корисне навантаження до get_realtime_response_stream, який використовуватиметься для виклику кінцевої точки з потоковою відповіддю:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Згенерований текст із LLM буде передано на вихід, як показано на наступній анімації.

Llama 2 13B Потокове передавання відповіді в чаті - HF TGI

Підхід 2: LMI з обслуговуванням DJL

У цьому розділі ми демонструємо, як розгорнути meta-llama/Llama-2-13b-chat-hf моделювати до кінцевої точки реального часу SageMaker із потоковим передаванням відповідей за допомогою LMI з обслуговуванням DJL. У наведеній нижче таблиці наведено специфікації для цього розгортання.

Специфікація	значення
Контейнер	Зображення контейнера LMI із обслуговуванням DJL
Назва моделі	meta-llama/Llama-2-13b-chat-hf
Екземпляр ML	мл.g5.12xвеликий
Висновок	У режимі реального часу з потоковою відповіддю

Ви спочатку завантажуєте модель і зберігаєте її Служба простого зберігання Amazon (Amazon S3). Потім ви вказуєте URI S3, що вказує префікс S3 моделі в serving.properties файл. Далі ви отримуєте базовий образ для LLM, який потрібно розгорнути. Потім ви будуєте модель на базовому зображенні. Нарешті, ви розгортаєте модель в екземплярі ML для SageMaker Hosting для висновків у реальному часі.

Давайте розглянемо, як виконати вищезазначені кроки розгортання програмним шляхом. Для стислості в цьому розділі детально описано лише код, який допомагає виконати кроки розгортання. Повний вихідний код для цього розгортання доступний у блокноті llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.

Завантажте знімок моделі з Hugging Face і завантажте артефакти моделі на Amazon S3

Виконавши вищезазначені передумови, завантажте модель на екземпляр ноутбука SageMaker, а потім завантажте її в сегмент S3 для подальшого розгортання:

model_name = 'meta-llama/Llama-2-13b-chat-hf'
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.txt", "*.model", "*.safetensors", "*.bin", "*.chk", "*.pth"] # Download the model snapshot
model_download_path = snapshot_download( repo_id=model_name, cache_dir=local_model_path, allow_patterns=allow_patterns, token='<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>'
)

Зауважте, що навіть якщо ви не надасте дійсний маркер доступу, модель завантажиться. Але коли ви розгортаєте таку модель, її обслуговування не вдасться. Тому рекомендується замінити <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> для аргументу token зі значенням токена, отриманого з вашого профілю Hugging Face, як зазначено в попередніх умовах. Для цього допису ми вказуємо офіційну назву моделі для Llama 2, яка позначена на Hugging Face зі значенням meta-llama/Llama-2-13b-chat-hf. Нестиснуту модель буде завантажено в local_model_path в результаті виконання вищезгаданого коду.

Завантажте файли в Amazon S3 і отримайте URI, який пізніше буде використано в serving.properties.

Ви будете пакувати meta-llama/Llama-2-13b-chat-hf модель на зображенні контейнера LMI з обслуговуванням DJL, використовуючи конфігурацію, указану через serving.properties. Потім ви розгортаєте модель разом із артефактами моделі, упакованими в образ контейнера, на примірнику SageMaker ML ml.g5.12xlarge. Потім ви використовуєте цей екземпляр ML для SageMaker Hosting для висновків у реальному часі.

Підготуйте артефакти моделі для обслуговування DJL

Підготуйте артефакти своєї моделі, створивши a serving.properties файл конфігурації:

%%writefile chat_llama2_13b_hf/serving.properties
engine = MPI
option.entryPoint=djl_python.huggingface
option.tensor_parallel_degree=4
option.low_cpu_mem_usage=TRUE
option.rolling_batch=lmi-dist
option.max_rolling_batch_size=64
option.model_loading_timeout=900
option.model_id={{model_id}}
option.paged_attention=true

У цьому конфігураційному файлі ми використовуємо такі налаштування:

двигун – Це вказує механізм виконання для DJL. Можливі значення включають Python, DeepSpeed, FasterTransformer та MPI. У цьому випадку ми встановлюємо значення MPI. Розпаралелювання та висновок моделі (MPI) полегшує розподіл моделі між усіма доступними графічним процесором і, отже, прискорює логічний висновок.
option.entryPoint – Цей параметр визначає, який обробник, запропонований DJL Serving, ви б хотіли використовувати. Можливі значення є djl_python.huggingface, djl_python.deepspeed та djl_python.stable-diffusion. Ми використовуємо djl_python.huggingface для Hugging Face Accelerate.
option.tensor_parallel_degree – Ця опція вказує кількість тензорних паралельних секцій, виконаних на моделі. Ви можете встановити кількість пристроїв GPU, на які Accelerate потрібно розділити модель. Цей параметр також контролює кількість робітників на модель, яка буде запущена під час запуску служби DJL. Наприклад, якщо у нас є машина з 4 графічними процесорами, і ми створюємо чотири розділи, тоді у нас буде один працівник на кожну модель для обслуговування запитів.
option.low_cpu_mem_usage – Це зменшує використання пам’яті ЦП під час завантаження моделей. Ми рекомендуємо вам встановити це значення TRUE.
option.rolling_batch – Це дозволяє пакетування на рівні ітерації за допомогою однієї з підтримуваних стратегій. Цінності включають auto, scheduler та lmi-dist. Ми використовуємо lmi-dist для ввімкнення безперервного дозування для Llama 2.
option.max_rolling_batch_size – Це обмежує кількість одночасних запитів у безперервному пакеті. Значення за умовчанням дорівнює 32.
option.model_id – Ви повинні замінити {{model_id}} з ідентифікатором моделі попередньо навченої моделі, розміщеної всередині a сховище моделей на Hugging Face або шлях S3 до артефактів моделі.

Більше параметрів конфігурації можна знайти в Конфігурації та налаштування.

Оскільки DJL Serving очікує, що артефакти моделі будуть упаковані та відформатовані у файлі .tar, запустіть такий фрагмент коду, щоб стиснути та завантажити файл .tar в Amazon S3:

s3_code_prefix = f"{s3_prefix}/code" # folder within bucket where code artifact will go
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

Отримайте останній образ контейнера LMI за допомогою служби DJL

Далі ви використовуєте DLC, доступні з SageMaker для LMI, щоб розгорнути модель. Отримайте URI зображення SageMaker для djl-deepspeed контейнер програмно за допомогою такого коду:

from sagemaker import image_uris
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=region, version="0.25.0"
)

Ви можете використовувати вищезгадане зображення для розгортання meta-llama/Llama-2-13b-chat-hf модель на SageMaker. Тепер можна переходити до створення моделі.

Створіть модель

Ви можете створити модель, контейнер якої побудовано за допомогою inference_image_uri і код обслуговування моделі, розташований за URI S3, позначений s3_code_artifact:

from sagemaker.utils import name_from_base model_name = name_from_base(f"Llama-2-13b-chat-lmi-streaming") create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact, "Environment": {"MODEL_LOADING_TIMEOUT": "3600"}, },
)

Тепер ви можете створити конфігурацію моделі з усіма деталями для конфігурації кінцевої точки.

Створіть конфігурацію моделі

Використовуйте наведений нижче код, щоб створити конфігурацію моделі для моделі, ідентифікованої за model_name:

endpoint_config_name = f"{model_name}-config" endpoint_name = name_from_base(model_name) endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

Конфігурацію моделі визначено для ProductionVariants параметр InstanceType для екземпляра ML ml.g5.12xlarge. Ви також надаєте ModelName використовуючи те саме ім’я, яке ви використовували для створення моделі на попередньому кроці, тим самим встановлюючи зв’язок між моделлю та конфігурацією кінцевої точки.

Тепер, коли ви визначили модель і конфігурацію моделі, ви можете створити кінцеву точку SageMaker.

Створіть кінцеву точку SageMaker

Створіть кінцеву точку для розгортання моделі за допомогою такого фрагмента коду:

create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)

Перебіг розгортання можна переглянути за допомогою такого фрагмента коду:

resp = sm_client.describe_endpoint(EndpointName=endpoint_name)
status = resp["EndpointStatus"]

Після успішного розгортання стан кінцевої точки буде InService. Тепер, коли кінцева точка готова, давайте виконаємо висновок із потоковою передачею відповіді.

Висновок у реальному часі з потоковою відповіддю

Як ми розглядали в попередньому підході для Hugging Face TGI, ви можете використовувати той самий метод get_realtime_response_stream щоб викликати потокову передачу відповіді з кінцевої точки SageMaker. Код для логічного висновку з використанням підходу LMI знаходиться в llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb блокнот. The LineIterator впровадження знаходиться в llama-2-lmi/utils/LineIterator.py. Зауважимо, що LineIterator для моделі Llama 2 Chat, розгорнутої в контейнері LMI, відрізняється від LineIterator згадується в розділі Hugging Face TGI. The LineIterator перебирає потік байтів з моделей Llama 2 Chat, отриманих за допомогою контейнера LMI з djl-deepspeed версія 0.25.0. Наступна допоміжна функція аналізуватиме потік відповіді, отриманий із запиту на висновок, зробленого через invoke_endpoint_with_response_stream API:

from utils.LineIterator import LineIterator def print_response_stream(response_stream): event_stream = response_stream.get('Body') for line in LineIterator(event_stream): print(line, end='')

Попередній метод друкує потік даних, прочитаних LineIterator у зручному для читання форматі.

Давайте дослідимо, як підготувати підказку та інструкції, щоб використовувати їх як корисне навантаження під час висновку моделі.

Оскільки ви використовуєте ту саму модель як у Hugging Face TGI, так і в LMI, процес підготовки підказки та інструкцій однаковий. Тому можна використовувати методи get_instructions та build_llama2_prompt для висновків.

Команда get_instructions метод повертає інструкції. Створіть інструкції разом із завданням, яке потрібно виконати, як описано в user_ask_2 наступним чином:

user_ask_2 = f'''
AnyCompany recently announced new service launch named AnyCloud Streaming Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: STREAM2DREAM to get 15% for 1st 6 months. ''' instructions = get_instructions(user_ask_2)
prompt = build_llama2_prompt(instructions)

Передайте інструкції для створення підказки відповідно до шаблону підказки, створеного build_llama2_prompt:

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "return_full_text": False, } payload = { "inputs": prompt, "parameters": inference_params
}

Ми об’єднуємо параметри висновку разом із підказкою для формування остаточного корисного навантаження. Потім ви надсилаєте корисне навантаження до get_realtime_response_stream, який використовується для виклику кінцевої точки з потоковою відповіддю:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Згенерований текст із LLM буде передано на вихід, як показано на наступній анімації.

Llama 2 13B Потокове передавання відповіді в чаті - LMI

Прибирати

Щоб уникнути непотрібних витрат, використовуйте Консоль управління AWS щоб видалити кінцеві точки та пов’язані з ними ресурси, які були створені під час виконання підходів, згаданих у публікації. Для обох підходів до розгортання виконайте наступну процедуру очищення:

import boto3
sm_client = boto3.client('sagemaker')
endpoint_name="<SageMaker_Real-time_Endpoint_Name>"
endpoint = sm_client.describe_endpoint(EndpointName=endpoint_name)
endpoint_config_name = endpoint['EndpointConfigName']
endpoint_config = sm_client.describe_endpoint_config(EndpointConfigName=endpoint_config_name)
model_name = endpoint_config['ProductionVariants'][0]['ModelName'] print(f"""
About to delete the following sagemaker resources:
Endpoint: {endpoint_name}
Endpoint Config: {endpoint_config_name}
Model: {model_name} """) # delete endpoint
sm_client.delete_endpoint(EndpointName=endpoint_name)
# delete endpoint config
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
# delete model
sm_client.delete_model(ModelName=model_name)

заміщати <SageMaker_Real-time_Endpoint_Name> для змінної endpoint_name з фактичною кінцевою точкою.

Для другого підходу ми зберегли артефакти моделі та коду на Amazon S3. Ви можете очистити відро S3 за допомогою такого коду:

s3 = boto3.resource('s3')
s3_bucket = s3.Bucket(bucket)
s3_bucket.objects.filter(Prefix=s3_prefix).delete()

Висновок

У цьому дописі ми обговорювали, як змінна кількість токенів відповідей або інший набір параметрів висновку може вплинути на затримки, пов’язані з LLM. Ми показали, як вирішити проблему за допомогою потокової передачі відповідей. Потім ми визначили два підходи до розгортання та створення моделей Llama 2 Chat за допомогою AWS DLC — LMI та Hugging Face TGI.

Тепер ви маєте зрозуміти важливість потокової відповіді та те, як вона може зменшити очікувану затримку. Потокова відповідь може покращити взаємодію з користувачем, яка інакше змусить вас чекати, поки LLM створить повну відповідь. Крім того, розгортання моделей Llama 2 Chat із потоковою передачею відповідей покращує взаємодію з користувачем і робить ваших клієнтів щасливими.

Ви можете звернутися до офіційних aws-зразків amazon-sagemaker-llama2-response-streaming-recipes який охоплює розгортання для інших варіантів моделі Llama 2.

посилання

Про авторів

Паван Кумар Рао Навуле є архітектором рішень в Amazon Web Services. Він працює з незалежними постачальниками програмного забезпечення в Індії, щоб допомогти їм впроваджувати інновації в AWS. Він є автором опублікованої книги «Початок роботи з програмуванням на V». Він здобув ступінь магістра технічних наук у галузі даних в Індійському технологічному інституті (IIT), Гайдарабад. Він також отримав ступінь Executive MBA зі спеціалізації ІТ в Індійській школі бізнес-менеджменту та адміністрування та має ступінь бакалавра технічних технологій у галузі електроніки та комунікаційної техніки в Інституті технологій і науки Ваагдеві. Паван є сертифікованим професіоналом архітектора рішень AWS і має інші сертифікати, такі як сертифікований спеціаліст з машинного навчання AWS, сертифікований професіонал Microsoft (MCP) і сертифікований спеціаліст з технологій Microsoft (MCTS). Він також є ентузіастом відкритого коду. У вільний час він любить слухати чудові чарівні голоси Сії та Ріанни.

Sudhanshu Hate є головним фахівцем зі штучного інтелекту/ML в AWS і працює з клієнтами, щоб консультувати їх щодо їх MLOps і генеративного штучного інтелекту. У своїй попередній посаді до Amazon він концептуалізував, створив і керував командами для створення базових платформ штучного інтелекту та гейміфікації на основі відкритого коду та успішно комерціалізував їх із понад 100 клієнтами. Судханшу має кілька патентів, написав дві книги, кілька статей і блогів, а також висловлював свою точку зору на різних технічних форумах. Він був лідером думок і спікером і працює в галузі майже 25 років. Він працював з клієнтами зі списку Fortune 1000 по всьому світу, а останнім часом працював із клієнтами цифрового походження в Індії.