модели вывода Llama 2 с потоковой передачей ответов в реальном времени с использованием Amazon SageMaker

Переиздано Платоном

Читают: 0

В связи с быстрым внедрением генеративных приложений искусственного интеллекта возникает необходимость в том, чтобы эти приложения реагировали вовремя, чтобы уменьшить воспринимаемую задержку за счет более высокой пропускной способности. Базовые модели (FM) часто предварительно обучаются на обширных массивах данных с параметрами в масштабе от миллионов до миллиардов и выше. Большие языковые модели (LLM) — это тип FM, который генерирует текст в ответ на действия пользователя. Вывод этих моделей с различными конфигурациями параметров вывода может привести к несогласованным задержкам. Несогласованность может быть связана с разным количеством токенов ответа, которые вы ожидаете от модели, или типом ускорителя, на котором развернута модель.

В любом случае, вместо того, чтобы ждать полного ответа, вы можете использовать подход потоковой передачи ответов для ваших выводов, который отправляет обратно фрагменты информации, как только они сгенерированы. Это создает интерактивный интерфейс, позволяя вам видеть частичные ответы в потоковом режиме в реальном времени вместо отложенного полного ответа.

С официальным заявлением о том, что Вывод в реальном времени Amazon SageMaker теперь поддерживает потоковую передачу ответов, теперь вы можете непрерывно передавать ответы на логические выводы обратно клиенту при использовании Создатель мудреца Амазонки вывод в реальном времени с потоковой передачей ответов. Это решение поможет вам создавать интерактивные возможности для различных генеративных приложений искусственного интеллекта, таких как чат-боты, виртуальные помощники и генераторы музыки. В этом посте показано, как добиться более быстрого времени отклика в форме времени до первого байта (TTFB) и уменьшить общую воспринимаемую задержку при выводе моделей Llama 2.

Для реализации решения мы используем SageMaker, полностью управляемый сервис для подготовки данных, а также построения, обучения и развертывания моделей машинного обучения (ML) для любого варианта использования с полностью управляемой инфраструктурой, инструментами и рабочими процессами. Дополнительную информацию о различных вариантах развертывания, предоставляемых SageMaker, см. Часто задаваемые вопросы о хостинге моделей Amazon SageMaker. Давайте разберемся, как мы можем решить проблемы с задержкой, используя вывод в реальном времени с потоковой передачей ответов.

Обзор решения

Поскольку мы хотим устранить вышеупомянутые задержки, связанные с выводом в реальном времени с помощью LLM, давайте сначала поймем, как мы можем использовать поддержку потоковой передачи ответов для вывода в реальном времени для Llama 2. Однако любой LLM может воспользоваться преимуществами поддержки потоковой передачи ответов с реальными -временной вывод.

Llama 2 — это набор предварительно обученных и точно настроенных генеративных текстовых моделей размером от 7 до 70 миллиардов параметров. Модели Llama 2 — это авторегрессионные модели с архитектурой только декодера. При наличии параметров подсказки и вывода модели Llama 2 способны генерировать текстовые ответы. Эти модели можно использовать для перевода, обобщения, ответов на вопросы и общения в чате.

В этом посте мы развертываем модель чата Llama 2. meta-llama/Llama-2-13b-chat-hf на SageMaker для вывода в реальном времени с потоковой передачей ответов.

Когда дело доходит до развертывания моделей на конечных точках SageMaker, вы можете контейнеризировать модели с помощью специализированных Контейнер глубокого обучения AWS (DLC) доступны для популярных библиотек с открытым исходным кодом. Модели Llama 2 — это модели генерации текста; вы можете использовать либо Контейнеры вывода Hugging Face LLM в SageMaker на базе Hugging Face Вывод генерации текста (TGI) или AWS DLC для Вывод большой модели (ЛМИ).

В этом посте мы развертываем модель чата Llama 2 13B с использованием DLC на хостинге SageMaker для получения выводов в реальном времени на базе экземпляров G5. Инстансы G5 — это высокопроизводительные экземпляры на базе графического процессора для приложений с интенсивным использованием графики и вывода ML. Вы также можете использовать поддерживаемые типы экземпляров p4d, p3, g5 и g4dn с соответствующими изменениями в соответствии с конфигурацией экземпляра.

Предпосылки

Для реализации этого решения у вас должно быть следующее:

Аккаунт AWS с Управление идентификацией и доступом AWS (IAM) роль с разрешениями на управление ресурсами, созданными в рамках решения.
Если вы впервые работаете с Студия Amazon SageMaker, сначала нужно создать Домен SageMaker.
Аккаунт «Обнимающее лицо». Подписаться с вашим адресом электронной почты, если у вас еще нет учетной записи.
- Для беспрепятственного доступа к моделям, доступным на Hugging Face, особенно закрытым моделям, таким как Llama, для целей точной настройки и вывода, вам необходимо иметь учетную запись Hugging Face для получения токена доступа для чтения. После того как вы зарегистрируете свою учетную запись Hugging Face, авторизоваться посетить https://huggingface.co/settings/tokens для создания токена доступа для чтения.
Получите доступ к Llama 2, используя тот же адрес электронной почты, который вы использовали при регистрации в Hugging Face.
- Модели Llama 2, доступные через Hugging Face, являются закрытыми моделями. Использование модели Llama регулируется лицензией Meta. Чтобы загрузить веса модели и токенизатор, запросить доступ к Ламе и принять их лицензию.
- После того, как вам будет предоставлен доступ (обычно через пару дней), вы получите подтверждение по электронной почте. Для этого примера мы используем модель Llama-2-13b-chat-hf, но у вас должен быть доступ и к другим вариантам.

Подход 1: Обнимающее лицо TGI

В этом разделе мы покажем вам, как развернуть meta-llama/Llama-2-13b-chat-hf модель в конечную точку SageMaker в реальном времени с потоковой передачей ответов с использованием Hugging Face TGI. В следующей таблице приведены характеристики этого развертывания.

Спецификация	Значение
Container	Обнимающее лицо TGI
Название модели	мета-лама/Llama-2-13b-chat-hf
Экземпляр машинного обучения	мл.g5.12xбольшой
вывод	В режиме реального времени с потоковой передачей ответов

Развернуть модель

Сначала вы получаете базовый образ для развертывания LLM. Затем вы строите модель на основе базового изображения. Наконец, вы развертываете модель в экземпляре машинного обучения для хостинга SageMaker для получения выводов в реальном времени.

Давайте посмотрим, как добиться развертывания программным способом. Для краткости в этом разделе обсуждается только код, который помогает на этапах развертывания. Полный исходный код для развертывания доступен в блокноте. llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.

Получите новейший DLC Hugging Face LLM от TGI через предварительно созданный Дополнения для SageMaker. Вы используете этот образ для развертывания meta-llama/Llama-2-13b-chat-hf Модель на SageMaker. См. следующий код:

from sagemaker.huggingface import get_huggingface_llm_image_uri # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri( "huggingface", version="1.0.3"
)

Определите среду для модели с параметрами конфигурации, определенными следующим образом:

instance_type = "ml.g5.12xlarge"
number_of_gpu = 4
config = { 'HF_MODEL_ID': "meta-llama/Llama-2-13b-chat-hf", # model_id from hf.co/models 'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica 'MAX_INPUT_LENGTH': json.dumps(2048), # Max length of input text 'MAX_TOTAL_TOKENS': json.dumps(4096), # Max length of the generation (including input text) 'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192), # Limits the number of tokens that can be processed in parallel during the generation 'HUGGING_FACE_HUB_TOKEN': "<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>"
}

Замените <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> для параметра конфигурации HUGGING_FACE_HUB_TOKEN со стоимостью токена, полученного из вашего профиля Hugging Face, как подробно описано в разделе предварительных условий этого сообщения. В конфигурации вы определяете количество графических процессоров, используемых на одну реплику модели, как 4 для SM_NUM_GPUS. Затем вы можете развернуть meta-llama/Llama-2-13b-chat-hf модель на экземпляре ml.g5.12xlarge с 4 графическими процессорами.

Теперь вы можете создать экземпляр HuggingFaceModel с вышеупомянутой конфигурацией среды:

llm_model = HuggingFaceModel( role=role, image_uri=llm_image, env=config
)

Наконец, разверните модель, предоставив аргументы методу развертывания, доступному в модели, с различными значениями параметров, такими как endpoint_name, initial_instance_countи instance_type:

llm = llm_model.deploy( endpoint_name=endpoint_name, initial_instance_count=1, instance_type=instance_type, container_startup_health_check_timeout=health_check_timeout,
)

Выполнить вывод

Дополнение Hugging Face TGI позволяет передавать ответы без каких-либо настроек или изменений кода модели. Вы можете использовать ignore_endpoint_with_response_stream если вы используете Boto3 или Вызвать EndpointWithResponseStream при программировании с помощью SageMaker Python SDK.

Ассоциация InvokeEndpointWithResponseStream API SageMaker позволяет разработчикам передавать ответы обратно из моделей SageMaker, что может помочь повысить удовлетворенность клиентов за счет снижения воспринимаемой задержки. Это особенно важно для приложений, созданных с использованием генеративных моделей искусственного интеллекта, где немедленная обработка важнее, чем ожидание всего ответа.

В этом примере мы используем Boto3 для вывода модели и используем API SageMaker. invoke_endpoint_with_response_stream следующим образом:

def get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload): response_stream = sagemaker_runtime.invoke_endpoint_with_response_stream( EndpointName=endpoint_name, Body=json.dumps(payload), ContentType="application/json", CustomAttributes='accept_eula=false' ) return response_stream

Аргумент CustomAttributes установлено значение accept_eula=false. Ассоциация accept_eula параметр должен быть установлен на true чтобы успешно получить ответ от моделей Llama 2. После успешного вызова с использованием invoke_endpoint_with_response_stream, метод вернет поток ответов в байтах.

Следующая диаграмма иллюстрирует этот рабочий процесс.

Архитектурная схема потоковой передачи HF TGI

Вам нужен итератор, который перебирает поток байтов и преобразует их в читаемый текст. LineIterator реализацию можно найти по адресу llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Теперь вы готовы подготовить подсказку и инструкции для использования их в качестве полезных данных при выводе модели.

Подготовьте подсказку и инструкции

На этом этапе вы подготавливаете приглашение и инструкции для вашего LLM. Для запроса Llama 2 у вас должен быть следующий шаблон запроса:

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>> {{ user_message }} [/INST]

Вы создаете шаблон приглашения, программно определенный в методе build_llama2_prompt, который соответствует вышеупомянутому шаблону приглашения. Затем вы определяете инструкции в соответствии с вариантом использования. В этом случае мы поручаем модели создать электронное письмо для маркетинговой кампании, как описано в разделе get_instructions метод. Код этих методов находится в файле llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb блокнот. Создайте инструкцию, объединенную с задачей, которую необходимо выполнить, как подробно описано в user_ask_1 следующим образом:

user_ask_1 = f'''
AnyCompany recently announced new service launch named AnyCloud Internet Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: EARLYB1RD to get 20% for 1st 3 months. '''
instructions = get_instructions(user_ask_1)
prompt = build_llama2_prompt(instructions)

Мы передаем инструкции по созданию приглашения в соответствии с шаблоном приглашения, созданным build_llama2_prompt.

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "repetition_penalty": 1.03, "stop": ["</s>"], "return_full_text": False }
payload = { "inputs": prompt, "parameters": inference_params, "stream": True ## <-- to have response stream.
}

Клубим параметры вывода вместе с подсказкой с ключом stream со значением True для формирования окончательной полезной нагрузки. Отправьте полезную нагрузку на get_realtime_response_stream, который будет использоваться для вызова конечной точки с потоковой передачей ответов:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Сгенерированный текст из LLM будет передан на выход, как показано на следующей анимации.

Llama 2 13B Потоковая трансляция ответов в чате — HF TGI

Подход 2: LMI с обслуживанием DJL

В этом разделе мы покажем, как развернуть meta-llama/Llama-2-13b-chat-hf модель на конечную точку SageMaker в реальном времени с потоковой передачей ответов с использованием LMI с DJL Serving. В следующей таблице приведены характеристики этого развертывания.

Спецификация	Значение
Container	Образ контейнера LMI с обслуживанием DJL
Название модели	мета-лама/Llama-2-13b-chat-hf
Экземпляр машинного обучения	мл.g5.12xбольшой
вывод	В режиме реального времени с потоковой передачей ответов

Сначала вы загружаете модель и сохраняете ее в Простой сервис хранения Amazon (Амазонка S3). Затем вы указываете URI S3, указывающий префикс S3 модели в serving.properties файл. Затем вы получаете базовый образ для развертывания LLM. Затем вы строите модель на основе базового изображения. Наконец, вы развертываете модель в экземпляре машинного обучения для хостинга SageMaker для получения выводов в реальном времени.

Давайте посмотрим, как выполнить вышеупомянутые шаги развертывания программно. Для краткости в этом разделе подробно описан только код, который помогает при развертывании. Полный исходный код для этого развертывания доступен в блокноте. llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.

Загрузите снимок модели с Hugging Face и загрузите артефакты модели на Amazon S3.

При наличии вышеупомянутых предварительных условий загрузите модель в экземпляр блокнота SageMaker, а затем загрузите ее в корзину S3 для дальнейшего развертывания:

model_name = 'meta-llama/Llama-2-13b-chat-hf'
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.txt", "*.model", "*.safetensors", "*.bin", "*.chk", "*.pth"] # Download the model snapshot
model_download_path = snapshot_download( repo_id=model_name, cache_dir=local_model_path, allow_patterns=allow_patterns, token='<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>'
)

Обратите внимание: даже если вы не предоставите действительный токен доступа, модель будет загружена. Но когда вы развернете такую модель, обслуживание модели не удастся. Поэтому рекомендуется заменить <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> для аргумента token со значением токена, полученного из вашего профиля Hugging Face, как указано в предварительных условиях. В этом посте мы указываем официальное название модели Llama 2, указанное на Hugging Face, со значением meta-llama/Llama-2-13b-chat-hf. Несжатая модель будет загружена в local_model_path в результате запуска вышеупомянутого кода.

Загрузите файлы на Amazon S3 и получите URI, который позже будет использоваться в serving.properties.

Вы будете упаковывать meta-llama/Llama-2-13b-chat-hf модель в образе контейнера LMI с DJL Serving, используя конфигурацию, указанную через serving.properties. Затем вы развертываете модель вместе с артефактами модели, упакованными в образ контейнера, в экземпляре SageMaker ML ml.g5.12xlarge. Затем вы используете этот экземпляр ML для хостинга SageMaker для получения выводов в реальном времени.

Подготовьте артефакты модели для обслуживания DJL

Подготовьте артефакты модели, создав serving.properties конфигурационный файл:

%%writefile chat_llama2_13b_hf/serving.properties
engine = MPI
option.entryPoint=djl_python.huggingface
option.tensor_parallel_degree=4
option.low_cpu_mem_usage=TRUE
option.rolling_batch=lmi-dist
option.max_rolling_batch_size=64
option.model_loading_timeout=900
option.model_id={{model_id}}
option.paged_attention=true

В этом файле конфигурации мы используем следующие настройки:

двигатель – Это определяет механизм выполнения, который будет использовать DJL. Возможные значения включают в себя Python, DeepSpeed, FasterTransformerи MPI. В данном случае мы установили его на MPI. Распараллеливание моделей и вывод (MPI) облегчает разделение модели на все доступные графические процессоры и, следовательно, ускоряет вывод.
option.entryPoint – Эта опция указывает, какой обработчик, предлагаемый DJL Serving, вы хотели бы использовать. Возможные значения: djl_python.huggingface, djl_python.deepspeedи djl_python.stable-diffusion, Мы используем djl_python.huggingface для ускорения обнимания лица.
option.tensor_parallel_степень – Эта опция определяет количество параллельных тензорных разделов, выполняемых в модели. Вы можете установить количество графических устройств, по которым Accelerate необходимо разделить модель. Этот параметр также контролирует количество рабочих процессов на модель, которые будут запущены при запуске обслуживания DJL. Например, если у нас есть компьютер с 4 графическими процессорами и мы создаем четыре раздела, то для обслуживания запросов у нас будет один рабочий процесс на каждую модель.
option.low_cpu_mem_usage – Это уменьшает использование памяти процессора при загрузке моделей. Мы рекомендуем вам установить это значение TRUE.
option.rolling_batch – Это позволяет выполнять пакетную обработку на уровне итерации с использованием одной из поддерживаемых стратегий. Ценности включают в себя auto, schedulerи lmi-dist, Мы используем lmi-dist для включения непрерывного пакетирования для Llama 2.
option.max_rolling_batch_size – Это ограничивает количество одновременных запросов в непрерывном пакете. Значение по умолчанию равно 32.
option.model_id - Вам следует заменить {{model_id}} с идентификатором модели предварительно обученной модели, размещенной внутри репозиторий моделей на Hugging Face или путь S3 к артефактам модели.

Дополнительные параметры конфигурации можно найти в Конфигурации и настройки.

Поскольку DJL Serving ожидает, что артефакты модели будут упакованы и отформатированы в файле .tar, запустите следующий фрагмент кода, чтобы сжать и загрузить файл .tar в Amazon S3:

s3_code_prefix = f"{s3_prefix}/code" # folder within bucket where code artifact will go
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

Получите последний образ контейнера LMI с помощью DJL Serving

Затем вы используете DLC, доступные в SageMaker для LMI, для развертывания модели. Получите URI изображения SageMaker для djl-deepspeed контейнер программно, используя следующий код:

from sagemaker import image_uris
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=region, version="0.25.0"
)

Вы можете использовать вышеупомянутый образ для развертывания meta-llama/Llama-2-13b-chat-hf Модель на SageMaker. Теперь можно переходить к созданию модели.

Создать модель

Вы можете создать модель, контейнер которой построен с помощью inference_image_uri и код обслуживания модели, расположенный в URI S3, указанном s3_code_artifact:

from sagemaker.utils import name_from_base model_name = name_from_base(f"Llama-2-13b-chat-lmi-streaming") create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact, "Environment": {"MODEL_LOADING_TIMEOUT": "3600"}, },
)

Теперь вы можете создать конфигурацию модели со всеми подробностями конфигурации конечной точки.

Создайте конфигурацию модели

Используйте следующий код, чтобы создать конфигурацию модели для модели, идентифицируемой model_name:

endpoint_config_name = f"{model_name}-config" endpoint_name = name_from_base(model_name) endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

Конфигурация модели определена для ProductionVariants параметр InstanceType для экземпляра ML ml.g5.12xlarge. Вы также предоставляете ModelName используя то же имя, которое вы использовали для создания модели на предыдущем этапе, тем самым устанавливая связь между моделью и конфигурацией конечной точки.

Теперь, когда вы определили модель и ее конфигурацию, вы можете создать конечную точку SageMaker.

Создайте конечную точку SageMaker

Создайте конечную точку для развертывания модели, используя следующий фрагмент кода:

create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)

Вы можете просмотреть ход развертывания, используя следующий фрагмент кода:

resp = sm_client.describe_endpoint(EndpointName=endpoint_name)
status = resp["EndpointStatus"]

После успешного развертывания статус конечной точки будет следующим: InService. Теперь, когда конечная точка готова, давайте выполним вывод с потоковой передачей ответов.

Вывод в реальном времени с потоковой передачей ответов

Как мы уже рассмотрели ранее для Hugging Face TGI, вы можете использовать тот же метод. get_realtime_response_stream для вызова потоковой передачи ответов из конечной точки SageMaker. Код для вывода с использованием подхода LMI находится в файле llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb блокнот. LineIterator реализация находится в llama-2-lmi/utils/LineIterator.py, Обратите внимание, что LineIterator для модели Llama 2 Chat, развернутой в контейнере LMI, отличается от LineIterator упоминается в разделе TGI «Обнимающее лицо». LineIterator циклически перебирает поток байтов из моделей чата Llama 2, выведенных с помощью контейнера LMI, с помощью djl-deepspeed версия 0.25.0. Следующая вспомогательная функция будет анализировать поток ответов, полученный в результате запроса вывода, сделанного через invoke_endpoint_with_response_stream API:

from utils.LineIterator import LineIterator def print_response_stream(response_stream): event_stream = response_stream.get('Body') for line in LineIterator(event_stream): print(line, end='')

Предыдущий метод печатает поток данных, считанных LineIterator в удобочитаемом формате.

Давайте рассмотрим, как подготовить приглашение и инструкции для использования их в качестве полезных данных при выводе модели.

Поскольку вы создаете одну и ту же модель как в Hugging Face TGI, так и в LMI, процесс подготовки подсказки и инструкций одинаков. Поэтому вы можете использовать методы get_instructions и build_llama2_prompt для заключения.

Ассоциация get_instructions метод возвращает инструкции. Составьте инструкции в сочетании с задачей, которую необходимо выполнить, как подробно описано в user_ask_2 следующим образом:

user_ask_2 = f'''
AnyCompany recently announced new service launch named AnyCloud Streaming Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: STREAM2DREAM to get 15% for 1st 6 months. ''' instructions = get_instructions(user_ask_2)
prompt = build_llama2_prompt(instructions)

Передайте инструкции по созданию приглашения в соответствии с шаблоном приглашения, созданным build_llama2_prompt:

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "return_full_text": False, } payload = { "inputs": prompt, "parameters": inference_params
}

Мы объединяем параметры вывода вместе с подсказкой для формирования окончательной полезной нагрузки. Затем вы отправляете полезную нагрузку в get_realtime_response_stream, который используется для вызова конечной точки с потоковой передачей ответов:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Сгенерированный текст из LLM будет передан на выход, как показано на следующей анимации.

Llama 2 13B Потоковая передача ответов в чате — LMI

Убирать

Чтобы избежать ненужных расходов, используйте Консоль управления AWS удалить конечные точки и связанные с ними ресурсы, которые были созданы при использовании подходов, упомянутых в сообщении. Для обоих подходов к развертыванию выполните следующую процедуру очистки:

import boto3
sm_client = boto3.client('sagemaker')
endpoint_name="<SageMaker_Real-time_Endpoint_Name>"
endpoint = sm_client.describe_endpoint(EndpointName=endpoint_name)
endpoint_config_name = endpoint['EndpointConfigName']
endpoint_config = sm_client.describe_endpoint_config(EndpointConfigName=endpoint_config_name)
model_name = endpoint_config['ProductionVariants'][0]['ModelName'] print(f"""
About to delete the following sagemaker resources:
Endpoint: {endpoint_name}
Endpoint Config: {endpoint_config_name}
Model: {model_name} """) # delete endpoint
sm_client.delete_endpoint(EndpointName=endpoint_name)
# delete endpoint config
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
# delete model
sm_client.delete_model(ModelName=model_name)

Замените <SageMaker_Real-time_Endpoint_Name> для переменной endpoint_name с фактической конечной точкой.

При втором подходе мы сохранили артефакты модели и кода на Amazon S3. Вы можете очистить корзину S3, используя следующий код:

s3 = boto3.resource('s3')
s3_bucket = s3.Bucket(bucket)
s3_bucket.objects.filter(Prefix=s3_prefix).delete()

Заключение

В этом посте мы обсудили, как различное количество токенов ответа или другой набор параметров вывода могут повлиять на задержки, связанные с LLM. Мы показали, как решить проблему с помощью потоковой передачи ответов. Затем мы определили два подхода к развертыванию и формированию моделей Llama 2 Chat с использованием дополнений AWS — LMI и Hugging Face TGI.

Теперь вы должны понимать важность потоковой передачи ответа и то, как она может уменьшить воспринимаемую задержку. Потоковая передача ответа может улучшить взаимодействие с пользователем, что в противном случае заставило бы вас ждать, пока LLM построит весь ответ. Кроме того, развертывание моделей чата Llama 2 с потоковой передачей ответов улучшает взаимодействие с пользователем и делает ваших клиентов счастливыми.

Вы можете обратиться к официальным образцам aws. amazon-sagemaker-llama2-response-streaming-рецепты это касается развертывания других вариантов модели Llama 2.

Переиздано Платоном

Поддержка нового расширенного формата данных в Amazon Kendra

Запустите генерацию текста с помощью моделей GPT и Bloom в Amazon SageMaker JumpStart.

Ускорьте PyTorch с помощью DeepSpeed для обучения больших языковых моделей с помощью инстансов DL1 EC2 на базе Intel Habana Gaudi | Веб-сервисы Амазонки

Amazon Personalize запускает новые рецепты, поддерживающие более крупные каталоги товаров с меньшей задержкой | Веб-сервисы Amazon

Создайте рабочий процесс утверждения и продвижения модельного реестра Amazon SageMaker с участием человека | Веб-сервисы Amazon

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись