Ускорьте инференс Amazon SageMaker с помощью инстансов Amazon EC6 C2i на базе процессоров Intel

Переиздано Платоном

Читают: 0

Это гостевой пост, написанный в соавторстве с Энтони Вэнсом из Intel.

Клиенты всегда ищут способы повысить производительность и время отклика своих рабочих нагрузок логического вывода с помощью машинного обучения (ML), не увеличивая стоимость транзакции и не жертвуя точностью результатов. Запуск рабочих нагрузок машинного обучения на Создатель мудреца Амазонки Бег Эластичное вычислительное облако Amazon (Амазон EC2) C6i экземпляры с Intel, Развертывание логического вывода INT8 может помочь повысить общую производительность до четырех раз на каждый потраченный доллар, сохраняя при этом потерю точности логического вывода менее 1 % по сравнению с FP32 при применении к определенным рабочим нагрузкам машинного обучения. Когда дело доходит до запуска моделей во встроенных устройствах, где важны форм-фактор и размер модели, может помочь квантование.

Квантование — это метод снижения вычислительных затрат и затрат памяти на выполнение логических выводов путем представления весов и активаций с помощью типов данных низкой точности, таких как 8-битное целое число (INT8) вместо обычного 32-битного числа с плавающей запятой (FP32). В следующем примере мы показываем производительность логического вывода INT8 в C6i для базовой модели BERT.

Ускорьте процесс вывода данных Amazon SageMaker с помощью инстансов Amazon EC6 C2i на базе Intel PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

База BERT была доработана с помощью SQuAD v1.1, при этом PyTorch (v1.11) является платформой машинного обучения, используемой с расширением Intel® для PyTorch. Для сравнения использовали размер партии 1. Большие размеры пакетов будут давать другую стоимость за 1 миллион выводов.

В этом посте мы покажем вам, как построить и развернуть вывод INT8 с вашим собственный перерабатывающий контейнер для ПиТорч. Мы используем расширения Intel для PyTorch для эффективного рабочего процесса развертывания INT8.

Обзор технологии

Экземпляры EC2 C6i работают на процессорах Intel Xeon Scalable третьего поколения (также называемых Ice Lake) с частотой всех ядер в турборежиме 3.5 ГГц.

В контексте глубокого обучения преобладающим числовым форматом, используемым для исследований и развертывания, до сих пор был 32-битный формат с плавающей запятой или FP32. Однако потребность в снижении пропускной способности и вычислительных требований моделей глубокого обучения привела к тому, что исследования стали использовать числовые форматы с более низкой точностью. Было продемонстрировано, что веса и активации могут быть представлены с использованием 8-битных целых чисел (или INT8) без значительной потери точности.

Инстансы EC2 C6i предлагают множество новых возможностей, которые позволяют повысить производительность рабочих нагрузок ИИ и машинного обучения. Инстансы C6i обеспечивают преимущества в производительности при развертывании моделей FP32 и INT8. Вывод FP32 включается с улучшениями AVX-512, а вывод INT8 включается инструкциями AVX-512 VNNI.

C6i теперь доступен на конечных точках SageMaker, и разработчики должны ожидать, что он обеспечит более чем двукратное улучшение цены и производительности для вывода INT8 по сравнению с выводом FP32 и повышение производительности до четырех раз по сравнению с выводом FP5 экземпляра C32. Подробные сведения об экземпляре и данные эталонных тестов см. в приложении.

Развертывание глубокого обучения на периферии для получения логических выводов в реальном времени является ключом ко многим областям применения. Это значительно снижает стоимость связи с облаком с точки зрения пропускной способности сети, задержки в сети и энергопотребления. Однако периферийные устройства имеют ограниченный объем памяти, вычислительных ресурсов и мощности. Это означает, что сеть глубокого обучения должна быть оптимизирована для встроенного развертывания. Квантование INT8 стало популярным подходом для таких оптимизаций для таких платформ машинного обучения, как TensorFlow и PyTorch. SageMaker предоставляет вам подход с использованием собственного контейнера (BYOC) и интегрированные инструменты, позволяющие выполнять квантование.

Для получения дополнительной информации обратитесь к Глубокий вывод и обучение с более низкой числовой точностью.

Обзор решения

Шаги по реализации решения следующие:

Подготовьте экземпляр EC2 C6i для квантизации и создания модели машинного обучения.
Используйте прилагаемые скрипты Python для квантования.
Создайте образ Docker, чтобы развернуть модель в SageMaker с использованием подхода BYOC.
Используйте Простой сервис хранения Amazon (Amazon S3), чтобы скопировать модель и код для доступа к SageMaker.
Используйте Реестр Amazon Elastic Container (Amazon ECR) для размещения образа Docker.
Использовать Интерфейс командной строки AWS (AWS CLI) для создания конечной точки логического вывода в SageMaker.
Запустите предоставленные тестовые сценарии Python, чтобы вызвать конечную точку SageMaker для версий INT8 и FP32.

В этой настройке развертывания логического вывода используется базовая модель BERT из репозитория трансформеров Hugging Face (csarron/bert-base-uncased-squad-v1).

Предпосылки

Ниже приведены предварительные условия для создания установки развертывания.

Терминал оболочки Linux с установленным интерфейсом командной строки AWS.
Учетная запись AWS с доступом к созданию экземпляра EC2 (тип экземпляра C6i)
Доступ к SageMaker для развертывания модели SageMaker, конфигурации конечной точки, конечной точки
Управление идентификацией и доступом AWS (IAM) доступ для настройки роли и политики IAM
Доступ к Amazon ECR
Доступ к SageMaker для создания блокнота с инструкциями по запуску конечной точки.

Создание и развертывание квантованной модели INT8 в SageMaker.

Откройте инстанс EC2 для создания своей квантованной модели и отправьте артефакты модели в Amazon S3. Для развертывания конечной точки создайте пользовательский контейнер с PyTorch и расширением Intel® для PyTorch, чтобы развернуть оптимизированную модель INT8. Контейнер помещается в Amazon ECR, и создается конечная точка на основе C6i для обслуживания моделей FP32 и INT8.

Следующая диаграмма иллюстрирует поток высокого уровня.

Чтобы получить доступ к коду и документации, обратитесь к Репо GitHub.

Пример использования

Стэнфордский набор данных для ответов на вопросы (SQuAD) — это набор данных для понимания прочитанного, состоящий из вопросов, заданных краудфандингом в наборе статей Википедии, где ответом на каждый вопрос является фрагмент текста или пролет, из соответствующего отрывка для чтения, иначе вопрос может остаться без ответа.

Следующий пример представляет собой алгоритм ответа на вопрос, использующий базовую модель BERT. Учитывая документ в качестве входных данных, модель будет отвечать на простые вопросы, основанные на обучении и контекстах из входного документа.

Ниже приведен пример входного документа:

Тропический лес Амазонки (португальский: Floresta Amazônica или Amazônia; испанский: Selva Amazónica, Amazonía или обычно Amazonia; французский: Forêt amazonienne; голландский: Amazoneregenwoud), также известный на английском языке как Amazonia или амазонские джунгли, представляет собой влажный широколиственный лес, покрывающий большую часть бассейна Амазонки в Южной Америке. Этот бассейн охватывает 7,000,000 2,700,000 5,500,000 квадратных километров (2,100,000 XNUMX XNUMX квадратных миль), из которых XNUMX XNUMX XNUMX квадратных километров (XNUMX XNUMX XNUMX квадратных миль) покрыты тропическим лесом.

На вопрос «Какое название также используется для описания тропических лесов Амазонки на английском языке?» получаем ответ:

also known in English as Amazonia or the Amazon Jungle,Amazonia or the Amazon Jungle, Amazonia.

На вопрос «Сколько квадратных километров тропического леса покрыто бассейном?» получаем ответ:

5,500,000 square kilometers (2,100,000 sq mi) are covered by the rainforest.5,500,000.

Квантование модели в PyTorch

В этом разделе дается краткий обзор шагов квантования модели с расширениями PyTorch и Intel.

Фрагменты кода взяты из примера SageMaker.

Давайте подробно рассмотрим изменения для функции IPEX_quantize в файле quantize.py.

Импортируйте расширения Intel для PyTorch, чтобы помочь с квантованием и оптимизацией, и импортируйте torch для манипуляций с массивами:

import intel_extension_for_pytorch as ipex
import torch

Примените калибровку модели для 100 итераций. В этом случае вы калибруете модель с набором данных SQuAD:

model.eval()
conf = ipex.quantization.QuantConf(qscheme=torch.per_tensor_affine)
print("Doing calibration...")
for step, batch in enumerate(eval_dataloader): print("Calibration step-", step) with torch.no_grad(): with ipex.quantization.calibrate(conf): model(**batch) if step == 100: break

Подготовьте образцы входных данных:

jit_inputs = [] example_batch = next(iter(eval_dataloader)) for key in example_batch: example_tensor = torch.ones_like(example_batch[key]) jit_inputs.append(example_tensor) jit_inputs = tuple(jit_inputs)

Преобразуйте модель в модель INT8, используя следующую конфигурацию:

with torch.no_grad(): model = ipex.quantization.convert(model, conf, jit_inputs)

Запустите две итерации прямого прохода, чтобы включить слияния:
```
with torch.no_grad(): model(**example_batch) model(**example_batch)
```

В качестве последнего шага сохраните модель TorchScript:

model.save(os.path.join(args.model_path, "model_int8.pt"))

Убирать

См. Github репо инструкции по очистке созданных ресурсов AWS.

Заключение

Новые экземпляры EC2 C6i в конечной точке SageMaker могут ускорить развертывание логических выводов до 2.5 раз с квантованием INT8. Квантование модели в PyTorch возможно с помощью нескольких API из расширений Intel PyTorch. Рекомендуется квантовать модель в экземплярах C6i, чтобы поддерживать точность модели при развертывании конечной точки. Примеры SageMaker Репо GitHub теперь предоставляет сквозной пример конвейера развертывания для квантизации и размещения моделей INT8.

Мы рекомендуем вам создать новую модель или перенести существующую модель с помощью квантования INT8, используя тип экземпляра EC2 C6i, и лично убедиться в повышении производительности.

Уведомление и отказ от ответственности

Настоящий документ не предоставляет никакой лицензии (явной или подразумеваемой, посредством эстоппеля или иным образом) на какие-либо права интеллектуальной собственности, за единственным исключением, что код, включенный в этот документ, лицензируется в соответствии с Лицензия с открытым исходным кодом BSD с нулевым пунктом (0BSD)

Приложение

Новые экземпляры AWS в SageMaker с поддержкой развертывания INT8

В следующей таблице перечислены экземпляры SageMaker с Повышение DL .

Имя экземпляра	Кодовое название поколения Xeon	INT8 включен?	Ускорение DL включено?
мл.с5. xlarge – мл.c5.9xlarge	Скайлейк/1^st	Да	Нет
мл.c5.18xlarge	Скайлейк/1^st	Да	Нет
мл.c6i.1x – 32xбольшой	Ледяное озеро/3^rd	Да	Да

Подводя итог, можно сказать, что INT8 поддерживает тип данных и вычисления INT8; Включенный DL Boost поддерживает Deep Learning Boost.

Исходные данные

В следующей таблице сравниваются стоимость и относительная производительность инстансов c5 и c6.

Задержка и пропускная способность измерялись с помощью 10000 XNUMX запросов логического вывода к конечным точкам Sage maker.

Задержка E2E конечной точки вывода и анализ затрат
	P50 (мс)	P90 (мс)	Запросов/сек	$/1 млн запросов	Относительный $/производительность
C5.2xLarge-FP32	76.6	125.3	11.5	$10.2	1.0x
c6i.2xLarge-FP32	70	110.8	13	$9.0	1.1x
c6i.2xLarge-INT8	35.7	48.9	25.56	$4.5	2.3x

Ожидается, что модели INT8 обеспечат повышение практической производительности в 2–4 раза с потерей точности менее 1% для большинства моделей. В приведенной выше таблице указаны служебные задержки (приложение NW и демонстрационное приложение).

Точность для базовой модели BERT

В следующей таблице приведены данные о точности модели INT8 с набором данных SQUAD v1.1.

Метрика	FP32	INT8
Точное совпадение	85.8751	85.5061
F1	92.0807	91.8728

Ассоциация Репо GitHub поставляется со сценариями для проверки точности набора данных SQuAD. Ссылаться на вызывать-INT8.py и вызывать-FP32.py скрипты для тестирования.

Расширение Intel для PyTorch

Intel® Extension for PyTorch* (проект с открытым исходным кодом на GitHub) дополняет PyTorch оптимизациями для дополнительного повышения производительности на оборудовании Intel. Большинство оптимизаций в конечном итоге будут включены в стандартные выпуски PyTorch, и целью расширения является предоставление актуальных функций и оптимизаций для PyTorch на оборудовании Intel. Примеры включают инструкции векторной нейронной сети AVX-512 (AVX512 VNNI) и расширенные матричные расширения Intel® (Intel® AMX).

На следующем рисунке показано расширение Intel для архитектуры PyTorch.

Более подробное руководство пользователя (функции, настройка производительности и т. д.) для расширения Intel® для PyTorch см. Расширение Intel® для PyTorch* руководство пользователя.

Об авторах

Ускорьте процесс вывода данных Amazon SageMaker с помощью инстансов Amazon EC6 C2i на базе Intel PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Рохит Чоудхари является старшим архитектором решений в группе стратегических счетов в AWS.

Ускорьте процесс вывода данных Amazon SageMaker с помощью инстансов Amazon EC6 C2i на базе Intel PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Анируддха Каппаганту является инженером-разработчиком программного обеспечения в группе платформ искусственного интеллекта в AWS.

Ускорьте процесс вывода данных Amazon SageMaker с помощью инстансов Amazon EC6 C2i на базе Intel PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Энтони Вэнс является архитектором искусственного интеллекта в Intel с 19-летним опытом работы в области компьютерного зрения, машинного обучения, глубокого обучения, встроенного программного обеспечения, графических процессоров и FPGA.

SEO-контент и PR-распределение. Получите усиление сегодня.
Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/accelerate-amazon-sagemaker-inference-with-c6i-intel-based-amazon-ec2-instances/

Отметка времени: 20 марта 2023

Отметка времени: 29 февраля, 2024

Ускорение логического вывода Amazon SageMaker с помощью инстансов Amazon EC6 C2i на базе процессоров Intel

Переиздано Платоном

Обзор технологии

Обзор решения

Предпосылки

Создание и развертывание квантованной модели INT8 в SageMaker.

Пример использования

Квантование модели в PyTorch

Убирать

Заключение

Уведомление и отказ от ответственности

Приложение

Новые экземпляры AWS в SageMaker с поддержкой развертывания INT8

Исходные данные

Точность для базовой модели BERT

Расширение Intel для PyTorch

Об авторах

Больше от Машинное обучение AWS

Создайте платформу агрономических данных с помощью геопространственных возможностей Amazon SageMaker

Создание детектора спама в электронной почте с помощью Amazon SageMaker | Веб-сервисы Амазонки

Обогащение потоков новостей в режиме реального времени с помощью библиотеки данных Refinitiv, сервисов AWS и Amazon SageMaker

AWS Inferentia и AWS Trainium обеспечивают минимальную стоимость развертывания моделей Llama 3 в Amazon SageMaker JumpStart | Веб-сервисы Amazon

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись