Представляем набор инструментов для бессерверного анализа Amazon SageMaker

Переиздано Платоном

Читают: 0

Бессерверный инференс Amazon SageMaker — это специально созданный вариант вывода, который упрощает развертывание и масштабирование моделей машинного обучения (ML). Он обеспечивает модель оплаты по факту использования, которая идеально подходит для сервисов, в которых вызовы конечных точек нечасты и непредсказуемы. В отличие от конечной точки хостинга в реальном времени, которая поддерживается долго работающим экземпляром, вычислительные ресурсы для бессерверных конечных точек предоставляются по требованию, что устраняет необходимость выбирать типы экземпляров или управлять политиками масштабирования.

Следующая высокоуровневая архитектура иллюстрирует, как работает бессерверная конечная точка. Клиент вызывает конечную точку, которая поддерживается управляемой инфраструктурой AWS.

Однако бессерверные конечные точки склонны к холодному запуску в течение нескольких секунд и поэтому больше подходят для прерывистых или непредсказуемых рабочих нагрузок.

Чтобы определить, является ли бессерверная конечная точка правильным вариантом развертывания с точки зрения затрат и производительности, мы разработали SageMaker Serverless Inference Toolkit для сравнительного анализа, который тестирует различные конфигурации конечных точек и сравнивает наиболее оптимальную конфигурацию с сопоставимым экземпляром хостинга в реальном времени.

В этом посте мы представляем набор инструментов и даем обзор его конфигурации и результатов.

Обзор решения

Вы можете загрузить набор инструментов и установить его с сайта Репо GitHub. Начать легко: просто установите библиотеку, создайте Модель SageMakerи укажите имя вашей модели вместе с файлом в формате строк JSON, содержащим образец набора параметров вызова, включая тело полезных данных и тип контента. Предусмотрена удобная функция для преобразования списка примеров аргументов вызова в файл строк JSON или файл Pickle для двоичных полезных данных, таких как изображения, видео или аудио.

Установите набор инструментов

Сначала установите библиотеку сравнительного анализа в свою среду Python с помощью pip:

pip install sm-serverless-benchmarking

Вы можете запустить следующий код из Студия Amazon SageMaker экземпляр, Экземпляр записной книжки SageMakerили любой экземпляр с программный доступ на AWS и соответствующие Управление идентификацией и доступом AWS (IAM) разрешения. Необходимые разрешения IAM описаны в документе Репо GitHub. Дополнительные рекомендации и примеры политик для IAM см. Как Amazon SageMaker работает с IAM. Этот код запускает тест с набором параметров по умолчанию для модели, которая ожидает входные данные CSV с двумя примерами записей. Хорошей практикой является предоставление репрезентативного набора примеров для анализа того, как конечная точка работает с различными входными полезными данными.

from sm_serverless_benchmarking import benchmark
from sm_serverless_benchmarking.utils import convert_invoke_args_to_jsonl
model_name = ""
example_invoke_args = [
        {'Body': '1,2,3,4,5', "ContentType": "text/csv"},
        {'Body': '6,7,8,9,10', "ContentType": "text/csv"}
        ]
example_args_file = convert_invoke_args_to_jsonl(example_invoke_args,
output_path=".")
r = benchmark.run_serverless_benchmarks(model_name, example_args_file)

Кроме того, вы можете запустить тест как задание обработки SageMaker, что может быть более надежным вариантом для длительных тестов с большим количеством вызовов. См. следующий код:

from sm_serverless_benchmarking.sagemaker_runner import run_as_sagemaker_job
run_as_sagemaker_job(
                    role="",
                    model_name="",
                    invoke_args_examples_file="",
                    )

Обратите внимание, что это повлечет за собой дополнительные затраты на запуск экземпляра ml.m5.large SageMaker Processing на время тестирования.

Оба метода принимают ряд параметров для настройки, таких как список конфигураций памяти для тестирования и количество вызовов каждой конфигурации. В большинстве случаев в качестве отправной точки достаточно параметров по умолчанию, но см. Репо GitHub полный список и описания каждого параметра.

Конфигурация бенчмаркинга

Прежде чем углубляться в то, что делает тест и какие результаты он выдает, важно понять несколько ключевых понятий, касающихся настройки бессерверных конечных точек.

Существуют два ключевых варианта конфигурации: MemorySizeInMB и MaxConcurrency. MemorySizeInMB настраивает объем памяти, выделяемой экземпляру, и может составлять 1024 МБ, 2048 МБ, 3072 МБ, 4096 МБ, 5120 МБ или 6144 МБ. Количество виртуальных ЦП также масштабируется пропорционально объему выделенной памяти. MaxConcurrency Параметр регулирует количество одновременных запросов, которые может обслужить конечная точка. С MaxConcurrency Если значение равно 1, бессерверная конечная точка может обрабатывать только один запрос за раз.

Подводя итог, MemorySizeInMB Параметр обеспечивает механизм вертикальной масштабируемости, позволяя настраивать память и вычислительные ресурсы для обслуживания более крупных моделей, тогда как MaxConcurrency предоставляет механизм горизонтального масштабирования, позволяющий вашей конечной точке обрабатывать больше одновременных запросов.

Стоимость эксплуатации конечной точки во многом определяется объемом памяти, и нет никаких затрат, связанных с увеличением максимального параллелизма. Однако для каждого региона существует ограничение максимального параллелизма между всеми конечными точками. Ссылаться на Конечные точки и квоты SageMaker для последних лимитов.

Результаты бенчмаркинга

Учитывая это, цель сравнительного анализа бессерверной конечной точки — определить наиболее экономичный и надежный размер памяти, а также минимальный максимальный параллелизм, который сможет справиться с ожидаемыми шаблонами трафика.

По умолчанию инструмент выполняет два теста. Первый — это тест стабильности, который развертывает конечную точку для каждой из указанных конфигураций памяти и вызывает каждую конечную точку с предоставленными образцами полезных данных. Цель этого теста — определить наиболее эффективную и стабильную настройку MemorySizeInMB. Тест фиксирует задержки вызовов и вычисляет ожидаемую стоимость каждого вызова для каждой конечной точки. Затем он сравнивает стоимость с аналогичным экземпляром хостинга в режиме реального времени.

По завершении сравнительного анализа инструмент генерирует несколько выходных данных в указанном формате. result_save_path каталог со следующей структурой каталогов:

├── benchmarking_report
├── concurrency_benchmark_raw_results
├── concurrency_benchmark_summary_results
├── cost_analysis_summary_results
├── stability_benchmark_raw_results
├── stability_benchmark_summary_results

Ассоциация benchmarking_report Каталог содержит консолидированный отчет со всеми сводными результатами, которые мы обрисовываем в этом посте. Дополнительные каталоги содержат необработанные и промежуточные выходные данные, которые можно использовать для дополнительного анализа. Обратитесь к Репо GitHub для более подробного описания каждого выходного артефакта.

Давайте рассмотрим несколько реальных результатов сравнительного тестирования для конечной точки, обслуживающей модель MobileNetV2 TensorFlow компьютерного зрения. Если вы хотите воспроизвести этот пример, обратитесь к примеры блокнотов каталог в репозитории GitHub.

Первым результатом консолидированного отчета является сводная таблица, в которой указаны минимальные, средние, средние и максимальные показатели задержки для каждого MemorySizeInMB успешная настройка размера памяти. Как показано в следующей таблице, средняя задержка вызова (invocation_latency_mean) продолжал улучшаться по мере увеличения конфигурации памяти до 3072 МБ, но после этого улучшения прекратились.