Розміщення моделей ML на Amazon SageMaker за допомогою Triton: моделі XGBoost, LightGBM і Treelite

Перевидано Платоном

читають: 0

Однією з найпопулярніших моделей на сьогодні є XGBoost. Завдяки здатності вирішувати різні проблеми, такі як класифікація та регресія, XGBoost став популярним варіантом, який також відноситься до категорії моделей на основі дерева. У цій публікації ми детально зануримося, щоб зрозуміти, як це зробити Amazon SageMaker можна використовувати ці моделі Сервер NVIDIA Triton Inference. Робочі навантаження в режимі реального часу можуть мати різні рівні вимог і угод про рівень обслуговування (SLA) щодо затримки та пропускної здатності, і їх можна задовольнити за допомогою кінцевих точок реального часу SageMaker.

SageMaker надає кінцеві точки однієї моделі, які дозволяють розгортати одну модель машинного навчання (ML) проти логічної кінцевої точки. Для інших випадків використання ви можете керувати вартістю та продуктивністю за допомогою багатомодельні кінцеві точки, що дозволяє вказати кілька моделей для розміщення за логічною кінцевою точкою. Незалежно від вибраного вами варіанта, кінцеві точки SageMaker забезпечують масштабований механізм навіть для найвибагливіших корпоративних клієнтів, забезпечуючи переваги безлічі функцій, зокрема тіньові варіанти, автоматичне масштабування, і рідна інтеграція з Amazon CloudWatch (для отримання додаткової інформації див Показники CloudWatch для розгортання кількох моделей кінцевих точок).

Triton підтримує різні серверні модулі як двигуни для підтримки роботи та обслуговування різних моделей ML для висновку. Для будь-якого розгортання Triton дуже важливо знати, як поведінка серверної частини впливає на робочі навантаження та чого очікувати, щоб досягти успіху. У цій публікації ми допоможемо вам зрозуміти Серверна програма Forest Inference Library (FIL)., який підтримується Triton на SageMaker, щоб ви могли прийняти обґрунтоване рішення щодо своїх робочих навантажень і отримати найкращу продуктивність і оптимізацію витрат.

Глибоке занурення в серверну частину FIL

Тритон підтримує Сервер FIL служити моделям дерев, наприклад XGBoost, LightGBM, scikit-вчитися Випадковий ліс, RAPIDS cuML Випадковий ліс, а також будь-які інші моделі, які підтримуються Трееліт. Ці моделі вже давно використовуються для вирішення таких проблем, як класифікація або регресія. Незважаючи на те, що ці типи моделей традиційно працюють на процесорах, популярність цих моделей і вимоги до логічного висновку призвели до різних методів підвищення продуктивності логічного висновку. Сервер FIL використовує багато з цих методів за допомогою конструкцій cuML і побудований на C++ і бібліотеці ядра CUDA для оптимізації продуктивності висновків на прискорювачах GPU.

Сервер FIL використовує бібліотеки cuML для використання ядер CPU або GPU для прискорення навчання. Щоб використовувати ці процесори, дані посилаються на пам’ять хоста (наприклад, масиви NumPy) або масиви GPU (uDF, Numba, cuPY або будь-яку бібліотеку, яка підтримує __cuda_array_interface__) API. Після розміщення даних у пам’яті серверна програма FIL може запускати обробку на всіх доступних ядрах CPU або GPU.

Серверні потоки FIL можуть спілкуватися один з одним, не використовуючи спільну пам’ять хоста, але в ансамблевих робочих навантаженнях пам’ять хоста слід враховувати. На наступній діаграмі показано архітектуру середовища виконання планувальника ансамблю, де ви маєте можливість точно налаштувати області пам’яті, включаючи спільну пам’ять ЦП, яка використовується для міжпроцесного зв’язку між Triton (C++) і процесом Python (сервер Python) для обміну даними. тензори (введення/виведення) з серверною частиною FIL.

Розміщення моделей ML на Amazon SageMaker за допомогою Triton: XGBoost, LightGBM і Treelite Models PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Triton Inference Server надає розробникам параметри, які можна налаштувати, щоб налаштовувати робочі навантаження та оптимізувати продуктивність моделі. Конфігурація dynamic_batching дозволяє Triton зберігати запити на стороні клієнта та групувати їх на стороні сервера, щоб ефективно використовувати паралельні обчислення FIL для виведення всього пакета разом. Варіант max_queue_delay_microseconds забезпечує безвідмовний контроль того, як довго Triton чекає, щоб сформувати партію.

Є ряд інших, специфічних для FIL доступні варіанти які впливають на продуктивність і поведінку. Пропонуємо почати з storage_type. Під час запуску серверної частини на графічному процесорі FIL створює нову структуру пам’яті/даних, яка є представленням дерева, для якого FIL може впливати на продуктивність і площу. Це можна налаштувати за допомогою параметра середовища storage_type, який має параметри dense, sparse та auto. Вибір щільного варіанту споживатиме більше пам’яті GPU та не завжди призведе до кращої продуктивності, тому краще перевірити. Навпаки, розріджений варіант споживатиме менше пам’яті графічного процесора та, можливо, може працювати так само добре або краще, ніж щільний. Вибір автоматично призведе до того, що модель за замовчуванням стане щільною, якщо це не споживатиме значно більше пам’яті GPU, ніж розріджена.

Коли справа доходить до продуктивності моделі, ви можете розглянути можливість підкреслити threads_per_tree варіант. Одна річ, яку ви можете перестаратися в реальних сценаріях, це це threads_per_tree може мати більший вплив на пропускну здатність, ніж будь-який інший параметр. Встановлення будь-якого ступеня 2 від 1 до 32 є законним. Важко передбачити оптимальне значення цього параметра, але коли очікується, що сервер працюватиме з більшим навантаженням або оброблятиме більші розміри пакетів, він, як правило, виграє від більшого значення, ніж коли він обробляє кілька рядків за раз.

Ще один параметр, про який слід знати algo, який також доступний, якщо ви працюєте на GPU. Цей параметр визначає алгоритм, який використовується для обробки запитів на висновок. Для цього підтримуються такі параметри ALGO_AUTO, NAIVE, TREE_REORG та BATCH_TREE_REORG. Ці параметри визначають, як організовано вузли всередині дерева, а також можуть призвести до збільшення продуктивності. The ALGO_AUTO параметр за замовчуванням NAIVE для розрідженого зберігання і BATCH_TREE_REORG для щільного зберігання.

Нарешті, FIL постачається з пояснювачем Шеплі, який можна активувати за допомогою treeshap_output параметр. Однак ви повинні пам’ятати, що виходи Shapley погіршують продуктивність через його розмір виводу.

Формат моделі

Наразі не існує стандартного формату файлів для зберігання моделей на основі лісу; кожен фреймворк прагне визначити свій власний формат. Щоб підтримувати декілька форматів вхідних файлів, FIL імпортує дані за допомогою відкритого коду Трееліт бібліотека. Це дозволяє FIL підтримувати моделі, навчені в популярних фреймворках, таких як XGBoost та LightGBM. Зверніть увагу, що формат моделі, яку ви надаєте, має бути встановлено в model_type значення конфігурації, указане в config.pbtxt файлу.

Config.pbtxt

Кожна модель в a репозиторій моделей має містити конфігурацію моделі, яка надає необхідну та необов’язкову інформацію про модель. Як правило, ця конфігурація надається в a config.pbtxt файл, указаний як Protobuf Config моделі. Щоб дізнатися більше про параметри конфігурації, див Конфігурація моделі. Нижче наведено деякі з параметрів конфігурації моделі:

максимальний_розмір_партії – Це визначає максимальний розмір партії, який можна передати цій моделі. Загалом, єдиним обмеженням на розмір пакетів, що передаються до серверної частини FIL, є доступна пам’ять для їх обробки. Для запуску GPU доступна пам’ять визначається розміром пулу пам’яті CUDA Triton, який можна встановити за допомогою аргументу командного рядка під час запуску сервера.
вхід – Параметри в цьому розділі вказують Triton кількість функцій, які очікуються для кожного вхідного зразка.
вихід – Параметри в цьому розділі повідомляють Triton, скільки вихідних значень буде для кожного зразка. Якщо predict_proba для параметра встановлено значення true, тоді для кожного класу повертатиметься значення ймовірності. В іншому випадку буде повернено одне значення, яке вказує на клас, передбачений для даного зразка.
група_примірників – Це визначає, скільки екземплярів цієї моделі буде створено та чи використовуватимуть вони GPU чи CPU.
model_type – Цей рядок вказує формат моделі (xgboost_json у цьому прикладі, але xgboost, lightgbm та tl_checkpoint також є дійсними форматами).
predict_proba – Якщо встановлено значення true, значення ймовірності повертатимуться для кожного класу, а не лише для прогнозу класу.
вихідний_клас – Для моделей класифікації встановлено значення true, а для моделей регресії – false.
поріг – Це порогове значення для визначення класифікації. Коли output_class має значення true, це має бути надано, хоча воно не використовуватиметься, якщо predict_proba також встановлено значення true.
тип_сховища – Загалом, використання AUTO для цього параметра має відповідати більшості випадків використання. Якщо вибрано АВТОМАТИЧНЕ зберігання, FIL завантажуватиме модель, використовуючи розріджене або щільне представлення на основі приблизного розміру моделі. У деяких випадках вам може знадобитися явно встановити значення SPARSE, щоб зменшити обсяг пам’яті великих моделей.

Сервер Triton Inference на SageMaker

SageMaker дозволяє ви можете розгортати як одну модель, так і багатомодельні кінцеві точки за допомогою NVIDIA Triton Inference Server. На наступному малюнку показано високорівневу архітектуру Triton Inference Server. The репозиторій моделей це репозиторій на основі файлової системи моделей, які Triton надасть для виведення. Запити на висновок надходять на сервер і направляються до відповідного планувальника для кожної моделі. Знаряддя Triton кілька алгоритмів планування та пакетування які можна налаштувати окремо для кожної моделі. Планувальник кожної моделі додатково виконує групування запитів на висновок, а потім передає запити до базова відповідно до типу моделі. Сервер виконує логічний висновок, використовуючи вхідні дані, надані в пакетних запитах, для отримання запитаних виходів. Потім результати повертаються.

Під час налаштування груп автоматичного масштабування для кінцевих точок SageMaker ви можете розглянути SageMakerVariantInvocationsPerInstance як основний критерій для визначення характеристик масштабування вашої групи автоматичного масштабування. Крім того, залежно від того, чи працюють ваші моделі на GPU чи CPU, ви також можете розглянути можливість використання CPUUtilization або GPUUtilization як додаткових критеріїв. Зауважте, що для кінцевих точок однієї моделі, оскільки всі розгорнуті моделі однакові, досить просто встановити правильні політики для відповідності вашим SLA. Для кінцевих точок із кількома моделями ми рекомендуємо розгортати схожі моделі за певною кінцевою точкою, щоб мати більш стабільну передбачувану продуктивність. У випадках використання, коли використовуються моделі різних розмірів і вимог, ви можете розділити ці робочі навантаження на кілька кінцевих точок із кількома моделями або витратити деякий час на точне налаштування групової політики автоматичного масштабування, щоб отримати найкращий баланс вартості та продуктивності.

Щоб отримати список контейнерів NVIDIA Triton Deep Learning Containers (DLC), які підтримуються висновками SageMaker, див. Доступні зображення контейнерів глибокого навчання.

Покрокове керівництво до блокнота SageMaker

Програми ML є складними і часто потребують попередньої обробки даних. У цьому блокноті ми розглянемо, як розгорнути деревоподібну модель ML, як-от XGBoost, за допомогою бекенда FIL у Triton на мультимодельній кінцевій точці SageMaker. Ми також розповідаємо, як реалізувати конвеєр попередньої обробки даних на основі Python для вашої моделі за допомогою функції ансамблю в Triton. Це дозволить нам надсилати необроблені дані зі сторони клієнта, а попередня обробка даних і висновок моделі відбуваються в кінцевій точці Triton SageMaker для оптимальної продуктивності висновку.

Особливість ансамблю моделі Triton

Triton Inference Server значно спрощує масштабне розгортання моделей AI у виробництві. Triton Inference Server поставляється зі зручним рішенням, яке спрощує створення конвеєрів попередньої та постобробки. Платформа Triton Inference Server надає ансамблевий планувальник, який відповідає за конвеєрну конвеєрність моделей, що беруть участь у процесі логічного висновку, одночасно забезпечуючи ефективність і оптимізуючи пропускну здатність. Використання ансамблевих моделей дозволяє уникнути накладних витрат на передачу проміжних тензорів і мінімізувати кількість запитів, які потрібно надіслати Triton.

У цьому блокноті ми показуємо, як використовувати функцію ансамблю для побудови конвеєра попередньої обробки даних за допомогою висновку моделі XGBoost, і ви можете екстраполювати його, щоб додати до конвеєра спеціальну постобробку.

Налаштуйте середовище

Ми починаємо з налаштування необхідного середовища. Ми встановлюємо залежності, необхідні для упаковки нашого конвеєра моделі та виконуємо висновки за допомогою Triton Inference Server. Ми також визначаємо Управління ідентифікацією та доступом AWS (IAM), яка надасть SageMaker доступ до артефактів моделі та NVIDIA Triton Реєстр контейнерів Amazon Elastic (Amazon ECR) зображення. Перегляньте наступний код:

import boto3
import sagemaker
from sagemaker import get_execution_role
import pandas as pd
import numpy as np
import subprocess
sess = boto3.Session()
sm = sess.client("sagemaker")
##NOTE :Replace with your S3 bucket name
default_bucket="" 
sagemaker_session = sagemaker.Session(default_bucket=default_bucket) ##NOTE : Make sure to have SageMakerFullAccess permission to the below IAM Role
role = get_execution_role()
client = boto3.client("sagemaker-runtime")
s3_bucket = sagemaker_session.default_bucket() ##NOTE : Latest SageMaker DLCs can be found here, please change region and account ids accordingly - https://github.com/aws/deep-learning-containers/blob/master/available_images.md triton_image_uri = ( "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.02-py3".format(
account_id=account_id_map[region], region=region, base=base
))

Створіть середовище Conda для попередньої обробки залежностей

Сервер Python у Triton вимагає від нас використання a Конда середовище для будь-яких додаткових залежностей. У цьому випадку ми використовуємо бекенд Python для попередньої обробки необроблених даних перед подачею їх у модель XGBoost, яка працює у бекенді FIL. Незважаючи на те, що спочатку ми використовували RAPIDS cuDF і cuML для попередньої обробки даних, тут ми використовуємо Pandas і scikit-learn як залежності попередньої обробки під час висновку. Ми робимо це з трьох причин:

Ми покажемо, як створити середовище Conda для ваших залежностей і як упакувати його в очікуваний формат за допомогою серверної частини Python від Triton.
Показуючи модель попередньої обробки, що працює на сервері Python на центральному процесорі, тоді як XGBoost працює на графічному процесорі на сервері FIL, ми показуємо, як кожна модель у конвеєрі ансамблю Triton може працювати на іншому сервері фреймворку, а також на різних апаратних конфігураціях.
Він підкреслює, як бібліотеки RAPIDS (cuDF, cuML) сумісні з їхніми аналогами ЦП (Pandas, scikit-learn). Наприклад, ми можемо показати, як LabelEncoders створені в cuML, можна використовувати в scikit-learn і навпаки.

Дотримуємося інструкцій з Документація Triton для пакування залежностей попередньої обробки (scikit-learn і Pandas), які будуть використовуватися у серверній частині Python як файл TAR середовища Conda. Скрипт bash create_prep_env.sh створює файл TAR середовища Conda, потім ми переміщуємо його в каталог моделі попередньої обробки. Перегляньте наступний код:

#!/bin/bash conda create -y -n preprocessing_env python=3.8
source /opt/conda/etc/profile.d/conda.sh
conda activate preprocessing_env
export PYTHONNOUSERSITE=True
conda install -y -c conda-forge pandas scikit-learn
pip install conda-pack
conda-pack

Після запуску попереднього сценарію він генерує preprocessing_env.tar.gz, який ми копіюємо в каталог попередньої обробки:

!cp preprocessing_env.tar.gz model_cpu_repository/preprocessing/
!cp preprocessing_env.tar.gz model_gpu_repository/preprocessinggpu/

Налаштуйте попередню обробку за допомогою серверної частини Triton Python

Для попередньої обробки ми використовуємо Triton's Сервер Python для виконання попередньої обробки табличних даних (категоріальне кодування) під час висновку для запитів необроблених даних, що надходять на сервер. Щоб отримати додаткові відомості про попередню обробку, виконану під час навчання, див навчальний зошит.

Сервер Python забезпечує попередню обробку, постобробку та будь-яку іншу спеціальну логіку, яку можна реалізувати в Python і обслуговувати Triton. Використання Triton на SageMaker вимагає від нас спочатку створити папку сховища моделей, що містить моделі, які ми хочемо обслуговувати. Ми вже налаштували модель попередньої обробки даних Python під назвою preprocessing in cpu_model_repository та gpu_model_repository.

Triton має особливі вимоги до компонування сховища моделей. У каталозі сховища моделей верхнього рівня кожна модель має власний підкаталог, що містить інформацію для відповідної моделі. Кожен каталог моделі в Triton повинен мати принаймні один числовий підкаталог, що представляє версію моделі. Значення 1 представляє версію 1 нашої моделі попередньої обробки Python. Кожна модель запускається певним бекендом, тому в кожному підкаталозі версії має бути артефакт моделі, який вимагає цей бекенд. У цьому прикладі ми використовуємо серверну програму Python, яка вимагає, щоб файл Python, який ви обслуговуєте, називався model.py, а файл має реалізовувати певні функції. Якби ми використовували бекенд PyTorch, знадобився б файл model.pt тощо. Щоб отримати докладніші відомості про правила іменування файлів моделей, див Файли моделей.

Команда model.py Файл Python, який ми тут використовуємо, реалізує всю логіку попередньої обробки табличних даних для перетворення необроблених даних у функції, які можна використовувати в нашій моделі XGBoost.

Кожна модель Triton також повинна забезпечувати a config.pbtxt файл, що описує конфігурацію моделі. Щоб дізнатися більше про параметри конфігурації, див Конфігурація моделі. Наші config.pbtxt файл вказує серверну програму як python і всі вхідні стовпці для необроблених даних разом із попередньо обробленим виводом, який складається з 15 функцій. Ми також вказуємо, що хочемо запустити цю модель попередньої обробки Python на ЦП. Перегляньте наступний код:

name: "preprocessing"
backend: "python"
max_batch_size: 882352
input [ { name: "User" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Card" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Year" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Month" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Day" data_type: TYPE_FP32 dims: [ 1 ] }, { name: "Time" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Amount" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Use Chip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant Name" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant City" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Merchant State" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Zip" data_type: TYPE_STRING dims: [ 1 ] }, { name: "MCC" data_type: TYPE_STRING dims: [ 1 ] }, { name: "Errors?" data_type: TYPE_STRING dims: [ 1 ] } ]
output [ { name: "OUTPUT" data_type: TYPE_FP32 dims: [ 15 ] }
] instance_group [ { count: 1 kind: KIND_CPU }
]
parameters: { key: "EXECUTION_ENV_PATH", value: {string_value: "$$TRITON_MODEL_DIRECTORY/preprocessing_env.tar.gz"}
}

Налаштуйте деревоподібну модель ML для серверної частини FIL

Далі ми налаштовуємо каталог моделі для деревоподібної моделі ML, як-от XGBoost, яка використовуватиме серверну частину FIL.

Очікуваний макет для cpu_memory_repository та gpu_memory_repository схожий на той, який ми показали раніше.

Тут, FIL це назва моделі. Ми можемо дати йому іншу назву, наприклад xgboost якщо ми хочемо. 1 це підкаталог версії, який містить артефакт моделі. У цьому випадку це xgboost.json модель, яку ми зберегли. Давайте створимо такий очікуваний макет:

# move saved xgboost model into fil model directory
!mkdir -p model_cpu_repository/fil/1
!cp xgboost.json model_cpu_repository/fil/1/
!cp xgboost.json model_gpu_repository/filgpu/1/

Нам потрібен файл конфігурації config.pbtxt опис конфігурації моделі для деревоподібної моделі ML, щоб сервер FIL у Triton міг зрозуміти, як її обслуговувати. Для отримання додаткової інформації зверніться до останнього генерика Параметри конфігурації Triton і параметри конфігурації, специфічні для Сервер FIL. Ми зосередимося лише на кількох найпоширеніших і релевантних варіантах у цьому прикладі.

Створювати config.pbtxt та цінності model_cpu_repository:

USE_GPU =False
FIL_MODEL_DIR = "./model_cpu_repository/fil" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Аналогічно налаштуйте config.pbtxt та цінності model_gpu_repository (зауважте, різниця в тому USE_GPU = True):

USE_GPU = True
FIL_MODEL_DIR = "./model_gpu_repository/filgpu" # Maximum size in bytes for input and output arrays. If you are
# using Triton 21.11 or higher, all memory allocations will make
# use of Triton's memory pool, which has a default size of
# 67_108_864 bytes
MAX_MEMORY_BYTES = 60_000_000
NUM_FEATURES = 15
NUM_CLASSES = 2
bytes_per_sample = (NUM_FEATURES + NUM_CLASSES) * 4
max_batch_size = MAX_MEMORY_BYTES // bytes_per_sample IS_CLASSIFIER = True
model_format = "xgboost_json" # Select deployment hardware (GPU or CPU)
if USE_GPU: instance_kind = "KIND_GPU"
else: instance_kind = "KIND_CPU" # whether the model is doing classification or regression
if IS_CLASSIFIER: classifier_string = "true"
else: classifier_string = "false" # whether to predict probabilites or not
predict_proba = False if predict_proba: predict_proba_string = "true"
else: predict_proba_string = "false" config_text = f"""backend: "fil"
max_batch_size: {max_batch_size}
input [ {{ name: "input__0" data_type: TYPE_FP32 dims: [ {NUM_FEATURES} ] }} ]
output [ {{ name: "output__0" data_type: TYPE_FP32 dims: [ 1 ] }}
]
instance_group [{{ kind: {instance_kind} }}]
parameters [ {{ key: "model_type" value: {{ string_value: "{model_format}" }} }}, {{ key: "predict_proba" value: {{ string_value: "{predict_proba_string}" }} }}, {{ key: "output_class" value: {{ string_value: "{classifier_string}" }} }}, {{ key: "threshold" value: {{ string_value: "0.5" }} }}, {{ key: "storage_type" value: {{ string_value: "AUTO" }} }}
] dynamic_batching {{}}""" config_path = os.path.join(FIL_MODEL_DIR, "config.pbtxt")
with open(config_path, "w") as file_: file_.write(config_text)

Налаштуйте конвеєр виводу попередньої обробки даних Python і FIL за допомогою ансамблів

Тепер ми готові налаштувати конвеєр висновку для попередньої обробки даних і виведення моделі на основі дерева за допомогою модель ансамблю. Модель ансамблю являє собою конвеєр з однієї або кількох моделей і з’єднання вхідних і вихідних тензорів між цими моделями. Тут ми використовуємо модель ансамблю для побудови конвеєра попередньої обробки даних у серверній частині Python, а потім XGBoost у системі FIL.

Очікуваний макет для ensemble каталог моделей подібний до тих, які ми показали раніше:

# create model version directory for ensemble CPU model
!mkdir -p model_cpu_repository/ensemble/1
# create model version directory for ensemble GPU model
!mkdir -p model_gpu_repository/ensemble/1

Ми створили модельний ансамбль config.pbtxt слідуючи вказівкам в Моделі ансамблю. Важливо, що нам потрібно налаштувати планувальник ансамблю config.pbtxt, який визначає потік даних між моделями в межах ансамблю. Планувальник ансамблю збирає вихідні тензори на кожному кроці та надає їх як вхідні тензори для інших кроків відповідно до специфікації.

Упакуйте репозиторій моделі та завантажте його на Amazon S3

Нарешті ми отримуємо наступну структуру каталогу сховища моделі, що містить модель попередньої обробки Python та її залежності разом із моделлю XGBoost FIL та ансамблем моделей.

Ми пакуємо каталог і його вміст як model.tar.gz для завантаження в Служба простого зберігання Amazon (Amazon S3). У цьому прикладі ми маємо два варіанти: використання екземпляра на основі центрального процесора або екземпляра на основі графічного процесора. Екземпляр на основі графічного процесора більше підходить, коли вам потрібна більша потужність процесора та ви хочете використовувати ядра CUDA.

Створіть і завантажте пакет моделі для екземпляра на основі ЦП (оптимізованого для ЦП) із таким кодом:

!tar —exclude='.ipynb_checkpoints' -czvf model-cpu.tar.gz -C model_cpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-cpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Створіть і завантажте пакет моделі для екземпляра на основі GPU (оптимізованого для GPU) із таким кодом:

!tar —exclude='.ipynb_checkpoints' -czvf model-gpu.tar.gz -C model_gpu_repository . model_uri_cpu = sagemaker_session.upload_data(
path="model-gpu.tar.gz", key_prefix="triton-fil-mme-ensemble"
)

Створіть кінцеву точку SageMaker

Тепер у нас є артефакти моделі, що зберігаються у відрі S3. На цьому кроці ми також можемо надати додаткову змінну середовища SAGEMAKER_TRITON_DEFAULT_MODEL_NAME, що вказує назву моделі, яку буде завантажувати Triton. Значення цього ключа має відповідати назві папки в пакеті моделі, завантаженому на Amazon S3. Ця змінна є необов’язковою у випадку однієї моделі. У випадку групових моделей цей ключ потрібно вказати, щоб Triton запускався в SageMaker.

Крім того, ви можете встановити SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT та SAGEMAKER_TRITON_THREAD_COUNT для оптимізації кількості потоків.

# Set the primary path for where all the models are stored on S3 bucket
model_location = f"s3://{s3_bucket}/triton-fil-mme-ensemble/"
sm_model_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) container = { "Image": triton_image_uri, "ModelDataUrl": model_location, "Mode": "MultiModel", "Environment": { "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": "ensemble",
# "SAGEMAKER_TRITON_DEFAULT_MODEL_NAME": model_uri.rsplit('/')[-2], #m_name,
# "SAGEMAKER_TRITON_LOG_VERBOSE": "true", #"200",
# "SAGEMAKER_TRITON_SHM_DEFAULT_BYTE_SIZE" : "20000000", #"1677721600", #"16777216000", "16777216"
# "SAGEMAKER_TRITON_SHM_GROWTH_BYTE_SIZE": "1048576"
},
} create_model_response = sm.create_model( ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

Ми використовуємо попередню модель для створення конфігурації кінцевої точки, де ми можемо вказати тип і кількість екземплярів, які ми хочемо мати в кінцевій точці

eendpoint_config_name = f"{user_profile}" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime()) create_endpoint_config_response = sm.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": "ml.g4dn.xlarge", "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
)

Ми використовуємо цю конфігурацію кінцевої точки для створення кінцевої точки SageMaker і чекаємо завершення розгортання. За допомогою MME SageMaker ми маємо можливість розміщувати кілька моделей ансамблю, повторюючи цей процес, але ми дотримуємося одного розгортання для цього прикладу:

endpoint_name = f"{studio_user_profile_output}-lab1-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
create_endpoint_response = sm.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

Статус зміниться на InService коли розгортання успішне.

Викличте свою модель, розміщену на кінцевій точці SageMaker

Після того, як кінцева точка запущена, ми можемо використовувати деякі зразки необроблених даних, щоб зробити висновок, використовуючи JSON як формат корисного навантаження. Для формату запиту на висновок Triton використовує KFServing стандарт громади протоколи висновків. Дивіться наступний код:

data_infer = pd.read_csv("data_infer.csv")
STR_COLUMNS = [ "Time", "Amount", "Zip", "MCC", "Merchant Name", "Use Chip", "Merchant City", "Merchant State", "Errors?",
] batch_size = len(data_infer) payload = {}
payload["inputs"] = []
data_dict = {}
for col_name in data_infer.columns: data_dict[col_name] = {} data_dict[col_name]["name"] = col_name if col_name in STR_COLUMNS: data_dict[col_name]["data"] = data_infer[col_name].astype(str).tolist() data_dict[col_name]["datatype"] = "BYTES" else: data_dict[col_name]["data"] = data_infer[col_name].astype("float32").tolist() data_dict[col_name]["datatype"] = "FP32" data_dict[col_name]["shape"] = [batch_size, 1] payload["inputs"].append(data_dict[col_name])
#Invoke the endpoint
# Change the TargetModel to either CPU or GPU
response = client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload),TargetModel="model-cpu.tar.gz",
) #Read the results
response_body = json.loads(response["Body"].read().decode("utf8"))
predictions = response_body["outputs"][0]["data"] CLASS_LABELS = ["NOT FRAUD", "FRAUD"]
predictions = [CLASS_LABELS[int(idx)] for idx in predictions]
print(predictions)

Блокнот, про який йдеться в блозі, можна знайти в GitHub сховище.

Кращі практики

На додаток до опцій для точного налаштування налаштувань серверної частини FIL, про які ми згадували раніше, дослідники обробки даних також можуть переконатися, що вхідні дані для серверної частини оптимізовані для обробки механізмом. За можливості вводьте дані в масив GPU у форматі старших рядків. Інші формати вимагатимуть внутрішнього перетворення та займатимуть цикли, що знижуватиме продуктивність.

Через те, як структури даних FIL зберігаються в пам’яті графічного процесора, пам’ятайте про глибину дерева. Чим глибша глибина дерева, тим більшим буде обсяг пам’яті графічного процесора.

Використовувати instance_group_count параметр для додавання робочих процесів і збільшення пропускної здатності серверної частини FIL, що призведе до більшого споживання пам’яті ЦП і ГП. Крім того, розгляньте специфічні для SageMaker змінні, які доступні для збільшення пропускної здатності, наприклад потоки HTTP, розмір буфера HTTP, розмір пакету та максимальну затримку.

Висновок

У цьому дописі ми детально заглибимося в бекенд FIL, який Triton Inference Server підтримує на SageMaker. Цей бекенд забезпечує прискорення процесора та графічного процесора ваших моделей на основі дерева, наприклад популярного алгоритму XGBoost. Є багато варіантів, які слід розглянути, щоб отримати найкращу продуктивність для логічних висновків, наприклад, розміри пакетів, формати введення даних та інші фактори, які можна налаштувати відповідно до ваших потреб. SageMaker дозволяє використовувати цю можливість з кінцевими точками однієї та кількох моделей, щоб збалансувати продуктивність і економію коштів.

Ми заохочуємо вас скористатися інформацією в цій публікації та перевірити, чи може SageMaker задовольнити ваші потреби в хостингу для обслуговування моделей на основі дерева, що відповідає вашим вимогам щодо зниження витрат і продуктивності робочого навантаження.

Блокнот, згаданий у цій публікації, можна знайти в прикладах SageMaker GitHub сховище. Крім того, ви можете знайти найновішу документацію щодо серверної частини FIL на GitHub.

Про авторів

Розміщення моделей ML на Amazon SageMaker за допомогою Triton: XGBoost, LightGBM і Treelite Models PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Рагу Рамеша є старшим архітектором рішень ML у команді Amazon SageMaker Service. Він зосереджується на допомозі клієнтам створювати, розгортати та переносити робочі навантаження ML на SageMaker у великих масштабах. Він спеціалізується на машинному навчанні, штучному інтелекті та комп’ютерному зорі, а також має ступінь магістра комп’ютерних наук в UT Dallas. У вільний час захоплюється подорожами та фотографією.

Джеймс Парк є архітектором рішень в Amazon Web Services. Він працює з Amazon.com над проектуванням, створенням і розгортанням технологічних рішень на AWS, і особливо цікавиться ШІ та машинним навчанням. У вільний час він любить шукати нові культури, нові враження та бути в курсі останніх технологічних тенденцій.

Дхавал Патель є головним архітектором машинного навчання в AWS. Він працював з різними організаціями — від великих підприємств до стартапів середнього розміру — над проблемами, пов’язаними з розподіленими обчисленнями та штучним інтелектом. Він зосереджується на глибокому навчанні, включаючи домени НЛП та комп’ютерного зору. Він допомагає клієнтам досягти високоефективного моделювання на Amazon SageMaker.

Цзяхон Лю є архітектором рішень у команді постачальників хмарних послуг у NVIDIA. Він допомагає клієнтам у прийнятті рішень машинного навчання та штучного інтелекту, які використовують прискорені обчислення NVIDIA для вирішення їхніх проблем навчання та висновків. У вільний час він любить орігамі, DIY-проекти та грає в баскетбол.

Кшітіз Гупта є архітектором рішень у NVIDIA. Йому подобається навчати клієнтів хмарних технологій технологіям штучного інтелекту графічного процесора, які може запропонувати NVIDIA, і допомагати їм у прискоренні машинного та глибокого навчання програм. Поза роботою він захоплюється бігом, пішим туризмом і спостереженням за дикою природою.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoAiStream. Web3 Data Intelligence. Розширення знань. Доступ тут.
Карбування майбутнього з Адріенн Ешлі. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/hosting-ml-models-on-amazon-sagemaker-using-triton-xgboost-lightgbm-and-treelite-models/

Часова мітка: Травень 2, 2023

Часова мітка: Квітень 30, 2024

Передайте навчання для моделей виявлення об’єктів TensorFlow в Amazon SageMaker

Кластер джерел:

AWS Машинне навчання

Вихідний вузол: 1736165

Часова мітка: Листопад 4, 2022

Перевидано Платоном

Як Sophos тренує потужний, легкий детектор зловмисного програмного забезпечення PDF у надмасштабному режимі за допомогою Amazon SageMaker

Отримайте кращу інформацію з оглядів за допомогою Amazon Comprehend

Створіть рішення для перевірки вакцинації за допомогою функції «Запити» в Amazon Texttract | Веб-сервіси Amazon

Оголошуємо оновлений конектор Salesforce (V2) для Amazon Kendra

Автопілот Amazon SageMaker працює у вісім разів швидше завдяки новому режиму навчання в ансамблі на основі AutoGluon

Як Yara використовує функції MLOps Amazon SageMaker для оптимізації енергоспоживання на своїх аміачних заводах

Передайте навчання для моделей виявлення об’єктів TensorFlow в Amazon SageMaker

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки