Однією з найпопулярніших моделей на сьогодні є XGBoost. Завдяки здатності вирішувати різні проблеми, такі як класифікація та регресія, XGBoost став популярним варіантом, який також відноситься до категорії моделей на основі дерева. У цій публікації ми детально зануримося, щоб зрозуміти, як це зробити Amazon SageMaker можна використовувати ці моделі Сервер NVIDIA Triton Inference. Робочі навантаження в режимі реального часу можуть мати різні рівні вимог і угод про рівень обслуговування (SLA) щодо затримки та пропускної здатності, і їх можна задовольнити за допомогою кінцевих точок реального часу SageMaker.
SageMaker надає кінцеві точки однієї моделі, які дозволяють розгортати одну модель машинного навчання (ML) проти логічної кінцевої точки. Для інших випадків використання ви можете керувати вартістю та продуктивністю за допомогою багатомодельні кінцеві точки, що дозволяє вказати кілька моделей для розміщення за логічною кінцевою точкою. Незалежно від вибраного вами варіанта, кінцеві точки SageMaker забезпечують масштабований механізм навіть для найвибагливіших корпоративних клієнтів, забезпечуючи переваги безлічі функцій, зокрема тіньові варіанти, автоматичне масштабування, і рідна інтеграція з Amazon CloudWatch (для отримання додаткової інформації див Показники CloudWatch для розгортання кількох моделей кінцевих точок).
Triton підтримує різні серверні модулі як двигуни для підтримки роботи та обслуговування різних моделей ML для висновку. Для будь-якого розгортання Triton дуже важливо знати, як поведінка серверної частини впливає на робочі навантаження та чого очікувати, щоб досягти успіху. У цій публікації ми допоможемо вам зрозуміти Серверна програма Forest Inference Library (FIL)., який підтримується Triton на SageMaker, щоб ви могли прийняти обґрунтоване рішення щодо своїх робочих навантажень і отримати найкращу продуктивність і оптимізацію витрат.
Глибоке занурення в серверну частину FIL
Тритон підтримує Сервер FIL служити моделям дерев, наприклад XGBoost, LightGBM, scikit-вчитися Випадковий ліс, RAPIDS cuML Випадковий ліс, а також будь-які інші моделі, які підтримуються Трееліт. Ці моделі вже давно використовуються для вирішення таких проблем, як класифікація або регресія. Незважаючи на те, що ці типи моделей традиційно працюють на процесорах, популярність цих моделей і вимоги до логічного висновку призвели до різних методів підвищення продуктивності логічного висновку. Сервер FIL використовує багато з цих методів за допомогою конструкцій cuML і побудований на C++ і бібліотеці ядра CUDA для оптимізації продуктивності висновків на прискорювачах GPU.
Сервер FIL використовує бібліотеки cuML для використання ядер CPU або GPU для прискорення навчання. Щоб використовувати ці процесори, дані посилаються на пам’ять хоста (наприклад, масиви NumPy) або масиви GPU (uDF, Numba, cuPY або будь-яку бібліотеку, яка підтримує __cuda_array_interface__
) API. Після розміщення даних у пам’яті серверна програма FIL може запускати обробку на всіх доступних ядрах CPU або GPU.
Серверні потоки FIL можуть спілкуватися один з одним, не використовуючи спільну пам’ять хоста, але в ансамблевих робочих навантаженнях пам’ять хоста слід враховувати. На наступній діаграмі показано архітектуру середовища виконання планувальника ансамблю, де ви маєте можливість точно налаштувати області пам’яті, включаючи спільну пам’ять ЦП, яка використовується для міжпроцесного зв’язку між Triton (C++) і процесом Python (сервер Python) для обміну даними. тензори (введення/виведення) з серверною частиною FIL.
Triton Inference Server надає розробникам параметри, які можна налаштувати, щоб налаштовувати робочі навантаження та оптимізувати продуктивність моделі. Конфігурація dynamic_batching
дозволяє Triton зберігати запити на стороні клієнта та групувати їх на стороні сервера, щоб ефективно використовувати паралельні обчислення FIL для виведення всього пакета разом. Варіант max_queue_delay_microseconds
забезпечує безвідмовний контроль того, як довго Triton чекає, щоб сформувати партію.
Є ряд інших, специфічних для FIL доступні варіанти які впливають на продуктивність і поведінку. Пропонуємо почати з storage_type
. Під час запуску серверної частини на графічному процесорі FIL створює нову структуру пам’яті/даних, яка є представленням дерева, для якого FIL може впливати на продуктивність і площу. Це можна налаштувати за допомогою параметра середовища storage_type
, який має параметри dense, sparse та auto. Вибір щільного варіанту споживатиме більше пам’яті GPU та не завжди призведе до кращої продуктивності, тому краще перевірити. Навпаки, розріджений варіант споживатиме менше пам’яті графічного процесора та, можливо, може працювати так само добре або краще, ніж щільний. Вибір автоматично призведе до того, що модель за замовчуванням стане щільною, якщо це не споживатиме значно більше пам’яті GPU, ніж розріджена.
Коли справа доходить до продуктивності моделі, ви можете розглянути можливість підкреслити threads_per_tree
варіант. Одна річ, яку ви можете перестаратися в реальних сценаріях, це це threads_per_tree
може мати більший вплив на пропускну здатність, ніж будь-який інший параметр. Встановлення будь-якого ступеня 2 від 1 до 32 є законним. Важко передбачити оптимальне значення цього параметра, але коли очікується, що сервер працюватиме з більшим навантаженням або оброблятиме більші розміри пакетів, він, як правило, виграє від більшого значення, ніж коли він обробляє кілька рядків за раз.
Ще один параметр, про який слід знати algo
, який також доступний, якщо ви працюєте на GPU. Цей параметр визначає алгоритм, який використовується для обробки запитів на висновок. Для цього підтримуються такі параметри ALGO_AUTO
, NAIVE
, TREE_REORG
та BATCH_TREE_REORG
. Ці параметри визначають, як організовано вузли всередині дерева, а також можуть призвести до збільшення продуктивності. The ALGO_AUTO
параметр за замовчуванням NAIVE
для розрідженого зберігання і BATCH_TREE_REORG
для щільного зберігання.
Нарешті, FIL постачається з пояснювачем Шеплі, який можна активувати за допомогою treeshap_output
параметр. Однак ви повинні пам’ятати, що виходи Shapley погіршують продуктивність через його розмір виводу.
Формат моделі
Наразі не існує стандартного формату файлів для зберігання моделей на основі лісу; кожен фреймворк прагне визначити свій власний формат. Щоб підтримувати декілька форматів вхідних файлів, FIL імпортує дані за допомогою відкритого коду Трееліт бібліотека. Це дозволяє FIL підтримувати моделі, навчені в популярних фреймворках, таких як XGBoost та LightGBM. Зверніть увагу, що формат моделі, яку ви надаєте, має бути встановлено в model_type
значення конфігурації, указане в config.pbtxt
файлу.
Config.pbtxt
Кожна модель в a репозиторій моделей має містити конфігурацію моделі, яка надає необхідну та необов’язкову інформацію про модель. Як правило, ця конфігурація надається в a config.pbtxt
файл, указаний як Protobuf Config моделі. Щоб дізнатися більше про параметри конфігурації, див Конфігурація моделі. Нижче наведено деякі з параметрів конфігурації моделі:
- максимальний_розмір_партії – Це визначає максимальний розмір партії, який можна передати цій моделі. Загалом, єдиним обмеженням на розмір пакетів, що передаються до серверної частини FIL, є доступна пам’ять для їх обробки. Для запуску GPU доступна пам’ять визначається розміром пулу пам’яті CUDA Triton, який можна встановити за допомогою аргументу командного рядка під час запуску сервера.
- вхід – Параметри в цьому розділі вказують Triton кількість функцій, які очікуються для кожного вхідного зразка.
- вихід – Параметри в цьому розділі повідомляють Triton, скільки вихідних значень буде для кожного зразка. Якщо
predict_proba
для параметра встановлено значення true, тоді для кожного класу повертатиметься значення ймовірності. В іншому випадку буде повернено одне значення, яке вказує на клас, передбачений для даного зразка. - група_примірників – Це визначає, скільки екземплярів цієї моделі буде створено та чи використовуватимуть вони GPU чи CPU.
- model_type – Цей рядок вказує формат моделі (
xgboost_json
у цьому прикладі, алеxgboost
,lightgbm
таtl_checkpoint
також є дійсними форматами). - predict_proba – Якщо встановлено значення true, значення ймовірності повертатимуться для кожного класу, а не лише для прогнозу класу.
- вихідний_клас – Для моделей класифікації встановлено значення true, а для моделей регресії – false.
- поріг – Це порогове значення для визначення класифікації. Коли
output_class
має значення true, це має бути надано, хоча воно не використовуватиметься, якщоpredict_proba
також встановлено значення true. - тип_сховища – Загалом, використання AUTO для цього параметра має відповідати більшості випадків використання. Якщо вибрано АВТОМАТИЧНЕ зберігання, FIL завантажуватиме модель, використовуючи розріджене або щільне представлення на основі приблизного розміру моделі. У деяких випадках вам може знадобитися явно встановити значення SPARSE, щоб зменшити обсяг пам’яті великих моделей.
Сервер Triton Inference на SageMaker
SageMaker дозволяє ви можете розгортати як одну модель, так і багатомодельні кінцеві точки за допомогою NVIDIA Triton Inference Server. На наступному малюнку показано високорівневу архітектуру Triton Inference Server. The репозиторій моделей це репозиторій на основі файлової системи моделей, які Triton надасть для виведення. Запити на висновок надходять на сервер і направляються до відповідного планувальника для кожної моделі. Знаряддя Triton кілька алгоритмів планування та пакетування які можна налаштувати окремо для кожної моделі. Планувальник кожної моделі додатково виконує групування запитів на висновок, а потім передає запити до базова відповідно до типу моделі. Сервер виконує логічний висновок, використовуючи вхідні дані, надані в пакетних запитах, для отримання запитаних виходів. Потім результати повертаються.
Під час налаштування груп автоматичного масштабування для кінцевих точок SageMaker ви можете розглянути SageMakerVariantInvocationsPerInstance
як основний критерій для визначення характеристик масштабування вашої групи автоматичного масштабування. Крім того, залежно від того, чи працюють ваші моделі на GPU чи CPU, ви також можете розглянути можливість використання CPUUtilization або GPUUtilization як додаткових критеріїв. Зауважте, що для кінцевих точок однієї моделі, оскільки всі розгорнуті моделі однакові, досить просто встановити правильні політики для відповідності вашим SLA. Для кінцевих точок із кількома моделями ми рекомендуємо розгортати схожі моделі за певною кінцевою точкою, щоб мати більш стабільну передбачувану продуктивність. У випадках використання, коли використовуються моделі різних розмірів і вимог, ви можете розділити ці робочі навантаження на кілька кінцевих точок із кількома моделями або витратити деякий час на точне налаштування групової політики автоматичного масштабування, щоб отримати найкращий баланс вартості та продуктивності.
Щоб отримати список контейнерів NVIDIA Triton Deep Learning Containers (DLC), які підтримуються висновками SageMaker, див. Доступні зображення контейнерів глибокого навчання.
Покрокове керівництво до блокнота SageMaker
Програми ML є складними і часто потребують попередньої обробки даних. У цьому блокноті ми розглянемо, як розгорнути деревоподібну модель ML, як-от XGBoost, за допомогою бекенда FIL у Triton на мультимодельній кінцевій точці SageMaker. Ми також розповідаємо, як реалізувати конвеєр попередньої обробки даних на основі Python для вашої моделі за допомогою функції ансамблю в Triton. Це дозволить нам надсилати необроблені дані зі сторони клієнта, а попередня обробка даних і висновок моделі відбуваються в кінцевій точці Triton SageMaker для оптимальної продуктивності висновку.
Особливість ансамблю моделі Triton
Triton Inference Server значно спрощує масштабне розгортання моделей AI у виробництві. Triton Inference Server поставляється зі зручним рішенням, яке спрощує створення конвеєрів попередньої та постобробки. Платформа Triton Inference Server надає ансамблевий планувальник, який відповідає за конвеєрну конвеєрність моделей, що беруть участь у процесі логічного висновку, одночасно забезпечуючи ефективність і оптимізуючи пропускну здатність. Використання ансамблевих моделей дозволяє уникнути накладних витрат на передачу проміжних тензорів і мінімізувати кількість запитів, які потрібно надіслати Triton.
У цьому блокноті ми показуємо, як використовувати функцію ансамблю для побудови конвеєра попередньої обробки даних за допомогою висновку моделі XGBoost, і ви можете екстраполювати його, щоб додати до конвеєра спеціальну постобробку.
Налаштуйте середовище
Ми починаємо з налаштування необхідного середовища. Ми встановлюємо залежності, необхідні для упаковки нашого конвеєра моделі та виконуємо висновки за допомогою Triton Inference Server. Ми також визначаємо Управління ідентифікацією та доступом AWS (IAM), яка надасть SageMaker доступ до артефактів моделі та NVIDIA Triton Реєстр контейнерів Amazon Elastic (Amazon ECR) зображення. Перегляньте наступний код:
Створіть середовище Conda для попередньої обробки залежностей
Сервер Python у Triton вимагає від нас використання a Конда середовище для будь-яких додаткових залежностей. У цьому випадку ми використовуємо бекенд Python для попередньої обробки необроблених даних перед подачею їх у модель XGBoost, яка працює у бекенді FIL. Незважаючи на те, що спочатку ми використовували RAPIDS cuDF і cuML для попередньої обробки даних, тут ми використовуємо Pandas і scikit-learn як залежності попередньої обробки під час висновку. Ми робимо це з трьох причин:
- Ми покажемо, як створити середовище Conda для ваших залежностей і як упакувати його в очікуваний формат за допомогою серверної частини Python від Triton.
- Показуючи модель попередньої обробки, що працює на сервері Python на центральному процесорі, тоді як XGBoost працює на графічному процесорі на сервері FIL, ми показуємо, як кожна модель у конвеєрі ансамблю Triton може працювати на іншому сервері фреймворку, а також на різних апаратних конфігураціях.
- Він підкреслює, як бібліотеки RAPIDS (cuDF, cuML) сумісні з їхніми аналогами ЦП (Pandas, scikit-learn). Наприклад, ми можемо показати, як
LabelEncoders
створені в cuML, можна використовувати в scikit-learn і навпаки.
Дотримуємося інструкцій з Документація Triton для пакування залежностей попередньої обробки (scikit-learn і Pandas), які будуть використовуватися у серверній частині Python як файл TAR середовища Conda. Скрипт bash create_prep_env.sh створює файл TAR середовища Conda, потім ми переміщуємо його в каталог моделі попередньої обробки. Перегляньте наступний код:
Після запуску попереднього сценарію він генерує preprocessing_env.tar.gz
, який ми копіюємо в каталог попередньої обробки:
Налаштуйте попередню обробку за допомогою серверної частини Triton Python
Для попередньої обробки ми використовуємо Triton's Сервер Python для виконання попередньої обробки табличних даних (категоріальне кодування) під час висновку для запитів необроблених даних, що надходять на сервер. Щоб отримати додаткові відомості про попередню обробку, виконану під час навчання, див навчальний зошит.
Сервер Python забезпечує попередню обробку, постобробку та будь-яку іншу спеціальну логіку, яку можна реалізувати в Python і обслуговувати Triton. Використання Triton на SageMaker вимагає від нас спочатку створити папку сховища моделей, що містить моделі, які ми хочемо обслуговувати. Ми вже налаштували модель попередньої обробки даних Python під назвою preprocessing in cpu_model_repository
та gpu_model_repository
.
Triton має особливі вимоги до компонування сховища моделей. У каталозі сховища моделей верхнього рівня кожна модель має власний підкаталог, що містить інформацію для відповідної моделі. Кожен каталог моделі в Triton повинен мати принаймні один числовий підкаталог, що представляє версію моделі. Значення 1 представляє версію 1 нашої моделі попередньої обробки Python. Кожна модель запускається певним бекендом, тому в кожному підкаталозі версії має бути артефакт моделі, який вимагає цей бекенд. У цьому прикладі ми використовуємо серверну програму Python, яка вимагає, щоб файл Python, який ви обслуговуєте, називався model.py, а файл має реалізовувати певні функції. Якби ми використовували бекенд PyTorch, знадобився б файл model.pt тощо. Щоб отримати докладніші відомості про правила іменування файлів моделей, див Файли моделей.
Команда model.py Файл Python, який ми тут використовуємо, реалізує всю логіку попередньої обробки табличних даних для перетворення необроблених даних у функції, які можна використовувати в нашій моделі XGBoost.
Кожна модель Triton також повинна забезпечувати a config.pbtxt
файл, що описує конфігурацію моделі. Щоб дізнатися більше про параметри конфігурації, див Конфігурація моделі. Наші config.pbtxt файл вказує серверну програму як python і всі вхідні стовпці для необроблених даних разом із попередньо обробленим виводом, який складається з 15 функцій. Ми також вказуємо, що хочемо запустити цю модель попередньої обробки Python на ЦП. Перегляньте наступний код:
Налаштуйте деревоподібну модель ML для серверної частини FIL
Далі ми налаштовуємо каталог моделі для деревоподібної моделі ML, як-от XGBoost, яка використовуватиме серверну частину FIL.
Очікуваний макет для cpu_memory_repository
та gpu_memory_repository
схожий на той, який ми показали раніше.
Тут, FIL
це назва моделі. Ми можемо дати йому іншу назву, наприклад xgboost
якщо ми хочемо. 1
це підкаталог версії, який містить артефакт моделі. У цьому випадку це xgboost.json
модель, яку ми зберегли. Давайте створимо такий очікуваний макет:
Нам потрібен файл конфігурації config.pbtxt
опис конфігурації моделі для деревоподібної моделі ML, щоб сервер FIL у Triton міг зрозуміти, як її обслуговувати. Для отримання додаткової інформації зверніться до останнього генерика Параметри конфігурації Triton і параметри конфігурації, специфічні для Сервер FIL. Ми зосередимося лише на кількох найпоширеніших і релевантних варіантах у цьому прикладі.
Створювати config.pbtxt
та цінності model_cpu_repository
:
Аналогічно налаштуйте config.pbtxt
та цінності model_gpu_repository
(зауважте, різниця в тому USE_GPU = True
):
Налаштуйте конвеєр виводу попередньої обробки даних Python і FIL за допомогою ансамблів
Тепер ми готові налаштувати конвеєр висновку для попередньої обробки даних і виведення моделі на основі дерева за допомогою модель ансамблю. Модель ансамблю являє собою конвеєр з однієї або кількох моделей і з’єднання вхідних і вихідних тензорів між цими моделями. Тут ми використовуємо модель ансамблю для побудови конвеєра попередньої обробки даних у серверній частині Python, а потім XGBoost у системі FIL.
Очікуваний макет для ensemble
каталог моделей подібний до тих, які ми показали раніше:
Ми створили модельний ансамбль config.pbtxt слідуючи вказівкам в Моделі ансамблю. Важливо, що нам потрібно налаштувати планувальник ансамблю config.pbtxt
, який визначає потік даних між моделями в межах ансамблю. Планувальник ансамблю збирає вихідні тензори на кожному кроці та надає їх як вхідні тензори для інших кроків відповідно до специфікації.
Упакуйте репозиторій моделі та завантажте його на Amazon S3
Нарешті ми отримуємо наступну структуру каталогу сховища моделі, що містить модель попередньої обробки Python та її залежності разом із моделлю XGBoost FIL та ансамблем моделей.
Ми пакуємо каталог і його вміст як model.tar.gz
для завантаження в Служба простого зберігання Amazon (Amazon S3). У цьому прикладі ми маємо два варіанти: використання екземпляра на основі центрального процесора або екземпляра на основі графічного процесора. Екземпляр на основі графічного процесора більше підходить, коли вам потрібна більша потужність процесора та ви хочете використовувати ядра CUDA.
Створіть і завантажте пакет моделі для екземпляра на основі ЦП (оптимізованого для ЦП) із таким кодом:
Створіть і завантажте пакет моделі для екземпляра на основі GPU (оптимізованого для GPU) із таким кодом:
Створіть кінцеву точку SageMaker
Тепер у нас є артефакти моделі, що зберігаються у відрі S3. На цьому кроці ми також можемо надати додаткову змінну середовища SAGEMAKER_TRITON_DEFAULT_MODEL_NAME
, що вказує назву моделі, яку буде завантажувати Triton. Значення цього ключа має відповідати назві папки в пакеті моделі, завантаженому на Amazon S3. Ця змінна є необов’язковою у випадку однієї моделі. У випадку групових моделей цей ключ потрібно вказати, щоб Triton запускався в SageMaker.
Крім того, ви можете встановити SAGEMAKER_TRITON_BUFFER_MANAGER_THREAD_COUNT
та SAGEMAKER_TRITON_THREAD_COUNT
для оптимізації кількості потоків.
Ми використовуємо попередню модель для створення конфігурації кінцевої точки, де ми можемо вказати тип і кількість екземплярів, які ми хочемо мати в кінцевій точці
Ми використовуємо цю конфігурацію кінцевої точки для створення кінцевої точки SageMaker і чекаємо завершення розгортання. За допомогою MME SageMaker ми маємо можливість розміщувати кілька моделей ансамблю, повторюючи цей процес, але ми дотримуємося одного розгортання для цього прикладу:
Статус зміниться на InService
коли розгортання успішне.
Викличте свою модель, розміщену на кінцевій точці SageMaker
Після того, як кінцева точка запущена, ми можемо використовувати деякі зразки необроблених даних, щоб зробити висновок, використовуючи JSON як формат корисного навантаження. Для формату запиту на висновок Triton використовує KFServing
стандарт громади протоколи висновків. Дивіться наступний код:
Блокнот, про який йдеться в блозі, можна знайти в GitHub сховище.
Кращі практики
На додаток до опцій для точного налаштування налаштувань серверної частини FIL, про які ми згадували раніше, дослідники обробки даних також можуть переконатися, що вхідні дані для серверної частини оптимізовані для обробки механізмом. За можливості вводьте дані в масив GPU у форматі старших рядків. Інші формати вимагатимуть внутрішнього перетворення та займатимуть цикли, що знижуватиме продуктивність.
Через те, як структури даних FIL зберігаються в пам’яті графічного процесора, пам’ятайте про глибину дерева. Чим глибша глибина дерева, тим більшим буде обсяг пам’яті графічного процесора.
Використовувати instance_group_count
параметр для додавання робочих процесів і збільшення пропускної здатності серверної частини FIL, що призведе до більшого споживання пам’яті ЦП і ГП. Крім того, розгляньте специфічні для SageMaker змінні, які доступні для збільшення пропускної здатності, наприклад потоки HTTP, розмір буфера HTTP, розмір пакету та максимальну затримку.
Висновок
У цьому дописі ми детально заглибимося в бекенд FIL, який Triton Inference Server підтримує на SageMaker. Цей бекенд забезпечує прискорення процесора та графічного процесора ваших моделей на основі дерева, наприклад популярного алгоритму XGBoost. Є багато варіантів, які слід розглянути, щоб отримати найкращу продуктивність для логічних висновків, наприклад, розміри пакетів, формати введення даних та інші фактори, які можна налаштувати відповідно до ваших потреб. SageMaker дозволяє використовувати цю можливість з кінцевими точками однієї та кількох моделей, щоб збалансувати продуктивність і економію коштів.
Ми заохочуємо вас скористатися інформацією в цій публікації та перевірити, чи може SageMaker задовольнити ваші потреби в хостингу для обслуговування моделей на основі дерева, що відповідає вашим вимогам щодо зниження витрат і продуктивності робочого навантаження.
Блокнот, згаданий у цій публікації, можна знайти в прикладах SageMaker GitHub сховище. Крім того, ви можете знайти найновішу документацію щодо серверної частини FIL на GitHub.
Про авторів
Рагу Рамеша є старшим архітектором рішень ML у команді Amazon SageMaker Service. Він зосереджується на допомозі клієнтам створювати, розгортати та переносити робочі навантаження ML на SageMaker у великих масштабах. Він спеціалізується на машинному навчанні, штучному інтелекті та комп’ютерному зорі, а також має ступінь магістра комп’ютерних наук в UT Dallas. У вільний час захоплюється подорожами та фотографією.
Джеймс Парк є архітектором рішень в Amazon Web Services. Він працює з Amazon.com над проектуванням, створенням і розгортанням технологічних рішень на AWS, і особливо цікавиться ШІ та машинним навчанням. У вільний час він любить шукати нові культури, нові враження та бути в курсі останніх технологічних тенденцій.
Дхавал Патель є головним архітектором машинного навчання в AWS. Він працював з різними організаціями — від великих підприємств до стартапів середнього розміру — над проблемами, пов’язаними з розподіленими обчисленнями та штучним інтелектом. Він зосереджується на глибокому навчанні, включаючи домени НЛП та комп’ютерного зору. Він допомагає клієнтам досягти високоефективного моделювання на Amazon SageMaker.
Цзяхон Лю є архітектором рішень у команді постачальників хмарних послуг у NVIDIA. Він допомагає клієнтам у прийнятті рішень машинного навчання та штучного інтелекту, які використовують прискорені обчислення NVIDIA для вирішення їхніх проблем навчання та висновків. У вільний час він любить орігамі, DIY-проекти та грає в баскетбол.
Кшітіз Гупта є архітектором рішень у NVIDIA. Йому подобається навчати клієнтів хмарних технологій технологіям штучного інтелекту графічного процесора, які може запропонувати NVIDIA, і допомагати їм у прискоренні машинного та глибокого навчання програм. Поза роботою він захоплюється бігом, пішим туризмом і спостереженням за дикою природою.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoAiStream. Web3 Data Intelligence. Розширення знань. Доступ тут.
- Карбування майбутнього з Адріенн Ешлі. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/hosting-ml-models-on-amazon-sagemaker-using-triton-xgboost-lightgbm-and-treelite-models/
- : має
- :є
- : ні
- :де
- $UP
- 1
- 100
- 11
- 13
- 200
- 23
- 24
- 7
- 8
- 9
- a
- здатність
- МЕНЮ
- прискорювати
- прискорений
- прискорення
- прискорювачі
- доступ
- За
- відповідно
- рахунки
- Achieve
- через
- додавати
- доповнення
- Додатковий
- адреса
- адресний
- Прийняття
- після
- проти
- угоди
- AI
- алгоритм
- ВСІ
- асигнувань
- дозволяти
- дозволяє
- по
- вже
- Також
- хоча
- завжди
- Amazon
- Amazon SageMaker
- Amazon Web Services
- Amazon.com
- кількість
- an
- та
- будь-який
- API
- застосування
- відповідний
- архітектура
- ЕСТЬ
- області
- аргумент
- масив
- штучний
- штучний інтелект
- AS
- допомагає
- At
- автоматичний
- доступний
- уникнути
- AWS
- Backend
- Balance
- заснований
- бити
- основа
- баскетбол
- BE
- оскільки
- ставати
- було
- перед тим
- починати
- за
- нижче
- користь
- КРАЩЕ
- Краще
- між
- більший
- Блог
- тіло
- обидва
- буфера
- будувати
- Створюємо
- побудований
- але
- by
- C + +
- званий
- CAN
- карта
- випадок
- випадків
- Категорія
- Викликати
- проблеми
- зміна
- характеристика
- перевірка
- чіп
- Вибирати
- Вибираючи
- Місто
- клас
- класифікація
- клієнт
- клієнтів
- хмара
- код
- Колони
- COM
- приходить
- майбутній
- загальний
- спілкуватися
- Комунікація
- співтовариство
- сумісний
- комплекс
- обчислення
- комп'ютер
- Інформатика
- Комп'ютерне бачення
- обчислення
- конфігурація
- зв'язку
- Вважати
- вважається
- споживати
- споживання
- Контейнер
- Контейнери
- містить
- зміст
- контрастність
- контроль
- Зручний
- Перетворення
- конвертувати
- Core
- Відповідний
- Коштувати
- зниження витрат
- економія на витратах
- обкладинка
- створювати
- створений
- створює
- Критерії
- вирішальне значення
- В даний час
- виготовлений на замовлення
- Клієнти
- циклів
- Даллас
- дані
- Дата
- день
- угода
- рішення
- глибокий
- глибоке навчання
- глибше
- дефолт
- за замовчуванням
- Ступінь
- затримка
- вимогливий
- запити
- Залежно
- розгортання
- розгорнути
- розгортання
- розгортання
- глибина
- дизайн
- деталі
- Визначати
- певний
- визначає
- визначення
- розробників
- різниця
- різний
- розподілений
- розподілені обчислення
- Diy
- do
- документація
- Ні
- справи
- домени
- зроблений
- голуб
- два
- під час
- кожен
- Раніше
- освіту
- ефективність
- продуктивно
- або
- підкреслюючи
- дозволяє
- заохочувати
- кінець
- Кінцева точка
- двигун
- Двигуни
- забезпечувати
- забезпечення
- підприємство
- підприємств
- Весь
- Навколишнє середовище
- помилки
- Навіть
- Кожен
- приклад
- Приклади
- обмін
- очікувати
- очікуваний
- Досліди
- експорт
- фактори
- достатньо
- Фолс
- false
- особливість
- риси
- Fed
- годування
- кілька
- Рисунок
- філе
- Файли
- знайти
- закінчення
- Перший
- потік
- Сфокусувати
- фокусується
- стежити
- потім
- після
- Слід
- для
- форма
- формат
- знайдений
- Рамки
- каркаси
- шахрайство
- Безкоштовна
- від
- Крім того
- прибуток
- Загальне
- генерує
- отримати
- Давати
- даний
- GPU
- значно
- Group
- Групи
- керівництво
- траплятися
- Жорсткий
- апаратні засоби
- Мати
- he
- допомога
- допомогу
- допомагає
- тут
- на вищому рівні
- висока продуктивність
- вище
- основний момент
- його
- тримати
- тримає
- господар
- відбувся
- хостинг
- Як
- How To
- Однак
- HTML
- HTTP
- HTTPS
- Біль
- Особистість
- ідентифікатори
- IDX
- if
- зображення
- Impact
- Вплив
- здійснювати
- реалізовані
- implements
- імпорт
- in
- включати
- У тому числі
- Augmenter
- вказує
- інформація
- повідомив
- вхід
- встановлювати
- екземпляр
- інструкції
- інтеграція
- Інтелект
- інтерес
- внутрішній
- в
- IT
- ЙОГО
- JPG
- json
- просто
- тримати
- ключ
- Дитина
- Знати
- великий
- Великі підприємства
- більше
- Затримка
- останній
- макет
- УЧИТЬСЯ
- вивчення
- найменш
- Led
- законний
- менше
- рівень
- рівні
- Важіль
- libraries
- бібліотека
- як
- МЕЖА
- Лінія
- список
- загрузка
- логіка
- логічний
- Довго
- машина
- навчання за допомогою машини
- зробити
- управляти
- багато
- магістра
- матч
- Макс
- максимальний
- Може..
- механізм
- Зустрічатися
- засідання
- пам'ять
- згаданий
- Купець
- Метрика
- може бути
- мігрувати
- mind
- ML
- режим
- модель
- Моделі
- місяць
- більше
- найбільш
- Найбільш популярний
- рухатися
- Мультимодельна кінцева точка
- множинний
- повинен
- ім'я
- іменування
- рідний
- Необхідність
- потреби
- Нові
- nlp
- немає
- вузли
- ноутбук
- зараз
- номер
- нумпі
- Nvidia
- отримувати
- of
- пропонувати
- Пропозиції
- часто
- on
- ONE
- ті,
- тільки
- з відкритим вихідним кодом
- оптимальний
- оптимізація
- Оптимізувати
- оптимізований
- оптимізуючий
- варіант
- Опції
- or
- порядок
- організації
- Організований
- спочатку
- OS
- Інше
- інакше
- наші
- з
- вихід
- поза
- власний
- пакет
- упаковка
- панди
- Паралельні
- параметр
- параметри
- участь
- приватність
- Пройшов
- проходить
- шлях
- Виконувати
- продуктивність
- виступає
- дозвіл
- малюнок
- трубопровід
- платформа
- plato
- Інформація про дані Платона
- PlatoData
- ігри
- будь ласка
- безліч
- Політика
- політика
- басейн
- популярний
- популярність
- це можливо
- можливо
- пошта
- влада
- передбачати
- Передбачуваний
- передвіщений
- прогноз
- Прогнози
- раніше
- первинний
- Головний
- проблеми
- процес
- процеси
- обробка
- Обробна потужність
- процесори
- виробляти
- Production
- проектів
- правильний
- прото
- забезпечувати
- за умови
- Постачальник
- забезпечує
- забезпечення
- Python
- піторх
- випадковий
- ранжування
- швидше
- Сировина
- готовий
- Реальний світ
- реального часу
- Причини
- рекомендувати
- зменшити
- називають
- Незалежно
- регіон
- пов'язаний
- доречний
- замінювати
- Сховище
- подання
- представляє
- представляє
- запросити
- запитів
- вимагати
- вимагається
- Вимога
- Вимагається
- відповідь
- відповідальний
- результат
- результати
- Роль
- прогін
- біг
- s
- мудрець
- Висновок SageMaker
- то ж
- Економія
- масштабовані
- шкала
- Масштабування
- сценарії
- планування
- наука
- Вчені
- scikit-вчитися
- рахунок
- розділ
- побачити
- пошук
- обраний
- послати
- старший
- окремий
- служити
- обслуговування
- Постачальник послуг
- Послуги
- виступаючої
- комплект
- установка
- налаштування
- Форма
- загальні
- Повинен
- Показувати
- Шоу
- сторона
- істотно
- аналогічний
- простий
- один
- Розмір
- розміри
- So
- рішення
- Рішення
- ВИРІШИТИ
- Розв’язування
- деякі
- Source
- спеціалізується
- конкретний
- специфікація
- зазначений
- витрачати
- standard
- старт
- Починаючи
- Стартапи
- стан
- Статус
- стійкий
- Крок
- заходи
- зберігання
- зберігати
- зберігати
- просто
- рядок
- структура
- успішний
- такі
- пропонувати
- підходящий
- підтримка
- Підтриманий
- Опори
- Приймати
- команда
- методи
- Технології
- Технологія
- сказати
- terms
- ніж
- Що
- Команда
- інформація
- їх
- Їх
- потім
- Там.
- Ці
- вони
- річ
- це
- ті
- хоча?
- три
- поріг
- пропускна здатність
- час
- до
- сьогодні
- разом
- верхній рівень
- традиційно
- навчений
- Навчання
- Передача
- Подорож
- дерево
- Тенденції
- Triton
- правда
- два
- тип
- Типи
- типово
- розуміти
- завантажено
- Завантаження
- us
- використання
- використовуваний
- користувач
- використання
- використовує
- використовує
- значення
- Цінності
- різний
- версія
- через
- бачення
- W
- чекати
- хотіти
- було
- спостереження
- шлях..
- we
- Web
- веб-сервіси
- ДОБРЕ
- були
- Що
- коли
- коли б ні
- Чи
- який
- в той час як
- волі
- з
- в
- без
- Work
- працював
- робочий
- працює
- б
- XGBoost
- рік
- Ти
- вашу
- зефірнет
- Zip