Сьогодні багато клієнтів AWS створюють готові для підприємства платформи машинного навчання (ML). Послуга Amazon Elastic Kubernetes (Amazon EKS) за допомогою Kubeflow на AWS (дистрибутив Kubeflow для AWS) у багатьох варіантах використання, зокрема комп’ютерне бачення, розуміння природної мови, переклад мовлення та фінансове моделювання.
З останній випуск Kubeflow з відкритим кодом v1.6.1, спільнота Kubeflow продовжує підтримувати це широкомасштабне впровадження Kubeflow для корпоративних випадків. Останній випуск включає багато нових захоплюючих функцій, як-от підтримку Kubernetes v1.22, об’єднаний Python SDK для PyTorch, MXNet, MPI, XGBoost у розподіленому Training Operator Kubeflow, нові CRD ClusterServingRuntime і ServingRuntime для служби моделі та багато іншого.
Внески AWS у Kubeflow з нещодавнім запуском Kubeflow на AWS 1.6.1 підтримують усі функції Kubeflow з відкритим вихідним кодом і включають багато нових інтеграцій із високооптимізованими хмарними сервісами AWS, готовими до роботи на підприємстві, які допоможуть вам створювати високонадійні, безпечні, портативні та масштабовані системи машинного навчання.
У цій публікації ми обговорюємо нові функції Kubeflow на AWS версії 1.6.1 і висвітлюємо три важливі інтеграції, які були об’єднані на одній платформі, щоб запропонувати вам:
- Інфраструктура як код (IaaC) – рішення одним клацанням миші, яке автоматизує наскрізне встановлення Kubeflow, включаючи створення кластера EKS
- Підтримка розподіленого навчання на Amazon SageMaker використання Оператори Amazon SageMaker для Kubernetes (ACK) і Компоненти SageMaker для конвеєрів Kubeflow і локально на Kubernetes за допомогою Навчання операторів Kubeflow. Багато клієнтів використовують цю можливість для створення гібридних архітектур машинного навчання, де вони використовують як обчислення Kubernetes для етапу експериментів, так і SageMaker для виконання робочих навантажень у виробничому масштабі.
- Покращений моніторинг і спостереження для робочих навантажень ML, включаючи Amazon EKS, метрики Kubeflow і журнали додатків за допомогою Prometheus, Grafana та Amazon CloudWatch інтеграцій
Варіант використання в цьому блозі буде зосереджений на інтеграції SageMaker із Kubeflow на AWS, яку можна додати до ваших існуючих робочих процесів Kubernetes, що дозволить вам створювати гібридні архітектури машинного навчання.
Kubeflow на AWS
Kubeflow на AWS 1.6.1 надає чіткий шлях до використання Kubeflow із додаванням таких служб AWS на додаток до наявних можливостей:
- Інтеграція SageMaker із Kubeflow для запуску гібридних робочих процесів машинного навчання за допомогою операторів SageMaker для Kubernetes (ACK) і компонентів SageMaker для конвеєрів Kubeflow.
- Параметри автоматичного розгортання вдосконалено та спрощено за допомогою сценаріїв Kustomize та діаграм Helm.
- Додано підтримку розгортання одним клацанням інфраструктури як коду (IaC) для Kubeflow на AWS за допомогою Terraform для всіх доступних варіанти розгортання. Цей скрипт автоматизує створення таких ресурсів AWS:
- Підтримка AWS PrivateLink для Amazon S3, що дозволяє некомерційним користувачам Регіону підключатися до відповідних кінцевих точок S3.
- Додана інтеграція з Керована служба Amazon для Prometheus (AMP) і Grafana під керуванням Amazon для моніторингу показників за допомогою Kubeflow на AWS.
- Оновлено серверні контейнери ноутбуків Kubeflow із найновішими зображеннями контейнерів глибокого навчання на основі TensorFlow 2.10.0 і PyTorch 1.12.1.
- Інтеграція з AWS DLC для розповсюдженого запуску навчання та умовивод навантаження.
Наведена нижче діаграма архітектури є коротким знімком усіх інтеграцій сервісів (включно з уже згаданими), які доступні для керування Kubeflow і компонентів площини даних у Kubeflow на AWS. Площина керування Kubeflow встановлена поверх Amazon EKS, яка є керованим контейнерним сервісом, який використовується для запуску та масштабування програм Kubernetes у хмарі. Ці інтеграції сервісів AWS дозволяють відокремити критичні частини площини керування Kubeflow від Kubernetes, забезпечуючи безпечний, масштабований, стійкий і економічно оптимізований дизайн. Щоб отримати докладніші відомості про переваги, які ця інтеграція служб додає до Kubeflow з відкритим кодом, див Створіть і розгорніть масштабовану систему машинного навчання на Kubernetes за допомогою Kubeflow на AWS.
Давайте докладніше обговоримо, як основні функції Kubeflow на AWS 1.6.1 можуть бути корисними для вашої організації.
Деталі функції Kubeflow на AWS
З випуском Kubeflow 1.6.1 ми намагалися надати кращі інструменти для різних типів клієнтів, які полегшують початок роботи з Kubeflow незалежно від того, які варіанти ви виберете. Ці інструменти є гарною відправною точкою та можуть бути змінені відповідно до ваших потреб.
Параметри розгортання
Ми пропонуємо різні варіанти розгортання для різних випадків використання клієнтами. Тут ви можете вибрати, з якими службами AWS ви хочете інтегрувати своє розгортання Kubeflow. Якщо ви вирішите змінити параметри розгортання пізніше, рекомендуємо виконати нове встановлення для нового розгортання. Доступні такі варіанти розгортання:
Якщо ви хочете розгорнути Kubeflow з мінімальними змінами, розгляньте ваніль варіант розгортання. Усі доступні варіанти розгортання можна встановити за допомогою Kustomize, Helm або Terraform.
У нас також є різні розгортання додаткових компонентів, які можна встановити поверх будь-якого з цих варіантів розгортання:
Варіанти встановлення
Вирішивши, який варіант розгортання найкраще відповідає вашим потребам, можна вибрати спосіб інсталяції цих розгортань. Щоб обслуговувати як експертів, так і новачків, ми пропонуємо різні рівні автоматизації та конфігурації.
Варіант 1: Terraform (IaC)
Це створює кластер EKS і всі пов’язані ресурси інфраструктури AWS, а потім розгортає Kubeflow однією командою за допомогою Terraform. Внутрішньо це використовує креслення EKS і діаграми Helm.
Цей варіант має такі переваги:
- Він надає підприємствам гнучкість для розгортання Amazon EKS і Kubeflow за допомогою однієї команди, не турбуючись про конкретні конфігурації компонентів Kubeflow. Це надзвичайно допоможе прискорити оцінку технології, створення прототипів і життєвий цикл розробки продукту, забезпечуючи гнучкість використання модулів terraform і модифікації для задоволення будь-яких потреб конкретного проекту.
- Сьогодні багато організацій, які мають Terraform як центр своєї хмарної стратегії, тепер можуть використовувати Kubeflow на рішенні AWS Terraform для досягнення своїх хмарних цілей.
Варіант 2: налаштувати або діаграми керма:
Цей параметр дозволяє розгортати Kubeflow у двоетапний процес:
- Створюйте ресурси AWS, як-от Amazon EKS, Amazon RDS, Amazon S3 і Amazon Cognito, за допомогою автоматизованих сценаріїв, які входять до дистрибутива AWS, або вручну, дотримуючись крок за кроком керівництво.
- Встановіть розгортання Kubeflow за допомогою Helm charts або Kustomize.
Цей варіант має такі переваги:
- Основна мета цього варіанта встановлення — надати пов’язані з Kubeflow конфігурації Kubernetes. Таким чином, ви можете створити або додати існуючі кластери EKS або будь-які пов’язані ресурси AWS, такі як Amazon RDS, Amazon S3 і Amazon Cognito, а також налаштувати та керувати ними для роботи з Kubeflow на AWS.
- Легше перейти від маніфесту Kustomize Kubeflow з відкритим кодом до дистрибутива AWS Kubeflow.
Наступна діаграма ілюструє архітектури обох варіантів.
Інтеграція з SageMaker
SageMaker — це повністю керована служба, розроблена й оптимізована спеціально для керування робочими процесами машинного навчання. Це усуває недиференційовану важку роботу з управління інфраструктурою та усуває необхідність інвестувати в ІТ та DevOps для керування кластерами для побудови моделей машинного навчання, навчання та висновків.
Багато клієнтів AWS, які мають вимоги до переносимості або локальні стандартні обмеження, використовують Amazon EKS для налаштування повторюваних конвеєрів машинного навчання, які виконують навчання та робочі навантаження. Однак це вимагає від розробників написання спеціального коду для оптимізації базової інфраструктури машинного навчання, забезпечення високої доступності та надійності та дотримання відповідних вимог щодо безпеки та нормативних вимог. Таким чином, ці клієнти хочуть використовувати SageMaker для економічно оптимізованої та керованої інфраструктури для навчання моделі та розгортання та продовжувати використовувати Kubernetes для оркестровки та конвеєрів ML, щоб зберегти стандартизацію та портативність.
Щоб задовольнити цю потребу, AWS дозволяє навчати, налаштовувати та розгортати моделі в SageMaker від Amazon EKS, використовуючи такі два параметри:
- Оператори ACK Amazon SageMaker для Kubernetes, які базуються на Контролери AWS для Kubernetes (ACK). ACK — це стратегія AWS, яка стандартизує створення користувацьких контролерів Kubernetes, які дозволяють користувачам Kubernetes надавати ресурси AWS, наприклад бази даних або черги повідомлень, просто за допомогою Kubernetes API. Оператори ACK SageMaker спрощують навчання, налаштування та розгортання моделей ML у SageMaker для розробників ML і спеціалістів із обробки даних, які використовують Kubernetes як рівень керування, без входу в консоль SageMaker.
- Команда Компоненти SageMaker для трубопроводів Kubeflow, які дозволяють інтегрувати SageMaker із портативністю та оркестровкою Kubeflow Pipelines. За допомогою компонентів SageMaker кожне завдання в робочому процесі конвеєра виконується на SageMaker, а не на локальному кластері Kubernetes. Це дозволяє створювати та відстежувати власні завдання навчання, налаштування, розгортання кінцевих точок і пакетного перетворення SageMaker із ваших конвеєрів Kubeflow, отже дозволяючи вам перемістити повні обчислення, включаючи завдання обробки даних і навчання, із кластера Kubernetes до оптимізованої для машинного навчання керованої служби SageMaker.
Починаючи з Kubeflow на AWS версії 1.6.1, усі доступні параметри розгортання Kubeflow об’єднують обидва варіанти інтеграції Amazon SageMaker за умовчанням на одній платформі. Це означає, що тепер ви можете надсилати завдання SageMaker за допомогою операторів ACK SageMaker із самого сервера Kubeflow Notebook, надсилаючи спеціальний ресурс SageMaker або з кроку конвеєра Kubeflow за допомогою компонентів SageMaker.
Існує дві версії SageMaker Components – Бото3 (AWS SDK для AWS SDK для Python) на основі компонентів версії 1 і SageMaker Operator для K8s (ACK) на основі компонентів версії 2. Нові компоненти SageMaker версії 2 підтримують найновішу програму навчання SageMaker, і ми продовжуватимемо додавати нові функції SageMaker до цієї версії компонента. Однак у вас є можливість комбінувати компоненти Sagemaker версії 2 для навчання та версії 1 для інших функцій SageMaker, таких як налаштування гіперпараметрів, завдання обробки, розміщення та багато іншого.
Інтеграція з Prometheus і Grafana
Prometheus — це інструмент агрегації показників із відкритим кодом, який можна налаштувати для роботи в кластерах Kubernetes. Під час роботи на кластерах Kubernetes головний сервер Prometheus періодично сканує кінцеві точки модулів.
Компоненти Kubeflow, такі як Kubeflow Pipelines (KFP) і Notebook, випромінюють показники Prometheus, щоб дозволити моніторинг ресурсів компонентів, таких як кількість запущених експериментів або кількість блокнотів.
Ці показники можуть бути агреговані сервером Prometheus, який працює в кластері Kubernetes, і запитувати їх за допомогою мови запитів Prometheus (PromQL). Щоб дізнатися більше про функції, які підтримує Prometheus, перегляньте Документація Prometheus.
Дистрибутив Kubeflow на AWS забезпечує підтримку інтеграції з такими керованими сервісами AWS:
- Amazon Managed Prometheus (AMP), тобто a Прометей-сумісна служба моніторингу інфраструктури контейнерів і метрик додатків для контейнерів, що полегшує клієнтам безпечний моніторинг середовища контейнерів у масштабі. Використовуючи AMP, ви можете візуалізувати, аналізувати та сповіщати про свої показники, журнали та трасування, зібрані з багатьох джерел даних у вашій системі спостережуваності, включаючи AWS, сторонні постачальники програмного забезпечення та інші ресурси у вашому ІТ-портфоліо.
- Amazon Managed Grafana, повністю керована та безпечна служба візуалізації даних на основі відкритого коду Grafana проект, який дозволяє клієнтам миттєво запитувати, співвідносити та візуалізувати операційні показники, журнали та трасування для своїх програм із багатьох джерел даних. Amazon Managed Grafana розвантажує оперативне керування Grafana шляхом автоматичного масштабування обчислювальної бази та інфраструктури бази даних у міру зростання потреб у використанні, завдяки автоматичним оновленням версій і виправленням безпеки.
Дистрибутив Kubeflow на AWS забезпечує підтримку інтеграції Amazon Managed Service for Prometheus і Amazon Managed Grafana, щоб полегшити прийом і візуалізацію метрик Prometheus у безпечному масштабі.
Перераховані такі показники, які можна візуалізувати:
- Показники, випущені компонентами Kubeflow, такими як Kubeflow Pipelines і сервер Notebook
- KubeFlow метрика контрольної площини
Щоб налаштувати Amazon Managed Service для Prometheus і Amazon Managed Grafana для вашого кластера Kubeflow, див. Використовуйте Prometheus, Amazon Managed Service for Prometheus і Amazon Managed Grafana для моніторингу показників за допомогою Kubeflow на AWS.
Огляд рішення
У цьому випадку ми використовуємо розгортання Kubeflow vanilla за допомогою параметра встановлення Terraform. Після завершення інсталяції ми входимо в інформаційну панель Kubeflow. З інформаційної панелі ми запускаємо сервер ноутбуків Kubeflow Jupyter для створення конвеєра Kubeflow, який використовує SageMaker для запуску розподіленого навчання для моделі класифікації зображень і кінцевої точки SageMaker для розгортання моделі.
Передумови
Переконайтеся, що ви відповідаєте таким умовам:
- У вас є Обліковий запис AWS.
- Переконайтеся, що ви в
us-west-2
Регіон для запуску цього прикладу. - Використовуйте Google Chrome для взаємодії з Консоль управління AWS і Kubeflow.
- Переконайтеся, що у вашому обліковому записі обмеження типу ресурсу SageMaker Training для ml.p3.2xlarge збільшено до 2 за допомогою консолі Service Quotas.
- За бажанням можна використовувати AWS Cloud9, хмарне інтегроване середовище розробки (IDE), яке дозволяє виконувати всю роботу з веб-браузера. Інструкції з налаштування див Налаштуйте Cloud9 IDE. Виберіть Ubuntu Server 18.04 як платформу в налаштуваннях AWS Cloud9.Потім у вашому середовищі AWS Cloud9 виберіть знак плюс і відкрийте новий термінал.
Ви також налаштовуєте Інтерфейс командного рядка AWS (AWS CLI). Для цього вам знадобиться ідентифікатор ключа доступу та секретний ключ доступу Управління ідентифікацією та доступом AWS (Я Є) користувач обліковий запис із правами адміністратора (додайте існуючу керовану політику) і програмним доступом. Перегляньте наступний код:
Перевірте дозволи, які cloud9 використовуватиме для виклику ресурсів AWS.
У наведеному нижче виводі переконайтеся, що ви бачите arn користувача адміністратора, якого ви налаштували в профілі AWS CLI. У цьому прикладі це «kubeflow-user»
Встановіть Amazon EKS і Kubeflow на AWS
Щоб інсталювати Amazon EKS і Kubeflow на AWS, виконайте такі дії:
- Налаштуйте середовище для розгортання Kubeflow на AWS:
- Розгорніть мініатюрну версію Kubeflow на AWS і пов’язаних ресурсах AWS, таких як EKS, за допомогою Terraform. Зауважте, що томи EBS, які використовуються в групі вузлів EKS, не зашифровані за замовчуванням:
Налаштуйте дозволи Kubeflow
- Додайте дозволи до модуля Notebook і компонента Pipeline, щоб здійснювати виклики API SageMaker, S3 і IAM за допомогою
kubeflow_iam_permissions.sh
сценарій - Створіть роль виконання SageMaker, щоб дозволити навчальному завданню SageMaker отримати доступ до набору навчальних даних зі служби S3 за допомогою
sagemaker_role.sh
сценарій
Доступ до інформаційної панелі Kubeflow
Щоб отримати доступ до інформаційної панелі Kubeflow, виконайте такі дії:
- Ви можете запускати інформаційну панель Kubeflow локально в середовищі Cloud9, не відкриваючи свої URL-адреси для загальнодоступного Інтернету, виконавши наведені нижче команди.
- Вибирати Попередній перегляд запущеної програми.
- Виберіть піктограму в кутку інформаційної панелі Kubeflow, щоб відкрити її як окрему вкладку в Chrome.
- Введіть облікові дані за замовчуванням (
user@example.com/12341234
), щоб увійти на інформаційну панель Kubeflow.
Налаштуйте Kubeflow у середовищі AWS
Увійшовши на інформаційну панель Kubeflow, переконайтеся, що у вас правильний простір імен (kubeflow-user-example-com
) обрано. Виконайте такі кроки, щоб налаштувати Kubeflow у середовищі AWS:
- Виберіть на інформаційній панелі Kubeflow Ноутбуки у навігаційній панелі.
- Вибирати Новий ноутбук.
- для ІМ'Я, введіть
aws-nb
. - для Зображення докета Юпітера, виберіть зображення
jupyter-pytorch:1.12.0-cpu-py38-ubuntu20.04-ec2-2022-09-20
(останній доступнийjupyter-pytorch
зображення DLC). - для центральний процесор, введіть
1
. - для пам'ять, введіть
5
. - для Графічні процесори, залишити як ніхто.
- Не вносьте жодних змін у Робоча область та Обсяги даних розділи.
- Select Дозволити доступ до Kubeflow Pipelines в Конфігурації і виберіть Запустити.
- Переконайтеся, що блокнот створено успішно (це може зайняти кілька хвилин).
- Вибирати З'єднуватися щоб увійти в JupyterLab.
- Клонуйте репо, ввівши
https://github.com/aws-samples/eks-kubeflow-cloudformation-quick-start.git
в Клонуйте репо поле. - Вибирати Клон.
Запустіть приклад розподіленого навчання
Після налаштування блокнота Jupyter ви можете запустити всю демонстрацію, виконавши наступні кроки високого рівня з папки eks-kubeflow-cloudformation-quick-start/workshop/pytorch-distributed-training
у клонованому сховищі:
- Запустіть навчальний скрипт PyTorch Distributed Data Parallel (DDP). – Зверніться до сценарію навчання PyTorch DDP
cifar10-distributed-gpu-final.py
, який включає зразок згорткової нейронної мережі та логіку для розподілу навчання на багатовузловому кластері CPU та GPU. - Створіть конвеєр Kubeflow – Запустіть зошит
STEP1.0_create_pipeline_k8s_sagemaker.ipynb
щоб створити конвеєр, який запускає та розгортає моделі на SageMaker. Переконайтеся, що ви встановили бібліотеку SageMaker як частину першої клітинки блокнота, і перезапустіть ядро, перш ніж запускати решту клітинок блокнота. - Викликати кінцеву точку SageMaker – Запустіть зошит
STEP1.1_invoke_sagemaker_endpoint.ipynb
щоб викликати та перевірити кінцеву точку висновку моделі SageMaker, створену в попередньому блокноті.
У наступних розділах ми докладно обговоримо кожен із цих кроків.
Запустіть навчальний сценарій PyTorch DDP
У рамках розподіленого навчання ми тренуємо модель класифікації, створену простою згортковою нейронною мережею, яка працює з набором даних CIFAR10. Сценарій навчання cifar10-distributed-gpu-final.py
містить лише бібліотеки з відкритим вихідним кодом і сумісний із запуском у навчальних кластерах Kubernetes і SageMaker на пристроях GPU або екземплярах CPU. Давайте розглянемо кілька важливих аспектів навчального сценарію, перш ніж запускати наші приклади блокнотів.
Ми використовуємо torch.distributed
модуль, який містить підтримку PyTorch і комунікаційні примітиви для багатопроцесного паралелізму між вузлами в кластері:
Ми створюємо просту модель класифікації зображень, використовуючи комбінацію згорткових, максимального об’єднання та лінійних шарів, до яких relu
функція активації застосована в прямому проході навчання моделі:
Якщо навчальний кластер має графічні процесори, сценарій запускає навчання на пристроях CUDA, а змінна пристрою містить пристрій CUDA за замовчуванням:
Перш ніж запускати розподілене навчання за допомогою PyTorch DistributedDataParallel
щоб запустити розподілену обробку на кількох вузлах, потрібно ініціалізувати розподілене середовище за допомогою виклику init_process_group
. Це ініціалізується на кожній машині навчального кластера.
Ми створюємо екземпляр моделі класифікатора та копіюємо модель на цільовий пристрій. Якщо розподілене навчання ввімкнено для запуску на кількох вузлах, DistributedDataParallel
клас використовується як обгортка об’єкта моделі, що дозволяє синхронно розподілене навчання на кількох машинах. Вхідні дані розбиваються на розміри партії, і копія моделі розміщується на кожній машині та кожному пристрої. Перегляньте наступний код:
Створіть конвеєр Kubeflow
Блокнот використовує Kubeflow Pipelines SDK і наданий набір пакетів Python для визначення та запуску конвеєрів робочого циклу машинного навчання. Як частину цього SDK ми використовуємо декоратор пакетів для доменно-спеціальної мови (DSL). dsl.pipeline
, який прикрашає функції Python для повернення конвеєра.
Конвеєр Kubeflow використовує компонент SageMaker V2 для надсилання навчання в SageMaker за допомогою операторів ACK SageMaker. Для створення та розгортання моделі SageMaker використовується компонент SageMaker V1, який є компонентами SageMaker на основі Boto3. У цьому прикладі ми використовуємо комбінацію обох компонентів, щоб продемонструвати гнучкість вибору.
- Завантажте компоненти SageMaker за допомогою такого коду:
У наступному коді ми створюємо конвеєр Kubeflow, де запускаємо розподілене навчання SageMaker за допомогою двох
ml.p3.2xlarge
екземпляри:Після того, як конвеєр визначено, ви можете скомпілювати його до специфікації Argo YAML за допомогою Kubeflow Pipelines SDK
kfp.compiler
пакет. Ви можете запустити цей конвеєр за допомогою клієнта Kubeflow Pipelines SDK, який викликає кінцеву точку служби Pipelines і передає відповідні заголовки автентифікації прямо з блокнота. Перегляньте наступний код: - Виберіть Виконати деталі посилання під останньою клітинкою, щоб переглянути конвеєр Kubeflow. На наступному знімку екрана показано деталі нашого конвеєра для компонента навчання та розгортання SageMaker.
- Виберіть крок навчання роботи і на Logs виберіть посилання на журнали CloudWatch, щоб отримати доступ до журналів SageMaker.
На наступному знімку екрана показано журнали CloudWatch для кожного з двох екземплярів ml.p3.2xlarge. - Виберіть будь-яку з груп, щоб переглянути журнали.
- Захопіть кінцеву точку SageMaker, вибравши Sagemaker – модель розгортання крок і копіювання
endpoint_name
вихідне значення артефакту.
Викликати кінцеву точку SageMaker
Зошит STEP1.1_invoke_sagemaker_endpoint.ipynb
викликає кінцеву точку висновку SageMaker, створену на попередньому кроці. Переконайтеся, що ви оновили назву кінцевої точки:
Прибирати
Щоб очистити ресурси, виконайте такі дії:
- Виконайте такі команди в AWS Cloud9, щоб видалити ресурси AWS:
- Видалити роль IAM "
sagemakerrole
” за допомогою такої команди AWS CLI: - Видаліть кінцеву точку SageMaker за допомогою такої команди AWS CLI:
Підсумки
У цьому дописі ми підкреслили цінність, яку надає Kubeflow на AWS 1.6.1 завдяки вбудованій інтеграції служб, керованих AWS, щоб задовольнити потреби використання штучного інтелекту та машинного навчання на рівні підприємства. Ви можете вибрати один із кількох варіантів розгортання, щоб установити Kubeflow на AWS із різними інтеграціями сервісів за допомогою Terraform, Kustomize або Helm. Випадок використання в цій публікації продемонстрував інтеграцію Kubeflow із SageMaker, яка використовує керований навчальний кластер SageMaker для запуску розподіленого навчання для моделі класифікації зображень і кінцевої точки SageMaker для розгортання моделі.
Ми також зробили доступним a приклад трубопроводу що використовує найновіші компоненти SageMaker; ви можете запустити це безпосередньо з інформаційної панелі Kubeflow. Цей конвеєр вимагає Дані Amazon S3 та Роль IAM виконання SageMaker як необхідні вхідні дані.
Щоб розпочати роботу з Kubeflow на AWS, перегляньте доступні варіанти розгортання, інтегровані в AWS, у Kubeflow на AWS. Ви можете стежити за Репозиторій AWS Labs щоб відстежувати всі внески AWS у Kubeflow. Ви також можете знайти нас на Kubeflow #AWS Slack Channel; ваш відгук допоможе нам визначити пріоритети наступних функцій, щоб зробити внесок у проект Kubeflow.
Про авторів
Канвалджит Хурмі є старшим архітектором рішень в Amazon Web Services. Він працює з клієнтами AWS, щоб надати вказівки та технічну допомогу, допомагаючи їм підвищити цінність їхніх рішень при використанні AWS. Kanwaljit спеціалізується на допомозі клієнтам із контейнерними програмами та програмами машинного навчання.
Картік Каламаді є інженером з розробки програмного забезпечення в Amazon AI. Наразі зосереджено на проектах Kubernetes з відкритим кодом машинного навчання, таких як Kubeflow і AWS SageMaker Controller для k8s. У вільний час я люблю грати в комп’ютерні ігри та возитися з VR за допомогою механізму Unity.
Рахул Харсе є інженером із розробки програмного забезпечення в Amazon Web Services. Його робота зосереджена на інтеграції сервісів AWS з контейнерними платформами ML Ops з відкритим кодом для покращення їх масштабованості, надійності та безпеки. Окрім зосередження на запитах клієнтів щодо функцій, Рахул також любить експериментувати з останніми технологічними розробками в цій галузі.
- Розширений (300)
- AI
- ai мистецтво
- AI арт генератор
- ai робот
- Amazon SageMaker
- штучний інтелект
- сертифікація штучного інтелекту
- штучний інтелект у банківській справі
- робот зі штучним інтелектом
- роботи зі штучним інтелектом
- програмне забезпечення для штучного інтелекту
- AWS Машинне навчання
- blockchain
- блокчейн конференція AI
- coingenius
- розмовний штучний інтелект
- крипто конференція ai
- dall's
- глибоке навчання
- у вас є гугл
- KubeFlow
- навчання за допомогою машини
- plato
- платон ai
- Інформація про дані Платона
- Гра Платон
- PlatoData
- platogaming
- масштаб ai
- синтаксис
- зефірнет