Мы рады сообщить о выходе новой версии Операторы Amazon SageMaker для Kubernetes используя Контроллеры AWS для Kubernetes (ACK). ACK — это платформа для создания пользовательских контроллеров Kubernetes, где каждый контроллер взаимодействует с API-интерфейсом сервиса AWS. Эти контроллеры позволяют пользователям Kubernetes выделять ресурсы AWS, такие как сегменты, базы данных или очереди сообщений, просто с помощью Kubernetes API.
Release v1.2.9 операторов ACK SageMaker добавляет поддержку компоненты вывода, которые до сих пор были доступны только через API SageMaker и комплекты разработки программного обеспечения (SDK) AWS. Компоненты вывода могут помочь вам оптимизировать затраты на развертывание и сократить задержки. Благодаря новым возможностям компонента вывода вы можете развернуть одну или несколько базовых моделей (FM) на одном и том же компьютере. Создатель мудреца Амазонки endpoint и контролировать, сколько ускорителей и сколько памяти зарезервировано для каждого FM. Это помогает улучшить использование ресурсов, снижает затраты на развертывание модели в среднем на 50 % и позволяет масштабировать конечные точки вместе с вашими вариантами использования. Более подробную информацию см. Amazon SageMaker добавляет новые возможности вывода, которые помогают снизить затраты на развертывание базовой модели и задержку..
Доступность компонентов вывода через контроллер SageMaker позволяет клиентам, использующим Kubernetes в качестве плоскости управления, использовать преимущества компонентов вывода при развертывании своих моделей в SageMaker.
В этом посте мы покажем, как использовать операторы ACK SageMaker для развертывания компонентов вывода SageMaker.
Как работает ACK
Демонстрировать как работает ACK, давайте посмотрим на пример, используя Простой сервис хранения Amazon (Амазонка S3). На следующей диаграмме Алиса — наш пользователь Kubernetes. Ее приложение зависит от существования корзины S3 с именем my-bucket
.
Рабочий процесс состоит из следующих шагов:
- Алиса звонит
kubectl apply
, передавая файл, описывающий Kubernetes настраиваемый ресурс описывая свое ведро S3.kubectl apply
передает этот файл, называемый проявлять, на сервер API Kubernetes, работающий на узле контроллера Kubernetes. - Сервер Kubernetes API получает манифест, описывающий корзину S3, и определяет, есть ли у Алисы Разрешения создать собственный ресурс вид
s3.services.k8s.aws/Bucket
и что пользовательский ресурс правильно отформатирован. - Если Алиса авторизована и пользовательский ресурс действителен, сервер API Kubernetes записывает пользовательский ресурс в свой
etcd
хранилище данных. - Затем он отвечает Алисе, что пользовательский ресурс создан.
- На этом этапе служба ACK контроллер для Amazon S3, который работает на рабочем узле Kubernetes в контексте обычного Kubernetes Стручок, получает уведомление о том, что появился новый пользовательский ресурс такого рода
s3.services.k8s.aws/Bucket
был создан. - Контроллер службы ACK для Amazon S3 затем связывается с API Amazon S3, вызывая API S3 CreateBucket создать корзину в AWS.
- После связи с API Amazon S3 контроллер службы ACK вызывает сервер API Kubernetes для обновления данных пользовательского ресурса. статус с информацией, полученной от Amazon S3.
Ключевые компоненты
Новые возможности вывода основаны на конечных точках вывода SageMaker в реальном времени. Как и раньше, вы создаете конечную точку SageMaker с конфигурацией конечной точки, которая определяет тип экземпляра и начальное количество экземпляров для конечной точки. Модель настроена в новой конструкции — компоненте вывода. Здесь вы указываете количество ускорителей и объем памяти, который вы хотите выделить для каждой копии модели, а также артефакты модели, образ контейнера и количество копий модели для развертывания.
Вы можете использовать новые возможности вывода из Студия Amazon SageMaker, SDK для SageMaker Python, SDK AWSи Интерфейс командной строки AWS (AWS CLI). Их также поддерживают AWS CloudFormation. Теперь вы также можете использовать их с Операторы SageMaker для Kubernetes.
Обзор решения
В этой демонстрации мы используем контроллер SageMaker для развертывания копии Модель Долли v2 7B и копия Модель FLAN-T5 XXL из Обнимающая модель лица Hub на конечной точке SageMaker в реальном времени с использованием новых возможностей вывода.
Предпосылки
Для этого у вас должен быть кластер Kubernetes с установленным контроллером ACK SageMaker версии 1.2.9 или выше. Инструкции по предоставлению Амазон Эластик Кубернетес Сервис (Amazon EKS) кластер с Эластичное вычислительное облако Amazon (Amazon EC2) Управляемые узлы Linux с помощью eksctl, см. Начало работы с Amazon EKS – eksctl. Инструкции по установке контроллера SageMaker см. Машинное обучение с помощью контроллера ACK SageMaker.
Вам необходим доступ к ускоренным экземплярам (GPU) для размещения LLM. В этом решении используется один экземпляр ml.g5.12xlarge; вы можете проверить доступность этих экземпляров в своей учетной записи AWS и запросить эти экземпляры по мере необходимости с помощью запроса на увеличение квот на обслуживание, как показано на следующем снимке экрана.
Создайте компонент вывода
Чтобы создать компонент вывода, определите EndpointConfig
, Endpoint
, Model
и InferenceComponent
Файлы YAML, аналогичные показанным в этом разделе. Использовать kubectl apply -f <yaml file>
для создания ресурсов Kubernetes.
Вы можете просмотреть статус ресурса через kubectl describe <resource-type>
; например, kubectl describe inferencecomponent
.
Вы также можете создать компонент вывода без ресурса модели. Обратитесь к руководству, приведенному в Документация по API Больше подробностей.
Конфигурация конечной точки YAML
Ниже приведен код файла EndpointConfig:
Конечная точка YAML
Ниже приведен код файла конечной точки:
Модель YAML
Ниже приведен код файла модели:
YAML-файлы InferenceComponent
В следующих файлах YAML, учитывая, что экземпляр ml.g5.12xlarge поставляется с 4 графическими процессорами, мы выделяем 2 графических процессора, 2 процессора и 1,024 МБ памяти для каждой модели:
Вызов моделей
Теперь вы можете вызывать модели, используя следующий код:
Обновление компонента вывода
Чтобы обновить существующий компонент вывода, вы можете обновить файлы YAML, а затем использовать kubectl apply -f <yaml file>
. Ниже приведен пример обновленного файла:
Удаление компонента вывода
Чтобы удалить существующий компонент вывода, используйте команду kubectl delete -f <yaml file>
.
Наличие и цены
Новые возможности вывода SageMaker доступны сегодня в регионах AWS Восток США (Огайо, Северная Вирджиния), Запад США (Орегон), Азиатско-Тихоокеанский регион (Джакарта, Мумбаи, Сеул, Сингапур, Сидней, Токио), Канада (Центральная часть), Европа ( Франкфурт, Ирландия, Лондон, Стокгольм), Ближний Восток (ОАЭ) и Южная Америка (Сан-Паулу). Подробную информацию о ценах см. Цены на Amazon SageMaker.
Заключение
В этом посте мы показали, как использовать операторы ACK SageMaker для развертывания компонентов вывода SageMaker. Запустите свой кластер Kubernetes и разверните FM, используя новые возможности вывода SageMaker уже сегодня!
Об авторах
Раджеш Рамчандер — главный инженер машинного обучения в сфере профессиональных услуг в AWS. Он помогает клиентам на различных этапах их пути к AI/ML и GenAI: от тех, кто только начинает, до тех, кто ведет свой бизнес, используя стратегию, ориентированную на искусственный интеллект.
Амит Арора является архитектором-специалистом по искусственному интеллекту и машинному обучению в Amazon Web Services, помогая корпоративным клиентам использовать облачные сервисы машинного обучения для быстрого масштабирования своих инноваций. Он также является адъюнкт-лектором программы MS по науке о данных и аналитике в Джорджтаунском университете в Вашингтоне, округ Колумбия.
Сурьянш Сингх является инженером по разработке программного обеспечения в AWS SageMaker и занимается разработкой решений распределенной инфраструктуры машинного обучения для клиентов AWS в любом масштабе.
Саураб Триканде является старшим менеджером по продуктам Amazon SageMaker Inference. Он увлечен работой с клиентами и мотивирован целью демократизации машинного обучения. Он фокусируется на основных проблемах, связанных с развертыванием сложных приложений машинного обучения, мультитенантных моделей машинного обучения, оптимизацией затрат и обеспечением более доступного развертывания моделей глубокого обучения. В свободное время Саураб любит ходить в походы, узнавать об инновационных технологиях, следить за TechCrunch и проводить время со своей семьей.
Джона Лю — инженер-разработчик программного обеспечения в команде Amazon SageMaker. Ее текущая работа сосредоточена на том, чтобы помочь разработчикам эффективно размещать модели машинного обучения и повышать производительность логических выводов. Она увлечена анализом пространственных данных и использованием ИИ для решения социальных проблем.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/use-kubernetes-operators-for-new-inference-capabilities-in-amazon-sagemaker-that-reduce-llm-deployment-costs-by-50-on-average/
- :имеет
- :является
- :куда
- $UP
- 1
- 10
- 100
- 20
- 7
- 9
- 98
- a
- О нас
- выше
- ускоренный
- ускорители
- доступ
- доступной
- Учетная запись
- Добавляет
- адъюнкт
- плюс
- AI
- AI / ML
- Алиса
- Все
- выделять
- позволять
- вдоль
- причислены
- Amazon
- Amazon EC2
- Создатель мудреца Амазонки
- Amazon Web Services
- Америка
- количество
- an
- анализ
- аналитика
- и
- анонсировать
- API
- Применение
- Приложения
- Применить
- МЫ
- AS
- Азия
- Азиатско-Тихоокеанский регион
- At
- уполномоченный
- свободных мест
- доступен
- в среднем
- AWS
- было
- до
- тело
- строить
- Строительство
- бизнес
- by
- Калифорния
- призывают
- под названием
- вызова
- Объявления
- CAN
- Канада
- возможности
- случаев
- центральный
- проблемы
- проверка
- кли
- Кластер
- код
- выходит
- команду
- общение
- комплекс
- компонент
- компоненты
- Вычисление
- Конфигурация
- настроить
- состоит
- строить
- Container
- Контейнеры
- контекст
- контроль
- контроллер
- копия
- Основные
- Цена
- Расходы
- считать
- Создайте
- создали
- Текущий
- изготовленный на заказ
- Клиенты
- данным
- анализ данных
- наука о данных
- базы данных
- глубоко
- глубокое обучение
- определять
- Определяет
- демонстрация
- Демократизация
- демонстрировать
- зависит
- развертывание
- развертывание
- развертывание
- описывать
- описывает
- описывающих
- подробнее
- определяет
- застройщиков
- развивающийся
- Развитие
- диаграмма
- каждый
- восток
- эффективно
- позволяет
- Конечная точка
- инженер
- Предприятие
- Окружающая среда
- Европе
- пример
- возбужденный
- существование
- существующий
- Face
- семья
- Файл
- Файлы
- Для пожарных
- фокусируется
- следовать
- после
- Что касается
- Год основания
- Рамки
- Франкфурт
- от
- Genai
- Джорджтаун
- получающий
- GitHub
- данный
- цель
- Графические процессоры
- большой
- руководство
- Есть
- he
- помощь
- помощь
- помогает
- ее
- здесь
- его
- кашель
- хостинг
- Как
- How To
- HTML
- HTTP
- HTTPS
- if
- изображение
- Импортировать
- улучшать
- in
- Увеличение
- информация
- Инфраструктура
- начальный
- инновации
- инновационный
- инновационные технологии
- затраты
- установлен
- Установка
- пример
- инструкции
- Ирландия
- вопросы
- IT
- ЕГО
- путешествие
- JPEG
- JPG
- JSON
- всего
- Вид
- Задержка
- ведущий
- изучение
- Lets
- такое как
- линия
- Linux
- Список
- жить
- LLM
- Лондон
- посмотреть
- машина
- обучение с помощью машины
- Создание
- управляемого
- менеджер
- многих
- Память
- сообщение
- Метаданные
- средняя
- Ближний Восток
- ML
- модель
- Модели
- БОЛЕЕ
- мотивированные
- MS
- много
- Мумбай
- имя
- Названный
- Необходимость
- необходимый
- Новые
- узел
- узлы
- "обычные"
- сейчас
- номер
- of
- Огайо
- on
- ONE
- те,
- только
- Операторы
- оптимизации
- Оптимизировать
- or
- Орегон
- наши
- Тихий океан
- проходит
- Прохождение
- страстный
- производительность
- Часть
- самолет
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Точка
- После
- цены
- Основной
- проблемам
- Продукт
- Менеджер по продукции
- профессиональный
- FitPartner™
- должным образом
- при условии
- обеспечение
- Питон
- быстро
- реального времени
- получила
- получает
- уменьшить
- снижает
- относиться
- районы
- Связанный
- запросить
- зарезервированный
- ресурс
- Полезные ресурсы
- Бег
- sagemaker
- Вывод SageMaker
- то же
- Шкала
- Наука
- SDKS
- Раздел
- посмотреть
- старший
- Сеул
- сервер
- обслуживание
- Услуги
- она
- должен
- показывать
- показал
- показанный
- аналогичный
- просто
- просто
- Сингапур
- социальный
- Software
- разработка программного обеспечения
- Решение
- Решения
- РЕШАТЬ
- Южная
- Южная Америка
- пространственный
- специалист
- Спецификация
- Расходы
- этапы
- и политические лидеры
- Статус:
- Шаги
- диск
- магазин
- Стратегия
- поддержка
- Поддержанный
- Сидней
- взять
- команда
- TechCrunch
- технологии
- который
- Ассоциация
- их
- Их
- тогда
- Эти
- они
- этой
- те
- Через
- время
- в
- сегодня
- вместе
- Токио
- напишите
- ОАЭ
- Университет
- до
- Обновление ПО
- обновление
- на
- us
- использование
- Информация о пользователе
- пользователей
- использования
- через
- v1
- действительный
- различный
- версия
- с помощью
- Виргиния
- Войти
- хотеть
- Вашингтон
- Путь..
- we
- Web
- веб-сервисы
- были
- запад
- который
- в то время как
- КТО
- зачем
- в
- без
- Работа
- работник
- рабочий
- работает
- работает
- YAML
- Ты
- ВАШЕ
- зефирнет