Ми раді оголосити про нову версію Оператори Amazon SageMaker для Kubernetes використання Контролери AWS для Kubernetes (ACK). ACK — це структура для створення користувацьких контролерів Kubernetes, де кожен контролер взаємодіє з API служби AWS. Ці контролери дозволяють користувачам Kubernetes надавати такі ресурси AWS, як сегменти, бази даних або черги повідомлень, просто за допомогою Kubernetes API.
Відпустіть v1.2.9 операторів ACK SageMaker додає підтримку для компоненти висновку, які дотепер були доступні лише через SageMaker API та AWS Software Development Kits (SDK). Компоненти висновку можуть допомогти оптимізувати витрати на розгортання та зменшити затримку. Завдяки новим можливостям компонента виводу ви можете розгортати одну або кілька базових моделей (FM) на одному Amazon SageMaker кінцеву точку та контролювати, скільки прискорювачів і скільки пам’яті зарезервовано для кожного FM. Це допомагає покращити використання ресурсів, зменшити витрати на розгортання моделі в середньому на 50% і дає змогу масштабувати кінцеві точки відповідно до ваших варіантів використання. Докладніше див Amazon SageMaker додає нові можливості висновку, щоб допомогти зменшити витрати на розгортання базової моделі та затримку.
Доступність компонентів висновку через контролер SageMaker дає змогу клієнтам, які використовують Kubernetes як площину керування, скористатися перевагами компонентів висновку під час розгортання своїх моделей на SageMaker.
У цій публікації ми покажемо, як використовувати оператори ACK SageMaker для розгортання компонентів висновку SageMaker.
Як працює ACK
Демонструвати як працює ACK, давайте розглянемо приклад, використовуючи Служба простого зберігання Amazon (Amazon S3). На наступній діаграмі Аліса є нашим користувачем Kubernetes. Її застосування залежить від наявності відра S3 під назвою my-bucket
.
Робочий процес складається з наступних кроків:
- Аліса дзвонить до
kubectl apply
, передаючи файл, який описує Kubernetes спеціальний ресурс описуючи своє відро S3.kubectl apply
передає цей файл, який називається a проявляється, на сервер API Kubernetes, який працює у вузлі контролера Kubernetes. - Сервер Kubernetes API отримує маніфест із описом сегмента S3 і визначає, чи має Аліса Дозволи щоб створити спеціальний ресурс вид
s3.services.k8s.aws/Bucket
і що настроюваний ресурс правильно відформатовано. - Якщо Аліса авторизована, а спеціальний ресурс дійсний, сервер Kubernetes API записує спеціальний ресурс до свого
etcd
сховище даних. - Потім він відповідає Алісі, що спеціальний ресурс створено.
- На цьому етапі служба ACK контролер для Amazon S3, який працює на робочому вузлі Kubernetes у контексті звичайного Kubernetes Стручок, сповіщено про новий спеціальний ресурс типу
s3.services.k8s.aws/Bucket
був створений. - Потім контролер служби ACK для Amazon S3 зв’язується з API Amazon S3, викликаючи S3 CreateBucket API щоб створити відро в AWS.
- Після зв’язку з API Amazon S3 контролер служби ACK викликає сервер API Kubernetes, щоб оновити користувацький ресурс статус з інформацією, отриманою від Amazon S3.
Основні компоненти
Нові можливості логічного висновку базуються на кінцевих точках логічного висновку SageMaker у реальному часі. Як і раніше, ви створюєте кінцеву точку SageMaker із конфігурацією кінцевої точки, яка визначає тип екземпляра та початкову кількість екземплярів для кінцевої точки. Модель конфігурується в новій конструкції, компоненті висновку. Тут ви вказуєте кількість прискорювачів і обсяг пам’яті, який потрібно виділити для кожної копії моделі, а також артефакти моделі, зображення контейнера та кількість копій моделі для розгортання.
Ви можете використовувати нові можливості висновку з Студія Amazon SageMaker, SageMaker Python SDK, SDK AWS та Інтерфейс командного рядка AWS (AWS CLI). Їх також підтримують AWS CloudFormation. Тепер ви також можете використовувати їх з Оператори SageMaker для Kubernetes.
Огляд рішення
У цій демонстрації ми використовуємо контролер SageMaker для розгортання копії Модель Dolly v2 7B та копія в Модель FLAN-T5 XXL від Hugging Face Model Hub на кінцевій точці реального часу SageMaker за допомогою нових можливостей висновку.
Передумови
Щоб продовжувати, у вас повинен бути кластер Kubernetes із встановленим контролером ACK SageMaker версії 1.2.9 або новішої. Щоб отримати інструкції щодо надання an Послуга Amazon Elastic Kubernetes (Amazon EKS) кластер с Обчислювальна хмара Amazon Elastic (Amazon EC2) Керовані вузли Linux за допомогою eksctl див Початок роботи з Amazon EKS – eksctl. Інструкції щодо встановлення контролера SageMaker див Машинне навчання за допомогою контролера ACK SageMaker.
Вам потрібен доступ до прискорених екземплярів (GPU) для розміщення LLM. Це рішення використовує один екземпляр ml.g5.12xlarge; ви можете перевірити доступність цих екземплярів у своєму обліковому записі AWS і запитати ці екземпляри за потреби через запит на збільшення квот на обслуговування, як показано на наступному знімку екрана.
Створіть компонент висновку
Щоб створити свій компонент висновку, визначте EndpointConfig
, Endpoint
, Model
та InferenceComponent
Файли YAML, подібні до тих, що показані в цьому розділі. використання kubectl apply -f <yaml file>
для створення ресурсів Kubernetes.
Ви можете переглянути статус ресурсу через kubectl describe <resource-type>
; наприклад, kubectl describe inferencecomponent
.
Ви також можете створити компонент висновку без ресурсу моделі. Зверніться до вказівок, наданих у Документація API для більш докладної інформації.
EndpointConfig YAML
Нижче наведено код для файлу EndpointConfig:
Кінцева точка YAML
Нижче наведено код для файлу кінцевої точки:
Модель YAML
Нижче наведено код для файлу моделі:
Компоненти висновку YAML
У наступних файлах YAML, враховуючи, що екземпляр ml.g5.12xlarge постачається з 4 графічними процесорами, ми виділяємо 2 графічні процесори, 2 процесори та 1,024 МБ пам’яті для кожної моделі:
Викликати моделі
Тепер ви можете викликати моделі за допомогою такого коду:
Оновіть компонент висновку
Щоб оновити наявний компонент висновку, ви можете оновити файли YAML, а потім використовувати kubectl apply -f <yaml file>
. Нижче наведено приклад оновленого файлу:
Видалити компонент висновку
Щоб видалити наявний компонент висновку, скористайтеся командою kubectl delete -f <yaml file>
.
Доступність та ціни
Нові можливості висновку SageMaker доступні сьогодні в регіонах AWS Схід США (Огайо, Північна Вірджинія), Захід США (Орегон), Азіатсько-Тихоокеанський регіон (Джакарта, Мумбаї, Сеул, Сінгапур, Сідней, Токіо), Канада (Центральна), Європа ( Франкфурт, Ірландія, Лондон, Стокгольм), Близький Схід (ОАЕ) і Південна Америка (Сан-Паулу). Щоб дізнатися більше про ціни, відвідайте Ціни на Amazon SageMaker.
Висновок
У цій публікації ми показали, як використовувати оператори ACK SageMaker для розгортання компонентів висновку SageMaker. Запустіть свій кластер Kubernetes і розгорніть FM за допомогою нових можливостей висновку SageMaker вже сьогодні!
Про авторів
Раджеш Рамчандер є головним інженером ML у відділі професійних послуг в AWS. Він допомагає клієнтам на різних етапах їхньої подорожі до штучного інтелекту/ML та GenAI: від тих, хто тільки починає, до тих, хто веде свій бізнес за допомогою стратегії, орієнтованої на штучний інтелект.
Аміт Арора є архітектором-спеціалістом зі штучного інтелекту та машинного навчання Amazon Web Services, який допомагає корпоративним клієнтам використовувати хмарні сервіси машинного навчання для швидкого масштабування своїх інновацій. Він також є допоміжним лектором у програмі MS Data Science and Analytics в Джорджтаунському університеті у Вашингтоні, округ Колумбія.
Сурьянш Сінгх є інженером із розробки програмного забезпечення в AWS SageMaker і працює над розробкою розподілених інфраструктурних рішень ML для клієнтів AWS у масштабі.
Саураб Тріканде є старшим менеджером із продуктів Amazon SageMaker Inference. Він захоплений роботою з клієнтами та мотивований метою демократизації машинного навчання. Він зосереджується на основних проблемах, пов’язаних із розгортанням складних програм ML, моделями ML з кількома клієнтами, оптимізацією витрат і забезпеченням більшої доступності розгортання моделей глибокого навчання. У вільний час Саураб любить піші прогулянки, вивчає інноваційні технології, стежить за TechCrunch і проводить час із сім’єю.
Джона Лю є інженером з розробки програмного забезпечення в команді Amazon SageMaker. Її поточна робота зосереджена на допомозі розробникам ефективно розміщувати моделі машинного навчання та покращувати ефективність висновків. Вона захоплена аналізом просторових даних і використанням ШІ для вирішення суспільних проблем.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/use-kubernetes-operators-for-new-inference-capabilities-in-amazon-sagemaker-that-reduce-llm-deployment-costs-by-50-on-average/
- : має
- :є
- :де
- $UP
- 1
- 10
- 100
- 20
- 7
- 9
- 98
- a
- МЕНЮ
- вище
- прискорений
- прискорювачі
- доступ
- доступною
- рахунки
- Додає
- доповнення
- Перевага
- AI
- AI / ML
- Аліса
- ВСІ
- виділяти
- дозволяти
- по
- Також
- Amazon
- Amazon EC2
- Amazon SageMaker
- Amazon Web Services
- Америка
- кількість
- an
- аналіз
- аналітика
- та
- Оголосити
- API
- додаток
- застосування
- Застосовувати
- ЕСТЬ
- AS
- Азія
- Азіатсько-Тихоокеанському регіоні
- At
- уповноважений
- наявність
- доступний
- середній
- AWS
- було
- перед тим
- тіло
- будувати
- Створюємо
- бізнес
- by
- Каліфорнія
- call
- званий
- покликання
- Виклики
- CAN
- Канада
- можливості
- випадків
- центральний
- проблеми
- перевірка
- cli
- кластер
- код
- приходить
- команда
- спілкування
- комплекс
- компонент
- Компоненти
- обчислення
- конфігурація
- налаштувати
- складається
- будувати
- Контейнер
- Контейнери
- контекст
- контроль
- контролер
- скопіювати
- Core
- Коштувати
- витрати
- вважати
- створювати
- створений
- Поточний
- виготовлений на замовлення
- Клієнти
- дані
- аналіз даних
- наука про дані
- базами даних
- глибокий
- глибоке навчання
- визначати
- Визначає
- демонстрація
- Демократизувати
- демонструвати
- залежить
- розгортання
- розгортання
- розгортання
- описувати
- описує
- описують
- деталі
- визначає
- розробників
- розвивається
- розробка
- схема
- кожен
- Схід
- продуктивно
- дозволяє
- Кінцева точка
- інженер
- підприємство
- Навколишнє середовище
- Європа
- приклад
- збуджений
- існування
- існуючий
- Face
- сім'я
- філе
- Файли
- Пожежа
- фокусується
- стежити
- після
- для
- фонд
- Рамки
- Франкфурт
- від
- genai
- Джорджтаун
- отримання
- GitHub
- даний
- мета
- Графічні процесори
- великий
- керівництво
- Мати
- he
- допомога
- допомогу
- допомагає
- її
- тут
- його
- господар
- хостинг
- Як
- How To
- HTML
- HTTP
- HTTPS
- if
- зображення
- імпорт
- удосконалювати
- in
- Augmenter
- інформація
- Інфраструктура
- початковий
- інновації
- інноваційний
- інноваційні технології
- витрати
- встановлений
- установка
- екземпляр
- інструкції
- Ірландія
- питання
- IT
- ЙОГО
- подорож
- JPEG
- JPG
- json
- просто
- Дитина
- Затримка
- провідний
- вивчення
- дозволяє
- як
- Лінія
- Linux
- список
- жити
- LLM
- Лондон
- подивитися
- машина
- навчання за допомогою машини
- Робить
- вдалося
- менеджер
- багато
- пам'ять
- повідомлення
- метадані
- Середній
- середній Схід
- ML
- модель
- Моделі
- більше
- мотивовані
- MS
- багато
- Мумбаї
- ім'я
- Названий
- Необхідність
- необхідний
- Нові
- вузол
- вузли
- нормальний
- зараз
- номер
- of
- Огайо
- on
- ONE
- ті,
- тільки
- Оператори
- оптимізації
- Оптимізувати
- or
- Орегон
- наші
- Тихий океан
- проходить
- Проходження
- пристрасний
- продуктивність
- місце
- літак
- plato
- Інформація про дані Платона
- PlatoData
- точка
- пошта
- ціни без прихованих комісій
- Головний
- проблеми
- Product
- менеджер по продукції
- професійний
- програма
- правильно
- за умови
- забезпечення
- Python
- швидко
- реального часу
- отримано
- отримує
- зменшити
- знижує
- послатися
- райони
- пов'язаний
- запросити
- захищені
- ресурс
- ресурси
- біг
- мудрець
- Висновок SageMaker
- то ж
- шкала
- наука
- sdks
- розділ
- побачити
- старший
- Сеул
- сервер
- обслуговування
- Послуги
- вона
- Повинен
- Показувати
- показав
- показаний
- аналогічний
- простий
- просто
- Сінгапур
- суспільний
- Софтвер
- розробка програмного забезпечення
- рішення
- Рішення
- ВИРІШИТИ
- Південь
- Південна Америка
- просторовий
- спеціаліст
- специфікація
- Витрати
- етапи
- почалася
- Статус
- заходи
- зберігання
- зберігати
- Стратегія
- підтримка
- Підтриманий
- Сідней
- Приймати
- команда
- TechCrunch
- Технології
- Що
- Команда
- їх
- Їх
- потім
- Ці
- вони
- це
- ті
- через
- час
- до
- сьогодні
- разом
- Токіо
- тип
- ОАЕ
- університет
- до
- Оновити
- оновлений
- на
- us
- використання
- користувач
- користувачі
- використовує
- використання
- v1
- дійсний
- різний
- версія
- через
- Віргінія
- візит
- хотіти
- Вашингтон
- шлях..
- we
- Web
- веб-сервіси
- були
- West
- який
- в той час як
- ВООЗ
- чому
- з
- в
- без
- Work
- робочий
- робочий
- робочий
- працює
- ямл
- Ти
- вашу
- зефірнет