Проаналізуйте витрати Amazon SageMaker і визначте можливості оптимізації витрат на основі використання, частина 5: Хостинг

Перевидано Платоном

читають: 0

У 2021 році ми запустили AWS Support Proactive Services як частина Підтримка AWS Enterprise планувати. З моменту його появи ми допомогли сотням клієнтів оптимізувати їхні робочі навантаження, встановити захисні огородження та покращити видимість вартості та використання робочих навантажень машинного навчання (ML).

У цій серії публікацій ми ділимося уроками щодо оптимізації витрат у Amazon SageMaker, в Частина 1, ми показали, як почати використовувати AWS Cost Explorer щоб визначити можливості оптимізації витрат у SageMaker. У цьому дописі ми зосередимося на середовищах висновків SageMaker: висновки в реальному часі, пакетне перетворення, асинхронні висновки та безсерверні висновки.

SageMaker пропонує кілька варіантів висновків для вас на вибір залежно від ваших вимог до робочого навантаження:

Висновок у реальному часі для вимог онлайн, низької затримки або високої пропускної здатності
Пакетне перетворення для офлайн, запланованої обробки та коли вам не потрібна постійна кінцева точка
Асинхронний висновок для випадків, коли у вас є великі корисні навантаження з тривалим часом обробки і ви хочете поставити запити в чергу
Безсерверний висновок для випадків, коли у вас переривчастий або непередбачуваний рух, і ви можете терпіти холодний запуск

У наступних розділах ми докладніше обговорюємо кожен варіант висновку.

Висновок в режимі реального часу SageMaker

Коли ви створюєте кінцеву точку, SageMaker додає Магазин еластичних блоків Amazon (Amazon EBS) обсяг зберігання до Обчислювальна хмара Amazon Elastic (Amazon EC2), на якому розміщено кінцеву точку. Це стосується всіх типів екземплярів, які не постачаються з накопичувачем SSD. Оскільки типи екземплярів d* постачаються з накопичувачем NVMe SSD, SageMaker не приєднує том сховища EBS до цих екземплярів обчислень ML. Відноситься до Обсяги пам’яті примірника хосту для розміру томів сховища, які SageMaker приєднує для кожного типу екземпляра для однієї кінцевої точки та для кінцевої точки з кількома моделями.

Вартість кінцевих точок SageMaker у реальному часі базується на кількості інсталяцій за годину, що витрачається для кожного екземпляра під час роботи кінцевої точки, вартості ГБ-місяця виділеного сховища (обсяг EBS), а також ГБ даних, що оброблюються та виходять екземпляра кінцевої точки, як описано в Ціни на Amazon SageMaker. У Cost Explorer ви можете переглядати кінцеві витрати в реальному часі, застосувавши фільтр за типом використання. Назви цих типів використання структуровані таким чином:

REGION-Host:instanceType (наприклад, USE1-Host:ml.c5.9xlarge)
REGION-Host:VolumeUsage.gp2 (наприклад, USE1-Host:VolumeUsage.gp2)
REGION-Hst:Data-Bytes-Out (наприклад, USE2-Hst:Data-Bytes-In)
REGION-Hst:Data-Bytes-Out (наприклад, USW2-Hst:Data-Bytes-Out)

Як показано на наступному знімку екрана, фільтрація за типом використання Host: покаже список типів використання хостингу в режимі реального часу в обліковому записі.

Ви можете вибрати конкретні типи використання або вибрати Вибрати всі І вибирай Застосовувати щоб відобразити розбивку витрат на використання хостингу SageMaker у режимі реального часу. Щоб переглянути розбивку вартості та використання за годинами екземплярів, потрібно скасувати вибір усіх REGION-Host:VolumeUsage.gp2 перед застосуванням фільтра типів використання. Ви також можете застосувати додаткові фільтри, такі як номер рахунку, тип екземпляра EC2, тег розподілу вартості, регіон і більше. На наступному знімку екрана показано графіки вартості та використання для вибраних типів використання хостингу.

Крім того, ви можете дослідити вартість, пов’язану з одним або кількома екземплярами хостингу, використовуючи Тип екземпляра фільтр. На наступному знімку екрана показано розподіл вартості та використання для розміщення екземпляра ml.p2.xlarge.

Подібним чином вартість оброблених і оброблених даних ГБ можна відобразити, вибравши відповідні типи використання як застосований фільтр, як показано на наступному знімку екрана.

Після того, як ви досягли бажаних результатів за допомогою фільтрів і групувань, ви можете завантажити результати, вибравши Завантажити як CSV або зберегти звіт, вибравши Зберегти в бібліотеці звітів. Загальні вказівки щодо використання Cost Explorer див Новий вигляд і загальні випадки використання AWS Cost Explorer.

За бажанням можна включити Звіти про вартість і використання AWS (AWS CUR), щоб отримати уявлення про вартість і дані про використання ваших облікових записів. AWS CUR містить щогодинну інформацію про споживання AWS. Він зберігається в Служба простого зберігання Amazon (Amazon S3) в обліковому записі платника, який об’єднує дані для всіх пов’язаних облікових записів. Ви можете виконувати запити, щоб аналізувати тенденції використання та вживати відповідних заходів для оптимізації витрат. Амазонка Афіна це безсерверна служба запитів, яку можна використовувати для аналізу даних з AWS CUR в Amazon S3 за допомогою стандартного SQL. Додаткову інформацію та приклади запитів можна знайти в Бібліотека запитів AWS CUR.

Ви також можете передати дані AWS CUR Amazon QuickSight, де ви можете нарізати його будь-яким способом для створення звітів або візуалізації. Інструкції див Як отримати та візуалізувати звіт про вартість і використання AWS (CUR) в Amazon QuickSight.

З AWS CUR можна отримати інформацію на рівні ресурсу, як-от ARN кінцевої точки, типи екземплярів кінцевих точок, погодинну ставку інстанцій, години щоденного використання тощо. Ви також можете включити теги розподілу витрат у свій запит для додаткового рівня деталізації. Наступний приклад запиту повертає дані про використання ресурсів хостингу в реальному часі за останні 3 місяці для даного облікового запису платника:

SELECT bill_payer_account_id, line_item_usage_account_id, line_item_resource_id AS endpoint_arn, line_item_usage_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d') AS day_line_item_usage_start_date, SUM(CAST(line_item_usage_amount AS DOUBLE)) AS sum_line_item_usage_amount, line_item_unblended_rate, SUM(CAST(line_item_unblended_cost AS DECIMAL(16,8))) AS sum_line_item_unblended_cost, line_item_blended_rate, SUM(CAST(line_item_blended_cost AS DECIMAL(16,8))) AS sum_line_item_blended_cost, line_item_line_item_description, line_item_line_item_type FROM customer_all WHERE line_item_usage_start_date >= date_trunc('month',current_date - interval '3' month) AND line_item_product_code = 'AmazonSageMaker' AND line_item_line_item_type IN ('DiscountedUsage', 'Usage', 'SavingsPlanCoveredUsage') AND line_item_usage_type like '%Host%' AND line_item_operation = 'RunInstance' AND bill_payer_account_id = 'xxxxxxxxxxxx' GROUP BY bill_payer_account_id, line_item_usage_account_id, line_item_resource_id, line_item_usage_type, line_item_unblended_rate, line_item_blended_rate, line_item_line_item_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d'), line_item_line_item_description ORDER BY line_item_resource_id, day_line_item_usage_start_date

На наступному знімку екрана показано результати, отримані під час виконання запиту за допомогою Athena. Для отримання додаткової інформації див Запит звітів про витрати та використання за допомогою Amazon Athena.

Результат запиту показує цю кінцеву точку mme-xgboost-housing з екземпляром ml.x4.xlarge повідомляється про 24 години роботи протягом кількох днів поспіль. Вартість екземпляра становить 0.24 долара США за годину, а щоденна вартість роботи протягом 24 годин становить 5.76 долара США.

Результати AWS CUR можуть допомогти вам визначити моделі кінцевих точок, що працюють протягом послідовних днів у кожному з пов’язаних облікових записів, а також кінцеві точки з найвищими місячними витратами. Це також може допомогти вам вирішити, чи можна видалити кінцеві точки в невиробничих облікових записах, щоб заощадити кошти.

Оптимізуйте витрати для кінцевих точок у реальному часі

З точки зору управління витратами, важливо визначити недостатньо використовувані (або завеликі) екземпляри та привести розмір і кількість інстанцій, якщо потрібно, у відповідність до вимог робочого навантаження. Записуються такі загальні системні показники, як використання ЦП/ГП і використання пам’яті Amazon CloudWatch для всіх екземплярів хостингу. Для кінцевих точок у реальному часі SageMaker робить кілька додаткових показників доступними в CloudWatch. Деякі показники, які зазвичай відстежуються, включають кількість викликів і помилки виклику 4xx/5xx. Повний список показників див Відстежуйте Amazon SageMaker за допомогою Amazon CloudWatch.

Метрика CPUUtilization надає суму використання кожного окремого ядра ЦП. Завантаження ЦП кожного діапазону ядер становить 0–100. Наприклад, якщо є чотири ЦП, то CPUUtilization діапазон 0–400%. Метрика MemoryUtilization це відсоток пам’яті, який використовується контейнерами екземпляра. Цей діапазон значень становить 0–100%. На наступному знімку екрана показано приклад показників CloudWatch CPUUtilization та MemoryUtilization для екземпляра кінцевої точки ml.m4.10xlarge, який постачається з 40 vCPU і 160 ГіБ пам’яті.

Ці графіки показників показують максимальне використання ЦП приблизно 3,000%, що еквівалентно 30 vCPU. Це означає, що ця кінцева точка не використовує більше 30 vCPU із загальної потужності 40 vCPU. Так само використання пам'яті становить менше 6%. Використовуючи цю інформацію, ви можете поекспериментувати з меншим екземпляром, який задовольнить ці потреби в ресурсах. Крім того, CPUUtilization метрика показує класичну модель періодичного високого та низького навантаження на ЦП, що робить цю кінцеву точку хорошим кандидатом для автоматичного масштабування. Ви можете почати з меншого екземпляра та спочатку масштабувати його, коли потреба в обчисленнях зміниться. Для інформації див Автоматично масштабуйте моделі Amazon SageMaker.

SageMaker чудово підходить для тестування нових моделей, оскільки ви можете легко розгорнути їх у середовищі тестування A/B за допомогою варіанти виробництва, і ви платите лише за те, що використовуєте. Кожен робочий варіант працює на власному обчислювальному екземплярі, і ви платите за годину екземпляра, витрачену на кожен екземпляр під час роботи варіанту.

SageMaker також підтримує тіньові варіанти, які мають ті самі компоненти, що й робочий варіант, і працюють на власному обчислювальному екземплярі. За допомогою тіньових варіантів SageMaker автоматично розгортає модель у тестовому середовищі, направляє копію запитів на висновок, отриману робочою моделлю, до тестової моделі в режимі реального часу та збирає показники продуктивності, такі як затримка та пропускна здатність. Це дає вам змогу перевірити будь-який новий компонент-кандидат у стеку для обслуговування моделі, перш ніж просувати його до виробництва.

Коли ви закінчите з тестуванням і більше не використовуєте кінцеву точку або варіанти широко, вам слід видалити його, щоб заощадити кошти. Оскільки модель зберігається в Amazon S3, ви можете відтворити її за потреби. Ви можете автоматично виявити ці кінцеві точки та вжити коригувальні дії (наприклад, видалити їх), використовуючи Події Amazon CloudWatch та AWS Lambda функції. Наприклад, ви можете використовувати Invocations метрика, щоб отримати загальну кількість запитів, надісланих до кінцевої точки моделі, а потім визначити, чи були кінцеві точки неактивними протягом останньої кількості годин (без викликів протягом певного періоду, наприклад 24 годин).

Якщо у вас є кілька екземплярів кінцевих точок, які недостатньо використовуються, розгляньте такі варіанти розміщення, як багатомодельні кінцеві точки (ММЕ), багатоконтейнерні кінцеві точки (MCE), і конвеєри послідовного виведення щоб консолідувати використання для меншої кількості екземплярів кінцевих точок.

Для розгортання моделі асинхронного виводу в реальному часі ви можете оптимізувати вартість і продуктивність, розгорнувши моделі на SageMaker за допомогою AWS Гравітон. AWS Graviton — це сімейство процесорів, розроблених AWS, які забезпечують найкращу цінову продуктивність і є більш енергоефективними, ніж аналоги x86. Щоб отримати вказівки щодо розгортання моделі ML в інсталяціях на базі AWS Graviton, а також детальну інформацію про переваги в ціні, зверніться до Виконуйте робочі навантаження логічного висновку машинного навчання на примірниках на основі AWS Graviton за допомогою Amazon SageMaker. SageMaker також підтримує AWS Inferentia прискорювачі через в ml.inf2 сімейство екземплярів для розгортання моделей ML для реального часу та асинхронного висновку. Ви можете використовувати ці екземпляри на SageMaker для досягнення високої продуктивності за низькою ціною для моделей генеративного штучного інтелекту (ШІ), включаючи великі мовні моделі (LLM) і трансформатори зору.

Крім того, можна використовувати Amazon SageMaker Inference Recommender щоб запустити навантажувальні тести та оцінити переваги ціни та ефективності розгортання вашої моделі на цих екземплярах. Додаткові вказівки щодо автоматичного визначення неактивних кінцевих точок SageMaker, а також правильного розміру екземпляра та автоматичного масштабування для кінцевих точок SageMaker див. Забезпечте ефективні обчислювальні ресурси на Amazon SageMaker.

Пакетне перетворення SageMaker

Пакетний висновок, або автономний висновок, це процес створення прогнозів на основі серії спостережень. Офлайн-прогнози підходять для великих наборів даних і у випадках, коли ви можете дозволити собі чекати кілька хвилин або годин на відповідь.

Вартість пакетного перетворення SageMaker базується на годині інсталяції, яка витрачається на кожен екземпляр під час виконання завдання пакетного перетворення, як зазначено в Ціни на Amazon SageMaker. У Cost Explorer ви можете досліджувати витрати пакетного перетворення, застосувавши фільтр до типу використання. Назва цього типу використання структурована як REGION-Tsform:instanceType (наприклад, USE1-Tsform:ml.c5.9xlarge).

Як показано на наступному знімку екрана, фільтрація за типом використання Tsform: покаже список типів використання пакетного перетворення SageMaker в обліковому записі.

Проаналізуйте витрати Amazon SageMaker і визначте можливості оптимізації витрат на основі використання, Частина 5: Хостинг | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Ви можете вибрати конкретні типи використання або вибрати Вибрати всі І вибирай Застосовувати щоб відобразити розбивку вартості використання примірника пакетного перетворення для вибраних типів. Як згадувалося раніше, ви також можете застосувати додаткові фільтри. На наступному знімку екрана показано графіки витрат і використання для вибраних типів використання пакетного перетворення.

Оптимізація витрат на пакетне перетворення

Пакетне перетворення SageMaker стягує плату лише за екземпляри, які використовуються під час виконання ваших завдань. Якщо ваші дані вже є в Amazon S3, читання вхідних даних з Amazon S3 і запис вихідних даних в Amazon S3 не стягуються. Усі вихідні об’єкти намагаються завантажити в Amazon S3. Якщо все виконано успішно, завдання пакетного перетворення позначається як завершене. Якщо один або кілька об’єктів виходять з ладу, завдання пакетного перетворення позначається як невдале.

Плата за завдання пакетного перетворення стягується в таких сценаріях:

Робота успішна
Відмова через ClientError а контейнером моделі є SageMaker або керована структура SageMaker
Відмова через AlgorithmError or ClientError і контейнер моделі є вашим власним контейнером (BYOC)

Нижче наведено деякі з найкращих практик для оптимізації завдання пакетного перетворення SageMaker. Ці рекомендації можуть зменшити загальний час виконання вашого завдання пакетного перетворення, тим самим зменшивши витрати:

Установка BatchStrategy до MultiRecord та SplitType до Line якщо вам потрібно завдання пакетного перетворення для створення міні-пакетів із вхідного файлу. Якщо він не може автоматично розділити набір даних на міні-пакети, ви можете розділити його на міні-пакети, помістивши кожен пакет в окремий вхідний файл, розміщений у сегменті джерела даних S3.
Переконайтеся, що розмір партії відповідає пам’яті. SageMaker зазвичай обробляє це автоматично; однак, коли розділяєте партії вручну, це потрібно налаштувати на основі пам’яті.
Пакетне перетворення розділяє об’єкти S3 у вхідних даних за ключем і відображає ці об’єкти на екземпляри. Якщо у вас є кілька файлів, один екземпляр може обробити input1.csv, і інший екземпляр може обробити input2.csv. Якщо у вас є один вхідний файл, але ініціалізовано кілька екземплярів обчислення, лише один екземпляр оброблятиме вхідний файл, а решта екземплярів неактивні. Переконайтеся, що кількість файлів дорівнює або перевищує кількість екземплярів.
Якщо у вас є велика кількість невеликих файлів, можливо, буде корисно об’єднати декілька файлів у невелику кількість більших файлів, щоб зменшити час взаємодії з Amazon S3.
Якщо ви використовуєте CreateTransformJob API, ви можете скоротити час, необхідний для виконання завдань пакетного перетворення, використовуючи оптимальні значення для таких параметрів, як MaxPayloadInMB, MaxConcurrentTransformsабо BatchStrategy:
- MaxConcurrentTransforms вказує максимальну кількість паралельних запитів, які можна надіслати до кожного екземпляра в завданні перетворення. Ідеальне значення для MaxConcurrentTransforms дорівнює кількості ядер vCPU в екземплярі.
- MaxPayloadInMB максимально допустимий розмір корисного навантаження в Мб. Значення в MaxPayloadInMB має бути більше або дорівнювати розміру окремого запису. Щоб оцінити розмір запису в МБ, розділіть розмір набору даних на кількість записів. Щоб переконатися, що записи вписуються в максимальний розмір корисного навантаження, ми рекомендуємо використовувати трохи більше значення. Стандартне значення становить 6 МБ.
- MaxPayloadInMB не має перевищувати 100 Мб. Якщо вказати необов’язковий MaxConcurrentTransforms параметр, то значення (MaxConcurrentTransforms * MaxPayloadInMB) також не має перевищувати 100 Мб.
- У випадках, коли корисне навантаження може бути довільно великим і передається за допомогою фрагментованого кодування HTTP, установіть значення MaxPayloadInMB на 0. Ця функція працює лише в підтримуваних алгоритмах. Наразі вбудовані алгоритми SageMaker не підтримують фрагментоване кодування HTTP.
Завдання пакетного висновку зазвичай є хорошими кандидатами для горизонтального масштабування. Кожен працівник у кластері може працювати з різною підмножиною даних без необхідності обмінюватися інформацією з іншими працівниками. AWS пропонує кілька параметрів зберігання та обчислень, які дозволяють горизонтальне масштабування. Якщо одного екземпляра недостатньо для задоволення ваших вимог щодо продуктивності, подумайте про використання кількох екземплярів паралельно, щоб розподілити навантаження. Основні міркування під час розробки завдань пакетного перетворення див Пакетний аналіз у масштабі за допомогою Amazon SageMaker.
Постійно відстежуйте показники продуктивності ваших завдань пакетного перетворення SageMaker за допомогою CloudWatch. Шукайте вузькі місця, такі як висока завантаженість центрального або графічного процесора, використання пам’яті або пропускна здатність мережі, щоб визначити, чи потрібно вам налаштувати розмір або конфігурацію екземпляра.
SageMaker використовує Amazon S3 API багатокомпонентного завантаження щоб завантажити результати завдання пакетного перетворення в Amazon S3. Якщо виникає помилка, завантажені результати видаляються з Amazon S3. У деяких випадках, наприклад, коли відбувається збій мережі, неповне багатокомпонентне завантаження може залишитися в Amazon S3. Щоб уникнути стягнення плати за зберігання, рекомендуємо додати Політика відра S3 до правил життєвого циклу відра S3. Ця політика видаляє незавершені багатокомпонентні завантаження, які можуть зберігатися в сегменті S3. Для отримання додаткової інформації див Управління життєвим циклом зберігання.

Асинхронний висновок SageMaker

Асинхронний висновок є чудовим вибором для економічно чутливих робочих навантажень із великим корисним навантаженням і пакетним трафіком. Обробка запитів може тривати до 1 години та мати розмір корисного навантаження до 1 ГБ, тому він більше підходить для робочих навантажень, які мають послаблені вимоги до затримки.

Виклик асинхронних кінцевих точок відрізняється від кінцевих точок реального часу. Замість того, щоб передавати корисне навантаження запиту синхронно із запитом, ви завантажуєте корисне навантаження в Amazon S3 і передаєте S3 URI як частину запиту. Внутрішньо SageMaker підтримує чергу з цими запитами та обробляє їх. Під час створення кінцевої точки ви можете додатково вказати Служба простих сповіщень Amazon (Amazon SNS), щоб отримати сповіщення про успіх або помилку. Коли ви отримаєте сповіщення про те, що ваш запит на висновок успішно оброблено, ви зможете отримати доступ до результату в вихідному місці Amazon S3.

Вартість асинхронного висновку базується на кількості годин екземпляра, що витрачається для кожного екземпляра під час роботи кінцевої точки, вартості ГБ-місяця виділеного сховища, а також даних ГБ, оброблених у екземплярі кінцевої точки та з нього, як зазначено в Ціни на Amazon SageMaker. У Cost Explorer можна фільтрувати асинхронні витрати, застосовуючи фільтр за типом використання. Назва цього типу використання структурована як REGION-AsyncInf:instanceType (наприклад, USE1-AsyncInf:ml.c5.9xlarge). Зауважте, що типи використання об’єму ГБ і ГБ оброблених даних є такими самими, як кінцеві точки реального часу, як згадувалося раніше в цій публікації.

Як показано на наступному знімку екрана, фільтрація за типом використання AsyncInf: у Cost Explorer відображає розбивку витрат за типами використання асинхронних кінцевих точок.

Щоб переглянути розбивку вартості та використання за годинами екземплярів, потрібно скасувати вибір усіх REGION-Host:VolumeUsage.gp2 перед застосуванням фільтра типів використання. Ви також можете застосувати додаткові фільтри. Інформацію на рівні ресурсу, як-от ARN кінцевої точки, типи екземплярів кінцевих точок, погодинну ставку інстансів і щоденні години використання, можна отримати з AWS CUR. Нижче наведено приклад запиту AWS CUR для отримання асинхронного використання ресурсів хостингу за останні 3 місяці:

SELECT bill_payer_account_id, line_item_usage_account_id, line_item_resource_id AS endpoint_arn, line_item_usage_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d') AS day_line_item_usage_start_date, SUM(CAST(line_item_usage_amount AS DOUBLE)) AS sum_line_item_usage_amount, line_item_unblended_rate, SUM(CAST(line_item_unblended_cost AS DECIMAL(16,8))) AS sum_line_item_unblended_cost, line_item_blended_rate, SUM(CAST(line_item_blended_cost AS DECIMAL(16,8))) AS sum_line_item_blended_cost, line_item_line_item_description, line_item_line_item_type FROM customer_all WHERE line_item_usage_start_date >= date_trunc('month',current_date - interval '3' month) AND line_item_product_code = 'AmazonSageMaker' AND line_item_line_item_type IN ('DiscountedUsage', 'Usage', 'SavingsPlanCoveredUsage') AND line_item_usage_type like '%AsyncInf%' AND line_item_operation = 'RunInstance' GROUP BY bill_payer_account_id, line_item_usage_account_id, line_item_resource_id, line_item_usage_type, line_item_unblended_rate, line_item_blended_rate, line_item_line_item_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d'), line_item_line_item_description ORDER BY line_item_resource_id, day_line_item_usage_start_date

На наступному знімку екрана показано результати, отримані під час виконання запиту AWS CUR за допомогою Athena.

Результат запиту показує цю кінцеву точку sagemaker-abc-model-5 з екземпляром ml.m5.xlarge повідомляється про 24 години роботи протягом кількох днів поспіль. Вартість екземпляра становить 0.23 долара США за годину, а щоденна вартість роботи протягом 24 годин становить 5.52 долара США.

Як згадувалося раніше, результати AWS CUR можуть допомогти вам визначити моделі кінцевих точок, що працюють протягом послідовних днів, а також кінцеві точки з найвищими місячними витратами. Це також може допомогти вам вирішити, чи можна видалити кінцеві точки в невиробничих облікових записах, щоб заощадити кошти.

Оптимізуйте витрати на асинхронний висновок

Як і для кінцевих точок реального часу, вартість асинхронних кінцевих точок залежить від типу використання екземпляра. Тому важливо визначити екземпляри, які недостатньо використовуються, і змінити їх розмір відповідно до вимог робочого навантаження. Для моніторингу асинхронних кінцевих точок SageMaker створює кілька показників такий як ApproximateBacklogSize, HasBacklogWithoutCapacityта багато іншого, доступного в CloudWatch. Ці показники можуть відображати запити в черзі для екземпляра та можуть використовуватися для автоматичного масштабування кінцевої точки. Асинхронний висновок SageMaker також включає показники рівня хоста. Інформацію про показники на рівні хоста див Роботи SageMaker і показники кінцевої точки. Ці показники можуть показати використання ресурсів, що може допомогти вам вибрати правильний розмір екземпляра.

SageMaker підтримує автоматичне масштабування для асинхронних кінцевих точок. На відміну від кінцевих точок, розміщених у реальному часі, кінцеві точки асинхронного висновку підтримують масштабування екземплярів до нуля шляхом встановлення мінімальної ємності на нуль. Для асинхронних кінцевих точок SageMaker настійно рекомендує створити конфігурацію політики для масштабування цільового відстеження для розгорнутої моделі (варіанту). Вам потрібно визначити політику масштабування, яка масштабується на ApproximateBacklogPerInstance спеціальний показник і встановіть MinCapacity значення до нуля.

Асинхронний висновок дає змогу заощадити на витратах шляхом автоматичного масштабування кількості екземплярів до нуля, коли немає запитів для обробки, тому ви платите лише тоді, коли ваша кінцева точка обробляє запити. Запити, отримані за відсутності екземплярів, ставляться в чергу для обробки після масштабування кінцевої точки. Таким чином, для випадків використання, які допускають покарання за холодний запуск у кілька хвилин, ви можете за бажанням зменшити кількість екземплярів кінцевої точки до нуля, коли немає невиконаних запитів, і збільшити масштаб, коли надходять нові запити. Час холодного запуску залежить від часу, необхідного для запуску нової кінцевої точки з нуля. Крім того, якщо сама модель велика, то час може бути більше. Якщо очікується, що ваше завдання триватиме більше часу, ніж 1 година обробки, ви можете розглянути можливість пакетного перетворення SageMaker.

Крім того, ви також можете врахувати час очікування вашого запиту в черзі разом із часом обробки, щоб вибрати тип екземпляра. Наприклад, якщо ваш варіант використання може терпіти години очікування, ви можете вибрати менший екземпляр, щоб заощадити кошти.

Додаткові вказівки щодо правильного розміру екземпляра та автоматичного масштабування для кінцевих точок SageMaker див. Забезпечте ефективні обчислювальні ресурси на Amazon SageMaker.

Безсерверний висновок

Безсерверний висновок дозволяє розгортати моделі ML для висновку без необхідності налаштовувати або керувати основною інфраструктурою. На основі обсягу запитів на висновок, які отримує ваша модель, безсерверний висновок SageMaker автоматично налаштовує, масштабує та вимикає обчислювальну потужність. У результаті ви платите лише за час обчислення для запуску коду виведення та обсяг оброблених даних, а не за час простою. Для безсерверних кінцевих точок ініціалізація екземпляра не потрібна. Вам потрібно надати розмір пам'яті та максимальний паралелізм. Оскільки безсерверні кінцеві точки надають обчислювальні ресурси на вимогу, ваша кінцева точка може мати кілька додаткових секунд затримки (холодний запуск) під час першого виклику після періоду простою. Ви платите за обчислювальну потужність, яка використовується для обробки запитів на висновок, оплачується за мілісекунди, ГБ-місяць виділеного сховища та обсяг оброблених даних. Плата за обчислення залежить від обраної вами конфігурації пам’яті.

У Cost Explorer ви можете фільтрувати витрати безсерверних кінцевих точок, застосувавши фільтр за типом використання. Назва цього типу використання структурована як REGION-ServerlessInf:Mem-MemorySize (наприклад, USE2-ServerlessInf:Mem-4GB). Зверніть увагу, що типи використання об’єму ГБ і ГБ оброблених даних є такими самими, що й кінцеві точки реального часу.

Ви можете переглянути розбивку витрат, застосувавши додаткові фільтри, як-от номер рахунку, тип екземпляра, регіон тощо. На наступному знімку екрана показано розбивку вартості шляхом застосування фільтрів для типу використання безсерверного висновку.

Оптимізація витрат для безсерверного висновку

Під час налаштування безсерверної кінцевої точки ви можете вказати розмір пам’яті та максимальну кількість одночасних викликів. Безсерверний висновок SageMaker автоматично призначає обчислювальні ресурси пропорційно вибраній вами пам’яті. Якщо ви обираєте більший розмір пам’яті, ваш контейнер матиме доступ до більшої кількості vCPU. За допомогою безсерверного висновку ви платите лише за обчислювальну потужність, яка використовується для обробки запитів на логічний висновок, тарифікується за мілісекунди, і кількість оброблених даних. Плата за обчислення залежить від обраної вами конфігурації пам’яті. Розміри пам’яті, які ви можете вибрати: 1024 МБ, 2048 МБ, 3072 МБ, 4096 МБ, 5120 МБ і 6144 МБ. Ціна зростає зі збільшенням розміру пам’яті, як пояснюється в Ціни на Amazon SageMaker, тому важливо вибрати правильний розмір пам’яті. Як правило, розмір пам’яті має бути не менше розміру вашої моделі. Однак під час визначення розміру пам’яті кінцевої точки, окрім розміру самої моделі, бажано враховувати використання пам’яті.

Загальні передові практики для оптимізації витрат на висновки SageMaker

Оптимізація витрат на хостинг – це не разова подія. Це безперервний процес моніторингу розгорнутої інфраструктури, шаблонів використання та продуктивності, а також пильне спостереження за новими інноваційними рішеннями, які випускає AWS і які можуть вплинути на вартість. Розгляньте наведені нижче практичні поради.

Виберіть відповідний тип екземпляра – SageMaker підтримує кілька типів екземплярів, кожен із різними комбінаціями процесора, графічного процесора, пам’яті та об’єму пам’яті. Виходячи з вимог до ресурсів вашої моделі, виберіть тип екземпляра, який надає необхідні ресурси без надмірного надання. Щоб отримати інформацію про доступні типи екземплярів SageMaker, їхні характеристики та вказівки щодо вибору правильного екземпляра, зверніться до Забезпечте ефективні обчислювальні ресурси на Amazon SageMaker.
Перевірте в локальному режимі – Для того, щоб виявити збої та швидше налагодити, рекомендується протестувати код і контейнер (у випадку BYOC) у локальний режим перед запуском робочого навантаження висновків на віддаленому екземплярі SageMaker. Локальний режим — чудовий спосіб перевірити ваші сценарії перед їх запуском у керованому хостинговому середовищі SageMaker.
Оптимізуйте моделі, щоб бути більш продуктивними – Неоптимізовані моделі можуть призвести до більш тривалого часу роботи та використовувати більше ресурсів. Ви можете використовувати більше або більші екземпляри для підвищення продуктивності; однак це призводить до вищих витрат. Оптимізувавши свої моделі для підвищення продуктивності, ви можете знизити витрати, використовуючи менше чи менші екземпляри, зберігаючи ті самі або кращі характеристики продуктивності. Ви можете використовувати Amazon SageMaker Neo з висновком SageMaker для автоматичної оптимізації моделей. Детальніше та зразки див Оптимізуйте продуктивність моделі за допомогою Neo.
Використовуйте теги та інструменти управління витратами – Щоб підтримувати видимість ваших робочих навантажень, рекомендовано використовувати теги, а також інструменти керування витратами AWS, такі як Бюджети AWS, Платіжна консоль AWS, а також функція прогнозування Cost Explorer. Ви також можете досліджувати SageMaker Savings Plans як модель гнучкого ціноутворення. Додаткову інформацію про ці параметри див Частина 1 цієї серії.

Висновок

У цій публікації ми надали вказівки щодо аналізу витрат і найкращі практики під час використання параметрів висновку SageMaker. Оскільки машинне навчання стає потужним інструментом у різних галузях, навчання та використання моделей ML повинні залишатися економічно ефективними. SageMaker пропонує широкий і глибокий набір функцій для полегшення кожного кроку в конвеєрі машинного навчання та надає можливості оптимізації витрат без впливу на продуктивність або гнучкість. Зверніться до своєї команди AWS, щоб отримати вказівки щодо витрат на робочі навантаження SageMaker.

Про авторів

Діпалі Раджале є старшим спеціалістом зі штучного інтелекту та ML в AWS. Вона працює з корпоративними клієнтами, надаючи технічне керівництво з найкращими практиками для розгортання та підтримки рішень AI/ML в екосистемі AWS. Вона працювала з багатьма організаціями над різними сценаріями використання глибокого навчання, пов’язаними з НЛП та комп’ютерним зором. Вона захоплена розширенням можливостей організацій використовувати генеративний штучний інтелект для покращення досвіду використання. У вільний час вона захоплюється кіно, музикою та літературою.

Урі Розенберг є технічним менеджером зі штучного інтелекту та машинного навчання для Європи, Близького Сходу та Африки. Урі, що базується в Ізраїлі, працює над розширенням можливостей корпоративних клієнтів у всьому, що стосується машинного навчання, щоб проектувати, створювати та працювати в масштабі. У вільний час захоплюється їздою на велосипеді, пішим туризмом і скелелазінням.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoAiStream. Web3 Data Intelligence. Розширення знань. Доступ тут.
Карбування майбутнього з Адріенн Ешлі. Доступ тут.
Купуйте та продавайте акції компаній, які вийшли на IPO, за допомогою PREIPO®. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/part-5-analyze-amazon-sagemaker-spend-and-determine-cost-optimization-opportunities-based-on-usage-part-5-hosting/

Часова мітка: Травень 30, 2023

Часова мітка: Січень 6, 2023

Перевидано Платоном

Перекладайте документи в реальному часі за допомогою Amazon Translate | Веб-сервіси Amazon

Наскрізне управління робочою силою Getir: Amazon Forecast і AWS Step Functions | Веб-сервіси Amazon

Як VMware створила конвеєр MLOps з нуля за допомогою GitLab, Amazon MWAA та Amazon SageMaker

Бібліотека паралельних моделей Amazon SageMaker тепер прискорює робочі навантаження PyTorch FSDP до 20% | Веб-сервіси Amazon

Оцінка великих мовних моделей на предмет якості та відповідальності | Веб-сервіси Amazon

Розподілене навчання за допомогою Amazon EKS і Torch Distributed Elastic

Ефективні рекомендації та пошук за допомогою графіка знань IMDb – Частина 3

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки