Уніфікована підготовка даних, навчання моделі та розгортання за допомогою Amazon SageMaker Data Wrangler і Amazon SageMaker Autopilot

Перевидано Платоном

читають: 0

Залежно від якості та складності даних дослідники обробки даних витрачають від 45 до 80% свого часу на завдання підготовки даних. Це означає, що підготовка та очищення даних забирає дорогоцінний час від справжньої наукової роботи з даними. Після того, як модель машинного навчання (ML) навчена за допомогою підготовлених даних і готова до розгортання, спеціалісти з обробки даних повинні часто переписувати перетворення даних, які використовуються для підготовки даних для висновків ML. Це може збільшити час, необхідний для розгортання корисної моделі, яка може робити висновок і оцінювати дані з її необробленої форми та форми.

У частині 1 цієї серії ми продемонстрували, як Data Wrangler дозволяє a уніфікована підготовка даних і навчання моделі досвід роботи з Автопілот Amazon SageMaker всього за кілька кліків. У цій другій і останній частині цієї серії ми зосередимося на функції, яка включає та повторно використовує Amazon SageMaker Data Wrangler перетворення, як-от обчислювачі відсутніх значень, порядкові кодери чи кодери з одноразовим використанням тощо, разом із моделями автопілота для висновку ML. Ця функція забезпечує автоматичну попередню обробку необроблених даних із повторним використанням перетворень функції Data Wrangler під час висновку, що ще більше скорочує час, необхідний для розгортання навченої моделі для виробництва.

Огляд рішення

Data Wrangler скорочує час на збирання та підготовку даних для ML з тижнів до хвилин, а Autopilot автоматично створює, навчає та налаштовує найкращі моделі ML на основі ваших даних. Завдяки Autopilot ви все одно зберігаєте повний контроль і видимість своїх даних і моделі. Обидва сервіси спеціально створені, щоб підвищити продуктивність спеціалістів з машинного навчання та прискорити окупність.

Наступна схема ілюструє нашу архітектуру рішення.

Передумови

Оскільки ця публікація є другою в серії з двох частин, переконайтеся, що ви її прочитали та впровадили Частина 1 перед тим, як продовжити.

Експортуйте та навчайте модель

У частині 1 після підготовки даних для ML ми обговорили, як можна використовувати інтегрований досвід у Data Wrangler для аналізу наборів даних і легкого створення високоякісних моделей ML у Autopilot.

Цього разу ми знову використовуємо інтеграцію Autopilot, щоб навчити модель на тому самому навчальному наборі даних, але замість масового висновку ми виконуємо висновок у реальному часі на основі Amazon SageMaker кінцева точка висновку, яка створюється для нас автоматично.

На додаток до зручності, що забезпечується автоматичним розгортанням кінцевої точки, ми демонструємо, як ви також можете розгортати всі перетворення функції Data Wrangler як конвеєр послідовного висновку SageMaker. Це забезпечує автоматичну попередню обробку необроблених даних із повторним використанням перетворень функції Data Wrangler під час висновку.

Зауважте, що ця функція наразі підтримується лише для потоків Data Wrangler, які не використовують об’єднання, групування, конкатенацію та перетворення часових рядів.

Ми можемо використовувати нову інтеграцію Data Wrangler з Autopilot для безпосереднього навчання моделі з інтерфейсу потоку даних Data Wrangler.

Виберіть знак плюс поруч із Значення масштабу вузол і виберіть Модель потяга.
для Розташування Amazon S3, вкажіть Служба простого зберігання Amazon (Amazon S3) розташування, куди SageMaker експортує ваші дані.
Якщо за замовчуванням представлено кореневий шлях до відра, Data Wrangler створює під ним унікальний підкаталог для експорту — вам не потрібно змінювати цей кореневий шлях за замовчуванням, якщо ви цього не хочете. Autopilot використовує це розташування для автоматичного навчання моделі, заощаджуючи ваші витрати час від необхідності визначення вихідного розташування потоку Data Wrangler, а потім визначення вхідного розташування навчальних даних Autopilot. Це забезпечує більш плавний досвід.
Вибирати Експорт і поїзд щоб експортувати перетворені дані в Amazon S3.

Після успішного експорту вас буде перенаправлено до Створіть експеримент на автопілоті сторінки, з Вхідні дані Розташування S3 уже заповнено для вас (було заповнено з результатів на попередній сторінці).
для Назва експерименту, введіть назву (або збережіть назву за замовчуванням).
для Метавиберіть Результат як стовпець, який ви хочете передбачити.
Вибирати Далі: Методика навчання.

Як детально описано в дописі Автопілот Amazon SageMaker працює у вісім разів швидше завдяки новому режиму навчання в ансамблі на основі AutoGluon, ви можете дозволити автопілоту автоматично вибирати режим навчання на основі розміру набору даних або вибрати режим навчання вручну для ансамблювання чи оптимізації гіперпараметрів (HPO).

Подробиці кожного варіанта наведені нижче.

Авто – Автопілот автоматично вибирає або режим ансамблю, або режим HPO на основі розміру вашого набору даних. Якщо ваш набір даних перевищує 100 МБ, автопілот вибирає HPO; інакше він обирає ансамбль.
Ансамблювання – Автопілот використовує Автоглюон техніка ансамблювання для навчання кількох базових моделей і поєднання їхніх прогнозів за допомогою стекування моделей у оптимальну прогностичну модель.
Оптимізація гіперпараметрів – Autopilot знаходить найкращу версію моделі, налаштовуючи гіперпараметри за допомогою техніки байєсівської оптимізації та запускаючи навчальні завдання на вашому наборі даних. HPO вибирає алгоритми, найбільш відповідні вашому набору даних, і вибирає найкращий діапазон гіперпараметрів для налаштування моделей. Для нашого прикладу ми залишаємо вибір за замовчуванням Авто.

Вибирати Далі: розгортання та додаткові налаштування продовжувати.
на Розгортання та додаткові налаштування виберіть варіант розгортання.
Важливо більш детально розібратися з варіантами розгортання; те, що ми виберемо, вплине на те, чи будуть трансформації, які ми зробили раніше в Data Wrangler, включені в конвеєр висновку:
- Автоматичне розгортання найкращої моделі за допомогою трансформацій із Data Wrangler – За допомогою цього параметра розгортання, коли ви готуєте дані в Data Wrangler і навчаєте модель за допомогою автопілота, навчена модель розгортається разом із усіма функціями Data Wrangler, які перетворюються як Послідовний конвеєр виведення SageMaker. Це забезпечує автоматичну попередню обробку необроблених даних із повторним використанням перетворень функції Data Wrangler під час висновку. Зверніть увагу, що кінцева точка висновку очікує, що формат ваших даних буде в тому самому форматі, що й під час імпорту в потік Data Wrangler.
- Автоматичне розгортання найкращої моделі без трансформацій із Data Wrangler – Цей параметр розгортає кінцеву точку реального часу, яка не використовує перетворення Data Wrangler. У цьому випадку вам потрібно застосувати перетворення, визначені в потоці Data Wrangler, до ваших даних перед висновком.
- Не розгортати найкращу модель автоматично – Вам слід використовувати цей параметр, якщо ви взагалі не хочете створювати кінцеву точку висновку. Це корисно, якщо ви хочете згенерувати найкращу модель для подальшого використання, наприклад, локально виконати груповий висновок. (Це варіант розгортання, який ми вибрали в частині 1 серії.) Зауважте, що коли ви вибираєте цей параметр, створена модель (з найкращого кандидата Autopilot через SDK SageMaker) включає функцію Data Wrangler, яка перетворюється як послідовний конвеєр SageMaker.
Для цього допису ми використовуємо Автоматичне розгортання найкращої моделі за допомогою трансформацій із Data Wrangler варіант.
для Варіант розгортаннявиберіть Автоматичне розгортання найкращої моделі за допомогою трансформацій із Data Wrangler.
Залиште інші налаштування за замовчуванням.
Вибирати Далі: перегляд і створення продовжувати.
на Перегляньте та створіть ми бачимо зведення налаштувань, вибраних для нашого експерименту з автопілотом.
Вибирати Створіть експеримент щоб почати процес створення моделі.

Вас буде перенаправлено на сторінку з описом роботи автопілота. Моделі показують на моделі під час їх створення. Щоб підтвердити, що процес завершено, перейдіть до Профіль роботи і знайдіть a Completed значення для Статус поле.

Ви можете будь-коли повернутися до цієї сторінки опису посади автопілота з Студія Amazon SageMaker:

Вибирати Експерименти та випробування на Ресурси SageMaker спадне меню.
Виберіть назву створеного вами завдання автопілота.
Виберіть (клацніть правою кнопкою миші) експеримент і виберіть Опишіть роботу AutoML.

Перегляньте навчання та розгортання

Коли Autopilot завершить експеримент, ми зможемо переглянути результати навчання та дослідити найкращу модель на сторінці опису роботи Autopilot.

Виберіть (клацніть правою кнопкою миші) позначену модель Найкраща модель, і вибрати Відкрити в деталях моделі.

Команда продуктивність Вкладка відображає кілька тестів вимірювання моделі, включаючи матрицю плутанини, площу під кривою точності/відклику (AUCPR) і площу під кривою робочих характеристик приймача (ROC). Вони ілюструють загальну ефективність перевірки моделі, але вони не говорять нам, чи буде модель добре узагальнюватися. Нам все ще потрібно провести оцінку невидимих даних тестування, щоб побачити, наскільки точно модель робить прогнози (у цьому прикладі ми передбачаємо, чи буде у людини діабет).

Виконайте висновок щодо кінцевої точки в реальному часі

Створіть новий блокнот SageMaker для виконання висновків у реальному часі для оцінки продуктивності моделі. Введіть наступний код у блокнот, щоб виконати висновок у реальному часі для перевірки:

import boto3

### Define required boto3 clients

sm_client = boto3.client(service_name="sagemaker")
runtime_sm_client = boto3.client(service_name="sagemaker-runtime")

### Define endpoint name

endpoint_name = ""

### Define input data

payload_str = '5,166.0,72.0,19.0,175.0,25.8,0.587,51'
payload = payload_str.encode()
response = runtime_sm_client.invoke_endpoint(
    EndpointName=endpoint_name,
    ContentType="text/csv",
    Body=payload,
)

response["Body"].read()

Після того, як ви налаштували код для запуску в блокноті, вам потрібно налаштувати дві змінні:

endpoint_name
payload_str

Налаштуйте endpoint_name

endpoint_name представляє назву кінцевої точки висновку в реальному часі, яку розгортання автоматично створило для нас. Перш ніж встановити його, нам потрібно знайти його назву.

Вибирати Кінцеві точки на Ресурси SageMaker спадне меню.
Знайдіть назву кінцевої точки, до якої додано назву створеного вами завдання автопілота з довільним рядком.
Виберіть (клацніть правою кнопкою миші) експеримент і виберіть Опишіть кінцеву точку.

Команда Деталі кінцевої точки з'явиться сторінка.
Виділіть повну назву кінцевої точки та натисніть Ctrl + C щоб скопіювати його в буфер обміну.
Введіть це значення (переконайтеся, що воно в лапках) для endpoint_name у зошиті для висновків.

Налаштувати payload_str

Ноутбук поставляється з рядком корисного навантаження за замовчуванням payload_str які ви можете використовувати для перевірки кінцевої точки, але не соромтеся експериментувати з різними значеннями, наприклад із вашим тестовим набором даних.

Щоб отримати значення з тестового набору даних, дотримуйтесь інструкцій у Частина 1 щоб експортувати тестовий набір даних в Amazon S3. Потім на консолі Amazon S3 ви можете завантажити його та вибрати рядки для використання файлу з Amazon S3.

Кожен рядок у вашому тестовому наборі даних має дев’ять стовпців, причому останній стовпець є outcome значення. Для цього коду блокнота переконайтеся, що ви використовуєте лише один рядок даних (ніколи не заголовок CSV). payload_str. Також переконайтеся, що ви надсилаєте лише a payload_str з вісьмома стовпцями, де ви видалили значення результату.

Наприклад, якщо ваші тестові файли набору даних виглядають як наведений нижче код, і ми хочемо виконати висновок у реальному часі для першого рядка:

Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome 
10,115,0,0,0,35.3,0.134,29,0 
10,168,74,0,0,38.0,0.537,34,1 
1,103,30,38,83,43.3,0.183,33,0

Ми ставимо payload_str до 10,115,0,0,0,35.3,0.134,29. Зверніть увагу, як ми опустили outcome Значення 0 в кінці.

Якщо випадково цільове значення вашого набору даних не є першим чи останнім значенням, просто видаліть значення без зміни структури коми. Наприклад, припустимо, що ми прогнозуємо стовпчик, і наш набір даних виглядає так:

foo,bar,foobar
85,17,20

У цьому випадку ми встановлюємо payload_str до 85,,20.

Коли ноутбук працює з належним чином налаштованим payload_str та endpoint_name значення, ви отримаєте відповідь CSV у форматі outcome (0 або 1), confidence (0-1).

Очищення

Щоб переконатися, що з вас не стягуватиметься плата, пов’язана з підручником після завершення цього підручника, обов’язково вимкніть програму Data Wrangler (https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-shut-down.html), а також усі екземпляри блокнота, які використовуються для виконання завдань логічного висновку. Кінцеві точки висновку, створені за допомогою розгортання Auto Pilot, слід видалити, щоб також уникнути додаткових витрат.

Висновок

У цій публікації ми продемонстрували, як інтегрувати обробку даних, включаючи розробку та створення моделей за допомогою Data Wrangler і Autopilot. Спираючись на Частину 1 серії, ми підкреслили, як можна легко навчити, налаштувати та розгорнути модель для кінцевої точки висновку в реальному часі за допомогою автопілота безпосередньо з інтерфейсу користувача Data Wrangler. Окрім зручності автоматичного розгортання кінцевої точки, ми продемонстрували, як ви також можете розгортати всі перетворення функції Data Wrangler як конвеєр послідовного висновку SageMaker, що забезпечує автоматичну попередню обробку необроблених даних із повторним використанням перетворень функції Data Wrangler на час висновку.

Рішення з низьким кодом і AutoML, такі як Data Wrangler і Autopilot, усувають потребу в глибоких знаннях кодування для створення надійних моделей ML. Почніть використовувати Data Wrangler сьогодні, щоб відчути, як легко створювати моделі ML за допомогою автопілота.

Про авторів

Уніфікована підготовка даних, навчання моделі та розгортання за допомогою Amazon SageMaker Data Wrangler і Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Джеремі Коен є архітектором рішень з AWS, де він допомагає клієнтам створювати передові хмарні рішення. У вільний час він любить короткі прогулянки по пляжу, досліджуючи район затоки з родиною, лагодити речі по дому, ламати речі по дому та готувати барбекю.

Уніфікована підготовка даних, навчання моделі та розгортання за допомогою Amazon SageMaker Data Wrangler і Amazon SageMaker Autopilot – Part 2 PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Прадіп Редді є старшим менеджером з продуктів у команді SageMaker Low/No Code ML, яка включає автопілот SageMaker, автоматичний тюнер моделі SageMaker. Поза роботою Прадіп любить читати, бігати та гуляти з комп’ютерами розміром з долоню, такими як raspberry pi, та іншими технологіями домашньої автоматизації.

Доктор Джон Хе є старшим інженером з розробки програмного забезпечення Amazon AI, де він зосереджується на машинному навчанні та розподілених обчисленнях. Має ступінь доктора філософії КМУ.

Часова мітка: Вересень 30, 2022Вересень 30, 2022

Уніфікована підготовка даних, навчання моделі та розгортання за допомогою Amazon SageMaker Data Wrangler і Amazon SageMaker Autopilot – Частина 2

Перевидано Платоном

Огляд рішення

Передумови

Експортуйте та навчайте модель

Перегляньте навчання та розгортання

Виконайте висновок щодо кінцевої точки в реальному часі

Налаштуйте endpoint_name

Налаштувати payload_str

Очищення

Висновок

Про авторів

Більше від AWS Машинне навчання

Як LotteON створив динамічне A/B-тестування для своєї персоналізованої системи рекомендацій | Веб-сервіси Amazon

Масштабуйте висновки YOLOv5 за допомогою кінцевих точок Amazon SageMaker і AWS Lambda

Покращте масштабованість API Amazon Rekognition без збереження стану за допомогою кількох регіонів

Покращуйте якість передбачення в користувацьких моделях класифікації за допомогою Amazon Comprehend | Веб-сервіси Amazon

Snapper надає мітки за допомогою машинного навчання для виявлення об’єктів із ідеальним зображенням

Автоматизуйте перевірку документів і виявлення шахрайства в процесі іпотечного андеррайтингу за допомогою сервісів AWS AI: Частина 1 | Веб-сервіси Amazon

Реалізуйте уніфікований пошук тексту та зображень за допомогою моделі CLIP за допомогою Amazon SageMaker і Amazon OpenSearch Service

Прискорення PyTorch за допомогою DeepSpeed для навчання великих мовних моделей за допомогою екземплярів DL1 EC2 на базі Intel Habana Gaudi | Веб-сервіси Amazon

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки