Уніфікована підготовка даних і навчання моделі за допомогою Amazon SageMaker Data Wrangler і Amazon SageMaker Autopilot

Перевидано Платоном

читають: 0

Дані підживлюють машинне навчання (ML); якість даних має безпосередній вплив на якість моделей ML. Тому покращення якості даних і використання правильних методів розробки функцій є вирішальними для створення точних моделей машинного навчання. Практикуючі ML часто нудно повторюють розробку функцій, вибір алгоритмів та інші аспекти ML у пошуках оптимальних моделей, які добре узагальнюють дані реального світу та забезпечують бажані результати. Оскільки швидкість ведення бізнесу має непропорційне значення, цей надзвичайно виснажливий і повторюваний процес може призвести до затримок проекту та втрачених можливостей для бізнесу.

Amazon SageMaker Data Wrangler скорочує час на агрегування та підготовку даних для ML з тижнів до хвилин, і Автопілот Amazon SageMaker автоматично створює, навчає та налаштовує найкращі моделі ML на основі ваших даних. Завдяки Autopilot ви все одно зберігаєте повний контроль і видимість ваших даних і моделі. Обидва сервіси спеціально створені, щоб зробити спеціалістів, які практикують ML, більш продуктивними та прискорити час, щоб отримати вартість.

Data Wrangler тепер надає уніфікований досвід, що дає змогу готувати дані та плавно навчати модель машинного навчання в автопілоті. За допомогою цієї нещодавно запущеної функції тепер ви можете підготувати свої дані в Data Wrangler і легко запускати експерименти автопілота безпосередньо з інтерфейсу користувача Data Wrangler. Всього кількома клацаннями миші ви можете автоматично створювати, навчати та налаштовувати моделі ML, що спрощує використання найсучасніших методів розробки функцій, тренування високоякісних моделей машинного навчання та швидшого отримання інформації з ваших даних.

У цій публікації ми обговорюємо, як ви можете використовувати цей новий інтегрований досвід у Data Wrangler для аналізу наборів даних і легкого створення високоякісних моделей машинного навчання в Autopilot.

Огляд набору даних

Індіанці Піма - це корінне населення, яке проживає в Мексиці та Арізоні, США. Дослідження показати індіанців Піма як групу населення з високим ризиком розвитку цукрового діабету. Прогнозування ймовірності ризику та схильності людини до такого хронічного захворювання, як цукровий діабет, є важливим завданням для покращення здоров’я та добробуту цієї часто недостатньо представленої групи меншини.

Ми використовуємо Загальнодоступний набір даних Pima Indian Diabetes спрогнозувати схильність людини до цукрового діабету. Ми зосереджуємось на новій інтеграції між Data Wrangler і Autopilot для підготовки даних і автоматичного створення моделі ML без написання жодного рядка коду.

Набір даних містить інформацію про індіанських жінок Піма віком від 21 року та включає кілька медичних провісників (незалежних) і одну цільову (залежну) змінну, результат. Наступна діаграма описує стовпці в нашому наборі даних.

Колонка ІМ'Я	Опис
Вагітності	Кількість вагітностей
Глюкоза	Концентрація глюкози в плазмі при пероральному тесті на толерантність до глюкози протягом 2 годин
Кров’яний тиск	Діастолічний артеріальний тиск (мм рт. Ст.)
Товщина шкіри	Товщина шкірної складки трицепса (мм)
Інсулін	2-годинний сироватковий інсулін (мю U/мл)
BMI	Індекс маси тіла (вага в кг/(зріст в м)^2)
Діабет Родовід	Породна функція діабету
вік	Вік у роках
Результат	Цільова змінна

Набір даних містить 768 записів із 9 функціями. Ми зберігаємо цей набір даних у Amazon Simple Storage Bucket (Amazon S3) як файл CSV, а потім імпортуйте CSV безпосередньо в потік Data Wrangler з Amazon S3.

Огляд рішення

Наступна діаграма підсумовує те, чого ми досягли в цій публікації.[KT1]

Дослідники даних, лікарі та інші експерти в галузі медицини надають дані пацієнтів з інформацією про рівень глюкози, кров’яний тиск, індекс маси тіла та інші характеристики, які використовуються для прогнозування ймовірності розвитку діабету. За допомогою набору даних в Amazon S3 ми імпортуємо набір даних у Data Wrangler для виконання дослідницького аналізу даних (EDA), профілювання даних, розробки функцій і поділу набору даних на навчання та тестування для побудови й оцінки моделі.

Потім ми використовуємо нову інтеграцію функцій Autopilot, щоб швидко побудувати модель безпосередньо з інтерфейсу Data Wrangler. Ми вибираємо найкращу модель Autopilot на основі моделі з найвищим показником F-beta. Після того як автопілот знайде найкращу модель, ми запускаємо a Пакетне перетворення SageMaker завдання на тестовий (утримуючий) набір з артефактами моделі найкращої моделі для оцінки.

Медичні експерти можуть надати нові дані перевіреній моделі, щоб отримати прогноз, щоб побачити, чи ймовірно у пацієнта буде діабет. Завдяки цим знанням медичні експерти можуть почати лікування на ранніх стадіях, щоб покращити здоров’я та добробут уразливих груп населення. Медичні експерти також можуть пояснити прогноз моделі, посилаючись на деталі моделі в автопілоті, оскільки вони мають повну бачення пояснення, продуктивності та артефактів моделі. Ця видимість на додаток до перевірки моделі з набору тестів дає медичним експертам більшу впевненість у передбачуваних здібностях моделі.

Ми проведемо вас через наступні кроки високого рівня.

Імпортуйте набір даних з Amazon S3.
Виконуйте EDA та профілювання даних за допомогою Data Wrangler.
Виконайте розробку функцій, щоб обробляти викиди та відсутні значення.
Розділіть дані на набори поїздів і тестів.
Тренуйтеся та створюйте модель за допомогою автопілота.
Випробуйте модель на затриманому зразку за допомогою ноутбука SageMaker.
Проаналізуйте ефективність перевірки та тестового набору.

Передумови

Виконайте такі необхідні кроки:

Завантажте набір даних на відро S3 на ваш вибір.
Переконайтеся, що у вас є необхідні дозволи. Для отримання додаткової інформації див Почніть роботу з Data Wrangler.
Налаштуйте домен SageMaker, налаштований на використання Data Wrangler. Інструкції див На борту до домену Amazon SageMaker.

Імпортуйте свій набір даних за допомогою Data Wrangler

Ви можете інтегрувати потік даних Data Wrangler у свої робочі процеси машинного навчання, щоб спростити та впорядкувати попередню обробку даних та розробку функцій, використовуючи майже не кодування. Виконайте такі дії:

Створіть новий Потік даних Wrangler.

Якщо ви вперше відкриваєте Data Wrangler, можливо, доведеться почекати кілька хвилин, поки він буде готовий.

Виберіть набір даних, що зберігається в Amazon S3, і імпортуйте його в Data Wrangler.

Після імпортування набору даних ви повинні побачити початок потоку даних в інтерфейсі Data Wrangler. Тепер у вас є блок-схема.

Виберіть знак плюс біля Типи даних І вибирай Редагувати щоб підтвердити, що Data Wrangler автоматично вивчив правильні типи даних для ваших стовпців даних.

Якщо типи даних неправильні, ви можете легко змінити їх через інтерфейс користувача. Якщо є кілька джерел даних, їх можна об’єднати або об’єднати.

Тепер ми можемо створити аналіз і додати трансформації.

Виконайте дослідницький аналіз даних за допомогою звіту про статистику даних

Дослідницький аналіз даних є важливою частиною робочого процесу ML. Ми можемо використовувати новий звіт про статистику даних від Data Wrangler, щоб краще зрозуміти профіль і розподіл наших даних. Звіт містить підсумкову статистику, попередження про якість даних, статистику цільових стовпців, швидку модель та інформацію про аномальні та повторювані рядки.

Виберіть знак плюс біля Типи даних І вибирай Отримайте статистику даних.

для Мета колонкавиберіть Результат.
для Тип проблеми, і (за бажанням) виберіть Класифікація.
Вибирати Створювати.

Результати показують зведені дані зі статистикою набору даних.

Ми також можемо переглянути розподіл позначених рядків за допомогою гістограми, оцінки очікуваної прогнозованої якості моделі за допомогою функції швидкої моделі та підсумкової таблиці ознак.

Ми не вдаємося в деталі аналізу звіту про статистику даних; звертатися до Прискорте підготовку даних завдяки якості даних і аналізу даних у Amazon SageMaker Data Wrangler щоб отримати додаткові відомості про те, як використовувати звіт про статистику даних, щоб прискорити підготовку даних.

Виконайте розробку функцій

Тепер, коли ми профілювали та проаналізували розподіл наших вхідних стовпців на високому рівні, першим міркуванням щодо покращення якості наших даних може бути обробка відсутніх значень.

Наприклад, ми знаємо, що нулі (0) для Insulin стовпець відображає пропущені значення. Ми могли б слідувати рекомендації замінити нулі на NaN. Але при більш детальному розгляді ми виявимо, що мінімальне значення дорівнює 0 для інших стовпців, наприклад Glucose, BloodPressure, SkinThickness та BMI. Нам потрібен спосіб обробки відсутніх значень, але ми повинні бути чутливими до стовпців з нулями як дійсних даних. Давайте подивимося, як ми можемо це виправити.

У Подробиці функції розділ, звіт піднімає a Замасковане відсутнє значення попередження щодо функції Insulin.

Тому що нулі в Insulin У стовпці насправді відсутні дані, ми використовуємо Перетворити регулярний вираз у відсутній transform для перетворення нульових значень на порожні (відсутні значення).

Виберіть знак плюс біля дані Типи І вибирай додавати трансформувати.
Вибирати Шукати та редагувати.
для Перетвореннявиберіть Перетворити регулярний вираз у відсутній.
для вхід стовпців, виберіть стовпці Insulin, Glucose, BloodPressure, SkinThickness та BMI.
для Викрійки, введіть 0.
Вибирати попередній перегляд та додавати щоб зберегти цей крок.

0 записів під Insulin, Glucose, BloodPressure, SkinThickness та BMI зараз відсутні значення.

Data Wrangler надає вам кілька інших варіантів для виправлення відсутніх значень.

Ми обробляємо відсутні значення, вводячи приблизну медіану для Glucose колонка.

Ми також хочемо переконатися, що наші функції мають однаковий масштаб. Ми не хочемо випадково надавати більшу вагу певній функції лише тому, що вони містять більший числовий діапазон. Для цього ми нормалізуємо наші функції.

Додайте нове Числовий процес трансформуйте і вибирайте Значення масштабу.
для Scalerвиберіть Мін-макс скалер.
для Вхідні стовпці, виберіть стовпці Pregnancies, BloodPressure, Glucose, SkinThickness, Insulin, BMI та Age.
Установка Мін до 0 та Макс до 1.

Це гарантує, що наші характеристики знаходяться між значеннями 0 та 1.

Тепер, коли ми створили деякі функції, ми розділили наш набір даних на навчання та тестування, перш ніж створювати модель.

Розділіть дані на навчання та тестування

На етапі створення моделі робочого процесу ML ви перевіряєте ефективність своєї моделі, запускаючи пакетні передбачення. Ви можете відкласти тестовий набір даних або набір даних для оцінки, щоб побачити, як працює ваша модель, порівнявши прогнози з основною істиною. Як правило, якщо більше прогнозів моделі збігаються з true міток, ми можемо визначити, що модель працює добре.

Ми використовуємо Data Wrangler, щоб розділити наш набір даних для тестування. Ми зберігаємо 90% нашого набору даних для навчання, оскільки маємо відносно невеликий набір даних. Решта 10% нашого набору даних служить тестовим набором даних. Ми використовуємо цей набір даних для перевірки моделі автопілота пізніше в цій публікації.

Ми розділили наші дані, вибравши Розділити дані трансформувати і вибирати Рандомізоване поділ як метод. Ми визначаємо 0.9 як розділений відсоток для навчання і 0.1 для тестування.

Після завершення трансформації даних і виконання кроків інженерії ми готові до навчання моделі.

Навчайте та перевіряйте модель

Ми можемо використовувати нову інтеграцію Data Wrangler з Autopilot для безпосереднього навчання моделі з інтерфейсу потоку даних Data Wrangler.

Виберіть знак плюс біля Набір даних І вибирай Модель потяга.

для Розташування Amazon S3, вкажіть розташування Amazon S3, куди SageMaker експортує ваші дані.

Автопілот використовує це розташування для автоматичного навчання моделі, заощаджуючи ваш час від необхідності визначати вихідне розташування потоку Data Wrangler, а потім визначати вхідне розташування навчальних даних Autopilot. Це робить досвід більш безперешкодним.

Вибирати Експорт і тренуватися розпочати створення моделі за допомогою автопілота.

Автопілот автоматично вибирає місця введення та виведення тренувальних даних. Вам потрібно лише вказати цільовий стовпець і натиснути Створити експеримент щоб навчити свою модель.

Випробуйте модель на затриманому зразку

Коли автопілот завершить експеримент, ми зможемо переглянути результати навчання та вивчити найкращу модель.

Вибирати Переглянути деталі моделі для потрібної моделі, потім виберіть продуктивність вкладку на сторінці інформації про модель.

Команда продуктивність На вкладці відображається кілька тестів вимірювання моделі, включаючи матрицю плутанини, площу під кривою точності/відкликання (AUCPR) і площу під кривою робочої характеристики приймача (ROC). Вони ілюструють загальну ефективність перевірки моделі, але вони не говорять нам, чи буде модель добре узагальнена. Нам все ще потрібно провести оцінку невидимих даних тестів, щоб побачити, наскільки точно модель передбачить, чи буде у людини діабет.

Щоб переконатися, що модель досить добре узагальнює, ми відклали тестовий зразок для незалежного відбору. Ми можемо це зробити в інтерфейсі потоку даних Wrangler.

Виберіть знак плюс біля Набір данихвиберіть Експортувати в, і вибрати Amazon S3.

Вкажіть шлях до Amazon S3.

Ми посилаємося на цей шлях, коли запускаємо пакетний висновок для перевірки в наступному розділі.

Створіть новий блокнот SageMaker, щоб виконати пакетний висновок на затриманому зразку та оцінити ефективність тесту. Зверніться до наступного GitHub репо для зразок зошита для виконання пакетного висновку для перевірки.

Проаналізуйте ефективність перевірки та тестового набору

Коли пакетне перетворення завершено, ми створюємо матрицю плутанини для порівняння фактичних і прогнозованих результатів набору даних затримки.

Ми бачимо 23 справжніх позитивних і 33 справжніх негативних результату. У нашому випадку справжні позитивні показники відносяться до моделі, яка правильно прогнозує наявність у людини діабету. Навпаки, справжні негативи відносяться до моделі, яка правильно прогнозує, що людина не має діабету.

У нашому випадку точність і відкликання є важливими показниками. Точність, по суті, вимірює всіх людей, у яких прогнозовано діабет, скільки насправді мають діабет? Навпаки, відкликання допомагає виміряти всіх людей, які справді хворіють на цукровий діабет, скільки за прогнозами хворих на діабет? Наприклад, ви можете використовувати модель з високою точністю, тому що ви хочете лікувати якомога більше людей, особливо якщо перший етап лікування не впливає на людей без діабету (це помилкові результати — ті, які позначені як хворі на діабет). коли насправді вони цього не роблять).

Ми також малюємо площу під кривою ROC (AUC), щоб оцінити результати. Чим вища AUC, тим краще модель розрізняє класи, що в нашому випадку показує, наскільки добре модель розрізняє пацієнтів з і без діабету.

Висновок

У цій публікації ми продемонстрували, як інтегрувати обробку даних, включаючи розробку та створення моделі за допомогою Data Wrangler і Autopilot. Ми підкреслили, як ви можете легко навчити та налаштувати модель за допомогою автопілота безпосередньо з інтерфейсу користувача Data Wrangler. За допомогою цієї функції інтеграції ми можемо швидко побудувати модель після завершення розробки функцій, без написання коду. Потім ми посилалися на найкращу модель Autopilot для виконання пакетних прогнозів за допомогою класу AutoML з SageMaker Python SDK.

Рішення з низьким кодом і AutoML, такі як Data Wrangler і Autopilot, усувають потребу в глибоких знаннях кодування для створення надійних моделей ML. Почніть використовувати Data Wrangler сьогодні, щоб випробувати, як легко створювати моделі ML за допомогою Автопілот SageMaker.

Про авторів

Уніфікована підготовка даних і навчання моделі за допомогою Amazon SageMaker Data Wrangler і Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Пітер Чанг є архітектором рішень для AWS і прагне допомогти клієнтам розкрити інформацію на основі їхніх даних. Він розробляє рішення, щоб допомогти організаціям приймати рішення на основі даних як у державному, так і в приватному секторах. Він має всі сертифікати AWS, а також два сертифікати GCP. Він любить каву, готує, веде активну діяльність і проводить час із сім’єю.

Уніфікована підготовка даних і навчання моделі за допомогою Amazon SageMaker Data Wrangler і Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Прадіп Редді є старшим менеджером з продуктів у команді SageMaker Low/No Code ML, яка включає автопілот SageMaker, автоматичний тюнер моделі SageMaker. Поза роботою Прадіп любить читати, бігати та гуляти з комп’ютерами розміром з долоню, такими як raspberry pi, та іншими технологіями домашньої автоматизації.

Уніфікована підготовка даних і навчання моделі за допомогою Amazon SageMaker Data Wrangler і Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Арунпрасат Шанкар є архітектором спеціалізованих рішень із штучного інтелекту та машинного навчання (AI / ML) з AWS, допомагаючи світовим клієнтам ефективно та ефективно масштабувати свої рішення в галузі ШІ в хмарі. У вільний час Арун із задоволенням дивиться науково-фантастичні фільми та слухає класичну музику.

Сруджан Гопу є старшим інженером Frontend у SageMaker Low Code/No Code ML, який допомагає клієнтам продуктів Autopilot та Canvas. Коли не кодує, Сруджан любить бігати зі своєю собакою Максом, слухати аудіокниги та розробляти ігри VR.