Оптимізуйте підготовку даних за допомогою нових функцій у AWS SageMaker Data Wrangler

Перевидано Платоном

читають: 0

Підготовка даних є критично важливим етапом у будь-якому керованому даними проекті, і наявність правильних інструментів може значно підвищити ефективність роботи. Amazon SageMaker Data Wrangler скорочує час, необхідний для агрегування та підготовки табличних і графічних даних для машинного навчання (ML), з тижнів до хвилин. За допомогою SageMaker Data Wrangler ви можете спростити процес підготовки даних і розробки функцій, а також завершити кожен етап робочого процесу підготовки даних, включаючи вибір, очищення, дослідження та візуалізацію за допомогою єдиного візуального інтерфейсу.

У цій публікації ми досліджуємо найновіші функції SageMaker Data Wrangler, спеціально розроблені для покращення роботи. Ми вникаємо в підтримку Проста служба зберігання (Amazon S3) проявляється файли, артефакти висновку в інтерактивному потоці даних і бездоганну інтеграцію з JSON (нотація об'єктів JavaScript) формат для висновків, підкреслюючи, як ці вдосконалення роблять підготовку даних легшою та ефективнішою.

Представляємо нові функції

У цьому розділі ми обговорюємо нові функції SageMaker Data Wrangler для оптимальної підготовки даних.

Підтримка файлу маніфесту S3 із автопілотом SageMaker для висновків ML

SageMaker Data Wrangler дозволяє a уніфікована підготовка даних і навчання моделі досвід роботи з Автопілот Amazon SageMaker всього за кілька кліків. Ви можете використовувати SageMaker Autopilot для автоматичного навчання, налаштування та розгортання моделей на даних, які ви трансформували у своєму потоці даних.

Цей досвід тепер ще більше спрощено завдяки підтримці файлу маніфесту S3. Файл маніфесту S3 — це текстовий файл, який містить список об’єктів (файлів), що зберігаються у сегменті S3. Якщо ваш експортований набір даних у SageMaker Data Wrangler досить великий і розбитий на кілька частин файлів даних в Amazon S3, тепер SageMaker Data Wrangler автоматично створить файл маніфесту в S3, який представлятиме всі ці файли даних. Цей створений файл маніфесту тепер можна використовувати з інтерфейсом користувача SageMaker Autopilot у SageMaker Data Wrangler, щоб зібрати всі розділені дані для навчання.

До запуску цієї функції під час використання моделей SageMaker Autopilot, навчених на підготовлених даних із SageMaker Data Wrangler, ви могли вибрати лише один файл даних, який міг не представляти весь набір даних, особливо якщо набір даних дуже великий. Завдяки цьому новому файлу маніфесту ви не обмежені підмножиною свого набору даних. Ви можете побудувати модель ML за допомогою SageMaker Autopilot, представляючи всі ваші дані за допомогою файлу маніфесту, і використовувати його для висновків ML і розгортання виробництва. Ця функція підвищує операційну ефективність, спрощуючи навчання моделей ML за допомогою SageMaker Autopilot і оптимізуючи робочі процеси обробки даних.

Додано підтримку потоку висновків у згенерованих артефактах

Клієнти хочуть використати перетворення даних, які вони застосували до своїх навчальних даних моделі, як-от одноразове кодування, PCA, і імпутувати відсутні значення, і застосувати ці перетворення даних до висновків у реальному часі або пакетного висновку у виробництві. Для цього ви повинні мати артефакт висновку SageMaker Data Wrangler, який споживається моделлю SageMaker.

Раніше артефакти логічного висновку можна було генерувати лише з інтерфейсу користувача під час експорту до навчання SageMaker Autopilot або експорту блокнота конвеєрного висновку. Це не забезпечувало гнучкості, якщо ви хотіли вивести потоки SageMaker Data Wrangler за межі Студія Amazon SageMaker навколишнє середовище. Тепер ви можете створити артефакт висновку для будь-якого сумісного файлу потоку за допомогою завдання обробки SageMaker Data Wrangler. Це дає змогу програмувати наскрізні MLOps із потоками SageMaker Data Wrangler для персон MLOps, які спочатку створюють код, а також інтуїтивно зрозумілий шлях без коду для отримання артефакту висновку шляхом створення завдання з інтерфейсу користувача.

Оптимізація підготовки даних

JSON став широко поширеним форматом для обміну даними в сучасних екосистемах даних. Інтеграція SageMaker Data Wrangler із форматом JSON дозволяє легко обробляти дані JSON для трансформації та очищення. Забезпечуючи вбудовану підтримку JSON, SageMaker Data Wrangler спрощує процес роботи зі структурованими та напівструктурованими даними, дозволяючи отримувати цінну інформацію та ефективно готувати дані. SageMaker Data Wrangler тепер підтримує формат JSON як для пакетного розгортання кінцевої точки, так і для розгортання висновків у реальному часі.

Огляд рішення

Для нашого випадку використання ми використовуємо зразок Набір даних відгуків клієнтів Amazon щоб показати, як SageMaker Data Wrangler може спростити операційну роботу зі створення нової моделі ML за допомогою SageMaker Autopilot. Набір даних відгуків клієнтів Amazon містить огляди продуктів і метадані Amazon, включаючи 142.8 мільйона відгуків за період з травня 1996 року по липень 2014 року.

На високому рівні ми використовуємо SageMaker Data Wrangler для керування цим великим набором даних і виконання таких дій:

Розробіть модель ML у SageMaker Autopilot, використовуючи весь набір даних, а не лише зразок.
Створіть конвеєр виведення в реальному часі з артефактом виведення, згенерованим SageMaker Data Wrangler, і використовуйте форматування JSON для введення та виведення.

Підтримка файлів маніфесту S3 за допомогою SageMaker Autopilot

Створюючи експеримент SageMaker Autopilot за допомогою SageMaker Data Wrangler, раніше можна було вказати лише один файл CSV або Parquet. Тепер ви також можете використовувати файл маніфесту S3, що дозволяє використовувати великі обсяги даних для експериментів SageMaker Autopilot. SageMaker Data Wrangler автоматично розділить файли вхідних даних на кілька менших файлів і створить маніфест, який можна використовувати в експерименті SageMaker Autopilot, щоб отримати всі дані з інтерактивного сеансу, а не лише невелику вибірку.

Виконайте такі дії:

Імпортуйте дані відгуків клієнтів Amazon із файлу CSV у SageMaker Data Wrangler. Обов’язково вимкніть вибірку під час імпорту даних.
Вкажіть перетворення, які нормалізують дані. Для цього прикладу видаліть символи та перетворите все на малі літери за допомогою вбудованих перетворень SageMaker Data Wrangler.
Вибирати Модель потяга щоб почати навчання.

Потік даних – модель поїзда

Щоб навчити модель за допомогою SageMaker Autopilot, SageMaker автоматично експортує дані до сегмента S3. Для таких великих наборів даних, як цей, він автоматично розбиває файл на менші файли та створює маніфест, який містить розташування менших файлів.

Потік даних - автопілот

Спочатку виберіть вхідні дані.

Раніше SageMaker Data Wrangler не мав можливості створити файл маніфесту для використання з SageMaker Autopilot. Сьогодні, після випуску підтримки файлів маніфесту, SageMaker Data Wrangler автоматично експортує файл маніфесту в Amazon S3, попередньо заповнить розташування S3 для навчання SageMaker Autopilot розташуванням файлу маніфесту S3 і перемкне параметр файлу маніфесту на Так. Для створення або використання файлу маніфесту не потрібно працювати.

Експеримент з автопілотом

Налаштуйте свій експеримент, вибравши ціль для моделі для прогнозування.
Далі виберіть метод навчання. У цьому випадку ми вибираємо Авто і дозвольте SageMaker Autopilot вибрати найкращий метод навчання на основі розміру набору даних.

Створіть експеримент з автопілотом

Вкажіть параметри розгортання.
Нарешті, перегляньте конфігурацію завдання та надішліть експеримент SageMaker Autopilot для навчання. Коли SageMaker Autopilot завершить експеримент, ви зможете переглянути результати навчання та дослідити найкращу модель.

Експеримент з автопілотом – завершено

Завдяки підтримці файлів маніфесту ви можете використовувати весь набір даних для експерименту SageMaker Autopilot, а не лише частину даних.

Щоб отримати додаткові відомості про використання SageMaker Autopilot із SageMaker Data Wrangler, див Уніфікована підготовка даних і навчання моделі за допомогою Amazon SageMaker Data Wrangler і Amazon SageMaker Autopilot.

Створюйте артефакти висновків із завдань обробки SageMaker

Тепер давайте розглянемо, як ми можемо генерувати артефакти висновків за допомогою інтерфейсу користувача SageMaker Data Wrangler і блокнотів SageMaker Data Wrangler.

Інтерфейс SageMaker Data Wrangler

Для нашого випадку використання ми хочемо обробити наші дані через інтерфейс користувача, а потім використати отримані дані для навчання та розгортання моделі через консоль SageMaker. Виконайте наступні дії:

Відкрийте потік даних, створений у попередньому розділі.
Виберіть знак плюс біля останнього перетворення, виберіть Додати пункт призначення, і вибрати Amazon S3. Тут будуть зберігатися оброблені дані.
Вибирати Створити роботу.
Select Створення артефактів висновків у розділі Параметри висновку, щоб створити артефакт висновку.
Для назви артефакту виводу введіть назву артефакту виводу (з розширенням файлу .tar.gz).
Для вихідного вузла Inference введіть вузол призначення, який відповідає перетворенням, застосованим до ваших навчальних даних.
Вибирати Налаштувати завдання.
під Конфігурація роботи, введіть шлях для Розташування файлу потоку S3. Папка називається data_wrangler_flows буде створено в цьому місці, а артефакт висновку буде завантажено в цю папку. Щоб змінити місце завантаження, установіть інше місце S3.
Залиште значення за замовчуванням для всіх інших параметрів і виберіть Створювати щоб створити завдання обробки.

Завдання обробки створить a tarball (.tar.gz) містить змінений файл потоку даних із нещодавно доданим розділом висновків, який дозволяє використовувати його для висновків. Вам потрібен уніфікований ідентифікатор ресурсу S3 (URI) артефакту логічного висновку, щоб надати артефакт моделі SageMaker під час розгортання вашого рішення логічного висновку. URI буде у формі {Flow file S3 location}/data_wrangler_flows/{inference artifact name}.tar.gz.
Якщо ви не занотували ці значення раніше, ви можете вибрати посилання на завдання обробки, щоб знайти відповідні деталі. У нашому прикладі це URI s3://sagemaker-us-east-1-43257985977/data_wrangler_flows/example-2023-05-30T12-20-18.tar.gz.
Скопіюйте значення Обробка зображення; нам також потрібен цей URI під час створення нашої моделі.
Тепер ми можемо використовувати цей URI для створення моделі SageMaker на консолі SageMaker, яку пізніше можемо розгорнути в кінцевій точці або в завданні пакетного перетворення.
під Параметри моделі¸ введіть назву моделі та вкажіть свою роль IAM.
для Параметри введення контейнеравиберіть Надайте артефакти моделі та розташування вихідного зображення.
для Розташування зображення коду висновку, введіть URI зображення обробки.
для Розташування артефактів моделі, введіть URI артефакту висновку.
Крім того, якщо ваші дані мають цільовий стовпець, який буде передбачено навченою моделлю ML, укажіть назву цього стовпця в Змінні середовища, С INFERENCE_TARGET_COLUMN_NAME as ключ і назву стовпця як значення.
Завершіть створення моделі вибором Створити модель.

Тепер у нас є модель, яку ми можемо розгорнути в кінцевій точці або завдання пакетного перетворення.

Ноутбуки SageMaker Data Wrangler

Для підходу з першим кодом для генерування артефакту висновку з завдання обробки ми можемо знайти приклад коду, вибравши Експортувати в у меню вузла та вибравши будь-який з них Amazon S3, Трубопроводи SageMakerабо Конвеєр висновків SageMaker. Вибираємо Конвеєр висновків SageMaker у цьому прикладі.

Конвеєр висновків SageMaker

У цьому зошиті є розділ під назвою Створення процесора (це ідентично в ноутбуці SageMaker Pipelines, але в ноутбуці Amazon S3 еквівалентний код буде під Конфігурації завдань розділ). У нижній частині цього розділу знаходиться конфігурація для нашого артефакту висновку під назвою inference_params. Він містить ту саму інформацію, яку ми бачили в інтерфейсі користувача, а саме назву артефакту висновку та вихідний вузол висновку. Ці значення будуть попередньо заповнені, але їх можна змінити. Додатково є параметр, який називається use_inference_params, який потрібно встановити True використовувати цю конфігурацію в завданні обробки.

Конфігурація висновку

Нижче знаходиться розділ під назвою Визначте кроки трубопроводу, Де inference_params конфігурація додається до списку аргументів завдання та передається у визначення кроку обробки SageMaker Data Wrangler. У ноутбуці Amazon S3 job_arguments визначається відразу після Конфігурації завдань .

Створіть конвеєр SageMaker

За допомогою цих простих конфігурацій завдання обробки, створене цим записником, створить артефакт висновку в тому самому місці S3, що й наш файл потоку (визначений раніше в нашому блокноті). Ми можемо програмно визначити це розташування S3 і використати цей артефакт для створення моделі SageMaker за допомогою SageMaker Python SDK, який демонструється в блокноті SageMaker Inference Pipeline.

Такий самий підхід можна застосувати до будь-якого коду Python, який створює завдання обробки SageMaker Data Wrangler.

Підтримка формату файлу JSON для введення та виведення під час висновку

Веб-сайти та програми досить часто використовують JSON як запит/відповідь для API, щоб інформацію було легко аналізувати різними мовами програмування.

Раніше, коли у вас була навчена модель, ви могли взаємодіяти з нею лише через CSV як формат введення в конвеєрі виводу SageMaker Data Wrangler. Сьогодні ви можете використовувати JSON як формат введення та виведення, забезпечуючи більшу гнучкість під час взаємодії з контейнерами висновків SageMaker Data Wrangler.

Щоб почати використовувати JSON для введення та виведення в блокноті конвеєра виведення, виконайте такі дії:

Визначте корисне навантаження.

Для кожного корисного навантаження модель очікує ключ з іменами екземплярів. Значення — це список об’єктів, кожен з яких є окремою точкою даних. Для об’єктів потрібен ключ, який називається функціями, а значення мають бути характеристиками однієї точки даних, які мають бути представлені в моделі. В одному запиті можна надіслати кілька точок даних із загальним розміром до 6 МБ на запит.

Дивіться наступний код:

sample_record_payload = json.dumps
( { "instances":[ {"features":["This is the best", "I'd use this product twice a day every day if I could. it's the best ever"] } ] }
)

вкажіть ContentType as application/json.
Надайте дані моделі та отримуйте висновки у форматі JSON.

Читати Загальні формати даних для висновків для зразків введення та виведення прикладів JSON.

Прибирати

Коли ви закінчите використовувати SageMaker Data Wrangler, ми рекомендуємо вимкнути екземпляр, на якому він працює, щоб уникнути додаткових витрат. Інструкції щодо завершення роботи програми SageMaker Data Wrangler і пов’язаного з нею екземпляра див Завершіть роботу Data Wrangler.

Висновок

Нові функції SageMaker Data Wrangler, включаючи підтримку файлів маніфесту S3, можливості логічного висновку та інтеграцію формату JSON, змінюють досвід роботи з підготовкою даних. Ці вдосконалення спрощують імпорт даних, автоматизують перетворення даних і спрощують роботу з даними JSON. За допомогою цих функцій ви можете підвищити ефективність роботи, зменшити ручне зусилля та з легкістю отримувати цінну інформацію зі своїх даних. Скористайтеся потужністю нових функцій SageMaker Data Wrangler і розкрийте весь потенціал робочих процесів підготовки даних.

Щоб розпочати роботу з SageMaker Data Wrangler, перегляньте останню інформацію на Сторінка продукту SageMaker Data Wrangler.

Про авторів

Муніш Дабра є головним архітектором рішень в Amazon Web Services (AWS). Зараз він зосереджується на ШІ/ML і спостережливості. Він має великий досвід у проектуванні та створенні масштабованих розподілених систем. Йому подобається допомагати клієнтам впроваджувати інновації та трансформувати свій бізнес у AWS. LinkedIn: /mdabra

Оптимізуйте підготовку даних за допомогою нових функцій в AWS SageMaker Data Wrangler | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Патрік Лін є інженером з розробки програмного забезпечення в Amazon SageMaker Data Wrangler. Він прагне зробити Amazon SageMaker Data Wrangler інструментом номер один для підготовки даних для робочих процесів машинного навчання. Поза роботою його можна побачити, як він читає, слухає музику, розмовляє з друзями та служить у своїй церкві.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. Автомобільні / електромобілі, вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
BlockOffsets. Модернізація екологічної компенсаційної власності. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/optimize-data-preparation-with-new-features-in-aws-sagemaker-data-wrangler/

Часова мітка: Серпень 4, 2023

Часова мітка: Лютий 13, 2024

Збережіть дату: приєднайтеся до AWS на NVIDIA GTC, 19–22 вересня

Кластер джерел:

AWS Машинне навчання

Вихідний вузол: 1662304

Часова мітка: Вересень 12, 2022

Перевидано Платоном

Проектування стійких міст в Arup за допомогою геопросторових можливостей Amazon SageMaker | Веб-сервіси Amazon

Просте й точне прогнозування за допомогою AutoGluon-TimeSeries

Збережіть дату: приєднайтеся до AWS на NVIDIA GTC, 19–22 вересня

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки