Підготовка даних є критично важливим етапом у будь-якому керованому даними проекті, і наявність правильних інструментів може значно підвищити ефективність роботи. Amazon SageMaker Data Wrangler скорочує час, необхідний для агрегування та підготовки табличних і графічних даних для машинного навчання (ML), з тижнів до хвилин. За допомогою SageMaker Data Wrangler ви можете спростити процес підготовки даних і розробки функцій, а також завершити кожен етап робочого процесу підготовки даних, включаючи вибір, очищення, дослідження та візуалізацію за допомогою єдиного візуального інтерфейсу.
У цій публікації ми досліджуємо найновіші функції SageMaker Data Wrangler, спеціально розроблені для покращення роботи. Ми вникаємо в підтримку Проста служба зберігання (Amazon S3) проявляється файли, артефакти висновку в інтерактивному потоці даних і бездоганну інтеграцію з JSON (нотація об'єктів JavaScript) формат для висновків, підкреслюючи, як ці вдосконалення роблять підготовку даних легшою та ефективнішою.
Представляємо нові функції
У цьому розділі ми обговорюємо нові функції SageMaker Data Wrangler для оптимальної підготовки даних.
Підтримка файлу маніфесту S3 із автопілотом SageMaker для висновків ML
SageMaker Data Wrangler дозволяє a уніфікована підготовка даних і навчання моделі досвід роботи з Автопілот Amazon SageMaker всього за кілька кліків. Ви можете використовувати SageMaker Autopilot для автоматичного навчання, налаштування та розгортання моделей на даних, які ви трансформували у своєму потоці даних.
Цей досвід тепер ще більше спрощено завдяки підтримці файлу маніфесту S3. Файл маніфесту S3 — це текстовий файл, який містить список об’єктів (файлів), що зберігаються у сегменті S3. Якщо ваш експортований набір даних у SageMaker Data Wrangler досить великий і розбитий на кілька частин файлів даних в Amazon S3, тепер SageMaker Data Wrangler автоматично створить файл маніфесту в S3, який представлятиме всі ці файли даних. Цей створений файл маніфесту тепер можна використовувати з інтерфейсом користувача SageMaker Autopilot у SageMaker Data Wrangler, щоб зібрати всі розділені дані для навчання.
До запуску цієї функції під час використання моделей SageMaker Autopilot, навчених на підготовлених даних із SageMaker Data Wrangler, ви могли вибрати лише один файл даних, який міг не представляти весь набір даних, особливо якщо набір даних дуже великий. Завдяки цьому новому файлу маніфесту ви не обмежені підмножиною свого набору даних. Ви можете побудувати модель ML за допомогою SageMaker Autopilot, представляючи всі ваші дані за допомогою файлу маніфесту, і використовувати його для висновків ML і розгортання виробництва. Ця функція підвищує операційну ефективність, спрощуючи навчання моделей ML за допомогою SageMaker Autopilot і оптимізуючи робочі процеси обробки даних.
Додано підтримку потоку висновків у згенерованих артефактах
Клієнти хочуть використати перетворення даних, які вони застосували до своїх навчальних даних моделі, як-от одноразове кодування, PCA, і імпутувати відсутні значення, і застосувати ці перетворення даних до висновків у реальному часі або пакетного висновку у виробництві. Для цього ви повинні мати артефакт висновку SageMaker Data Wrangler, який споживається моделлю SageMaker.
Раніше артефакти логічного висновку можна було генерувати лише з інтерфейсу користувача під час експорту до навчання SageMaker Autopilot або експорту блокнота конвеєрного висновку. Це не забезпечувало гнучкості, якщо ви хотіли вивести потоки SageMaker Data Wrangler за межі Студія Amazon SageMaker навколишнє середовище. Тепер ви можете створити артефакт висновку для будь-якого сумісного файлу потоку за допомогою завдання обробки SageMaker Data Wrangler. Це дає змогу програмувати наскрізні MLOps із потоками SageMaker Data Wrangler для персон MLOps, які спочатку створюють код, а також інтуїтивно зрозумілий шлях без коду для отримання артефакту висновку шляхом створення завдання з інтерфейсу користувача.
Оптимізація підготовки даних
JSON став широко поширеним форматом для обміну даними в сучасних екосистемах даних. Інтеграція SageMaker Data Wrangler із форматом JSON дозволяє легко обробляти дані JSON для трансформації та очищення. Забезпечуючи вбудовану підтримку JSON, SageMaker Data Wrangler спрощує процес роботи зі структурованими та напівструктурованими даними, дозволяючи отримувати цінну інформацію та ефективно готувати дані. SageMaker Data Wrangler тепер підтримує формат JSON як для пакетного розгортання кінцевої точки, так і для розгортання висновків у реальному часі.
Огляд рішення
Для нашого випадку використання ми використовуємо зразок Набір даних відгуків клієнтів Amazon щоб показати, як SageMaker Data Wrangler може спростити операційну роботу зі створення нової моделі ML за допомогою SageMaker Autopilot. Набір даних відгуків клієнтів Amazon містить огляди продуктів і метадані Amazon, включаючи 142.8 мільйона відгуків за період з травня 1996 року по липень 2014 року.
На високому рівні ми використовуємо SageMaker Data Wrangler для керування цим великим набором даних і виконання таких дій:
- Розробіть модель ML у SageMaker Autopilot, використовуючи весь набір даних, а не лише зразок.
- Створіть конвеєр виведення в реальному часі з артефактом виведення, згенерованим SageMaker Data Wrangler, і використовуйте форматування JSON для введення та виведення.
Підтримка файлів маніфесту S3 за допомогою SageMaker Autopilot
Створюючи експеримент SageMaker Autopilot за допомогою SageMaker Data Wrangler, раніше можна було вказати лише один файл CSV або Parquet. Тепер ви також можете використовувати файл маніфесту S3, що дозволяє використовувати великі обсяги даних для експериментів SageMaker Autopilot. SageMaker Data Wrangler автоматично розділить файли вхідних даних на кілька менших файлів і створить маніфест, який можна використовувати в експерименті SageMaker Autopilot, щоб отримати всі дані з інтерактивного сеансу, а не лише невелику вибірку.
Виконайте такі дії:
- Імпортуйте дані відгуків клієнтів Amazon із файлу CSV у SageMaker Data Wrangler. Обов’язково вимкніть вибірку під час імпорту даних.
- Вкажіть перетворення, які нормалізують дані. Для цього прикладу видаліть символи та перетворите все на малі літери за допомогою вбудованих перетворень SageMaker Data Wrangler.
- Вибирати Модель потяга щоб почати навчання.
Щоб навчити модель за допомогою SageMaker Autopilot, SageMaker автоматично експортує дані до сегмента S3. Для таких великих наборів даних, як цей, він автоматично розбиває файл на менші файли та створює маніфест, який містить розташування менших файлів.
- Спочатку виберіть вхідні дані.
Раніше SageMaker Data Wrangler не мав можливості створити файл маніфесту для використання з SageMaker Autopilot. Сьогодні, після випуску підтримки файлів маніфесту, SageMaker Data Wrangler автоматично експортує файл маніфесту в Amazon S3, попередньо заповнить розташування S3 для навчання SageMaker Autopilot розташуванням файлу маніфесту S3 і перемкне параметр файлу маніфесту на Так. Для створення або використання файлу маніфесту не потрібно працювати.
- Налаштуйте свій експеримент, вибравши ціль для моделі для прогнозування.
- Далі виберіть метод навчання. У цьому випадку ми вибираємо Авто і дозвольте SageMaker Autopilot вибрати найкращий метод навчання на основі розміру набору даних.
- Вкажіть параметри розгортання.
- Нарешті, перегляньте конфігурацію завдання та надішліть експеримент SageMaker Autopilot для навчання. Коли SageMaker Autopilot завершить експеримент, ви зможете переглянути результати навчання та дослідити найкращу модель.
Завдяки підтримці файлів маніфесту ви можете використовувати весь набір даних для експерименту SageMaker Autopilot, а не лише частину даних.
Щоб отримати додаткові відомості про використання SageMaker Autopilot із SageMaker Data Wrangler, див Уніфікована підготовка даних і навчання моделі за допомогою Amazon SageMaker Data Wrangler і Amazon SageMaker Autopilot.
Створюйте артефакти висновків із завдань обробки SageMaker
Тепер давайте розглянемо, як ми можемо генерувати артефакти висновків за допомогою інтерфейсу користувача SageMaker Data Wrangler і блокнотів SageMaker Data Wrangler.
Інтерфейс SageMaker Data Wrangler
Для нашого випадку використання ми хочемо обробити наші дані через інтерфейс користувача, а потім використати отримані дані для навчання та розгортання моделі через консоль SageMaker. Виконайте наступні дії:
- Відкрийте потік даних, створений у попередньому розділі.
- Виберіть знак плюс біля останнього перетворення, виберіть Додати пункт призначення, і вибрати Amazon S3. Тут будуть зберігатися оброблені дані.
- Вибирати Створити роботу.
- Select Створення артефактів висновків у розділі Параметри висновку, щоб створити артефакт висновку.
- Для назви артефакту виводу введіть назву артефакту виводу (з розширенням файлу .tar.gz).
- Для вихідного вузла Inference введіть вузол призначення, який відповідає перетворенням, застосованим до ваших навчальних даних.
- Вибирати Налаштувати завдання.
- під Конфігурація роботи, введіть шлях для Розташування файлу потоку S3. Папка називається
data_wrangler_flows
буде створено в цьому місці, а артефакт висновку буде завантажено в цю папку. Щоб змінити місце завантаження, установіть інше місце S3. - Залиште значення за замовчуванням для всіх інших параметрів і виберіть Створювати щоб створити завдання обробки.
Завдання обробки створить atarball (.tar.gz)
містить змінений файл потоку даних із нещодавно доданим розділом висновків, який дозволяє використовувати його для висновків. Вам потрібен уніфікований ідентифікатор ресурсу S3 (URI) артефакту логічного висновку, щоб надати артефакт моделі SageMaker під час розгортання вашого рішення логічного висновку. URI буде у формі{Flow file S3 location}/data_wrangler_flows/{inference artifact name}.tar.gz
. - Якщо ви не занотували ці значення раніше, ви можете вибрати посилання на завдання обробки, щоб знайти відповідні деталі. У нашому прикладі це URI
s3://sagemaker-us-east-1-43257985977/data_wrangler_flows/example-2023-05-30T12-20-18.tar.gz.
- Скопіюйте значення Обробка зображення; нам також потрібен цей URI під час створення нашої моделі.
- Тепер ми можемо використовувати цей URI для створення моделі SageMaker на консолі SageMaker, яку пізніше можемо розгорнути в кінцевій точці або в завданні пакетного перетворення.
- під Параметри моделі¸ введіть назву моделі та вкажіть свою роль IAM.
- для Параметри введення контейнеравиберіть Надайте артефакти моделі та розташування вихідного зображення.
- для Розташування зображення коду висновку, введіть URI зображення обробки.
- для Розташування артефактів моделі, введіть URI артефакту висновку.
- Крім того, якщо ваші дані мають цільовий стовпець, який буде передбачено навченою моделлю ML, укажіть назву цього стовпця в Змінні середовища, С
INFERENCE_TARGET_COLUMN_NAME
as ключ і назву стовпця як значення. - Завершіть створення моделі вибором Створити модель.
Тепер у нас є модель, яку ми можемо розгорнути в кінцевій точці або завдання пакетного перетворення.
Ноутбуки SageMaker Data Wrangler
Для підходу з першим кодом для генерування артефакту висновку з завдання обробки ми можемо знайти приклад коду, вибравши Експортувати в у меню вузла та вибравши будь-який з них Amazon S3, Трубопроводи SageMakerабо Конвеєр висновків SageMaker. Вибираємо Конвеєр висновків SageMaker у цьому прикладі.
У цьому зошиті є розділ під назвою Створення процесора (це ідентично в ноутбуці SageMaker Pipelines, але в ноутбуці Amazon S3 еквівалентний код буде під Конфігурації завдань розділ). У нижній частині цього розділу знаходиться конфігурація для нашого артефакту висновку під назвою inference_params
. Він містить ту саму інформацію, яку ми бачили в інтерфейсі користувача, а саме назву артефакту висновку та вихідний вузол висновку. Ці значення будуть попередньо заповнені, але їх можна змінити. Додатково є параметр, який називається use_inference_params
, який потрібно встановити True
використовувати цю конфігурацію в завданні обробки.
Нижче знаходиться розділ під назвою Визначте кроки трубопроводу, Де inference_params
конфігурація додається до списку аргументів завдання та передається у визначення кроку обробки SageMaker Data Wrangler. У ноутбуці Amazon S3 job_arguments
визначається відразу після Конфігурації завдань .
За допомогою цих простих конфігурацій завдання обробки, створене цим записником, створить артефакт висновку в тому самому місці S3, що й наш файл потоку (визначений раніше в нашому блокноті). Ми можемо програмно визначити це розташування S3 і використати цей артефакт для створення моделі SageMaker за допомогою SageMaker Python SDK, який демонструється в блокноті SageMaker Inference Pipeline.
Такий самий підхід можна застосувати до будь-якого коду Python, який створює завдання обробки SageMaker Data Wrangler.
Підтримка формату файлу JSON для введення та виведення під час висновку
Веб-сайти та програми досить часто використовують JSON як запит/відповідь для API, щоб інформацію було легко аналізувати різними мовами програмування.
Раніше, коли у вас була навчена модель, ви могли взаємодіяти з нею лише через CSV як формат введення в конвеєрі виводу SageMaker Data Wrangler. Сьогодні ви можете використовувати JSON як формат введення та виведення, забезпечуючи більшу гнучкість під час взаємодії з контейнерами висновків SageMaker Data Wrangler.
Щоб почати використовувати JSON для введення та виведення в блокноті конвеєра виведення, виконайте такі дії:
- Визначте корисне навантаження.
Для кожного корисного навантаження модель очікує ключ з іменами екземплярів. Значення — це список об’єктів, кожен з яких є окремою точкою даних. Для об’єктів потрібен ключ, який називається функціями, а значення мають бути характеристиками однієї точки даних, які мають бути представлені в моделі. В одному запиті можна надіслати кілька точок даних із загальним розміром до 6 МБ на запит.
Дивіться наступний код:
- вкажіть
ContentType
asapplication/json
. - Надайте дані моделі та отримуйте висновки у форматі JSON.
Читати Загальні формати даних для висновків для зразків введення та виведення прикладів JSON.
Прибирати
Коли ви закінчите використовувати SageMaker Data Wrangler, ми рекомендуємо вимкнути екземпляр, на якому він працює, щоб уникнути додаткових витрат. Інструкції щодо завершення роботи програми SageMaker Data Wrangler і пов’язаного з нею екземпляра див Завершіть роботу Data Wrangler.
Висновок
Нові функції SageMaker Data Wrangler, включаючи підтримку файлів маніфесту S3, можливості логічного висновку та інтеграцію формату JSON, змінюють досвід роботи з підготовкою даних. Ці вдосконалення спрощують імпорт даних, автоматизують перетворення даних і спрощують роботу з даними JSON. За допомогою цих функцій ви можете підвищити ефективність роботи, зменшити ручне зусилля та з легкістю отримувати цінну інформацію зі своїх даних. Скористайтеся потужністю нових функцій SageMaker Data Wrangler і розкрийте весь потенціал робочих процесів підготовки даних.
Щоб розпочати роботу з SageMaker Data Wrangler, перегляньте останню інформацію на Сторінка продукту SageMaker Data Wrangler.
Про авторів
Муніш Дабра є головним архітектором рішень в Amazon Web Services (AWS). Зараз він зосереджується на ШІ/ML і спостережливості. Він має великий досвід у проектуванні та створенні масштабованих розподілених систем. Йому подобається допомагати клієнтам впроваджувати інновації та трансформувати свій бізнес у AWS. LinkedIn: /mdabra
Патрік Лін є інженером з розробки програмного забезпечення в Amazon SageMaker Data Wrangler. Він прагне зробити Amazon SageMaker Data Wrangler інструментом номер один для підготовки даних для робочих процесів машинного навчання. Поза роботою його можна побачити, як він читає, слухає музику, розмовляє з друзями та служить у своїй церкві.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. Автомобільні / електромобілі, вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- BlockOffsets. Модернізація екологічної компенсаційної власності. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/optimize-data-preparation-with-new-features-in-aws-sagemaker-data-wrangler/
- : має
- :є
- : ні
- :де
- $UP
- 100
- 1996
- 2014
- 7
- 8
- 9
- a
- дії
- доданий
- Додатковий
- Додатково
- прийнята
- після
- AI / ML
- ВСІ
- Дозволити
- дозволяє
- Також
- Amazon
- Amazon SageMaker
- Автопілот Amazon SageMaker
- Amazon SageMaker Data Wrangler
- Amazon Web Services
- Веб-служби Amazon (AWS)
- суми
- an
- та
- будь-який
- Інтерфейси
- додаток
- застосування
- прикладної
- Застосовувати
- підхід
- ЕСТЬ
- області
- аргументація
- AS
- асоційований
- At
- автоматизувати
- автоматично
- уникнути
- AWS
- фон
- заснований
- BE
- ставати
- буття
- КРАЩЕ
- Великий
- обидва
- дно
- Перерва
- будувати
- Створюємо
- вбудований
- бізнес
- але
- by
- званий
- CAN
- можливості
- випадок
- зміна
- вантажі
- перевірка
- Вибирати
- Вибираючи
- церква
- Очищення
- код
- Колонка
- вчинено
- загальний
- сумісний
- повний
- Завершує
- конфігурація
- Консоль
- спожитий
- Контейнери
- містить
- розмови
- Відповідний
- може
- створювати
- створений
- створює
- створення
- критичний
- Поточний
- клієнт
- Клієнти
- дані
- Обмін даними
- точки даних
- Підготовка даних
- обробка даних
- керовані даними
- набори даних
- день
- вирішувати
- за замовчуванням
- певний
- визначення
- заглиблюватися
- продемонстрований
- розгортання
- розгортання
- розгортання
- призначений
- проектування
- призначення
- деталі
- Визначати
- розробка
- різний
- обговорювати
- розподілений
- розподілені системи
- do
- вниз
- під час
- кожен
- Раніше
- простота
- легше
- легко
- екосистеми
- ефективність
- ефективний
- продуктивно
- зусилля
- або
- обійняти
- дозволяє
- дозволяє
- кінець в кінець
- Кінцева точка
- інженер
- Машинобудування
- підвищувати
- Удосконалення
- Підсилює
- Що натомість? Створіть віртуальну версію себе у
- Весь
- Навколишнє середовище
- Еквівалент
- особливо
- НІКОЛИ
- Кожен
- кожен день
- все
- приклад
- Приклади
- обмін
- очікував
- досвід
- експеримент
- Експерименти
- дослідження
- дослідити
- експорт
- експорт
- розширення
- витяг
- особливість
- риси
- кілька
- філе
- Файли
- знайти
- Гнучкість
- потік
- Потоки
- Сфокусувати
- стежити
- після
- для
- форма
- формат
- друзі
- від
- Повний
- далі
- породжувати
- генерується
- отримати
- значно
- було
- обробляти
- Мати
- має
- he
- допомогу
- Високий
- виділивши
- його
- його
- Як
- How To
- HTML
- HTTPS
- i
- однаковий
- ідентифікатор
- if
- зображення
- негайно
- імпорт
- імпорт
- удосконалювати
- in
- includes
- У тому числі
- інформація
- оновлювати
- вхід
- розуміння
- екземпляр
- інструкції
- інтеграція
- призначених
- взаємодіяти
- взаємодіючих
- інтерактивний
- інтерфейс
- в
- інтуїтивний
- IT
- ЙОГО
- JavaScript
- робота
- JPG
- json
- липень
- просто
- ключ
- мови
- великий
- останній
- пізніше
- останній
- запуск
- вивчення
- дозволяти
- рівень
- як
- обмеженою
- LINK
- список
- Прослуховування
- списки
- розташування
- подивитися
- машина
- навчання за допомогою машини
- зробити
- Робить
- управляти
- керівництво
- Може..
- Меню
- метадані
- метод
- може бути
- мільйона
- хвилин
- відсутній
- ML
- MLOps
- модель
- Моделі
- сучасний
- модифікований
- більше
- більш ефективний
- множинний
- музика
- повинен
- ім'я
- Названий
- а саме
- рідний
- необхідно
- Необхідність
- потреби
- Нові
- Нові можливості
- нещодавно
- наступний
- немає
- вузол
- ноутбук
- зараз
- номер
- об'єкт
- об'єкти
- of
- on
- ONE
- тільки
- оперативний
- оптимальний
- Оптимізувати
- варіант
- Опції
- or
- Інше
- наші
- з
- вихід
- поза
- власний
- параметр
- параметри
- Пройшов
- шлях
- для
- Виконувати
- вибирати
- трубопровід
- plato
- Інформація про дані Платона
- PlatoData
- плюс
- точка
- точок
- пошта
- потенціал
- влада
- передбачати
- передвіщений
- підготовка
- Готувати
- підготовлений
- досить
- раніше
- Головний
- процес
- Оброблено
- обробка
- Product
- Відгуки про товар
- Production
- програмний
- Програмування
- мови програмування
- проект
- забезпечувати
- забезпечення
- Python
- читання
- реального часу
- отримати
- рекомендувати
- зменшити
- знижує
- звільнити
- доречний
- видаляти
- представляти
- представляє
- запросити
- вимагати
- ресурс
- в результаті
- результати
- огляд
- Відгуки
- право
- Роль
- пробіжки
- s
- мудрець
- Висновок SageMaker
- Трубопроводи SageMaker
- то ж
- бачив
- масштабовані
- безшовні
- плавно
- розділ
- побачити
- вибирає
- вибір
- Послуги
- виступаючої
- Сесія
- комплект
- налаштування
- кілька
- Повинен
- Показувати
- Вимикати
- підпис
- простий
- спрощений
- спростити
- спрощення
- один
- Розмір
- невеликий
- менше
- So
- Софтвер
- розробка програмного забезпечення
- рішення
- Рішення
- конкретно
- розкол
- старт
- почалася
- Крок
- заходи
- зберігання
- зберігати
- раціоналізувати
- упорядкування
- сильний
- структурований
- представляти
- представлений
- такі
- підтримка
- Опори
- Переконайтеся
- Systems
- Приймати
- приймає
- Мета
- Що
- Команда
- інформація
- їх
- потім
- Там.
- Ці
- це
- ті
- через
- час
- під назвою
- до
- сьогодні
- занадто
- інструмент
- інструменти
- Усього:
- поїзд
- навчений
- Навчання
- Перетворення
- Перетворення
- перетворень
- перетворений
- перетворення
- Двічі
- ui
- при
- відімкнути
- завантажено
- використання
- використання випадку
- використовуваний
- використання
- Цінний
- значення
- Цінності
- дуже
- через
- вид
- візуалізації
- хотіти
- хотів
- we
- Web
- веб-сервіси
- веб-сайти
- тижня
- ДОБРЕ
- коли
- який
- широко
- волі
- з
- Work
- робочий
- Робочі процеси
- робочий
- Ти
- вашу
- зефірнет