Відновіть навчені параметри на великих наборах даних за допомогою Amazon SageMaker Data Wrangler

Перевидано Платоном

читають: 0

Amazon SageMaker Data Wrangler допомагає зрозуміти, агрегувати, трансформувати та готувати дані для машинного навчання (ML) за допомогою єдиного візуального інтерфейсу. Він містить понад 300 вбудованих перетворень даних, тож ви можете швидко нормалізувати, трансформувати та комбінувати функції без необхідності писати код.

Фахівці, які займаються наукою про дані, створюють, спостерігають і обробляють дані для вирішення бізнес-завдань, коли їм потрібно трансформувати та витягувати функції з наборів даних. Трансформації, такі як порядкове кодування або однооперативне кодування, вивчають кодування на вашому наборі даних. Ці закодовані виходи називаються навченими параметрами. Оскільки набори даних змінюються з часом, може знадобитися змінити кодування раніше невидимих даних, щоб забезпечити релевантність потоку перетворення для ваших даних.

Ми раді оголосити про функцію перевстановлення навчених параметрів, яка дозволяє використовувати попередні навчені параметри та переналаштовувати їх за бажанням. У цій публікації ми покажемо, як використовувати цю функцію.

Огляд функції оновлення Data Wrangler

Ми проілюструємо, як працює ця функція, на наступному прикладі, перш ніж зануритися в специфіку функції параметрів, навчених переналаштуванням.

Припустімо, що ваш набір даних клієнтів має категориальну ознаку для country представлені у вигляді рядків Australia та Singapore. Алгоритми ML вимагають числового введення; отже, ці категоричні значення мають бути закодовані в числові значення. Кодування категоріальних даних — це процес створення числового представлення категорій. Наприклад, якщо країна вашої категорії має значення Australia та Singapore, ви можете закодувати цю інформацію у два вектори: [1, 0] для представлення Australia і [0, 1] для представлення Singapore. Перетворення, яке використовується тут, є одноразовим кодуванням, а новий закодований вихід відображає навчені параметри.

Після навчання моделі з часом кількість ваших клієнтів може збільшитися, а у списку країн ви матимете більше чітких цінностей. Новий набір даних може містити іншу категорію, India, який не був частиною вихідного набору даних, що може вплинути на точність моделі. Тому необхідно перенавчити вашу модель новими даними, які були зібрані з часом.

Щоб подолати цю проблему, вам потрібно оновити кодування, щоб включити нову категорію та оновити векторне представлення відповідно до вашого останнього набору даних. У нашому прикладі кодування має відображати нову категорію для country, Яка є India. Ми зазвичай називаємо цей процес оновлення кодування операцією підгонки. Після того, як ви виконаєте операцію зміни, ви отримаєте нове кодування: Australia: [1, 0, 0], Singapore: [0, 1, 0] і India: [0, 0, 1]. Перевстановлення одноразового кодування, а потім повторне навчання моделі на новому наборі даних призводить до кращої якості прогнозів.

Функція навчених параметрів у Data Wrangler корисна в таких випадках:

До набору даних додаються нові дані – Повторне навчання моделі ML необхідне, коли набір даних збагачується новими даними. Щоб досягти оптимальних результатів, нам потрібно змінити навчені параметри на новий набір даних.
Навчання на повному наборі даних після виконання проектування функцій на зразках даних – Для великого набору даних зразок набору даних розглядається для вивчення навчених параметрів, які можуть не відображати весь набір даних. Нам потрібно заново вивчити навчені параметри на повному наборі даних.

Нижче наведено деякі з найпоширеніших перетворень Data Wrangler, які виконуються на наборі даних, які виграють від опції навченого параметра:

Додаткову інформацію про перетворення в Data Wrangler див Перетворення даних.

У цій публікації ми покажемо, як обробляти ці навчені параметри в наборах даних за допомогою Data Wrangler. Ви можете використовувати потоки Data Wrangler у виробничих завданнях, щоб повторно обробляти свої дані, коли вони зростають і змінюються.

Огляд рішення

У цій публікації ми демонструємо, як використовувати функцію навчених параметрів Data Wrangler із загальнодоступним набором даних на Згорнути: Дані про житло в США від Zillow, Продаж нерухомості в Сполучених Штатах. Він містить ціни продажу будинків у різних географічних розподілах будинків.

На наведеній нижче діаграмі показано високорівневу архітектуру Data Wrangler із використанням функції навчених параметрів. Ми також показуємо вплив на якість даних без навченого параметра перепідготовки та порівнюємо результати в кінці.

Робочий процес включає наступні кроки:

Виконайте пошуковий аналіз даних – Створіть новий потік у Data Wrangler, щоб розпочати пошуковий аналіз даних (EDA). Імпортуйте бізнес-дані, щоб зрозуміти, очистити, агрегувати, трансформувати та підготувати ваші дані для навчання. Звертатися до Дослідіть можливості Amazon SageMaker Data Wrangler за допомогою зразків наборів даних щоб дізнатися більше про виконання EDA за допомогою Data Wrangler.
Створіть завдання обробки даних – Цей крок експортує всі перетворення, які ви зробили в наборі даних, як файл потоку, що зберігається в конфігурації Служба простого зберігання Amazon (Amazon S3) розташування. Завдання обробки даних із файлом потоку, створеним Data Wrangler, застосовує перетворення та навчені параметри, отримані у вашому наборі даних. Коли завдання обробки даних завершено, вихідні файли завантажуються в розташування Amazon S3, налаштоване в цільовому вузлі. Зауважте, що опція ремонту вимкнена за замовчуванням. Як альтернативу миттєвому виконанню завдання обробки ви також можете запланувати завдання обробки кількома клацаннями миші за допомогою Data Wrangler – створити завдання для виконання в певний час.
Створіть завдання обробки даних за допомогою функції налаштованих параметрів – Виберіть нову функцію налаштування навчених параметрів під час створення завдання, щоб змусити повторне вивчення ваших навчених параметрів у вашому повному або посиленому наборі даних. Згідно з конфігурацією розташування Amazon S3 для зберігання файлу потоку, завдання обробки даних створює або оновлює новий файл потоку. Якщо ви налаштуєте те саме розташування Amazon S3, що й на кроці 2, завдання обробки даних оновить файл потоку, створений на кроці 2, який можна використовувати, щоб ваш потік відповідав вашим даним. Після завершення завдання обробки вихідні файли завантажуються до вузла призначення, налаштованого відра S3. Ви можете використовувати оновлений потік для всього набору даних для робочого процесу виробництва.

Передумови

Перш ніж почати, завантажте набір даних у сегмент S3, а потім імпортуйте його в Data Wrangler. Інструкції див Імпортуйте дані з Amazon S3.

Давайте тепер пройдемося по кроках, згаданих у діаграмі архітектури.

Виконайте EDA в Data Wrangler

Щоб випробувати функцію навченого параметра перепідготовки, налаштуйте такий аналіз і перетворення в Data Wrangler. Наприкінці налаштування EDA Data Wrangler створює файл потоку, який містить навчені параметри з набору даних.

Створіть новий потік в Amazon SageMaker Data Wrangler для дослідницького аналізу даних.
Імпортуйте бізнес-дані, які ви завантажили в Amazon S3.
Ви можете попередньо переглянути дані та параметри вибору типу файлу, розділювача, вибірки тощо. Для цього прикладу ми використовуємо Перший К параметр вибірки, наданий Data Wrangler для імпорту перших 50,000 XNUMX записів із набору даних.
Вибирати Імпортувати.

Відновіть навчені параметри на великих наборах даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Перевіривши відповідність типу даних, застосовану Data Wrangler, додайте новий аналіз.

для Тип аналізувиберіть Звіт про якість даних і статистику.
Вибирати Створювати.

За допомогою звіту про якість даних і статистики ви отримуєте короткий підсумок набору даних із загальною інформацією, такою як відсутні значення, недійсні значення, типи функцій, кількість викидів тощо. Ви можете вибрати функції property_type та city для застосування перетворень до набору даних, щоб зрозуміти функцію навченого параметра.

Зупинимося на особливості property_type з набору даних. У звіті Подробиці функції розділ, ви можете побачити property_type, що є категоричною ознакою, і шість унікальних значень, отриманих із 50,000 XNUMX вибіркових наборів даних Data Wrangler. Повний набір даних може мати більше категорій для функції property_type. Для функції з багатьма унікальними значеннями ви можете віддати перевагу порядковому кодуванню. Якщо функція має кілька унікальних значень, можна використовувати підхід кодування з одним оперативним кодуванням. Для цього прикладу ми вибираємо ввімкнене однооперативне кодування property_type.

Так само для city функція, яка є текстовим типом даних із великою кількістю унікальних значень, застосуємо до цієї функції порядкове кодування.

Перейдіть до потоку Data Wrangler, виберіть знак плюс і виберіть Додати трансформацію.

Виберіть Закодувати категоричне варіант трансформації категоріальних ознак.

Зі Звіту про якість даних і аналізу, функція property_type показує шість унікальних категорій: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILY та TOWNHOUSE.

для Перетвореннявиберіть Одне гаряче кодування.

Після застосування одноразового кодування функції property_type, ви можете попередньо переглянути всі шість категорій як окремі функції, додані як нові стовпці. Зверніть увагу, що для створення цього попереднього перегляду з вашого набору даних було відібрано 50,000 XNUMX записів. Під час виконання завдання обробки Data Wrangler із цим потоком ці перетворення застосовуються до всього вашого набору даних.

Додайте нове перетворення та виберіть Закодувати категоричний щоб застосувати трансформацію до об’єкта city, який має більшу кількість унікальних категоріальних текстових значень.
Щоб закодувати цю функцію в числове представлення, виберіть Порядковий код та цінності Перетворення.

Виберіть «Попередній перегляд» цього перетворення.

Ви бачите, що категорична риса city зіставляється з порядковими значеннями у вихідному стовпці e_city.

Додайте цей крок, вибравши Оновити.

Ви можете встановити як місце призначення Amazon S3, щоб зберігати застосовані перетворення в наборі даних для створення вихідних даних у вигляді файлу CSV.

Data Wrangler зберігає робочий процес, який ви визначили в інтерфейсі користувача, як файл потоку та завантажує в розташування налаштованого завдання обробки даних Amazon S3. Цей файл потоку використовується, коли ви створюєте завдання обробки Data Wrangler для застосування перетворень до більших наборів даних або для перетворення нових даних посилення для повторного навчання моделі.

Запустіть завдання обробки даних Data Wrangler без увімкнутого оновлення

Тепер ви можете побачити, як опція доопрацювання використовує навчені параметри на нових наборах даних. Для цієї демонстрації ми визначаємо два завдання обробки Data Wrangler, які працюють з однаковими даними. Перше завдання обробки не дозволить виконати ремонт; для другого завдання обробки ми використовуємо refit. Ми порівнюємо ефекти в кінці.

Вибирати Створити роботу щоб ініціювати завдання обробки даних за допомогою Data Wrangler.

для Назва роботи, введіть ім'я.
під Навчені параметри, не вибирайте Refit.
Вибирати Налаштувати завдання.

Налаштуйте параметри завдання, як-от типи екземплярів, розмір тому та розташування Amazon S3 для зберігання файлу вихідного потоку.
Data Wrangler створює файл потоку в розташуванні файлу потоку S3. Потік використовує перетворення для навчання параметрів, а пізніше ми використовуємо параметр refit для повторного навчання цих параметрів.
Вибирати Створювати.

Зачекайте, доки завершиться завдання з обробки даних, щоб побачити перетворені дані в сегменті S3, налаштованому на вузлі призначення.

Запустіть завдання обробки даних Data Wrangler із увімкненим переналаштуванням

Давайте створимо інше завдання обробки з увімкненою функцією навченого параметра перепідготовки. Цей параметр примусово застосовує навчені параметри, які повторно вивчаються, для всього набору даних. Коли це завдання обробки даних завершено, файл потоку створюється або оновлюється до налаштованого розташування Amazon S3.

Вибирати Створити роботу.

для Назва роботи, введіть ім'я.
для Навчені параметривиберіть Refit.
Якщо ви обираєте Подивитись все, ви можете переглянути всі навчені параметри.

Вибирати Налаштувати завдання.
Введіть розташування файлу потоку Amazon S3.
Вибирати Створювати.

Дочекайтеся завершення обробки даних.

Зверніться до налаштованого сегмента S3 у цільовому вузлі, щоб переглянути дані, згенеровані завданням обробки даних, що виконує визначені перетворення.

Експорт у код Python для виконання завдань обробки Data Wrangler

Як альтернатива запуску завдань обробки за допомогою опції «Створити завдання» в Data Wrangler, ви можете запустити завдання обробки даних, експортувавши потік Data Wrangler у блокнот Jupyter. Data Wrangler створює блокнот Jupyter із входами, виходами, конфігураціями завдань обробки та кодом для перевірки стану завдань. Ви можете змінити або оновити параметри відповідно до ваших вимог до перетворення даних.

Виберіть знак плюс біля фіналу Перетворення вузол.
Вибирати Експорт щоб і Amazon S3 (через Jupyter Notebook).

Ви можете побачити відкритий блокнот Jupyter із входами, виходами, конфігураціями завдань обробки та кодом для перевірки стану завдань.

Щоб застосувати опцію навчених параметрів оновлення за допомогою коду, установіть refit параметр до True.

Порівняйте результати обробки даних

Після завершення завдань обробки Data Wrangler ви повинні створити два нових потоки Data Wrangler із результатами, згенерованими завданнями обробки даних, які зберігаються в налаштованому місці призначення Amazon S3.

Ви можете звернутися до налаштованого розташування в цільовій папці Amazon S3, щоб переглянути результати завдань обробки даних.

Щоб перевірити результати роботи з обробки, створіть два нових потоки Data Wrangler, використовуючи звіт про якість даних і статистику, щоб порівняти результати перетворення.

Створіть новий потік у Amazon SageMaker Data Wrangler.
Імпортуйте завдання обробки даних без вихідного файлу з підтримкою оновлення з Amazon S3.
Додайте новий аналіз.
для Тип аналізувиберіть Звіт про якість даних і статистику.
Вибирати Створювати.

Повторіть наведені вище кроки та створіть новий потік диспетчера даних, щоб проаналізувати результат завдання обробки даних із увімкненим переналаштуванням.

Тепер давайте подивимося на результати обробки завдань для функції property_type за допомогою звітів про якість даних і статистики. Перейдіть до відомостей про функцію в списку звітів про дані та статистику feature_type.

Завдання з обробки навчених параметрів перевстановило навчені параметри для всього набору даних і закодувало нове значення APARTMENT із сімома різними значеннями в повному наборі даних.

Звичайне завдання обробки застосовувало вибіркові навчені параметри набору даних, які мають лише шість різних значень для property_type функція. Для даних с feature_type APARTMENT, недійсна стратегія обробки Застосовується пропуск, і робота з обробки даних не вивчає цю нову категорію. Одночасне кодування пропустило цю нову категорію, наявну в нових даних, а кодування пропускає категорію APARTMENT.

Зупинимося на іншій функції, city. Завдання з обробки параметрів, навченого перепідготовкою, перевчило всі значення, доступні для city особливості, враховуючи нові дані.

Як показано в Підсумок характеристик розділі звіту, новий стовпець закодованої функції e_city має 100% дійсні параметри за допомогою функції налаштування навчених параметрів.

Навпаки, звичайне завдання обробки містить 82.4% відсутніх значень у новому закодованому стовпці ознак e_city. Це явище пов’язане з тим, що до повного набору даних застосовано лише вибірковий набір навчених навчених параметрів, а завдання з обробки даних не застосовує жодних змін.

Наступні гістограми зображують ознаку, закодовану порядковим номером e_city. Перша гістограма об'єкта, перетвореного за допомогою опції корекції.

Наступна гістограма – це об’єкт, перетворений без опції корекції. Помаранчевий стовпець показує відсутні значення (NaN) у звіті про якість даних і аналітичні дані. Нові значення, які не отримані з зразка набору даних, замінюються на значення Not a Number (NaN), як налаштовано в інтерфейсі користувача Data Wrangler недійсна стратегія обробки.

Завдання з обробки даних із навченим параметром переосвоєння перевивчено property_type та city функції з урахуванням нових значень із усього набору даних. Без навченого параметра перепідготовки завдання обробки даних використовує лише попередньо навчені параметри вибіркового набору даних. Потім він застосовує їх до нових даних, але нові значення не враховуються для кодування. Це вплине на точність моделі.

Прибирати

Коли ви не використовуєте Data Wrangler, важливо вимкнути екземпляр, на якому він працює, щоб уникнути додаткових зборів.

Щоб уникнути втрати роботи, збережіть потік даних, перш ніж вимикати Data Wrangler.

Щоб зберегти потік даних у Студія Amazon SageMakerвиберіть філе, Потім виберіть Збереження потоку даних Wrangler. Data Wrangler автоматично зберігає ваш потік даних кожні 60 секунд.
Щоб вимкнути екземпляр Data Wrangler, виберіть у Studio Запуск екземплярів та ядер.
під ЗАПУЩЕНІ ПРОГРАМИвиберіть піктограму завершення роботи поруч із програмою sagemaker-data-wrangler-1.0.

Вибирати Вимкнути все підтвердити.

Data Wrangler працює на примірнику ml.m5.4xlarge. Цей екземпляр зникає з ЗАПУСКАНІ ЕКЗЕМПЛЯРИ коли ви закриваєте програму Data Wrangler.

Після завершення роботи програми Data Wrangler її потрібно буде перезапустити, коли ви наступного разу відкриєте файл потоку Data Wrangler. Це може тривати кілька хвилин.

Висновок

У цій публікації ми надали огляд функції навчених параметрів у Data Wrangler. За допомогою цієї нової функції ви можете зберігати навчені параметри в потоці Data Wrangler, а завдання обробки даних використовуватимуть навчені параметри для застосування навчених перетворень до великих наборів даних або наборів даних посилення. Ви можете застосувати цей параметр для векторизації текстових об’єктів, числових даних і обробки викидів.

Збереження навчених параметрів під час обробки даних життєвого циклу ML спрощує та скорочує кроки обробки даних, підтримує розробку надійних функцій, а також підтримує навчання моделі та навчання посилення на нових даних.

Радимо вам спробувати цю нову функцію відповідно до ваших вимог до обробки даних.

Про авторів

Харіхаран Суреш є старшим архітектором рішень в AWS. Він захоплюється базами даних, машинним навчанням і розробкою інноваційних рішень. До того як приєднатися до AWS, Харіхаран був архітектором продукту, фахівцем із впровадження основних банківських операцій і розробником, а також працював з організаціями BFSI понад 11 років. Крім технологій, він захоплюється парапланеризмом і їздою на велосипеді.

Сантош Кулкарні є архітектором корпоративних рішень в Amazon Web Services, який працює зі спортивними клієнтами в Австралії. Він захоплений створенням масштабних розподілених додатків для вирішення бізнес-завдань, використовуючи свої знання в області ШІ/ML, великих даних і розробки програмного забезпечення.

Вішал Капур є старшим науковим співробітником з AWS AI. Він прагне допомогти клієнтам зрозуміти їхні дані в Data Wrangler. У вільний час він катається на гірських велосипедах, сноубордах і проводить час з родиною.

Анікет Манджунат є інженером із розробки програмного забезпечення в Amazon SageMaker. Він допомагає підтримувати Amazon SageMaker Data Wrangler і захоплюється системами розподіленого машинного навчання. Поза роботою він захоплюється пішим туризмом, переглядом фільмів і грою в крикет.

Часова мітка: Листопад 14, 2022Листопад 14, 2022

Часова мітка: Лютий 29, 2024

Відновіть навчені параметри на великих наборах даних за допомогою Amazon SageMaker Data Wrangler

Перевидано Платоном

Огляд функції оновлення Data Wrangler

Огляд рішення

Передумови

Виконайте EDA в Data Wrangler

Запустіть завдання обробки даних Data Wrangler без увімкнутого оновлення

Запустіть завдання обробки даних Data Wrangler із увімкненим переналаштуванням

Експорт у код Python для виконання завдань обробки Data Wrangler

Порівняйте результати обробки даних

Прибирати

Висновок

Про авторів

Більше від AWS Машинне навчання

Імовірність перемоги факту матчу Бундесліги: кількісна оцінка впливу подій у грі на шанси на перемогу за допомогою машинного навчання на AWS

Модеруйте, класифікуйте та обробляйте документи за допомогою Amazon Rekognition і Amazon Textract

Прискоріть свої проекти перевірки особи за допомогою прикладів реалізацій AWS Amplify і Amazon Rekognition

Перекладайте документи з кількох вихідних мов на кілька цільових мов за допомогою Amazon Translate

Як редагувати ідентифікаційні дані в стенограмах розмов

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки