Переоформление обученных параметров в больших наборах данных с помощью Amazon SageMaker Data Wrangler

Переиздано Платоном

Читают: 0

Обработчик данных Amazon SageMaker помогает вам понимать, агрегировать, преобразовывать и подготавливать данные для машинного обучения (ML) из единого визуального интерфейса. Он содержит более 300 встроенных преобразований данных, поэтому вы можете быстро нормализовать, преобразовывать и комбинировать функции без необходимости написания кода.

Специалисты по науке о данных генерируют, наблюдают и обрабатывают данные для решения бизнес-задач, когда им необходимо преобразовывать и извлекать функции из наборов данных. Преобразования, такие как порядковое кодирование или горячее кодирование, изучают кодировки в вашем наборе данных. Эти закодированные выходные данные называются обученными параметрами. Поскольку наборы данных со временем меняются, может потребоваться перекодировка ранее невидимых данных, чтобы процесс преобразования оставался актуальным для ваших данных.

Мы рады объявить о функции перенастройки обученных параметров, которая позволяет вам использовать ранее обученные параметры и перенастраивать их по желанию. В этом посте мы покажем, как использовать эту функцию.

Обзор функции перенастройки Data Wrangler

Мы проиллюстрируем, как эта функция работает, на следующем примере, прежде чем углубиться в особенности функции переобучения обученного параметра.

Предположим, что в вашем наборе данных о клиентах есть категориальная функция для country представлен в виде строк типа Australia и Singapore. Алгоритмы ML требуют числовых входных данных; поэтому эти категориальные значения должны быть закодированы в числовые значения. Кодирование категорийных данных — это процесс создания числового представления категорий. Например, если страна вашей категории имеет значения Australia и Singapore, вы можете закодировать эту информацию в два вектора: [1, 0] для представления Australia и [0, 1] для представления Singapore. Используемое здесь преобразование представляет собой горячее кодирование, а новый закодированный вывод отражает обученные параметры.

После обучения модели со временем число ваших клиентов может увеличиться, и в списке стран у вас появятся более четкие значения. Новый набор данных может содержать другую категорию, India, которого не было в исходном наборе данных, что может повлиять на точность модели. Поэтому необходимо переобучить вашу модель с помощью новых данных, которые были собраны с течением времени.

Чтобы решить эту проблему, вам необходимо обновить кодировку, чтобы включить новую категорию и обновить векторное представление в соответствии с вашим последним набором данных. В нашем примере кодировка должна отражать новую категорию для country, Которая является India. Мы обычно называем этот процесс обновления кодировки операцией переоснащения. После выполнения операции переоснащения вы получите новую кодировку: Australia: [1, 0, 0], Singapore: [0, 1, 0] и India: [0, 0, 1]. Переоснащение одноразового кодирования, а затем переобучение модели на новом наборе данных приводит к более качественным прогнозам.

Функция перенастройки обученных параметров Data Wrangler полезна в следующих случаях:

Новые данные добавляются в набор данных – Повторное обучение модели ML необходимо, когда набор данных обогащается новыми данными. Для достижения оптимальных результатов нам необходимо перенастроить обученные параметры на новый набор данных.
Обучение на полном наборе данных после выполнения проектирования признаков на примере данных – Для большого набора данных выборка набора данных рассматривается для изучения обученных параметров, которые могут не представлять весь ваш набор данных. Нам нужно заново изучить обученные параметры на полном наборе данных.

Ниже приведены некоторые из наиболее распространенных преобразований Data Wrangler, выполняемых с набором данных, которые выигрывают от параметра переобучения:

Дополнительные сведения о преобразованиях в Data Wrangler см. Преобразовать данные.

В этом посте мы покажем, как обрабатывать эти обученные параметры в наборах данных с помощью Data Wrangler. Вы можете использовать потоки Data Wrangler в производственных заданиях для повторной обработки данных по мере их роста и изменения.

Обзор решения

В этом посте мы покажем, как использовать функцию переобучения Data Wrangler с общедоступным набором данных на Kaggle: Данные о жилье в США от Zillow, Недвижимость на продажу в США. Он имеет цены продажи домов в различных географических распределениях домов.

На следующей диаграмме показана высокоуровневая архитектура Data Wrangler с использованием функции перенастройки обученных параметров. Мы также показываем влияние на качество данных без переобученного параметра и сравниваем результаты в конце.

Рабочий процесс включает в себя следующие шаги:

Выполнение исследовательского анализа данных – Создайте новый поток в Data Wrangler, чтобы начать исследовательский анализ данных (EDA). Импортируйте бизнес-данные, чтобы понимать, очищать, объединять, преобразовывать и подготавливать данные для обучения. Ссылаться на Изучите возможности Amazon SageMaker Data Wrangler с помощью примеров наборов данных для получения более подробной информации о выполнении EDA с помощью Data Wrangler.
Создать задание обработки данных – На этом шаге все преобразования, выполненные вами в наборе данных, экспортируются в файл потока, хранящийся в настроенном файле. Простой сервис хранения Amazon (Amazon S3) местоположение. Задание обработки данных с файлом потока, созданным Data Wrangler, применяет преобразования и обученные параметры, полученные в вашем наборе данных. Когда задание обработки данных завершено, выходные файлы загружаются в расположение Amazon S3, настроенное на целевом узле. Обратите внимание, что опция переоснащения по умолчанию отключена. В качестве альтернативы мгновенному выполнению задания обработки вы также можете запланировать задание на обработку в несколько кликов с помощью Data Wrangler — создание задания для запуска в определенное время.
Создайте задание обработки данных с функцией переобучения обученных параметров – Выберите новую функцию переобучения обученных параметров при создании задания, чтобы принудительно выполнить повторное обучение обученных параметров в вашем полном или усиленном наборе данных. В соответствии с конфигурацией местоположения Amazon S3 для хранения файла потока задание обработки данных создает или обновляет новый файл потока. Если вы настроите то же расположение Amazon S3, что и на шаге 2, задание обработки данных обновит файл потока, созданный на шаге 2, который можно использовать, чтобы ваш поток соответствовал вашим данным. По завершении задания обработки выходные файлы загружаются в настроенную корзину S3 целевого узла. Вы можете использовать обновленный поток для всего набора данных для производственного рабочего процесса.

Предпосылки

Прежде чем приступить к работе, загрузите набор данных в корзину S3, а затем импортируйте его в Data Wrangler. Инструкции см. Импорт данных из Amazon S3.

Давайте теперь пройдемся по шагам, упомянутым на диаграмме архитектуры.

Выполнение EDA в Data Wrangler

Чтобы опробовать функцию перенастройки обученных параметров, настройте следующий анализ и преобразование в Data Wrangler. В конце настройки EDA Data Wrangler создает файл потока, захваченный с обученными параметрами из набора данных.

Создайте новый поток в Amazon SageMaker Data Wrangler для исследовательского анализа данных.
Импортируйте бизнес-данные, загруженные вами в Amazon S3.
Вы можете просмотреть данные и параметры для выбора типа файла, разделителя, выборки и т. д. Для этого примера мы используем Первый К опция выборки, предоставляемая Data Wrangler для импорта первых 50,000 XNUMX записей из набора данных.
Выберите Импортировать.

Переопределяйте обученные параметры в больших наборах данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

После проверки сопоставления типов данных, примененного Data Wrangler, добавьте новый анализ.

Что касается Тип анализа, выберите Отчет о качестве данных и аналитических данных.
Выберите Создавай.

С помощью отчета о качестве данных и аналитических данных вы получаете краткую сводку набора данных с общей информацией, такой как отсутствующие значения, недопустимые значения, типы объектов, количество выбросов и многое другое. Вы можете выбрать функции property_type и city для применения преобразований к набору данных, чтобы понять функцию переобучения обученного параметра.

Давайте сосредоточимся на функции property_type из набора данных. В отчете Художественные Подробнее раздел, вы можете увидеть property_type, который является категориальной функцией, и шестью уникальными значениями, полученными из набора данных из 50,000 XNUMX выборок Data Wrangler. Полный набор данных может иметь больше категорий для объекта. property_type. Для функции со многими уникальными значениями вы можете предпочесть порядковое кодирование. Если функция имеет несколько уникальных значений, можно использовать подход с однократным горячим кодированием. В этом примере мы выбираем горячее кодирование на property_type.

Аналогично для city особенность, которая представляет собой текстовый тип данных с большим количеством уникальных значений, давайте применим к этой функции порядковое кодирование.

Перейдите к потоку Data Wrangler, выберите знак «плюс» и выберите Добавить преобразование.

Выберите Кодировать категориальный возможность преобразования категориальных признаков.

Из отчета о качестве данных и аналитических данных функция property_type показывает шесть уникальных категорий: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILYкачества TOWNHOUSE.

Что касается Transform, выберите Одно горячее кодирование.

После применения горячего кодирования к объекту property_type, вы можете просмотреть все шесть категорий как отдельные функции, добавленные в качестве новых столбцов. Обратите внимание, что для создания этого предварительного просмотра из вашего набора данных было выбрано 50,000 XNUMX записей. При выполнении задания обработки Data Wrangler с этим потоком эти преобразования применяются ко всему набору данных.

Добавьте новое преобразование и выберите Кодировать категориальный применить преобразование к объекту city, который имеет большее количество уникальных категориальных текстовых значений.
Чтобы закодировать эту функцию в числовое представление, выберите Порядковый код для Transform.

Выберите Предварительный просмотр этого преобразования.

Вы можете видеть, что категориальный признак city сопоставляется с порядковыми значениями в выходном столбце e_city.

Добавьте этот шаг, выбрав Обновление ПО.

В качестве места назначения можно указать Amazon S3, чтобы сохранить примененные преобразования в наборе данных для создания выходных данных в виде CSV-файла.

Data Wrangler сохраняет рабочий процесс, который вы определили в пользовательском интерфейсе, в виде файла потока и загружает его в расположение настроенного задания обработки данных Amazon S3. Этот потоковый файл используется при создании заданий обработки Data Wrangler для применения преобразований к большим наборам данных или для преобразования новых данных армирования для повторного обучения модели.

Запустите задание обработки данных Data Wrangler без включенного переоснащения.

Теперь вы можете видеть, как параметр переоснащения использует обученные параметры для новых наборов данных. Для этой демонстрации мы определяем два задания обработки Data Wrangler, работающие с одними и теми же данными. Первое задание обработки не позволит выполнить переоснащение; для второго задания обработки мы используем refit. Мы сравним эффекты в конце.

Выберите Создать работу чтобы инициировать задание обработки данных с помощью Data Wrangler.

Что касается Название работывведите имя.
Под Обученные параметры, не выбирать Ремонт.
Выберите Настроить задание.

Настройте параметры задания, такие как типы экземпляров, размер тома и расположение Amazon S3 для хранения выходного файла потока.
Data Wrangler создает потоковый файл в расположении потокового файла S3. Поток использует преобразования для обучения параметров, а позже мы используем параметр переобучения для повторного обучения этих параметров.
Выберите Создавай.

Дождитесь завершения задания обработки данных, чтобы увидеть преобразованные данные в корзине S3, настроенной на целевом узле.

Запустите задание обработки данных Data Wrangler с включенной переустановкой.

Давайте создадим еще одно задание обработки с включенной функцией перенастройки обученного параметра. Этот параметр применяет обученные параметры, заново изученные для всего набора данных. Когда это задание обработки данных завершено, создается или обновляется потоковый файл в настроенном расположении Amazon S3.

Выберите Создать работу.

Что касается Название работывведите имя.
Что касается Обученные параметры, наведите на Ремонт.
Если вы выбираете Смотреть все, вы можете просмотреть все обученные параметры.

Выберите Настроить задание.
Введите местоположение файла потока Amazon S3.
Выберите Создавай.

Дождитесь завершения задания обработки данных.

Обратитесь к настроенному сегменту S3 на целевом узле, чтобы просмотреть данные, сгенерированные заданием обработки данных, выполняющим определенные преобразования.

Экспорт в код Python для запуска заданий обработки Data Wrangler.

В качестве альтернативы запуску заданий обработки с помощью параметра «Создать задание» в Data Wrangler вы можете инициировать задания обработки данных, экспортировав поток Data Wrangler в блокнот Jupyter. Data Wrangler создает записную книжку Jupyter с входными и выходными данными, конфигурациями заданий обработки и кодом для проверки состояния заданий. Вы можете изменить или обновить параметры в соответствии с вашими требованиями к преобразованию данных.

Выберите знак плюса рядом с окончательным Transform узел.
Выберите Экспортировать чтобы и Amazon S3 (через ноутбук Jupyter).

Вы можете увидеть открытую записную книжку Jupyter с входными и выходными данными, обработкой конфигураций заданий и кодом для проверки состояния заданий.

Чтобы применить параметр перенастройки обученных параметров с помощью кода, установите refit параметр True.

Сравните результаты задания по обработке данных

После завершения заданий обработки Data Wrangler необходимо создать два новых потока Data Wrangler с выходными данными, созданными заданиями обработки данных, которые хранятся в настроенном месте назначения Amazon S3.

Вы можете обратиться к настроенному местоположению в папке назначения Amazon S3, чтобы просмотреть выходные данные заданий обработки данных.

Чтобы проверить результаты задания обработки, создайте два новых потока Data Wrangler, используя отчет Data Quality and Insights, чтобы сравнить результаты преобразования.

Создайте новый поток в Amazon SageMaker Data Wrangler.
Импортируйте выходной файл задания обработки данных без переустановки из Amazon S3.
Добавьте новый анализ.
Что касается Тип анализа, выберите Отчет о качестве данных и аналитических данных.
Выберите Создавай.

Повторите описанные выше шаги и создайте новый поток обработчика данных для анализа выходных данных задания обработки данных с включенным переоснащением.

Теперь давайте посмотрим на результаты обработки заданий для функции. property_type с помощью отчетов о качестве данных и аналитических данных. Прокрутите до сведений о функциях в списке отчетов о данных и аналитических данных. feature_type.

Задание по обработке обученных параметров перенастроило обученные параметры для всего набора данных и закодировало новое значение. APARTMENT с семью различными значениями в полном наборе данных.

В обычном задании обработки применялись обученные параметры выборочного набора данных, которые имеют только шесть различных значений для property_type особенность. Для данных с feature_type APARTMENT, неверная стратегия обработки Применяется пропуск, и задание обработки данных не запоминает эту новую категорию. Горячее кодирование пропустило эту новую категорию, присутствующую в новых данных, а кодирование пропускает категорию APARTMENT.

Давайте теперь сосредоточимся на другой функции, city. Задание обработки обученного параметра переобучения повторно изучило все значения, доступные для city функция с учетом новых данных.

Как показано в Краткое описание функции раздел отчета, новый столбец закодированных объектов e_city имеет 100% действительные параметры с использованием функции переобучения обученных параметров.

Напротив, задание обычной обработки имеет 82.4% отсутствующих значений в столбце новых закодированных функций. e_city. Это явление связано с тем, что к полному набору данных применяется только выборочный набор изученных обученных параметров, а задание обработки данных не применяет перенастройки.

Следующие гистограммы изображают функцию с порядковым кодированием. e_city. На первой гистограмме показана функция, преобразованная с помощью опции переоснащения.

На следующей гистограмме показан объект, преобразованный без опции переоснащения. В оранжевом столбце показаны отсутствующие значения (NaN) в отчете о качестве данных и аналитических сведениях. Новые значения, которые не были извлечены из примера набора данных, заменяются как Not a Number (NaN), как настроено в пользовательском интерфейсе Data Wrangler. неверная стратегия обработки.

Задание обработки данных с обученным параметром переоснащения повторно изучило property_type и city функции с учетом новых значений из всего набора данных. Без обученного параметра переоснащения задание обработки данных использует только предварительно изученные параметры выборочного набора данных. Затем он применяет их к новым данным, но новые значения не учитываются при кодировании. Это повлияет на точность модели.

Убирать

Когда вы не используете Data Wrangler, важно закрыть экземпляр, на котором он работает, чтобы избежать дополнительных сборов.

Чтобы не потерять работу, сохраните поток данных перед закрытием Data Wrangler.

Чтобы сохранить поток данных в Студия Amazon SageMaker, выберите Файл, а затем выберите Сохранить поток данных Wrangler. Data Wrangler автоматически сохраняет ваш поток данных каждые 60 секунд.
Чтобы закрыть экземпляр Data Wrangler, в Studio выберите Запуск экземпляров и ядер.
Под ЗАПУСК ПРИЛОЖЕНИЙ, выберите значок выключения рядом с приложением sagemaker-data-wrangler-1.0.

Выберите Выключи все , чтобы подтвердить действие.

Data Wrangler работает на экземпляре ml.m5.4xlarge. Этот экземпляр исчезает из ЗАПУСК ИНСТАНСОВ когда вы закрываете приложение Data Wrangler.

После закрытия приложения Data Wrangler его необходимо перезапустить при следующем открытии файла потока Data Wrangler. Это может занять несколько минут.

Заключение

В этом посте мы представили обзор функции перенастройки обученных параметров в Data Wrangler. С помощью этой новой функции вы можете сохранять обученные параметры в потоке Data Wrangler, а задания по обработке данных используют обученные параметры для применения изученных преобразований к большим наборам данных или наборам данных подкрепления. Вы можете применить эту опцию для векторизации текстовых объектов, числовых данных и обработки выбросов.

Сохранение обученных параметров на протяжении всего процесса обработки данных жизненного цикла машинного обучения упрощает и сокращает этапы обработки данных, поддерживает надежную разработку функций, а также поддерживает обучение модели и обучение с подкреплением на новых данных.

Мы рекомендуем вам попробовать эту новую функцию для ваших требований к обработке данных.

Об авторах

Харихаран Суреш является старшим архитектором решений в AWS. Он увлечен базами данных, машинным обучением и разработкой инновационных решений. До прихода в AWS Харихаран был архитектором продуктов, специалистом по внедрению основных банковских услуг и разработчиком и более 11 лет работал с организациями BFSI. Помимо технологий, он увлекается парапланеризмом и ездой на велосипеде.

Сантош Кулкарни является архитектором корпоративных решений в Amazon Web Services и работает со спортивными клиентами в Австралии. Он увлечен созданием крупномасштабных распределенных приложений для решения бизнес-задач, используя свои знания в области искусственного интеллекта/машинного обучения, больших данных и разработки программного обеспечения.

Вишаал Капур — старший научный сотрудник AWS AI. Он увлечен тем, что помогает клиентам понять их данные в Data Wrangler. В свободное время он катается на горных велосипедах, сноуборде и проводит время со своей семьей.

Аникет Манджунатх работает инженером-разработчиком программного обеспечения в Amazon SageMaker. Он помогает поддерживать Amazon SageMaker Data Wrangler и увлечен распределенными системами машинного обучения. Вне работы он любит ходить в походы, смотреть фильмы и играть в крикет.

Отметка времени: 14 ноября 202214 ноября 2022

Отметка времени: 29 февраля, 2024

Подгонка обученных параметров к большим наборам данных с помощью Amazon SageMaker Data Wrangler

Переиздано Платоном

Обзор функции перенастройки Data Wrangler

Обзор решения

Предпосылки

Выполнение EDA в Data Wrangler

Запустите задание обработки данных Data Wrangler без включенного переоснащения.

Запустите задание обработки данных Data Wrangler с включенной переустановкой.

Экспорт в код Python для запуска заданий обработки Data Wrangler.

Сравните результаты задания по обработке данных

Убирать

Заключение

Об авторах

Больше от Машинное обучение AWS

Вероятность победы в матче Бундеслиги: количественная оценка влияния внутриигровых событий на шансы на победу с использованием машинного обучения на AWS

Модерация, классификация и обработка документов с помощью Amazon Rekognition и Amazon Textract

Ускорьте свои проекты проверки личности с помощью примеров реализации AWS Amplify и Amazon Rekognition.

Перевод документов с нескольких исходных языков на несколько целевых языков с помощью Amazon Translate

Как отредактировать данные PII в стенограммах разговоров

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись