Используйте примеры Github с Amazon SageMaker Data Wrangler

Переиздано Платоном

Читают: 0

Amazon SageMake r Обработчик данных — это инструмент подготовки данных на основе пользовательского интерфейса, который помогает выполнять анализ, предварительную обработку и визуализацию данных с функциями более быстрой очистки, преобразования и подготовки данных. Предварительно созданные шаблоны потоков Data Wrangler помогают ускорить подготовку данных для специалистов по обработке данных и специалистов по машинному обучению (ML), помогая вам ускорить и понять передовые практики для потоков данных с использованием общих наборов данных.

Вы можете использовать потоки Data Wrangler для выполнения следующих задач:

Визуализация данных - Изучение статистических свойств для каждого столбца в наборе данных, построение гистограмм, изучение выбросов
Очистка данных - Удаление дубликатов, удаление или заполнение записей пропущенными значениями, удаление выбросов
Обогащение данных и разработка функций - Обработка столбцов для создания более выразительных функций, выбор подмножества функций для обучения

Этот пост поможет вам понять Data Wrangler, используя следующие примеры готовых потоков на GitHub. В репозитории демонстрируется преобразование табличных данных, преобразование данных временных рядов и преобразование объединенных наборов данных. Каждый из них требует разного типа преобразований из-за своей базовой природы. Стандартные табличные или перекрестные данные собираются в определенный момент времени. Напротив, данные временных рядов собираются неоднократно с течением времени, при этом каждая последующая точка данных зависит от ее прошлых значений.

Давайте посмотрим на пример того, как мы можем использовать образец потока данных для табличных данных.

Предпосылки

Data Wrangler — это Создатель мудреца Амазонки функция доступна внутри Студия Amazon SageMaker, поэтому нам нужно следовать процессу адаптации Studio, чтобы развернуть среду Studio и блокноты. Хотя вы можете выбрать один из нескольких методов аутентификации, самый простой способ создать домен Studio — следовать инструкциям. Быстрый старт инструкции. Быстрый запуск использует те же настройки по умолчанию, что и стандартная установка студии. Вы также можете подключиться с помощью Центр идентификации AWS IAM (преемник AWS Single Sign-On) для аутентификации (см. Подключение к домену Amazon SageMaker с помощью IAM Identity Center).

Импортируйте набор данных и файлы потоков в Data Wrangler с помощью Studio.

Следующие шаги описывают, как импортировать данные в SageMaker для использования Data Wrangler:

Инициализируйте Data Wrangler через пользовательский интерфейс Studio, выбрав Новый поток данных.

Клонировать Репо GitHub для загрузки файлов потока в среду Studio.