Обработчик данных Amazon SageMaker — это специально созданный инструмент сбора и подготовки данных для машинного обучения (ML). Он позволяет использовать визуальный интерфейс для доступа к данным и выполнения исследовательского анализа данных (EDA) и разработки функций. Функция EDA поставляется со встроенными возможностями анализа данных для диаграмм (такими как точечная диаграмма или гистограмма) и возможностями экономящего время анализа модели, такими как важность функций, целевая утечка и объяснимость модели. Функция разработки функций имеет более 300 встроенных преобразований и может выполнять пользовательские преобразования с использованием среды выполнения Python, PySpark или Spark SQL.
Для пользовательских визуализаций и преобразований Data Wrangler теперь предоставляет примеры фрагментов кода для распространенных типов визуализаций и преобразований. В этом посте мы покажем, как использовать эти фрагменты кода для быстрого запуска EDA в Data Wrangler.
Обзор решения
На момент написания этой статьи вы можете импортировать наборы данных в Data Wrangler из Простой сервис хранения Amazon (Амазон С3), Амазонка Афина, Амазонка Redshift, Databricks и Snowflake. В этом посте мы используем Amazon S3 для хранения Amazon 2014 года. набор данных отзывов. Ниже приведен пример набора данных:
В этом посте мы выполняем EDA, используя три столбца:asin
, reviewTime
качества overall
— которые сопоставляются с идентификатором продукта, датой времени проверки и общей оценкой обзора соответственно. Мы используем эти данные для визуализации динамики количества отзывов по месяцам и годам.
Использование примера фрагмента кода для EDA в Data Wrangler
Чтобы начать выполнение EDA в Data Wrangler, выполните следующие действия:
- Скачать Набор данных отзывов о цифровой музыке JSON и загрузите его на Amazon S3.
Мы используем это как исходный набор данных для EDA. - Откройте Студия Amazon SageMaker создайте новый поток Data Wrangler и импортируйте набор данных из Amazon S3.
Этот набор данных имеет девять столбцов, но мы используем только три:
asin
,reviewTime
качестваoverall
. Нам нужно удалить остальные шесть столбцов. - Создайте собственное преобразование и выберите Питон (PySpark).
- Расширьте Фрагменты примеров поиска , а затем выбрать Удалить все столбцы, кроме нескольких.
- Введите предоставленный фрагмент в свое пользовательское преобразование и следуйте инструкциям по изменению кода.
Теперь, когда у нас есть все необходимые столбцы, давайте отфильтруем данные, чтобы оставить только отзывы за период с 2000 по 2020 год.
- Использовать Отметка времени фильтра вне диапазона фрагмент, чтобы удалить данные до 2000 года и после 2020 года:
Затем мы извлекаем год и месяц из столбца reviewTime.
- Использовать Дата/время преобразования.
- Что касается Извлечь столбцы, выберите год и месяц.
Затем мы хотим агрегировать количество отзывов по годам и месяцам, которые мы создали на предыдущем шаге.
- Использовать Вычислять статистику в группах фрагмент:
- Переименуйте агрегацию предыдущего шага из
count(overall)
вreviews_num
Выбрав Управление столбцами и Переименовать столбец преобразования.
Наконец, мы хотим создать тепловую карту, чтобы визуализировать распределение отзывов по годам и месяцам. - На вкладке анализ выберите Пользовательская визуализация.
- Расширьте Поиск фрагмента , а затем выбрать Тепловая карта в раскрывающемся меню.
- Введите предоставленный фрагмент в пользовательскую визуализацию:
Получаем следующую визуализацию.
Если вы хотите еще больше улучшить тепловую карту, вы можете нарезать данные, чтобы показать только отзывы до 2011 года. Их трудно идентифицировать на тепловой карте, которую мы только что создали, из-за большого количества отзывов с 2012 года. - Добавьте одну строку кода в пользовательскую визуализацию:
Получаем следующую тепловую карту.
Теперь тепловая карта более наглядно отражает отзывы до 2011 года: мы можем наблюдать сезонные эффекты (конец года приносит больше покупок и, следовательно, больше отзывов) и можем идентифицировать аномальные месяцы, такие как октябрь 2003 года и март 2005 года. определить причину этих аномалий.
Заключение
Data Wrangler — это специально созданный инструмент для сбора и подготовки данных для машинного обучения. В этом посте мы продемонстрировали, как выполнять EDA и быстро преобразовывать данные с помощью фрагментов кода, предоставленных Data Wrangler. Вам просто нужно найти фрагмент, ввести код и настроить параметры в соответствии с вашим набором данных. Вы можете продолжать повторять свой скрипт, чтобы создавать более сложные визуализации и преобразования.
Чтобы узнать больше о Data Wrangler, см. Создание и использование потока обработчика данных.
Об авторах
Никита Ивкин — ученый-прикладник Amazon SageMaker Data Wrangler.
Хайдер Накви является архитектором решений в AWS. Он имеет обширный опыт разработки программного обеспечения и корпоративной архитектуры. Он фокусируется на том, чтобы помочь клиентам достичь бизнес-результатов с помощью AWS. Он базируется в Нью-Йорке.
Хариш Раджагопалан является старшим архитектором решений в Amazon Web Services. Хариш работает с корпоративными клиентами и помогает им в переходе к облаку.
Джеймс Ву является старшим специалистом по AI/ML SA в AWS. Он работает с клиентами, чтобы ускорить их переход к облачным технологиям и ускорить реализацию их бизнес-ценности. В дополнение к этому Джеймс также увлечен разработкой и масштабированием крупных решений AI/ML в различных областях. До прихода в AWS он руководил многопрофильной группой инновационных технологий с инженерами по машинному обучению и разработчиками программного обеспечения в ведущей международной компании на рынке и в рекламной индустрии.
- Коинсмарт. Лучшая в Европе биржа биткойнов и криптовалют.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. БЕСПЛАТНЫЙ ДОСТУП.
- КриптоХок. Альткоин Радар. Бесплатная пробная версия.
- Источник: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- О нас
- ускорять
- доступ
- Достигать
- через
- дополнение
- Реклама
- Все
- позволяет
- Amazon
- Amazon Web Services
- анализ
- прикладной
- архитектура
- доступен
- AWS
- Ось
- , так как:
- до
- между
- встроенный
- бизнес
- возможности
- Вызывать
- Графики
- Выберите
- облако
- код
- Column
- Общий
- полный
- комплекс
- продолжать
- контрольная
- Создайте
- создали
- изготовленный на заказ
- Клиенты
- данным
- анализ данных
- демонстрировать
- убивают
- Определять
- застройщиков
- развивающийся
- Развитие
- распределение
- доменов
- вниз
- Падение
- динамика
- эффекты
- позволяет
- Проект и
- Инженеры
- Enter
- Предприятие
- пример
- Кроме
- опыт
- обширный
- быстрее
- Особенность
- в заключение
- Фирма
- First
- поток
- фокусируется
- следовать
- после
- от
- функция
- Функции
- далее
- Глобальный
- большой
- Группы
- имеющий
- полезный
- помогает
- Как
- How To
- HTTPS
- определения
- значение
- промышленность
- Инновации
- Интерфейс
- IT
- путешествие
- Сохранить
- большой
- УЧИТЬСЯ
- изучение
- привело
- линия
- Список
- машина
- обучение с помощью машины
- карта
- Март
- рынок
- Совпадение
- ML
- модель
- Месяц
- месяцев
- БОЛЕЕ
- Музыка
- имена
- New York
- номер
- Другие контрактные услуги
- общий
- страстный
- выполнения
- игры
- Подготовить
- предыдущий
- Продукт
- обеспечивать
- при условии
- приводит
- покупки
- Покупка
- количественный
- быстро
- Сырье
- учет
- отражает
- обзоре
- Отзывы
- масштабирование
- Ученый
- Услуги
- просто
- с
- ШЕСТЬ
- Software
- разработка программного обеспечения
- Решения
- специалист
- Начало
- статистика
- диск
- магазин
- цель
- команда
- Технологии
- Ассоциация
- следовательно
- три
- время
- инструментом
- топ
- Transform
- преобразований
- Типы
- использование
- ценностное
- различный
- визуализация
- тома
- Web
- веб-сервисы
- КТО
- замечательный
- работает
- стоимость
- письмо
- X
- год
- лет
- ВАШЕ