Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для обучения и экспериментов с машинным обучением.

Лаборатория студии Amazon SageMaker — это бесплатная среда разработки машинного обучения (ML), основанная на JupyterLab с открытым исходным кодом, для всех, кто может изучать и экспериментировать с ML, используя вычислительные ресурсы AWS ML. Он основан на той же архитектуре и пользовательском интерфейсе, что и Студия Amazon SageMaker, но с частью возможностей Studio.

Когда вы начинаете работать над инициативами ML, вам необходимо выполнить исследовательский анализ данных (EDA) или подготовить данные, прежде чем приступить к построению модели. Обработчик данных Amazon SageMaker это способность Создатель мудреца Амазонки Это позволяет специалистам по данным и инженерам быстрее подготавливать данные для приложений машинного обучения через визуальный интерфейс. Data Wrangler сокращает время, необходимое для агрегирования и подготовки данных для машинного обучения, с недель до минут.

Ключевым ускорителем подготовки признаков в Data Wrangler является Отчет о качестве данных и аналитических данных. Этот отчет проверяет качество данных и помогает обнаруживать аномалии в ваших данных, чтобы вы могли выполнить необходимую обработку данных для исправления вашего набора данных. Вы можете использовать отчет о качестве данных и аналитических сведениях, чтобы выполнить анализ ваших данных, чтобы получить представление о вашем наборе данных, например о количестве пропущенных значений и количестве выбросов. Если у вас есть проблемы с вашими данными, такие как целевая утечка или дисбаланс, аналитический отчет может привлечь ваше внимание к этим проблемам и помочь вам определить шаги по подготовке данных, которые необходимо выполнить.

Пользователи Studio Lab могут извлечь выгоду из Data Wrangler, поскольку качество данных и разработка функций имеют решающее значение для прогностической эффективности вашей модели. Data Wrangler помогает с качеством данных и разработкой функций, предоставляя информацию о проблемах качества данных и легко обеспечивая быструю итерацию функций и разработку с помощью пользовательского интерфейса с низким кодом.

В этом посте мы покажем вам, как выполнять исследовательский анализ данных, подготавливать и преобразовывать данные с помощью Data Wrangler, а также экспортировать преобразованные и подготовленные данные в Studio Lab для построения модели.

Обзор решения

Решение включает следующие высокоуровневые шаги:

  1. Создайте учетную запись AWS и администратора. Это обязательное условие
  2. Скачать набор данных отток.csv.
  3. Загрузите набор данных в Простой сервис хранения Amazon (Amazon S3).
  4. Создайте домен SageMaker Studio и запустите Data Wrangler.
  5. Импортируйте набор данных в поток Data Wrangler из Amazon S3.
  6. Создайте отчет о качестве данных и аналитических сведениях и сделайте выводы о разработке необходимых функций.
  7. Выполните необходимые преобразования данных в Data Wrangler.
  8. Загрузите отчет о качестве и анализе данных и преобразованный набор данных.
  9. Загрузите данные в проект Studio Lab для обучения модели.

Следующая диаграмма иллюстрирует этот рабочий процесс.

Предпосылки

Для использования Data Wrangler и Studio Lab необходимы следующие предварительные условия:

Создайте рабочий процесс подготовки данных с помощью Data Wrangler

Для начала выполните следующие шаги:

  1. Загрузите свой набор данных в Amazon S3.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  2. На консоли SageMaker в Панель управления на панели навигации выберите Студия.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  3. На Запустить приложение меню рядом с вашим профилем пользователя, выберите Студия.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    После успешного входа в Studio вы должны увидеть среду разработки, как показано на следующем снимке экрана.
  4. Чтобы создать новый рабочий процесс Data Wrangler, на Файл Меню, выберите Новые, а затем выберите Поток обработчика данных.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    Первым шагом в Data Wrangler является Импортировать ваши данные. Вы можете импортировать данные из нескольких источников данных, таких как Amazon S3, Амазонка Афина, Амазонка Redshift, Снежинкаи Databricks. В этом примере мы используем Amazon S3. Если вы просто хотите посмотреть, как работает Data Wrangler, вы всегда можете выбрать Использовать образец набора данных.
  5. Выберите Даты импорта.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  6. Выберите Amazon S3.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  7. Выберите набор данных, который вы загрузили, и выберите Импортировать.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    Data Wrangler позволяет либо импортировать весь набор данных, либо выбрать его часть.
  8. Чтобы быстро получить представление о наборе данных, выберите Первый К для Отбор проб и введите 50000 для Размер образца.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Оцените качество данных и получите ценную информацию

Давайте воспользуемся отчетом Data Quality and Insights Report для анализа данных, которые мы импортировали в Data Wrangler. Вы можете использовать отчет, чтобы понять, какие шаги необходимо предпринять для очистки и обработки ваших данных. Этот отчет предоставляет такую ​​информацию, как количество пропущенных значений и количество выбросов. Если у вас есть проблемы с вашими данными, такие как целевая утечка или дисбаланс, аналитический отчет может привлечь ваше внимание к этим проблемам.

  1. Выберите знак плюс рядом с Типы данных , а затем выбрать Получите информацию о данных.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  2. Что касается Тип анализа, выберите Отчет о качестве данных и аналитических данных.
  3. Что касается Целевой столбец, выберите Отток?.
  4. Что касается Тип проблемыВыбрать классификация.
  5. Выберите Создавай.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Вам будет представлен подробный отчет, который вы можете просмотреть и загрузить. Отчет включает несколько разделов, таких как быстрая модель, сводка функций, корреляция функций и анализ данных. На следующих снимках экрана представлены примеры этих разделов.

Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Наблюдения из отчета

Из отчета мы можем сделать следующие наблюдения:

  • Повторяющихся строк не обнаружено.
  • Ассоциация State Столбец кажется довольно равномерно распределенным, поэтому данные сбалансированы с точки зрения населения штата.
  • Ассоциация Phone столбец представляет слишком много уникальных значений, чтобы иметь какое-либо практическое применение. Слишком много уникальных значений делают этот столбец бесполезным. Мы можем бросить Phone столбец в нашем преобразовании.
  • Основываясь на разделе отчета о корреляции функций, Mins и Charge сильно коррелированы. Мы можем удалить один из них.

трансформация

Основываясь на наших наблюдениях, мы хотим сделать следующие преобразования:

  • Удалить Phone столбец, потому что он имеет много уникальных значений.
  • Мы также видим несколько функций, которые по существу имеют 100% корреляцию друг с другом. Включение этих пар функций в некоторые алгоритмы машинного обучения может создать нежелательные проблемы, в то время как в других это приведет лишь к незначительной избыточности и предвзятости. Удалим по одному признаку из каждой из сильно коррелированных пар: Day Charge из пары с Day Mins, Night Charge из пары с Night Minsи Intl Charge из пары с Intl Mins.
  • Конвертировать True or False в Churn столбец должен быть числовым значением 1 или 0.
  1. Вернитесь к потоку данных и выберите знак плюс рядом с Типы данных.
  2. Выберите Добавить преобразование.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  3. Выберите Добавить шаг.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  4. Вы можете искать нужное преобразование (в нашем случае управлять столбцами).
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  5. Выберите Управление столбцами.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  6. Что касается Transformвыберите Удалить столбец.
  7. Что касается Столбцы для удалениявыберите Phone, Day Charge, Eve Charge, Night Chargeи Intl Charge.
  8. Выберите предварительный просмотр, а затем выберите Обновление ПО.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    Давайте добавим еще одно преобразование для выполнения категориального кодирования на Churn? колонка.
  9. Выберите преобразование Кодировать категориальный.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  10. Что касается Transform, выберите Порядковый код.
  11. Что касается Входные столбцы, выбрать Churn? колонка.
  12. Что касается Неверная стратегия обращения, выберите Заменить на NaN.
  13. Выберите предварительный просмотр, а затем выберите Обновление ПО.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Теперь True и False преобразуются в 1 и 0 соответственно.

Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Теперь, когда мы хорошо понимаем данные и подготовили и преобразовали данные для построения модели, мы можем перенести данные в Studio Lab для построения модели.

Загрузите данные в Studio Lab

Чтобы начать использовать данные в Studio Lab, выполните следующие действия:

  1. Выберите Экспорт данных в экспорт в ведро S3.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  2. Что касается Местоположение Амазон S3, введите свой путь к S3.
  3. Укажите тип файла.
  4. Выберите Экспорт данных.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  5. После экспорта данных вы можете загрузить данные из корзины S3 на свой локальный компьютер.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  6. Теперь вы можете перейти в Studio Lab и загрузить файл в Studio Lab.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    Кроме того, вы можете подключиться к Amazon S3 из Studio Lab. Для получения дополнительной информации см. Использование внешних ресурсов в лаборатории Amazon SageMaker Studio Lab.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  7. Давайте установим SageMaker и импортируем Pandas.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  8. Импортируйте все библиотеки по мере необходимости.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  9. Теперь мы можем прочитать файл CSV.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  10. Давайте распечатаем churn чтобы подтвердить правильность набора данных.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Теперь, когда у вас есть обработанный набор данных в Studio Lab, вы можете выполнить дальнейшие шаги, необходимые для построения модели.

Цены на обработчик данных

Вы можете выполнить все шаги, описанные в этом посте, для EDA или подготовки данных в Data Wrangler и платить для простого экземпляра, заданий и цен на хранилище в зависимости от использования или потребления. Никаких авансовых или лицензионных сборов не требуется.

Убирать

Когда вы не используете Data Wrangler, важно закрыть экземпляр, на котором он работает, чтобы избежать дополнительных сборов. Чтобы не потерять работу, сохраните поток данных перед закрытием Data Wrangler.

  1. Чтобы сохранить поток данных в Studio, выберите Файл, а затем выберите Сохранить поток данных Wrangler.
    Data Wrangler автоматически сохраняет ваш поток данных каждые 60 секунд.
  2. Чтобы закрыть экземпляр Data Wrangler, в Studio выберите Запуск экземпляров и ядер.
  3. Под ЗАПУСК ПРИЛОЖЕНИЙ, выберите значок выключения рядом с sagemaker-data-wrangler-1.0 app.
  4. Выберите Выключи все , чтобы подтвердить действие.
    Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Data Wrangler работает на экземпляре ml.m5.4xlarge. Этот экземпляр исчезает из ЗАПУСК ИНСТАНСОВ когда вы закрываете приложение Data Wrangler.

После закрытия приложения Data Wrangler его необходимо перезапустить при следующем открытии файла потока Data Wrangler. Это может занять несколько минут.

Заключение

В этом посте мы увидели, как вы можете получить представление о своем наборе данных, выполнить исследовательский анализ данных, подготовить и преобразовать данные с помощью Data Wrangler в Studio, а также экспортировать преобразованные и подготовленные данные в Studio Lab, а также выполнить построение модели и другие шаги.

С помощью SageMaker Data Wrangler вы можете упростить процесс подготовки данных и разработки функций, а также выполнять каждый этап рабочего процесса подготовки данных, включая выбор данных, очистку, исследование и визуализацию, из единого визуального интерфейса.


Об авторах

Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Раджакумар Сампаткумар является главным техническим менеджером по работе с клиентами в AWS, предоставляя клиентам рекомендации по согласованию бизнес-технологий и поддерживая переосмысление их моделей облачных операций и процессов. Он увлечен облачными технологиями и машинным обучением. Радж также является специалистом по машинному обучению и работает с клиентами AWS над проектированием, развертыванием и управлением их рабочими нагрузками и архитектурами AWS.

Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Минакшисундарам Тандавараян — старший специалист по искусственному интеллекту и машинному обучению, увлеченный проектированием, созданием и продвижением данных и аналитики, ориентированных на человека. Он поддерживает клиентов AWS Strategic в их преобразовании в организацию, основанную на данных.

Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для изучения и экспериментирования с ML PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Джеймс Ву является старшим специалистом по архитектуре решений AI/ML в AWS. помогая клиентам разрабатывать и создавать решения AI/ML. Работа Джеймса охватывает широкий спектр вариантов использования машинного обучения, в первую очередь интересуясь компьютерным зрением, глубоким обучением и масштабированием машинного обучения на предприятии. До прихода в AWS Джеймс более 10 лет был архитектором, разработчиком и руководителем технологий, в том числе 6 лет в области проектирования и 4 года в сфере маркетинга и рекламы.

Отметка времени:

Больше от Машинное обучение AWS