Используйте Amazon SageMaker Data Wrangler для подготовки данных и лабораторные работы Studio для изучения и экспериментирования с машинным обучением

Переиздано Платоном

Читают: 0

Лаборатория студии Amazon SageMaker — это бесплатная среда разработки машинного обучения (ML), основанная на JupyterLab с открытым исходным кодом, для всех, кто может изучать и экспериментировать с ML, используя вычислительные ресурсы AWS ML. Он основан на той же архитектуре и пользовательском интерфейсе, что и Студия Amazon SageMaker, но с частью возможностей Studio.

Когда вы начинаете работать над инициативами ML, вам необходимо выполнить исследовательский анализ данных (EDA) или подготовить данные, прежде чем приступить к построению модели. Обработчик данных Amazon SageMaker это способность Создатель мудреца Амазонки Это позволяет специалистам по данным и инженерам быстрее подготавливать данные для приложений машинного обучения через визуальный интерфейс. Data Wrangler сокращает время, необходимое для агрегирования и подготовки данных для машинного обучения, с недель до минут.

Ключевым ускорителем подготовки признаков в Data Wrangler является Отчет о качестве данных и аналитических данных. Этот отчет проверяет качество данных и помогает обнаруживать аномалии в ваших данных, чтобы вы могли выполнить необходимую обработку данных для исправления вашего набора данных. Вы можете использовать отчет о качестве данных и аналитических сведениях, чтобы выполнить анализ ваших данных, чтобы получить представление о вашем наборе данных, например о количестве пропущенных значений и количестве выбросов. Если у вас есть проблемы с вашими данными, такие как целевая утечка или дисбаланс, аналитический отчет может привлечь ваше внимание к этим проблемам и помочь вам определить шаги по подготовке данных, которые необходимо выполнить.

Пользователи Studio Lab могут извлечь выгоду из Data Wrangler, поскольку качество данных и разработка функций имеют решающее значение для прогностической эффективности вашей модели. Data Wrangler помогает с качеством данных и разработкой функций, предоставляя информацию о проблемах качества данных и легко обеспечивая быструю итерацию функций и разработку с помощью пользовательского интерфейса с низким кодом.

В этом посте мы покажем вам, как выполнять исследовательский анализ данных, подготавливать и преобразовывать данные с помощью Data Wrangler, а также экспортировать преобразованные и подготовленные данные в Studio Lab для построения модели.

Обзор решения

Решение включает следующие высокоуровневые шаги:

Создайте учетную запись AWS и администратора. Это обязательное условие
Скачать набор данных отток.csv.
Загрузите набор данных в Простой сервис хранения Amazon (Amazon S3).
Создайте домен SageMaker Studio и запустите Data Wrangler.
Импортируйте набор данных в поток Data Wrangler из Amazon S3.
Создайте отчет о качестве данных и аналитических сведениях и сделайте выводы о разработке необходимых функций.
Выполните необходимые преобразования данных в Data Wrangler.
Загрузите отчет о качестве и анализе данных и преобразованный набор данных.
Загрузите данные в проект Studio Lab для обучения модели.

Следующая диаграмма иллюстрирует этот рабочий процесс.

Предпосылки

Для использования Data Wrangler и Studio Lab необходимы следующие предварительные условия:

Создайте рабочий процесс подготовки данных с помощью Data Wrangler

Для начала выполните следующие шаги:

Загрузите свой набор данных в Amazon S3.
На консоли SageMaker в Панель управления на панели навигации выберите Студия.
На Запустить приложение меню рядом с вашим профилем пользователя, выберите Студия.

После успешного входа в Studio вы должны увидеть среду разработки, как показано на следующем снимке экрана.
Чтобы создать новый рабочий процесс Data Wrangler, на Файл Меню, выберите Новые, а затем выберите Поток обработчика данных.

Первым шагом в Data Wrangler является Импортировать ваши данные. Вы можете импортировать данные из нескольких источников данных, таких как Amazon S3, Амазонка Афина, Амазонка Redshift, Снежинкаи Databricks. В этом примере мы используем Amazon S3. Если вы просто хотите посмотреть, как работает Data Wrangler, вы всегда можете выбрать Использовать образец набора данных.
Выберите Даты импорта.
Выберите Amazon S3.
Выберите набор данных, который вы загрузили, и выберите Импортировать.

Data Wrangler позволяет либо импортировать весь набор данных, либо выбрать его часть.
Чтобы быстро получить представление о наборе данных, выберите Первый К для Отбор проб и введите 50000 для Размер образца.

Оцените качество данных и получите ценную информацию

Давайте воспользуемся отчетом Data Quality and Insights Report для анализа данных, которые мы импортировали в Data Wrangler. Вы можете использовать отчет, чтобы понять, какие шаги необходимо предпринять для очистки и обработки ваших данных. Этот отчет предоставляет такую информацию, как количество пропущенных значений и количество выбросов. Если у вас есть проблемы с вашими данными, такие как целевая утечка или дисбаланс, аналитический отчет может привлечь ваше внимание к этим проблемам.

Выберите знак плюс рядом с Типы данных , а затем выбрать Получите информацию о данных.
Что касается Тип анализа, выберите Отчет о качестве данных и аналитических данных.
Что касается Целевой столбец, выберите Отток?.
Что касается Тип проблемыВыбрать классификация.
Выберите Создавай.

Вам будет представлен подробный отчет, который вы можете просмотреть и загрузить. Отчет включает несколько разделов, таких как быстрая модель, сводка функций, корреляция функций и анализ данных. На следующих снимках экрана представлены примеры этих разделов.

Наблюдения из отчета

Из отчета мы можем сделать следующие наблюдения:

Повторяющихся строк не обнаружено.
Ассоциация State Столбец кажется довольно равномерно распределенным, поэтому данные сбалансированы с точки зрения населения штата.
Ассоциация Phone столбец представляет слишком много уникальных значений, чтобы иметь какое-либо практическое применение. Слишком много уникальных значений делают этот столбец бесполезным. Мы можем бросить Phone столбец в нашем преобразовании.
Основываясь на разделе отчета о корреляции функций, Mins и Charge сильно коррелированы. Мы можем удалить один из них.

трансформация

Основываясь на наших наблюдениях, мы хотим сделать следующие преобразования:

Удалить Phone столбец, потому что он имеет много уникальных значений.
Мы также видим несколько функций, которые по существу имеют 100% корреляцию друг с другом. Включение этих пар функций в некоторые алгоритмы машинного обучения может создать нежелательные проблемы, в то время как в других это приведет лишь к незначительной избыточности и предвзятости. Удалим по одному признаку из каждой из сильно коррелированных пар: Day Charge из пары с Day Mins, Night Charge из пары с Night Minsи Intl Charge из пары с Intl Mins.
Конвертировать True or False в Churn столбец должен быть числовым значением 1 или 0.

Вернитесь к потоку данных и выберите знак плюс рядом с Типы данных.
Выберите Добавить преобразование.
Выберите Добавить шаг.
Вы можете искать нужное преобразование (в нашем случае управлять столбцами).
Выберите Управление столбцами.
Что касается Transformвыберите Удалить столбец.
Что касается Столбцы для удалениявыберите Phone, Day Charge, Eve Charge, Night Chargeи Intl Charge.
Выберите предварительный просмотр, а затем выберите Обновление ПО.

Давайте добавим еще одно преобразование для выполнения категориального кодирования на Churn? колонка.
Выберите преобразование Кодировать категориальный.
Что касается Transform, выберите Порядковый код.
Что касается Входные столбцы, выбрать Churn? колонка.
Что касается Неверная стратегия обращения, выберите Заменить на NaN.
Выберите предварительный просмотр, а затем выберите Обновление ПО.

Теперь True и False преобразуются в 1 и 0 соответственно.

Теперь, когда мы хорошо понимаем данные и подготовили и преобразовали данные для построения модели, мы можем перенести данные в Studio Lab для построения модели.

Загрузите данные в Studio Lab

Чтобы начать использовать данные в Studio Lab, выполните следующие действия:

Выберите Экспорт данных в экспорт в ведро S3.
Что касается Местоположение Амазон S3, введите свой путь к S3.
Укажите тип файла.
Выберите Экспорт данных.
После экспорта данных вы можете загрузить данные из корзины S3 на свой локальный компьютер.
Теперь вы можете перейти в Studio Lab и загрузить файл в Studio Lab.

Кроме того, вы можете подключиться к Amazon S3 из Studio Lab. Для получения дополнительной информации см. Использование внешних ресурсов в лаборатории Amazon SageMaker Studio Lab.
Давайте установим SageMaker и импортируем Pandas.
Импортируйте все библиотеки по мере необходимости.
Теперь мы можем прочитать файл CSV.
Давайте распечатаем churn чтобы подтвердить правильность набора данных.

Теперь, когда у вас есть обработанный набор данных в Studio Lab, вы можете выполнить дальнейшие шаги, необходимые для построения модели.

Цены на обработчик данных

Вы можете выполнить все шаги, описанные в этом посте, для EDA или подготовки данных в Data Wrangler и платить для простого экземпляра, заданий и цен на хранилище в зависимости от использования или потребления. Никаких авансовых или лицензионных сборов не требуется.

Убирать

Когда вы не используете Data Wrangler, важно закрыть экземпляр, на котором он работает, чтобы избежать дополнительных сборов. Чтобы не потерять работу, сохраните поток данных перед закрытием Data Wrangler.

Чтобы сохранить поток данных в Studio, выберите Файл, а затем выберите Сохранить поток данных Wrangler.
Data Wrangler автоматически сохраняет ваш поток данных каждые 60 секунд.
Чтобы закрыть экземпляр Data Wrangler, в Studio выберите Запуск экземпляров и ядер.
Под ЗАПУСК ПРИЛОЖЕНИЙ, выберите значок выключения рядом с sagemaker-data-wrangler-1.0 app.
Выберите Выключи все , чтобы подтвердить действие.

Data Wrangler работает на экземпляре ml.m5.4xlarge. Этот экземпляр исчезает из ЗАПУСК ИНСТАНСОВ когда вы закрываете приложение Data Wrangler.

После закрытия приложения Data Wrangler его необходимо перезапустить при следующем открытии файла потока Data Wrangler. Это может занять несколько минут.

Заключение

В этом посте мы увидели, как вы можете получить представление о своем наборе данных, выполнить исследовательский анализ данных, подготовить и преобразовать данные с помощью Data Wrangler в Studio, а также экспортировать преобразованные и подготовленные данные в Studio Lab, а также выполнить построение модели и другие шаги.

С помощью SageMaker Data Wrangler вы можете упростить процесс подготовки данных и разработки функций, а также выполнять каждый этап рабочего процесса подготовки данных, включая выбор данных, очистку, исследование и визуализацию, из единого визуального интерфейса.

Об авторах

Раджакумар Сампаткумар является главным техническим менеджером по работе с клиентами в AWS, предоставляя клиентам рекомендации по согласованию бизнес-технологий и поддерживая переосмысление их моделей облачных операций и процессов. Он увлечен облачными технологиями и машинным обучением. Радж также является специалистом по машинному обучению и работает с клиентами AWS над проектированием, развертыванием и управлением их рабочими нагрузками и архитектурами AWS.

Минакшисундарам Тандавараян — старший специалист по искусственному интеллекту и машинному обучению, увлеченный проектированием, созданием и продвижением данных и аналитики, ориентированных на человека. Он поддерживает клиентов AWS Strategic в их преобразовании в организацию, основанную на данных.

Джеймс Ву является старшим специалистом по архитектуре решений AI/ML в AWS. помогая клиентам разрабатывать и создавать решения AI/ML. Работа Джеймса охватывает широкий спектр вариантов использования машинного обучения, в первую очередь интересуясь компьютерным зрением, глубоким обучением и масштабированием машинного обучения на предприятии. До прихода в AWS Джеймс более 10 лет был архитектором, разработчиком и руководителем технологий, в том числе 6 лет в области проектирования и 4 года в сфере маркетинга и рекламы.

Отметка времени: 15 сентября, 202215 сентября, 2022

Отметка времени: 4 Марта, 2024

Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для обучения и экспериментов с машинным обучением.

Переиздано Платоном

Обзор решения

Предпосылки

Создайте рабочий процесс подготовки данных с помощью Data Wrangler

Оцените качество данных и получите ценную информацию

Наблюдения из отчета

трансформация

Загрузите данные в Studio Lab

Цены на обработчик данных

Убирать

Заключение

Об авторах

Больше от Машинное обучение AWS

Accenture создает решение для разработки нормативных документов с использованием генеративных сервисов искусственного интеллекта AWS | Веб-сервисы Amazon

Amazon Comprehend Targeted Sentiment добавляет синхронную поддержку

Как BigBasket улучшила систему оформления заказов с помощью искусственного интеллекта в своих физических магазинах с помощью Amazon SageMaker | Веб-сервисы Amazon

Используйте AWS CDK для развертывания конфигураций жизненного цикла Amazon SageMaker Studio | Веб-сервисы Амазонки

Объявление об обновленном соединителе Salesforce (V2) для Amazon Kendra

Amazon SageMaker Experiments нового поколения — систематизируйте, отслеживайте и сравнивайте свои тренинги по машинному обучению в любом масштабе.

Достигните зрелости DevOps с помощью BMC AMI zAdviser Enterprise и Amazon Bedrock | Веб-сервисы Amazon

Открытие инноваций: AWS и Anthropic вместе расширяют границы генеративного искусственного интеллекта | Веб-сервисы Amazon

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись