Лаборатория студии Amazon SageMaker — это бесплатная среда разработки машинного обучения (ML), основанная на JupyterLab с открытым исходным кодом, для всех, кто может изучать и экспериментировать с ML, используя вычислительные ресурсы AWS ML. Он основан на той же архитектуре и пользовательском интерфейсе, что и Студия Amazon SageMaker, но с частью возможностей Studio.
Когда вы начинаете работать над инициативами ML, вам необходимо выполнить исследовательский анализ данных (EDA) или подготовить данные, прежде чем приступить к построению модели. Обработчик данных Amazon SageMaker это способность Создатель мудреца Амазонки Это позволяет специалистам по данным и инженерам быстрее подготавливать данные для приложений машинного обучения через визуальный интерфейс. Data Wrangler сокращает время, необходимое для агрегирования и подготовки данных для машинного обучения, с недель до минут.
Ключевым ускорителем подготовки признаков в Data Wrangler является Отчет о качестве данных и аналитических данных. Этот отчет проверяет качество данных и помогает обнаруживать аномалии в ваших данных, чтобы вы могли выполнить необходимую обработку данных для исправления вашего набора данных. Вы можете использовать отчет о качестве данных и аналитических сведениях, чтобы выполнить анализ ваших данных, чтобы получить представление о вашем наборе данных, например о количестве пропущенных значений и количестве выбросов. Если у вас есть проблемы с вашими данными, такие как целевая утечка или дисбаланс, аналитический отчет может привлечь ваше внимание к этим проблемам и помочь вам определить шаги по подготовке данных, которые необходимо выполнить.
Пользователи Studio Lab могут извлечь выгоду из Data Wrangler, поскольку качество данных и разработка функций имеют решающее значение для прогностической эффективности вашей модели. Data Wrangler помогает с качеством данных и разработкой функций, предоставляя информацию о проблемах качества данных и легко обеспечивая быструю итерацию функций и разработку с помощью пользовательского интерфейса с низким кодом.
В этом посте мы покажем вам, как выполнять исследовательский анализ данных, подготавливать и преобразовывать данные с помощью Data Wrangler, а также экспортировать преобразованные и подготовленные данные в Studio Lab для построения модели.
Обзор решения
Решение включает следующие высокоуровневые шаги:
- Создайте учетную запись AWS и администратора. Это обязательное условие
- Скачать набор данных отток.csv.
- Загрузите набор данных в Простой сервис хранения Amazon (Amazon S3).
- Создайте домен SageMaker Studio и запустите Data Wrangler.
- Импортируйте набор данных в поток Data Wrangler из Amazon S3.
- Создайте отчет о качестве данных и аналитических сведениях и сделайте выводы о разработке необходимых функций.
- Выполните необходимые преобразования данных в Data Wrangler.
- Загрузите отчет о качестве и анализе данных и преобразованный набор данных.
- Загрузите данные в проект Studio Lab для обучения модели.
Следующая диаграмма иллюстрирует этот рабочий процесс.
Предпосылки
Для использования Data Wrangler и Studio Lab необходимы следующие предварительные условия:
Создайте рабочий процесс подготовки данных с помощью Data Wrangler
Для начала выполните следующие шаги:
- Загрузите свой набор данных в Amazon S3.
- На консоли SageMaker в Панель управления на панели навигации выберите Студия.
- На Запустить приложение меню рядом с вашим профилем пользователя, выберите Студия.
После успешного входа в Studio вы должны увидеть среду разработки, как показано на следующем снимке экрана. - Чтобы создать новый рабочий процесс Data Wrangler, на Файл Меню, выберите Новые, а затем выберите Поток обработчика данных.
Первым шагом в Data Wrangler является Импортировать ваши данные. Вы можете импортировать данные из нескольких источников данных, таких как Amazon S3, Амазонка Афина, Амазонка Redshift, Снежинкаи Databricks. В этом примере мы используем Amazon S3. Если вы просто хотите посмотреть, как работает Data Wrangler, вы всегда можете выбрать Использовать образец набора данных. - Выберите Даты импорта.
- Выберите Amazon S3.
- Выберите набор данных, который вы загрузили, и выберите Импортировать.
Data Wrangler позволяет либо импортировать весь набор данных, либо выбрать его часть. - Чтобы быстро получить представление о наборе данных, выберите Первый К для Отбор проб и введите 50000 для Размер образца.
Оцените качество данных и получите ценную информацию
Давайте воспользуемся отчетом Data Quality and Insights Report для анализа данных, которые мы импортировали в Data Wrangler. Вы можете использовать отчет, чтобы понять, какие шаги необходимо предпринять для очистки и обработки ваших данных. Этот отчет предоставляет такую информацию, как количество пропущенных значений и количество выбросов. Если у вас есть проблемы с вашими данными, такие как целевая утечка или дисбаланс, аналитический отчет может привлечь ваше внимание к этим проблемам.
- Выберите знак плюс рядом с Типы данных , а затем выбрать Получите информацию о данных.
- Что касается Тип анализа, выберите Отчет о качестве данных и аналитических данных.
- Что касается Целевой столбец, выберите Отток?.
- Что касается Тип проблемыВыбрать классификация.
- Выберите Создавай.
Вам будет представлен подробный отчет, который вы можете просмотреть и загрузить. Отчет включает несколько разделов, таких как быстрая модель, сводка функций, корреляция функций и анализ данных. На следующих снимках экрана представлены примеры этих разделов.
Наблюдения из отчета
Из отчета мы можем сделать следующие наблюдения:
- Повторяющихся строк не обнаружено.
- Ассоциация
State
Столбец кажется довольно равномерно распределенным, поэтому данные сбалансированы с точки зрения населения штата. - Ассоциация
Phone
столбец представляет слишком много уникальных значений, чтобы иметь какое-либо практическое применение. Слишком много уникальных значений делают этот столбец бесполезным. Мы можем броситьPhone
столбец в нашем преобразовании. - Основываясь на разделе отчета о корреляции функций,
Mins
иCharge
сильно коррелированы. Мы можем удалить один из них.
трансформация
Основываясь на наших наблюдениях, мы хотим сделать следующие преобразования:
- Удалить
Phone
столбец, потому что он имеет много уникальных значений. - Мы также видим несколько функций, которые по существу имеют 100% корреляцию друг с другом. Включение этих пар функций в некоторые алгоритмы машинного обучения может создать нежелательные проблемы, в то время как в других это приведет лишь к незначительной избыточности и предвзятости. Удалим по одному признаку из каждой из сильно коррелированных пар:
Day Charge
из пары сDay Mins
,Night Charge
из пары сNight Mins
иIntl Charge
из пары сIntl Mins
. - Конвертировать
True
orFalse
вChurn
столбец должен быть числовым значением 1 или 0.
- Вернитесь к потоку данных и выберите знак плюс рядом с Типы данных.
- Выберите Добавить преобразование.
- Выберите Добавить шаг.
- Вы можете искать нужное преобразование (в нашем случае управлять столбцами).
- Выберите Управление столбцами.
- Что касается Transformвыберите Удалить столбец.
- Что касается Столбцы для удалениявыберите
Phone
,Day Charge
,Eve Charge
,Night Charge
иIntl Charge
. - Выберите предварительный просмотр, а затем выберите Обновление ПО.
Давайте добавим еще одно преобразование для выполнения категориального кодирования наChurn?
колонка. - Выберите преобразование Кодировать категориальный.
- Что касается Transform, выберите Порядковый код.
- Что касается Входные столбцы, выбрать
Churn?
колонка. - Что касается Неверная стратегия обращения, выберите Заменить на NaN.
- Выберите предварительный просмотр, а затем выберите Обновление ПО.
Теперь True
и False
преобразуются в 1 и 0 соответственно.
Теперь, когда мы хорошо понимаем данные и подготовили и преобразовали данные для построения модели, мы можем перенести данные в Studio Lab для построения модели.
Загрузите данные в Studio Lab
Чтобы начать использовать данные в Studio Lab, выполните следующие действия:
- Выберите Экспорт данных в экспорт в ведро S3.
- Что касается Местоположение Амазон S3, введите свой путь к S3.
- Укажите тип файла.
- Выберите Экспорт данных.
- После экспорта данных вы можете загрузить данные из корзины S3 на свой локальный компьютер.
- Теперь вы можете перейти в Studio Lab и загрузить файл в Studio Lab.
Кроме того, вы можете подключиться к Amazon S3 из Studio Lab. Для получения дополнительной информации см. Использование внешних ресурсов в лаборатории Amazon SageMaker Studio Lab. - Давайте установим SageMaker и импортируем Pandas.
- Импортируйте все библиотеки по мере необходимости.
- Теперь мы можем прочитать файл CSV.
- Давайте распечатаем
churn
чтобы подтвердить правильность набора данных.
Теперь, когда у вас есть обработанный набор данных в Studio Lab, вы можете выполнить дальнейшие шаги, необходимые для построения модели.
Цены на обработчик данных
Вы можете выполнить все шаги, описанные в этом посте, для EDA или подготовки данных в Data Wrangler и платить для простого экземпляра, заданий и цен на хранилище в зависимости от использования или потребления. Никаких авансовых или лицензионных сборов не требуется.
Убирать
Когда вы не используете Data Wrangler, важно закрыть экземпляр, на котором он работает, чтобы избежать дополнительных сборов. Чтобы не потерять работу, сохраните поток данных перед закрытием Data Wrangler.
- Чтобы сохранить поток данных в Studio, выберите Файл, а затем выберите Сохранить поток данных Wrangler.
Data Wrangler автоматически сохраняет ваш поток данных каждые 60 секунд. - Чтобы закрыть экземпляр Data Wrangler, в Studio выберите Запуск экземпляров и ядер.
- Под ЗАПУСК ПРИЛОЖЕНИЙ, выберите значок выключения рядом с
sagemaker-data-wrangler-1.0 app
. - Выберите Выключи все , чтобы подтвердить действие.
Data Wrangler работает на экземпляре ml.m5.4xlarge. Этот экземпляр исчезает из ЗАПУСК ИНСТАНСОВ когда вы закрываете приложение Data Wrangler.
После закрытия приложения Data Wrangler его необходимо перезапустить при следующем открытии файла потока Data Wrangler. Это может занять несколько минут.
Заключение
В этом посте мы увидели, как вы можете получить представление о своем наборе данных, выполнить исследовательский анализ данных, подготовить и преобразовать данные с помощью Data Wrangler в Studio, а также экспортировать преобразованные и подготовленные данные в Studio Lab, а также выполнить построение модели и другие шаги.
С помощью SageMaker Data Wrangler вы можете упростить процесс подготовки данных и разработки функций, а также выполнять каждый этап рабочего процесса подготовки данных, включая выбор данных, очистку, исследование и визуализацию, из единого визуального интерфейса.
Об авторах
Раджакумар Сампаткумар является главным техническим менеджером по работе с клиентами в AWS, предоставляя клиентам рекомендации по согласованию бизнес-технологий и поддерживая переосмысление их моделей облачных операций и процессов. Он увлечен облачными технологиями и машинным обучением. Радж также является специалистом по машинному обучению и работает с клиентами AWS над проектированием, развертыванием и управлением их рабочими нагрузками и архитектурами AWS.
Минакшисундарам Тандавараян — старший специалист по искусственному интеллекту и машинному обучению, увлеченный проектированием, созданием и продвижением данных и аналитики, ориентированных на человека. Он поддерживает клиентов AWS Strategic в их преобразовании в организацию, основанную на данных.
Джеймс Ву является старшим специалистом по архитектуре решений AI/ML в AWS. помогая клиентам разрабатывать и создавать решения AI/ML. Работа Джеймса охватывает широкий спектр вариантов использования машинного обучения, в первую очередь интересуясь компьютерным зрением, глубоким обучением и масштабированием машинного обучения на предприятии. До прихода в AWS Джеймс более 10 лет был архитектором, разработчиком и руководителем технологий, в том числе 6 лет в области проектирования и 4 года в сфере маркетинга и рекламы.
- AI
- ай искусство
- генератор искусств ай
- искусственный интеллект
- Создатель мудреца Амазонки
- Обработчик данных Amazon SageMaker
- искусственный интеллект
- сертификация искусственного интеллекта
- искусственный интеллект в банковском деле
- робот с искусственным интеллектом
- роботы с искусственным интеллектом
- программное обеспечение искусственного интеллекта
- Машинное обучение AWS
- блокчейн
- конференция по блокчейну
- Coingenius
- разговорный искусственный интеллект
- криптоконференция ИИ
- дал-и
- глубокое обучение
- google ai
- обучение с помощью машины
- Платон
- Платон Ай
- Платон Интеллектуальные данные
- Платон игра
- ПлатонДанные
- платогейминг
- масштаб ай
- синтаксис
- зефирнет