Представляем новые встроенные визуализации Amazon SageMaker Data Wrangler

Переиздано Платоном

Читают: 0

Ручная проверка качества данных и очистка данных — болезненный и трудоемкий процесс, который может отнять у специалиста по данным большой кусок времени на проект. Согласно опросу специалистов по данным, проведенному Anaconda в 2020 году, специалисты по данным тратят примерно 66% своего времени на задачи по подготовке и анализу данных, включая загрузку (19%), очистку (26%) и визуализацию данных (21%). Создатель мудреца Амазонки предлагает ряд инструментов подготовки данных для удовлетворения различных потребностей и предпочтений клиентов. Для пользователей, предпочитающих интерактивный интерфейс на основе графического интерфейса, Обработчик данных SageMaker предлагает более 300 встроенных визуализаций, анализов и преобразований для эффективной обработки данных, поддерживаемых Spark, без написания единой строки кода.

Визуализация данных в машинном обучении (МО) — это повторяющийся процесс, который требует непрерывной визуализации набора данных для обнаружения, исследования и проверки. Чтобы представить данные в перспективе, необходимо просмотреть каждый из столбцов, чтобы понять возможные ошибки данных, отсутствующие значения, неправильные типы данных, вводящие в заблуждение/неверные данные, выбросы данных и многое другое.

В этом посте мы покажем вам, как Обработчик данных Amazon SageMaker автоматически создает ключевые визуализации распределения данных, выявляет проблемы с качеством данных и выявляет аналитические данные, такие как выбросы для каждой функции, без написания единой строки кода. Это помогает улучшить работу сетки данных с помощью автоматических предупреждений о качестве (например, об отсутствующих или недопустимых значениях). Автоматически создаваемые визуализации также являются интерактивными. Например, вы можете отобразить в таблице пять наиболее часто встречающихся элементов, упорядоченных по процентам, и навести указатель мыши на полосу, чтобы переключиться между количеством и процентом.

Предпосылки

Amazon SageMaker Data Wrangler — это функция SageMaker, доступная в SageMaker Studio. Вы можете следить процесс регистрации в Студии для раскрутки среды Studio и ноутбуков. Хотя вы можете выбрать один из нескольких методов аутентификации, самый простой способ создать домен Studio — следовать Инструкции по быстрому запуску. Быстрый старт использует те же настройки по умолчанию, что и стандартная настройка Studio. Вы также можете подключиться с помощью Центр идентификации AWS Identity and Access Management (IAM) (преемник AWS Single Sign-On) для аутентификации (см. Подключение к домену Amazon SageMaker с помощью IAM Identity Center).

Пошаговое руководство по решению

Начните свой Студия SageMaker среду и создать новую Поток обработки данных. Вы можете либо импортировать свой собственный набор данных, либо использовать образец набора данных (Титанический), как показано на следующем изображении. Эти два узла (т. источник узел и данным тип узла) кликабельны — если дважды щелкнуть эти два узла, Data Wrangler отобразит таблицу.

В нашем случае щелкнем правой кнопкой мыши Типы данных значок и Добавить преобразование:

Теперь вы должны увидеть визуализации в верхней части каждого столбца. Подождите некоторое время, пока графики загрузятся. Задержка зависит от размера набора данных (для набора данных Titanic в экземпляре по умолчанию это должно занять 1-2 секунды).

Представляем новую встроенную визуализацию Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Прокрутите до горизонтальной верхней панели, наведя курсор на всплывающую подсказку. Теперь, когда диаграммы загружены, вы можете увидеть распределение данных, недопустимые значения и отсутствующие значения. Выбросы и пропущенные значения являются характеристиками ошибочных данных, и очень важно их идентифицировать, поскольку они могут повлиять на ваши результаты. Это означает, что, поскольку ваши данные получены из нерепрезентативной выборки, ваши выводы могут быть неприменимы к ситуациям за пределами вашего исследования. Классификацию значений можно увидеть на графиках внизу, где действительный значения представлены белым цветом, недействительный значения синим цветом и отсутствующий значения фиолетовым цветом. Вы также можете посмотреть на выбросы изображается синими точками слева или справа от диаграммы.

Представляем новую встроенную визуализацию Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Все визуализации представлены в виде гистограмм. Для некатегориальных данных набор сегментов определяется для каждого интервала. Для категориальных данных каждое уникальное значение обрабатывается как бин. В верхней части гистограммы есть гистограмма, показывающая недопустимые и отсутствующие значения. Мы можем просмотреть соотношение допустимых значений для числовых, категориальных, двоичных, текстовых и датированных типов, а также соотношение пропущенных значений на основе общего количества нулевых и пустых ячеек и, наконец, соотношение недопустимых значений. Давайте рассмотрим несколько примеров, чтобы понять, как вы можете увидеть их, используя Предварительно загруженный образец Data Wrangler Titanic Dataset.

Пример 1 – Мы можем посмотреть на 20% отсутствующих значений для ВОЗРАСТ функция/столбец. Крайне важно иметь дело с отсутствующими данными в области исследований, связанных с данными / ML, либо путем их удаления, либо путем их условного исчисления (обработка отсутствующих значений с некоторой оценкой).

Представляем новую встроенную визуализацию Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Вы можете обработать пропущенные значения с помощью Обработка пропущенных значений группа трансформации. Использовать Вменить отсутствие Преобразование для создания вмененных значений там, где во входном столбце были найдены отсутствующие значения. Конфигурация зависит от вашего типа данных.

В этом примере ВОЗРАСТ столбец имеет числовой тип данных. Для вменения стратегии мы можем выбрать вменение значить или приблизительная медиана над значениями, присутствующими в вашем наборе данных.

Теперь, когда мы добавили преобразование, мы видим, что ВОЗРАСТ столбец больше не содержит пропущенных значений.

Пример 2 – Мы можем посмотреть на 27% неверных значений для БИЛЕТ функция / столбец, который относится к STRING тип. Неверные данные могут привести к смещенным оценкам, что может снизить точность модели и привести к ложным выводам. Давайте рассмотрим некоторые преобразования, которые мы можем использовать для обработки недопустимых данных в БИЛЕТ колонка.

Глядя на скриншот, мы видим, что некоторые входные данные записаны в формате, который содержит буквы перед цифрами».PC 17318", а другие - просто цифры, такие как "11769».

Мы можем применить преобразование для поиска и редактирования определенных шаблонов в строках, таких как «ПК" и заменить их. Далее мы можем разыграть наш string столбец в новый тип, такой как Длинное для простоты использования.

Это по-прежнему оставляет нам 19% пропущенных значений на БИЛЕТ особенность. Как и в примере 1, теперь мы можем вычислить недостающие значения, используя среднее значение или приблизительную медиану. Особенность БИЛЕТ больше не должно иметь недопустимых или отсутствующих значений, как показано на изображении ниже.

Чтобы убедиться, что с вас не будет взиматься плата после выполнения этого руководства, убедитесь, что вы закрыть приложение Data Wrangler.

Заключение

В этом посте мы представили новый Обработчик данных Amazon Sagemaker виджет, который поможет удалить недифференцированный подъем тяжестей для конечных пользователей во время подготовки данных с автоматически отображаемыми визуализациями и профилированием данных для каждой функции. Этот виджет позволяет легко визуализировать данные (например, категориальную/некатегориальную гистограмму), обнаруживать проблемы с качеством данных (например, отсутствующие значения и недопустимые значения) и анализировать поверхностные данные (например, выбросы и первые N элементов).

Вы можете начать использовать эту возможность уже сегодня во всех регионах, где доступна SageMaker Studio. Дайте ему попробовать, и дайте нам знать, что вы думаете. Мы всегда с нетерпением ждем ваших отзывов либо через ваши обычные контакты службы поддержки AWS, либо через Форум AWS для Sage Maker.

Об авторах

Иша Дуа работает старшим архитектором решений в районе залива Сан-Франциско. Она помогает корпоративным клиентам AWS расти, понимая их цели и проблемы, а также дает им советы о том, как они могут создавать свои приложения в облачной манере, обеспечивая при этом их отказоустойчивость и масштабируемость. Она увлечена технологиями машинного обучения и экологической устойчивостью.

Парт Патель работает архитектором решений в AWS в районе залива Сан-Франциско. Парт помогает клиентам ускорить переход к облаку и успешно внедрить облако AWS. Он занимается машинным обучением и модернизацией приложений.

Отметка времени: 13 декабря 202213 декабря 2022

Отметка времени: сентябрь 29, 2022

Представляем новые встроенные визуализации Amazon SageMaker Data Wrangler

Переиздано Платоном

Предпосылки

Пошаговое руководство по решению

Заключение

Об авторах

Больше от Машинное обучение AWS

Развертывание больших моделей в Amazon SageMaker с использованием параллельного вывода моделей DJLServing и DeepSpeed.

Управление доступом к Amazon SageMaker Feature Store в автономном режиме с помощью AWS Lake Formation

Повысьте точность поиска с помощью проверки орфографии в Amazon Kendra

Анализ заражения грызунами с помощью геопространственных возможностей Amazon SageMaker | Веб-сервисы Амазонки

Извлекайте знания в рабочих пространствах Slack с помощью интеллектуального поиска с помощью коннектора Amazon Kendra Slack.

Как Sophos обучает мощный и легкий детектор вредоносных программ PDF в сверхмасштабе с помощью Amazon SageMaker

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись