Обнаружение шаблонов в текстовых данных с помощью Amazon SageMaker Data Wrangler

Переиздано Платоном

Читают: 0

В этой статье мы представляем новый анализ в Отчет о качестве данных и аналитических данных of Обработчик данных Amazon SageMaker. Этот анализ помогает вам проверить правильность текстовых элементов и обнаружить недопустимые строки для исправления или пропуска.

Data Wrangler сокращает время, необходимое для агрегирования и подготовки данных для машинного обучения (ML), с недель до минут. Вы можете упростить процесс подготовки данных и проектирования функций, а также выполнить каждый этап рабочего процесса подготовки данных, включая выбор данных, очистку, исследование и визуализацию, с помощью единого визуального интерфейса.

Обзор решения

Предварительная обработка данных часто включает в себя очистку текстовых данных, таких как адреса электронной почты, номера телефонов и названия продуктов. Эти данные могут иметь базовые ограничения целостности, которые могут быть описаны регулярными выражениями. Например, чтобы считаться действительным, местный номер телефона должен соответствовать такому шаблону, как [1-9][0-9]{2}-[0-9]{4}, который будет соответствовать ненулевой цифре, за которой следуют еще две цифры, затем тире, а затем еще четыре цифры.

Распространенные сценарии, приводящие к неверным данным, могут включать непоследовательный ввод человеком, например, номера телефонов в различных форматах (5551234 или 555, 1234 или 555-1234) или неожиданные данные, такие как 0, 911 или 411. Для центра обработки вызовов клиентов: важно опускать такие числа, как 0, 911 или 411, и проверять (и, возможно, исправлять) записи, такие как 5551234 или 555 1234.

К сожалению, несмотря на наличие текстовых ограничений, они не могут быть предоставлены вместе с данными. Следовательно, специалист по данным, готовящий набор данных, должен вручную выявить ограничения, просматривая данные. Это может быть утомительно, чревато ошибками и отнимает много времени.

Обучение шаблонам автоматически анализирует ваши данные и выявляет текстовые ограничения, которые могут применяться к вашему набору данных. В примере с телефонными номерами обучение шаблонам может проанализировать данные и определить, что подавляющее большинство телефонных номеров соответствуют текстовым ограничениям. [1-9][0-9]{2}-[0-9][4]. Он также может предупредить вас о наличии примеров недопустимых данных, чтобы вы могли их исключить или исправить.

В следующих разделах мы покажем, как использовать обучение шаблонам в Data Wrangler, используя вымышленный набор данных о категориях продуктов и кодах SKU (единиц учета запасов).

Этот набор данных содержит функции, описывающие продукты по компаниям, брендам и энергопотреблению. Примечательно, что он включает в себя номер SKU, который имеет неверный формат. Все данные в этом наборе данных являются вымышленными и созданы случайным образом с использованием случайных названий брендов и устройств.

Предпосылки

Прежде чем начать использовать Data Wrangler, скачать образец набора данных и загрузите его в папку в Простой сервис хранения Amazon (Амазонка S3). Инструкции см. Загрузка объектов.

Импортируйте свой набор данных

Чтобы импортировать набор данных, выполните следующие шаги:

В Data Wrangler выберите Импортируйте и изучайте данные для машинного обучения.
Выберите Импортировать.
Что касается Даты импорта, выберите Amazon S3.
Найдите файл в Amazon S3 и выберите Импортировать.

После импорта мы можем перейти к потоку данных.

Получите информацию о данных

На этом этапе мы создаем отчет с аналитикой данных, который включает информацию о качестве данных. Для получения дополнительной информации см. Получите представление о данных и качестве данных. Выполните следующие шаги:

На Поток данных вкладку, выберите знак плюса рядом с Типы данных.
Выберите Получите информацию о данных.
Что касается Тип анализа, выберите Отчет о качестве данных и аналитических данных.
Для этого поста оставьте Целевой столбец и Тип проблемы пусто. Если вы планируете использовать свой набор данных для задачи регрессии или классификации с целевым объектом, вы можете выбрать эти параметры, и отчет будет включать анализ того, как ваши входные объекты связаны с вашим целевым объектом. Например, он может создавать отчеты об утечках объектов. Для получения дополнительной информации см. Целевой столбец.
Выберите Создавай.

Теперь у нас есть отчет о качестве данных и анализе данных. Если мы прокрутим вниз до SKU разделе мы можем увидеть пример обучения шаблону, описывающий SKU. Похоже, что эта функция содержит неверные данные, и требуется действенное исправление.

Прежде чем мы очистим функцию SKU, давайте прокрутим вверх до Марка раздел, чтобы увидеть дополнительную информацию. Здесь мы видим, что были обнаружены две закономерности, указывающие на то, что большинство названий брендов представляют собой отдельные слова, состоящие из словесных символов или буквенных символов. А словесный персонаж — это либо знак подчеркивания, либо символ, который может встречаться в слове на любом языке. Например, строки Hello_world и écoute оба состоят из словесных символов: H и é.

В этом посте мы не очищаем эту функцию.

Просмотрите аналитическую информацию по шаблонам обучения

Давайте вернемся к очистке артикулов и увеличим рисунок и предупреждающее сообщение.

Как показано на следующем снимке экрана, обучение шаблонам позволяет получить шаблон с высокой точностью, соответствующий 97.78% данных. Он также отображает некоторые примеры, соответствующие шаблону, а также примеры, которые не соответствуют шаблону. В несоответствиях мы видим несколько недействительных SKU.

В дополнение к отображаемым шаблонам может появиться предупреждение, указывающее на потенциальное действие по очистке данных, если существует шаблон высокой точности, а также некоторые данные, которые не соответствуют шаблону.

Мы можем опустить неверные данные. Если мы выберем (щелкнем правой кнопкой мыши) регулярное выражение, мы сможем скопировать выражение [A-Z]{3}-[0-9]{4,5}.

Удалить неверные данные

Давайте создадим преобразование, чтобы исключить несоответствующие данные, не соответствующие этому шаблону.

На Поток данных вкладку, выберите знак плюса рядом с Типы данных.
Выберите Добавить преобразование.
Выберите Добавить шаг.
Найдите regex , а затем выбрать Искать и редактировать.
Что касается Transform, выберите Преобразовать несоответствия в отсутствующие.
Что касается Входные столбцы, выберите SKU.
Что касается шаблон, введите наше регулярное выражение.
Выберите предварительный просмотр, а затем выберите Добавить.

Теперь из функций удалены посторонние данные.
Чтобы удалить строки, добавьте шаг Ручка отсутствует и выберите преобразование Пропал без вести.
Выберите SKU как входной столбец.

Мы возвращаемся к нашему потоку данных с удаленными ошибочными данными.

Заключение

В этом посте мы показали вам, как использовать функцию обучения шаблонам в анализе данных, чтобы найти недопустимые текстовые данные в вашем наборе данных, а также как исправить или опустить эти данные.

Теперь, когда вы очистили текстовый столбец, вы можете визуализировать свой набор данных с помощью анализ или вы можете подать заявку встроенные преобразования для дальнейшей обработки ваших данных. Если вы удовлетворены своими данными, вы можете обучить модель Amazon SageMaker Автопилотили экспортировать ваши данные к источнику данных, например Amazon S3.

Мы хотели бы поблагодарить Никиту Ивкина за его содержательный обзор.

Об авторах

Вишаал Капур — старший научный сотрудник AWS AI. Он увлечен тем, что помогает клиентам понять их данные в Data Wrangler. В свободное время он катается на горных велосипедах, сноуборде и проводит время со своей семьей.

Зоар Карнин является главным научным сотрудником Amazon AI. Его исследовательские интересы лежат в области крупномасштабных и онлайн-алгоритмов машинного обучения. Он разрабатывает бесконечно масштабируемые алгоритмы машинного обучения для Amazon SageMaker.

Аджай Шарма является главным менеджером по продуктам в Amazon SageMaker, где он занимается Data Wrangler, визуальным инструментом подготовки данных для специалистов по обработке и анализу данных. До прихода в AWS Аджай был экспертом по науке о данных в McKinsey and Company, где руководил проектами по машинному обучению для ведущих финансовых и страховых компаний по всему миру. Аджаи увлечен наукой о данных и любит изучать новейшие алгоритмы и методы машинного обучения.

Дерек Барон — менеджер по разработке программного обеспечения в Amazon SageMaker Data Wrangler.

Отметка времени: 24 октября 202224 октября 2022

Отметка времени: сентябрь 15, 2022

Обнаружение шаблонов в текстовых данных с помощью Amazon SageMaker Data Wrangler

Переиздано Платоном

Обзор решения

Предпосылки

Импортируйте свой набор данных

Получите информацию о данных

Просмотрите аналитическую информацию по шаблонам обучения

Удалить неверные данные

Заключение

Об авторах

Больше от Машинное обучение AWS

AWS Panorama теперь поддерживает NVIDIA JetPack SDK 4.6.2

Начало работы с развертыванием моделей реального времени в Amazon SageMaker

Базы знаний в Amazon Bedrock теперь позволяют задавать вопросы в одном документе | Веб-сервисы Amazon

Еженедельные прогнозы теперь могут начинаться в воскресенье с помощью Amazon Forecast

Упростите непрерывное изучение пользовательских моделей Amazon Comprehend с помощью маховика Comprehend

Интеллектуальный поиск в проектах Jira с помощью облачного коннектора Amazon Kendra Jira

Экземпляр Amazon EC2 DL2q для экономичного и высокопроизводительного вывода ИИ теперь общедоступен | Веб-сервисы Amazon

Используйте Amazon SageMaker Data Wrangler для подготовки данных и Studio Labs для обучения и экспериментов с машинным обучением.

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись