Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Обнаружение шаблонов в текстовых данных с помощью Amazon SageMaker Data Wrangler

В этой статье мы представляем новый анализ в Отчет о качестве данных и аналитических данных of Обработчик данных Amazon SageMaker. Этот анализ помогает вам проверить правильность текстовых элементов и обнаружить недопустимые строки для исправления или пропуска.

Data Wrangler сокращает время, необходимое для агрегирования и подготовки данных для машинного обучения (ML), с недель до минут. Вы можете упростить процесс подготовки данных и проектирования функций, а также выполнить каждый этап рабочего процесса подготовки данных, включая выбор данных, очистку, исследование и визуализацию, с помощью единого визуального интерфейса.

Обзор решения

Предварительная обработка данных часто включает в себя очистку текстовых данных, таких как адреса электронной почты, номера телефонов и названия продуктов. Эти данные могут иметь базовые ограничения целостности, которые могут быть описаны регулярными выражениями. Например, чтобы считаться действительным, местный номер телефона должен соответствовать такому шаблону, как [1-9][0-9]{2}-[0-9]{4}, который будет соответствовать ненулевой цифре, за которой следуют еще две цифры, затем тире, а затем еще четыре цифры.

Распространенные сценарии, приводящие к неверным данным, могут включать непоследовательный ввод человеком, например, номера телефонов в различных форматах (5551234 или 555, 1234 или 555-1234) или неожиданные данные, такие как 0, 911 или 411. Для центра обработки вызовов клиентов: важно опускать такие числа, как 0, 911 или 411, и проверять (и, возможно, исправлять) записи, такие как 5551234 или 555 1234.

К сожалению, несмотря на наличие текстовых ограничений, они не могут быть предоставлены вместе с данными. Следовательно, специалист по данным, готовящий набор данных, должен вручную выявить ограничения, просматривая данные. Это может быть утомительно, чревато ошибками и отнимает много времени.

Обучение шаблонам автоматически анализирует ваши данные и выявляет текстовые ограничения, которые могут применяться к вашему набору данных. В примере с телефонными номерами обучение шаблонам может проанализировать данные и определить, что подавляющее большинство телефонных номеров соответствуют текстовым ограничениям. [1-9][0-9]{2}-[0-9][4]. Он также может предупредить вас о наличии примеров недопустимых данных, чтобы вы могли их исключить или исправить.

В следующих разделах мы покажем, как использовать обучение шаблонам в Data Wrangler, используя вымышленный набор данных о категориях продуктов и кодах SKU (единиц учета запасов).

Этот набор данных содержит функции, описывающие продукты по компаниям, брендам и энергопотреблению. Примечательно, что он включает в себя номер SKU, который имеет неверный формат. Все данные в этом наборе данных являются вымышленными и созданы случайным образом с использованием случайных названий брендов и устройств.

Предпосылки

Прежде чем начать использовать Data Wrangler, скачать образец набора данных и загрузите его в папку в Простой сервис хранения Amazon (Амазонка S3). Инструкции см. Загрузка объектов.

Импортируйте свой набор данных

Чтобы импортировать набор данных, выполните следующие шаги:

  1. В Data Wrangler выберите Импортируйте и изучайте данные для машинного обучения.
  2. Выберите Импортировать.
    Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  3. Что касается Даты импорта, выберите Amazon S3.
    Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  4. Найдите файл в Amazon S3 и выберите Импортировать.
    Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

После импорта мы можем перейти к потоку данных.

Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Получите информацию о данных

На этом этапе мы создаем отчет с аналитикой данных, который включает информацию о качестве данных. Для получения дополнительной информации см. Получите представление о данных и качестве данных. Выполните следующие шаги:

  1. На Поток данных вкладку, выберите знак плюса рядом с Типы данных.
  2. Выберите Получите информацию о данных.
    Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  3. Что касается Тип анализа, выберите Отчет о качестве данных и аналитических данных.
  4. Для этого поста оставьте Целевой столбец и Тип проблемы пусто. Если вы планируете использовать свой набор данных для задачи регрессии или классификации с целевым объектом, вы можете выбрать эти параметры, и отчет будет включать анализ того, как ваши входные объекты связаны с вашим целевым объектом. Например, он может создавать отчеты об утечках объектов. Для получения дополнительной информации см. Целевой столбец.
  5. Выберите Создавай.
    Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Теперь у нас есть отчет о качестве данных и анализе данных. Если мы прокрутим вниз до SKU разделе мы можем увидеть пример обучения шаблону, описывающий SKU. Похоже, что эта функция содержит неверные данные, и требуется действенное исправление.

Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Прежде чем мы очистим функцию SKU, давайте прокрутим вверх до Марка раздел, чтобы увидеть дополнительную информацию. Здесь мы видим, что были обнаружены две закономерности, указывающие на то, что большинство названий брендов представляют собой отдельные слова, состоящие из словесных символов или буквенных символов. А словесный персонаж — это либо знак подчеркивания, либо символ, который может встречаться в слове на любом языке. Например, строки Hello_world и écoute оба состоят из словесных символов: H и é.

В этом посте мы не очищаем эту функцию.

Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Просмотрите аналитическую информацию по шаблонам обучения

Давайте вернемся к очистке артикулов и увеличим рисунок и предупреждающее сообщение.

Как показано на следующем снимке экрана, обучение шаблонам позволяет получить шаблон с высокой точностью, соответствующий 97.78% данных. Он также отображает некоторые примеры, соответствующие шаблону, а также примеры, которые не соответствуют шаблону. В несоответствиях мы видим несколько недействительных SKU.

Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

В дополнение к отображаемым шаблонам может появиться предупреждение, указывающее на потенциальное действие по очистке данных, если существует шаблон высокой точности, а также некоторые данные, которые не соответствуют шаблону.

Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Мы можем опустить неверные данные. Если мы выберем (щелкнем правой кнопкой мыши) регулярное выражение, мы сможем скопировать выражение [A-Z]{3}-[0-9]{4,5}.

Удалить неверные данные

Давайте создадим преобразование, чтобы исключить несоответствующие данные, не соответствующие этому шаблону.

  1. На Поток данных вкладку, выберите знак плюса рядом с Типы данных.
  2. Выберите Добавить преобразование.
    Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  3. Выберите Добавить шаг.
  4. Найдите regex , а затем выбрать Искать и редактировать.
    Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  5. Что касается Transform, выберите Преобразовать несоответствия в отсутствующие.
  6. Что касается Входные столбцы, выберите SKU.
  7. Что касается шаблон, введите наше регулярное выражение.
  8. Выберите предварительный просмотр, а затем выберите Добавить.
    Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
    Теперь из функций удалены посторонние данные.
  9. Чтобы удалить строки, добавьте шаг Ручка отсутствует и выберите преобразование Пропал без вести.
  10. Выберите SKU как входной столбец.
    Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Мы возвращаемся к нашему потоку данных с удаленными ошибочными данными.

Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Заключение

В этом посте мы показали вам, как использовать функцию обучения шаблонам в анализе данных, чтобы найти недопустимые текстовые данные в вашем наборе данных, а также как исправить или опустить эти данные.

Теперь, когда вы очистили текстовый столбец, вы можете визуализировать свой набор данных с помощью анализ или вы можете подать заявку встроенные преобразования для дальнейшей обработки ваших данных. Если вы удовлетворены своими данными, вы можете обучить модель Amazon SageMaker Автопилотили экспортировать ваши данные к источнику данных, например Amazon S3.

Мы хотели бы поблагодарить Никиту Ивкина за его содержательный обзор.


Об авторах

Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Вишаал Капур — старший научный сотрудник AWS AI. Он увлечен тем, что помогает клиентам понять их данные в Data Wrangler. В свободное время он катается на горных велосипедах, сноуборде и проводит время со своей семьей.

Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Зоар Карнин является главным научным сотрудником Amazon AI. Его исследовательские интересы лежат в области крупномасштабных и онлайн-алгоритмов машинного обучения. Он разрабатывает бесконечно масштабируемые алгоритмы машинного обучения для Amazon SageMaker.

Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Аджай Шарма является главным менеджером по продуктам в Amazon SageMaker, где он занимается Data Wrangler, визуальным инструментом подготовки данных для специалистов по обработке и анализу данных. До прихода в AWS Аджай был экспертом по науке о данных в McKinsey and Company, где руководил проектами по машинному обучению для ведущих финансовых и страховых компаний по всему миру. Аджаи увлечен наукой о данных и любит изучать новейшие алгоритмы и методы машинного обучения.

Выявляйте закономерности в текстовых данных с помощью Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Дерек Барон — менеджер по разработке программного обеспечения в Amazon SageMaker Data Wrangler.

Отметка времени:

Больше от Машинное обучение AWS