Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler

У цій публікації ми представляємо новий аналіз у Звіт про якість даних і статистику of Amazon SageMaker Data Wrangler. Цей аналіз допоможе вам перевірити текстові функції на правильність і виявити недійсні рядки для виправлення чи пропуску.

Data Wrangler скорочує час, необхідний для агрегування та підготовки даних для машинного навчання (ML), з тижнів до хвилин. Ви можете спростити процес підготовки даних і розробки функцій, а також завершити кожен крок робочого циклу підготовки даних, включаючи вибір, очищення, дослідження та візуалізацію, за допомогою єдиного візуального інтерфейсу.

Огляд рішення

Попередня обробка даних часто передбачає очищення текстових даних, таких як адреси електронної пошти, номери телефонів і назви продуктів. Ці дані можуть мати основні обмеження цілісності, які можуть бути описані регулярними виразами. Наприклад, щоб вважатися дійсним, місцевий номер телефону може відповідати такому шаблону [1-9][0-9]{2}-[0-9]{4}, що відповідатиме ненульовій цифрі, за якою слідують ще дві цифри, після яких йде тире, за якими слідують ще чотири цифри.

Поширені сценарії, що призводять до недійсних даних, можуть включати непослідовне введення людиною, наприклад номери телефонів у різних форматах (5551234 проти 555 1234 проти 555-1234) або неочікувані дані, як-от 0, 911 або 411. Для центру обслуговування клієнтів, важливо пропускати такі числа, як 0, 911 або 411, і перевіряти (і потенційно виправляти) записи, такі як 5551234 або 555 1234.

На жаль, хоча існують текстові обмеження, вони можуть не надаватися разом з даними. Тому фахівець з даних, який готує набір даних, повинен вручну виявити обмеження, переглянувши дані. Це може бути виснажливим, схильним до помилок і займає багато часу.

Навчання шаблонів автоматично аналізує ваші дані та виявляє текстові обмеження, які можуть застосовуватися до вашого набору даних. Для прикладу з номерами телефонів навчання шаблонам може проаналізувати дані та визначити, що переважна більшість номерів телефонів відповідає текстовим обмеженням [1-9][0-9]{2}-[0-9][4]. Він також може попередити вас про наявність прикладів недійсних даних, щоб ви могли їх виключити або виправити.

У наступних розділах ми демонструємо, як використовувати вивчення шаблонів у Data Wrangler за допомогою вигаданого набору даних категорій продуктів і кодів SKU (одиниці зберігання).

Цей набір даних містить характеристики, які описують продукти за компанією, брендом і споживанням енергії. Примітно, що він містить неправильно відформатований SKU функції. Усі дані в цьому наборі даних є вигаданими та створюються випадковим чином із використанням випадкових назв брендів і пристроїв.

Передумови

Перш ніж почати використовувати Data Wrangler, скачати зразок набору даних і завантажте його в розташування в Служба простого зберігання Amazon (Amazon S3). Інструкції див Завантаження об'єктів.

Імпортуйте свій набір даних

Щоб імпортувати набір даних, виконайте такі дії:

  1. У Data Wrangler виберіть Імпорт і дослідження даних для ML.
  2. Вибирати Імпортувати.
    Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  3. для Дати імпортувиберіть Amazon S3.
    Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  4. Знайдіть файл в Amazon S3 і виберіть Імпортувати.
    Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Після імпорту ми можемо перейти до потоку даних.

Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Отримайте статистику даних

На цьому кроці ми створюємо звіт про статистику даних, який містить інформацію про якість даних. Для отримання додаткової інформації див Дізнайтеся про дані та якість даних. Виконайте наступні дії:

  1. на Потік даних виберіть знак плюс поруч із Типи даних.
  2. Вибирати Отримайте статистику даних.
    Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  3. для Тип аналізувиберіть Звіт про якість даних і статистику.
  4. На цю посаду залишити Цільова колонка та Тип проблеми Пусто. Якщо ви плануєте використовувати свій набір даних для завдання регресії або класифікації з цільовою ознакою, ви можете вибрати ці параметри, і звіт включатиме аналіз того, як ваші вхідні функції пов’язані з цільовою функцією. Наприклад, він може створювати звіти про цільовий витік. Для отримання додаткової інформації див Цільова колонка.
  5. Вибирати Створювати.
    Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Тепер у нас є звіт про якість даних і аналіз даних. Якщо ми прокрутимо вниз до SKU розділі ми можемо побачити приклад навчання шаблонів, що описує SKU. Схоже, ця функція містить недійсні дані, і потрібне дієве виправлення.

Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Перш ніж очистити функцію SKU, давайте прокрутимо вгору до Марка розділ, щоб переглянути додаткові відомості. Тут ми бачимо, що було виявлено дві закономірності, які вказують на те, що більшість назв брендів є окремими словами, що складаються з символів слів або літер. А символ слова є або підкресленням, або символом, який може з’явитися в слові будь-якою мовою. Наприклад, струни Hello_world та écoute обидва складаються зі слів: H та é.

Для цієї публікації ми не очищаємо цю функцію.

Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Перегляньте інформацію про вивчення шаблонів

Давайте повернемося до очищення SKU і збільшимо візерунок і попередження.

Як показано на наступному знімку екрана, вивчення шаблонів виявляє високоточний шаблон, який відповідає 97.78% даних. Він також відображає деякі приклади, які відповідають шаблону, а також приклади, які не відповідають шаблону. У невідповідності ми бачимо деякі недійсні SKU.

Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Окрім виявлених шаблонів, може з’явитися попередження, яке вказує на можливу дію для очищення даних, якщо є шаблон високої точності, а також деякі дані, які не відповідають шаблону.

Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Ми можемо опустити недійсні дані. Якщо ми виберемо (клацнемо правою кнопкою миші) регулярний вираз, ми зможемо скопіювати вираз [A-Z]{3}-[0-9]{4,5}.

Видалити недійсні дані

Давайте створимо перетворення, щоб опустити невідповідні дані, які не відповідають цьому шаблону.

  1. на Потік даних виберіть знак плюс поруч із Типи даних.
  2. Вибирати Додати трансформацію.
    Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  3. Вибирати Додати крок.
  4. Шукати regex І вибирай Шукати та редагувати.
    Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  5. для Перетвореннявиберіть Перетворити невідповідності у відсутні.
  6. для Вхідні стовпцівиберіть SKU.
  7. для Викрійки, введіть наш регулярний вираз.
  8. Вибирати попередній перегляд, Потім виберіть додавати.
    Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
    Тепер сторонні дані видалено з функцій.
  9. Щоб видалити рядки, додайте крок Відсутня ручка і виберіть перетворення Відсутня крапля.
  10. Вибирати SKU як вхідний стовпець.
    Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Ми повертаємось до нашого потоку даних із видаленням помилкових даних.

Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Висновок

У цьому дописі ми показали вам, як використовувати функцію вивчення шаблонів у статистиці даних, щоб знайти недійсні текстові дані у вашому наборі даних, а також як виправити або пропустити ці дані.

Тепер, коли ви очистили текстовий стовпець, ви можете візуалізувати свій набір даних за допомогою аналіз або ви можете подати заявку вбудовані трансформації для подальшої обробки ваших даних. Коли ви задоволені своїми даними, ви можете тренувати модель з Автопілот Amazon SageMakerабо експортуйте свої дані до джерела даних, наприклад Amazon S3.

Ми хочемо подякувати Микиті Івкіну за вдумливий огляд.


Про авторів

Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Вішал Капур є старшим науковим співробітником з AWS AI. Він прагне допомогти клієнтам зрозуміти їхні дані в Data Wrangler. У вільний час він катається на гірських велосипедах, сноубордах і проводить час з родиною.

Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Зохар Карнін є головним науковим співробітником Amazon AI. Його наукові інтереси пов’язані з алгоритмами великомасштабного та онлайн-машинного навчання. Він розробляє нескінченно масштабовані алгоритми машинного навчання для Amazon SageMaker.

Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Аджай Шарма є головним менеджером із продуктів Amazon SageMaker, де він зосереджується на Data Wrangler, візуальному інструменті підготовки даних для науковців із обробки даних. До роботи в AWS Аджай працював експертом з обробки даних у компанії McKinsey and Company, де керував проектами, орієнтованими на ML, для провідних фінансових і страхових компаній у всьому світі. Аджай захоплюється наукою про дані та любить досліджувати новітні алгоритми та методи машинного навчання.

Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Дерек Барон є менеджером з розробки програмного забезпечення Amazon SageMaker Data Wrangler

Часова мітка:

Більше від AWS Машинне навчання