Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler

Перевидано Платоном

читають: 0

У цій публікації ми представляємо новий аналіз у Звіт про якість даних і статистику of Amazon SageMaker Data Wrangler. Цей аналіз допоможе вам перевірити текстові функції на правильність і виявити недійсні рядки для виправлення чи пропуску.

Data Wrangler скорочує час, необхідний для агрегування та підготовки даних для машинного навчання (ML), з тижнів до хвилин. Ви можете спростити процес підготовки даних і розробки функцій, а також завершити кожен крок робочого циклу підготовки даних, включаючи вибір, очищення, дослідження та візуалізацію, за допомогою єдиного візуального інтерфейсу.

Огляд рішення

Попередня обробка даних часто передбачає очищення текстових даних, таких як адреси електронної пошти, номери телефонів і назви продуктів. Ці дані можуть мати основні обмеження цілісності, які можуть бути описані регулярними виразами. Наприклад, щоб вважатися дійсним, місцевий номер телефону може відповідати такому шаблону [1-9][0-9]{2}-[0-9]{4}, що відповідатиме ненульовій цифрі, за якою слідують ще дві цифри, після яких йде тире, за якими слідують ще чотири цифри.

Поширені сценарії, що призводять до недійсних даних, можуть включати непослідовне введення людиною, наприклад номери телефонів у різних форматах (5551234 проти 555 1234 проти 555-1234) або неочікувані дані, як-от 0, 911 або 411. Для центру обслуговування клієнтів, важливо пропускати такі числа, як 0, 911 або 411, і перевіряти (і потенційно виправляти) записи, такі як 5551234 або 555 1234.

На жаль, хоча існують текстові обмеження, вони можуть не надаватися разом з даними. Тому фахівець з даних, який готує набір даних, повинен вручну виявити обмеження, переглянувши дані. Це може бути виснажливим, схильним до помилок і займає багато часу.

Навчання шаблонів автоматично аналізує ваші дані та виявляє текстові обмеження, які можуть застосовуватися до вашого набору даних. Для прикладу з номерами телефонів навчання шаблонам може проаналізувати дані та визначити, що переважна більшість номерів телефонів відповідає текстовим обмеженням [1-9][0-9]{2}-[0-9][4]. Він також може попередити вас про наявність прикладів недійсних даних, щоб ви могли їх виключити або виправити.

У наступних розділах ми демонструємо, як використовувати вивчення шаблонів у Data Wrangler за допомогою вигаданого набору даних категорій продуктів і кодів SKU (одиниці зберігання).

Цей набір даних містить характеристики, які описують продукти за компанією, брендом і споживанням енергії. Примітно, що він містить неправильно відформатований SKU функції. Усі дані в цьому наборі даних є вигаданими та створюються випадковим чином із використанням випадкових назв брендів і пристроїв.

Передумови

Перш ніж почати використовувати Data Wrangler, скачати зразок набору даних і завантажте його в розташування в Служба простого зберігання Amazon (Amazon S3). Інструкції див Завантаження об'єктів.

Імпортуйте свій набір даних

Щоб імпортувати набір даних, виконайте такі дії:

У Data Wrangler виберіть Імпорт і дослідження даних для ML.
Вибирати Імпортувати.
для Дати імпортувиберіть Amazon S3.
Знайдіть файл в Amazon S3 і виберіть Імпортувати.

Після імпорту ми можемо перейти до потоку даних.

Отримайте статистику даних

На цьому кроці ми створюємо звіт про статистику даних, який містить інформацію про якість даних. Для отримання додаткової інформації див Дізнайтеся про дані та якість даних. Виконайте наступні дії:

на Потік даних виберіть знак плюс поруч із Типи даних.
Вибирати Отримайте статистику даних.
для Тип аналізувиберіть Звіт про якість даних і статистику.
На цю посаду залишити Цільова колонка та Тип проблеми Пусто. Якщо ви плануєте використовувати свій набір даних для завдання регресії або класифікації з цільовою ознакою, ви можете вибрати ці параметри, і звіт включатиме аналіз того, як ваші вхідні функції пов’язані з цільовою функцією. Наприклад, він може створювати звіти про цільовий витік. Для отримання додаткової інформації див Цільова колонка.
Вибирати Створювати.

Тепер у нас є звіт про якість даних і аналіз даних. Якщо ми прокрутимо вниз до SKU розділі ми можемо побачити приклад навчання шаблонів, що описує SKU. Схоже, ця функція містить недійсні дані, і потрібне дієве виправлення.

Перш ніж очистити функцію SKU, давайте прокрутимо вгору до Марка розділ, щоб переглянути додаткові відомості. Тут ми бачимо, що було виявлено дві закономірності, які вказують на те, що більшість назв брендів є окремими словами, що складаються з символів слів або літер. А символ слова є або підкресленням, або символом, який може з’явитися в слові будь-якою мовою. Наприклад, струни Hello_world та écoute обидва складаються зі слів: H та é.

Для цієї публікації ми не очищаємо цю функцію.

Перегляньте інформацію про вивчення шаблонів

Давайте повернемося до очищення SKU і збільшимо візерунок і попередження.

Як показано на наступному знімку екрана, вивчення шаблонів виявляє високоточний шаблон, який відповідає 97.78% даних. Він також відображає деякі приклади, які відповідають шаблону, а також приклади, які не відповідають шаблону. У невідповідності ми бачимо деякі недійсні SKU.

Окрім виявлених шаблонів, може з’явитися попередження, яке вказує на можливу дію для очищення даних, якщо є шаблон високої точності, а також деякі дані, які не відповідають шаблону.

Ми можемо опустити недійсні дані. Якщо ми виберемо (клацнемо правою кнопкою миші) регулярний вираз, ми зможемо скопіювати вираз [A-Z]{3}-[0-9]{4,5}.

Видалити недійсні дані

Давайте створимо перетворення, щоб опустити невідповідні дані, які не відповідають цьому шаблону.

на Потік даних виберіть знак плюс поруч із Типи даних.
Вибирати Додати трансформацію.
Вибирати Додати крок.
Шукати regex І вибирай Шукати та редагувати.
для Перетвореннявиберіть Перетворити невідповідності у відсутні.
для Вхідні стовпцівиберіть SKU.
для Викрійки, введіть наш регулярний вираз.
Вибирати попередній перегляд, Потім виберіть додавати.

Тепер сторонні дані видалено з функцій.
Щоб видалити рядки, додайте крок Відсутня ручка і виберіть перетворення Відсутня крапля.
Вибирати SKU як вхідний стовпець.

Ми повертаємось до нашого потоку даних із видаленням помилкових даних.

Висновок

У цьому дописі ми показали вам, як використовувати функцію вивчення шаблонів у статистиці даних, щоб знайти недійсні текстові дані у вашому наборі даних, а також як виправити або пропустити ці дані.

Тепер, коли ви очистили текстовий стовпець, ви можете візуалізувати свій набір даних за допомогою аналіз або ви можете подати заявку вбудовані трансформації для подальшої обробки ваших даних. Коли ви задоволені своїми даними, ви можете тренувати модель з Автопілот Amazon SageMakerабо експортуйте свої дані до джерела даних, наприклад Amazon S3.

Ми хочемо подякувати Микиті Івкіну за вдумливий огляд.

Про авторів

Вішал Капур є старшим науковим співробітником з AWS AI. Він прагне допомогти клієнтам зрозуміти їхні дані в Data Wrangler. У вільний час він катається на гірських велосипедах, сноубордах і проводить час з родиною.

Зохар Карнін є головним науковим співробітником Amazon AI. Його наукові інтереси пов’язані з алгоритмами великомасштабного та онлайн-машинного навчання. Він розробляє нескінченно масштабовані алгоритми машинного навчання для Amazon SageMaker.

Аджай Шарма є головним менеджером із продуктів Amazon SageMaker, де він зосереджується на Data Wrangler, візуальному інструменті підготовки даних для науковців із обробки даних. До роботи в AWS Аджай працював експертом з обробки даних у компанії McKinsey and Company, де керував проектами, орієнтованими на ML, для провідних фінансових і страхових компаній у всьому світі. Аджай захоплюється наукою про дані та любить досліджувати новітні алгоритми та методи машинного навчання.

Дерек Барон є менеджером з розробки програмного забезпечення Amazon SageMaker Data Wrangler

Часова мітка: Жовтень 24, 2022Жовтень 24, 2022

Часова мітка: Вересень 15, 2022

Виявляйте шаблони в текстових даних за допомогою Amazon SageMaker Data Wrangler

Перевидано Платоном

Огляд рішення

Передумови

Імпортуйте свій набір даних

Отримайте статистику даних

Перегляньте інформацію про вивчення шаблонів

Видалити недійсні дані

Висновок

Про авторів

Більше від AWS Машинне навчання

AWS Panorama тепер підтримує NVIDIA JetPack SDK 4.6.2

Початок роботи з розгортанням моделей реального часу на Amazon SageMaker

Бази знань в Amazon Bedrock тепер спрощують ставити запитання в одному документі | Веб-сервіси Amazon

Щотижневі прогнози тепер можуть починатися в неділю з Amazon Forecast

Спростіть безперервне вивчення спеціальних моделей Amazon Comprehend за допомогою маховика Comprehend

Розумно шукайте свої проекти Jira за допомогою хмарного конектора Amazon Kendra Jira

Екземпляр Amazon EC2 DL2q для рентабельного, високопродуктивного штучного інтелекту тепер загальнодоступний | Веб-сервіси Amazon

Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки