Представляємо нові вбудовані візуалізації Amazon SageMaker Data Wrangler

Перевидано Платоном

читають: 0

Перевірка якості даних і їх очищення вручну є болісним і трудомістким процесом, який може зайняти величезну частину часу спеціаліста з даних над проектом. Згідно з опитуванням спеціалістів з обробки даних у 2020 році, проведеним компанією Anaconda, фахівці з обробки даних витрачають приблизно 66% свого часу на завдання з підготовки та аналізу даних, включаючи завантаження (19%), очищення (26%) і візуалізацію даних (21%). Amazon SageMaker пропонує ряд інструментів підготовки даних для задоволення потреб і вподобань різних клієнтів. Для користувачів, які віддають перевагу інтерактивному інтерфейсу на основі GUI, SageMaker Data Wrangler пропонує понад 300 вбудованих візуалізацій, аналізів і перетворень для ефективної обробки даних, підтриманих Spark, без написання жодного рядка коду.

Візуалізація даних у машинному навчанні (ML) є ітераційним процесом і вимагає постійної візуалізації набору даних для виявлення, дослідження та перевірки. Перегляд даних у перспективі передбачає перегляд кожного зі стовпців, щоб зрозуміти можливі помилки даних, відсутні значення, неправильні типи даних, оманливі/неправильні дані, дані, що викидаються, тощо.

У цій публікації ми покажемо вам, як це зробити Amazon SageMaker Data Wrangler автоматично генерує ключові візуалізації розподілу даних, виявляє проблеми з якістю даних і виводить аналіз даних, наприклад викиди, для кожної функції без написання жодного рядка коду. Це допомагає покращити роботу сітки даних завдяки автоматичним попередженням про якість (наприклад, відсутні значення або недійсні значення). Автоматично створені візуалізації також є інтерактивними. Наприклад, ви можете показати таблицю п’яти найпоширеніших елементів, упорядкованих за відсотками, і навести курсор на панель, щоб переключитися між кількістю та відсотками.

Передумови

Amazon SageMaker Data Wrangler — це функція SageMaker, доступна в SageMaker Studio. Ви можете слідкувати процес адаптації Studio щоб розкрутити середовище Studio та блокноти. Хоча ви можете вибрати один із кількох методів автентифікації, найпростішим способом створення домену Studio є дотримання Інструкції щодо швидкого початку роботи. Швидкий старт використовує ті самі налаштування за замовчуванням, що й стандартні налаштування Studio. Ви також можете вибрати використання на борту Центр ідентифікації AWS Identity and Access Management (IAM). (наступник AWS Single Sign-On) для автентифікації (див Підключення до домену Amazon SageMaker за допомогою IAM Identity Center).

Покрокове керівництво рішенням

Почніть свій Студія SageMaker Середовище і створити нове Потік даних Wrangler. Ви можете імпортувати власний набір даних або використати зразок набору даних (Титанічна), як показано на наступному зображенні. Ці два вузли ( джерело вузол і дані вузол типу) можна натиснути – коли ви двічі клацнете ці два вузли, Data Wrangler відобразить таблицю.

У нашому випадку клацніть правою кнопкою миші на Типи даних значок і Додайте трансформацію:

Тепер ви повинні побачити візуалізації вгорі кожного стовпця. Зачекайте деякий час, щоб завантажилися діаграми. Затримка залежить від розміру набору даних (для набору даних Titanic це має зайняти 1-2 секунди в екземплярі за замовчуванням).

Представляємо нові вбудовані візуалізації PlatoBlockchain Data Wrangler від Amazon SageMaker Data Wrangler. Вертикальний пошук. Ai.

Прокрутіть до горизонтальної верхньої панелі, навівши курсор на підказку. Тепер, коли діаграми завантажено, ви можете побачити розподіл даних, недійсні та відсутні значення. Викиди та відсутні значення є ознаками помилкових даних, і дуже важливо їх ідентифікувати, оскільки вони можуть вплинути на ваші результати. Це означає, що оскільки ваші дані надійшли з нерепрезентативної вибірки, ваші висновки не можна узагальнити на ситуації поза межами вашого дослідження. Класифікацію значень можна побачити на діаграмах внизу дійсний значення представлені білим кольором, недійсний значення синього кольору та відсутній значення фіолетовим. Ви також можете подивитися на чужинці зображені синіми крапками ліворуч або праворуч від діаграми.

Представляємо нові вбудовані візуалізації PlatoBlockchain Data Wrangler від Amazon SageMaker Data Wrangler. Вертикальний пошук. Ai.

Усі візуалізації представлені у вигляді гістограм. Для некатегорійних даних набір сегментів визначається для кожного контейнера. Для категоріальних даних кожне унікальне значення розглядається як bin. Поверх гістограми є гістограма, яка показує недійсні та відсутні значення. Ми можемо переглянути співвідношення дійсних значень для числових, категорійних, двійкових, текстових і типів Datetime, а також співвідношення пропущених значень на основі загальної кількості нульових і порожніх клітинок і, нарешті, співвідношення неприпустимих значень. Давайте розглянемо кілька прикладів, щоб зрозуміти, як ви можете побачити їх використання Попередньо завантажений зразок Titanic Dataset Data Wrangler.

Приклад 1 – Ми можемо переглянути 20% відсутніх значень для ВІК функція/стовпчик. Дуже важливо мати справу з відсутніми даними в галузі досліджень, пов’язаних з даними/ML, шляхом їх видалення або імпутації (обробка відсутніх значень за допомогою певної оцінки).

Представляємо нові вбудовані візуалізації PlatoBlockchain Data Wrangler від Amazon SageMaker Data Wrangler. Вертикальний пошук. Ai.
Ви можете обробити відсутні значення за допомогою Обробляти відсутні значення трансформувати групу. Використовувати Відсутнє імпутування перетворення, щоб створити вписані значення, де відсутні значення були знайдені у вхідному стовпці. Конфігурація залежить від типу даних.

У цьому прикладі файл ВІК стовпець має числовий тип даних. Для стратегії імпутування ми можемо вибрати імпутування значити або наближена медіана над значеннями, наявними у вашому наборі даних.

Тепер, коли ми додали перетворення, ми бачимо, що ВІК стовпець більше не містить пропущених значень.

Приклад 2 – Ми можемо переглянути 27% недійсних значень для КВИТОК функція/стовпець, який належить до STRING типу. Недійсні дані можуть давати необ’єктивні оцінки, що може знизити точність моделі та призвести до помилкових висновків. Давайте дослідимо деякі перетворення, які ми можемо використати для обробки недійсних даних у КВИТОК колонка.

Дивлячись на знімок екрана, ми бачимо, що деякі вхідні дані записані у форматі, який містить букви перед цифрами "ПК 17318", а інші - лише числівники, наприклад "11769".

Ми можемо застосувати перетворення для пошуку та редагування певних шаблонів у рядках, таких як "ПК» і замініть їх. Далі ми можемо кинути наш рядок стовпець до нового типу, наприклад Довго для зручності використання.

Це все одно залишає нам 19% відсутніх значень на КВИТОК функція. Подібно до прикладу 1, тепер ми можемо приписувати відсутні значення, використовуючи середнє значення або приблизну медіану. Особливість КВИТОК більше не повинно мати недійсних або відсутніх значень, як показано на зображенні нижче.

Щоб переконатися, що після виконання цього посібника з вас не стягуватиметься плата, переконайтеся, що ви закрийте програму Data Wrangler.

Висновок

У цій публікації ми представили нове Amazon Sagemaker Data Wrangler віджет, який допоможе видалити недиференційоване підняття важких предметів для кінцевих користувачів під час підготовки даних із автоматичною візуалізацією та аналізом профілю даних для кожної функції. Цей віджет спрощує візуалізацію даних (наприклад, категоріальну/некатегоричну гістограму), виявляє проблеми з якістю даних (наприклад, відсутні значення та недійсні значення) і аналізує поверхневі дані (наприклад, викиди та верхній N елемент).

Ви можете почати використовувати цю можливість сьогодні в усіх регіонах, де доступна SageMaker Studio. Спробувати, і дайте нам знати, що ви думаєте. Ми завжди з нетерпінням чекаємо ваших відгуків через звичайні контакти служби підтримки AWS або через Форум AWS для SageMaker.

Про авторів

Іша Дуа є старшим архітектором рішень у районі затоки Сан-Франциско. Вона допомагає клієнтам AWS Enterprise розвиватися, розуміючи їхні цілі та виклики, і вказує їм, як вони можуть створювати свої додатки в хмарному стилі, гарантуючи їх стійкість і масштабованість. Вона захоплюється технологіями машинного навчання та екологічною стійкістю.

Парт Патель є архітектором рішень в AWS в районі затоки Сан-Франциско. Parth допомагає клієнтам прискорити їх шлях до хмари та допомагає їм успішно адаптувати AWS Cloud. Він зосереджується на ML і модернізації додатків.

Часова мітка: 13 Грудня, 202213 Грудня, 2022

Часова мітка: Вересень 29, 2022

Представляємо нові вбудовані візуалізації Amazon SageMaker Data Wrangler

Перевидано Платоном

Передумови

Покрокове керівництво рішенням

Висновок

Про авторів

Більше від AWS Машинне навчання

Розгортайте великі моделі на Amazon SageMaker за допомогою паралельного висновку моделі DJLServing і DeepSpeed

Контролюйте доступ до Amazon SageMaker Feature Store в автономному режимі за допомогою AWS Lake Formation

Підвищте точність пошуку за допомогою перевірки орфографії в Amazon Kendra

Проаналізуйте нашестя гризунів за допомогою геопросторових можливостей Amazon SageMaker | Веб-сервіси Amazon

Розкрийте знання в робочих просторах Slack за допомогою інтелектуального пошуку за допомогою конектора Amazon Kendra Slack

Як Sophos тренує потужний, легкий детектор зловмисного програмного забезпечення PDF у надмасштабному режимі за допомогою Amazon SageMaker

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки