Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML

Amazon SageMaker Studio Lab це безкоштовне середовище розробки машинного навчання (ML), засноване на JupyterLab з відкритим вихідним кодом для всіх, хто може вивчати та експериментувати з ML за допомогою обчислювальних ресурсів AWS ML. Він заснований на тій самій архітектурі та інтерфейсі користувача, що й Студія Amazon SageMaker, але з піднабором можливостей Studio.

Коли ви починаєте працювати над ініціативами ML, вам потрібно виконати пошуковий аналіз даних (EDA) або підготувати дані, перш ніж продовжити створення моделі. Amazon SageMaker Data Wrangler це здатність Amazon SageMaker завдяки чому науковці й інженери з обробки даних швидше підготовляють дані для додатків ML через візуальний інтерфейс. Data Wrangler скорочує час, необхідний для агрегування та підготовки даних для ML, з тижнів до хвилин.

Ключовим прискорювачем підготовки функцій у Data Wrangler є Звіт про якість даних і статистику. Цей звіт перевіряє якість даних і допомагає виявити аномалії у ваших даних, щоб ви могли виконати необхідну інженерію даних, щоб виправити свій набір даних. Ви можете використовувати звіт про якість даних і статистику, щоб виконати аналіз своїх даних, щоб отримати уявлення про свій набір даних, наприклад про кількість пропущених значень і кількість викидів. Якщо у вас виникли проблеми з вашими даними, наприклад цільовий витік або дисбаланс, аналітичний звіт може звернути вашу увагу на ці проблеми та допомогти вам визначити кроки підготовки даних, які потрібно виконати.

Користувачі Studio Lab можуть отримати вигоду від Data Wrangler, оскільки якість даних і розробка функцій мають вирішальне значення для прогнозної ефективності вашої моделі. Data Wrangler допомагає з якістю даних і розробкою функцій, надаючи розуміння проблем якості даних і легко забезпечуючи швидку ітерацію функцій і розробку за допомогою інтерфейсу користувача з низьким кодом.

У цій публікації ми покажемо вам, як виконувати пошуковий аналіз даних, готувати та перетворювати дані за допомогою Data Wrangler, а також експортувати перетворені та підготовлені дані в Studio Lab для створення моделі.

Огляд рішення

Рішення включає наступні етапи високого рівня:

  1. Створіть обліковий запис AWS і користувача адміністратора. Це обов'язкова умова
  2. Завантажте набір даних churn.csv.
  3. Завантажте набір даних у Служба простого зберігання Amazon (Amazon S3).
  4. Створіть домен SageMaker Studio та запустіть Data Wrangler.
  5. Імпортуйте набір даних у потік Data Wrangler з Amazon S3.
  6. Створіть звіт про якість даних і статистичні дані та зробіть висновки щодо необхідної розробки функцій.
  7. Виконайте необхідні перетворення даних у Data Wrangler.
  8. Завантажте звіт про якість даних і статистику та перетворений набір даних.
  9. Завантажте дані в проект Studio Lab для навчання моделі.

Наступна діаграма ілюструє цей робочий процес.

Передумови

Щоб використовувати Data Wrangler і Studio Lab, вам потрібні такі передумови:

Створіть робочий процес підготовки даних за допомогою Data Wrangler

Щоб почати, виконайте такі дії:

  1. Завантажте свій набір даних на Amazon S3.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  2. На консолі SageMaker під панель управління на панелі навігації виберіть Studio.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  3. на Запустіть програму меню поруч із вашим профілем користувача, виберіть Studio.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
    Після того, як ви успішно ввійдете в Studio, ви побачите середовище розробки, як на знімку екрана нижче.
  4. Щоб створити новий робочий процес Data Wrangler, на філе меню, виберіть Нові, Потім виберіть Потік даних Wrangler.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
    Перший крок у Data Wrangler – це імпорт ваші дані. Ви можете імпортувати дані з кількох джерел даних, наприклад Amazon S3, Амазонка Афіна, Амазонська червона зміна, Сніжинка та Збір даних. У цьому прикладі ми використовуємо Amazon S3. Якщо ви просто хочете побачити, як працює Data Wrangler, ви завжди можете вибрати Використовуйте зразок набору даних.
  5. Вибирати Дати імпорту.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  6. Вибирати Amazon S3.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  7. Виберіть набір даних, який ви завантажили, і виберіть Імпортувати.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
    Data Wrangler дозволяє імпортувати весь набір даних або взяти його частину.
  8. Щоб швидко отримати інформацію про набір даних, виберіть Перший К та цінності Вибірка і ввести 50000 фор Обсяг вибірки.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Зрозумійте якість даних і отримуйте статистику

Давайте скористаємося звітом про якість даних і аналітичні дані, щоб виконати аналіз даних, які ми імпортували в Data Wrangler. Ви можете використовувати звіт, щоб зрозуміти, які кроки потрібно зробити, щоб очистити та обробити свої дані. Цей звіт надає таку інформацію, як кількість пропущених значень і кількість викидів. Якщо у вас є проблеми з вашими даними, як-от витік цілей або дисбаланс, аналітичний звіт може звернути вашу увагу на ці проблеми.

  1. Виберіть знак плюс біля Типи даних І вибирай Отримайте статистику даних.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  2. для Тип аналізувиберіть Звіт про якість даних і статистику.
  3. для Цільова колонкавиберіть Відточувати?.
  4. для Тип проблеми¸ виберіть Класифікація.
  5. Вибирати Створювати.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Вам буде запропоновано докладний звіт, який ви можете переглянути та завантажити. Звіт містить кілька розділів, таких як швидка модель, підсумок функцій, кореляція функцій і аналіз даних. На наступних знімках екрана наведено приклади цих розділів.

Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Спостереження зі звіту

Зі звіту ми можемо зробити такі зауваження:

  • Повторюваних рядків не знайдено.
  • Команда State видається досить рівномірно розподіленим, тому дані збалансовані щодо населення штату.
  • Команда Phone Стовпець містить занадто багато унікальних значень, щоб мати будь-яку практичну користь. Забагато унікальних значень робить цей стовпець некорисним. Ми можемо кинути Phone стовпець у нашій трансформації.
  • На основі розділу звіту про кореляцію функцій, Mins та Charge сильно корелюють. Ми можемо видалити одну з них.

Перетворення

На основі наших спостережень ми хочемо зробити такі перетворення:

  • Видалити Phone оскільки він має багато унікальних значень.
  • Ми також бачимо кілька функцій, які по суті мають 100% кореляцію одна з одною. Включення цих пар функцій у деякі алгоритми ML може створити небажані проблеми, тоді як в інших це призведе лише до незначної надмірності та зміщення. Давайте вилучимо одну функцію з кожної з висококорельованих пар: Day Charge від пари с Day Mins, Night Charge від пари с Night Mins та Intl Charge від пари с Intl Mins.
  • Конвертувати True or False в Churn у стовпці має бути числове значення 1 або 0.
  1. Поверніться до потоку даних і виберіть знак плюс поруч Типи даних.
  2. Вибирати Додати трансформацію.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  3. Вибирати Додати крок.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  4. Ви можете шукати потрібне перетворення (у нашому випадку керувати стовпцями).
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  5. Вибирати Керувати стовпцями.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  6. для Перетворення¸ вибрати Колонка скидання.
  7. для Стовпчики для опускання¸ вибрати Phone, Day Charge, Eve Charge, Night Charge та Intl Charge.
  8. Вибирати попередній перегляд, Потім виберіть Оновити.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
    Давайте додамо ще одне перетворення для виконання категоріального кодування на Churn? колонка.
  9. Виберіть трансформацію Закодувати категоричне.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  10. для Перетвореннявиберіть Порядковий код.
  11. для Вхідні стовпці, виберіть Churn? колонка.
  12. для Неправильна стратегія обробкивиберіть Замінити на NaN.
  13. Вибирати попередній перегляд, Потім виберіть Оновити.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

зараз True та False перетворюються на 1 і 0 відповідно.

Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Тепер, коли ми добре розуміємо дані та підготували та трансформували дані для побудови моделі, ми можемо перенести дані до Studio Lab для побудови моделі.

Завантажте дані в Studio Lab

Щоб почати використовувати дані в Studio Lab, виконайте такі дії:

  1. Вибирати Експорт даних до експорт до відра S3.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  2. для Розташування Amazon S3, введіть свій шлях S3.
  3. Вкажіть тип файлу.
  4. Вибирати Експорт даних.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  5. Після експорту даних ви можете завантажити їх із сегмента S3 на локальний комп’ютер.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  6. Тепер ви можете перейти до Studio Lab і завантажити файл у Studio Lab.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
    Крім того, ви можете підключитися до Amazon S3 із Studio Lab. Для отримання додаткової інформації див Використовуйте зовнішні ресурси в Amazon SageMaker Studio Lab.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  7. Давайте встановимо SageMaker та імпортуємо Pandas.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  8. За потреби імпортуйте всі бібліотеки.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  9. Тепер ми можемо прочитати файл CSV.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  10. Давайте роздрукуємо churn щоб підтвердити правильність набору даних.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Тепер, коли у вас є оброблений набір даних у Studio Lab, ви можете виконувати подальші дії, необхідні для створення моделі.

Ціноутворення Data Wrangler

Ви можете виконати всі кроки в цій публікації для EDA або підготовки даних у Data Wrangler і платити для простого прикладу, робочі місця та ціни на зберігання залежно від використання або споживання. Ніяких передоплат або ліцензійних зборів не потрібно.

Прибирати

Коли ви не використовуєте Data Wrangler, важливо вимкнути екземпляр, на якому він працює, щоб уникнути додаткових зборів. Щоб уникнути втрати роботи, збережіть потік даних, перш ніж вимикати Data Wrangler.

  1. Щоб зберегти потік даних у Studio, виберіть філе, Потім виберіть Збереження потоку даних Wrangler.
    Data Wrangler автоматично зберігає ваш потік даних кожні 60 секунд.
  2. Щоб вимкнути екземпляр Data Wrangler, виберіть у Studio Запуск екземплярів та ядер.
  3. під ЗАПУЩЕНІ ПРОГРАМИвиберіть піктограму завершення роботи поруч із sagemaker-data-wrangler-1.0 app.
  4. Вибирати Вимкнути все підтвердити.
    Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Data Wrangler працює на примірнику ml.m5.4xlarge. Цей екземпляр зникає з ЗАПУСКАНІ ЕКЗЕМПЛЯРИ коли ви закриваєте програму Data Wrangler.

Після завершення роботи програми Data Wrangler її потрібно буде перезапустити, коли ви наступного разу відкриєте файл потоку Data Wrangler. Це може тривати кілька хвилин.

Висновок

У цій публікації ми побачили, як ви можете отримати уявлення про свій набір даних, виконати дослідницький аналіз даних, підготувати та перетворити дані за допомогою Data Wrangler у Studio, а також експортувати перетворені та підготовлені дані до Studio Lab і виконати створення моделі та інші кроки.

За допомогою SageMaker Data Wrangler ви можете спростити процес підготовки даних і розробки функцій, а також завершити кожен крок робочого процесу підготовки даних, включаючи вибір даних, очищення, дослідження та візуалізацію за допомогою єдиного візуального інтерфейсу.


Про авторів

Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Раджакумар Сампаткумар є головним технічним менеджером з роботи з клієнтами в AWS, надає клієнтам рекомендації щодо узгодження бізнес-технологій і підтримує переосмислення моделей і процесів роботи в хмарі. Він захоплений хмарою та машинним навчанням. Радж також є фахівцем з машинного навчання та працює з клієнтами AWS над проектуванням, розгортанням і керуванням їхніми робочими навантаженнями й архітектурами AWS.

Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Мінакшісундарам Тандавараян є старшим фахівцем зі штучного інтелекту та ML, який прагне розробляти, створювати та просувати дані та аналітику, орієнтовані на людину. Він підтримує клієнтів AWS Strategic у їх трансформації до організації, що керується даними.

Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Джеймс Ву є старшим архітектором рішень для AI/ML у AWS. допомога клієнтам у проектуванні та створенні рішень AI/ML. Робота Джеймса охоплює широкий спектр випадків використання машинного машинного навчання, з головним інтересом до комп’ютерного зору, глибокого навчання та масштабування машинного машинного навчання на підприємстві. До того, як приєднатися до AWS, Джеймс був архітектором, розробником і технологічним лідером понад 10 років, у тому числі 6 років у галузі інженерії та 4 роки в галузі маркетингу та реклами.

Часова мітка:

Більше від AWS Машинне навчання