Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і студійні лабораторії, щоб навчатися та експериментувати з ML

Перевидано Платоном

читають: 0

Amazon SageMaker Studio Lab це безкоштовне середовище розробки машинного навчання (ML), засноване на JupyterLab з відкритим вихідним кодом для всіх, хто може вивчати та експериментувати з ML за допомогою обчислювальних ресурсів AWS ML. Він заснований на тій самій архітектурі та інтерфейсі користувача, що й Студія Amazon SageMaker, але з піднабором можливостей Studio.

Коли ви починаєте працювати над ініціативами ML, вам потрібно виконати пошуковий аналіз даних (EDA) або підготувати дані, перш ніж продовжити створення моделі. Amazon SageMaker Data Wrangler це здатність Amazon SageMaker завдяки чому науковці й інженери з обробки даних швидше підготовляють дані для додатків ML через візуальний інтерфейс. Data Wrangler скорочує час, необхідний для агрегування та підготовки даних для ML, з тижнів до хвилин.

Ключовим прискорювачем підготовки функцій у Data Wrangler є Звіт про якість даних і статистику. Цей звіт перевіряє якість даних і допомагає виявити аномалії у ваших даних, щоб ви могли виконати необхідну інженерію даних, щоб виправити свій набір даних. Ви можете використовувати звіт про якість даних і статистику, щоб виконати аналіз своїх даних, щоб отримати уявлення про свій набір даних, наприклад про кількість пропущених значень і кількість викидів. Якщо у вас виникли проблеми з вашими даними, наприклад цільовий витік або дисбаланс, аналітичний звіт може звернути вашу увагу на ці проблеми та допомогти вам визначити кроки підготовки даних, які потрібно виконати.

Користувачі Studio Lab можуть отримати вигоду від Data Wrangler, оскільки якість даних і розробка функцій мають вирішальне значення для прогнозної ефективності вашої моделі. Data Wrangler допомагає з якістю даних і розробкою функцій, надаючи розуміння проблем якості даних і легко забезпечуючи швидку ітерацію функцій і розробку за допомогою інтерфейсу користувача з низьким кодом.

У цій публікації ми покажемо вам, як виконувати пошуковий аналіз даних, готувати та перетворювати дані за допомогою Data Wrangler, а також експортувати перетворені та підготовлені дані в Studio Lab для створення моделі.

Огляд рішення

Рішення включає наступні етапи високого рівня:

Створіть обліковий запис AWS і користувача адміністратора. Це обов'язкова умова
Завантажте набір даних churn.csv.
Завантажте набір даних у Служба простого зберігання Amazon (Amazon S3).
Створіть домен SageMaker Studio та запустіть Data Wrangler.
Імпортуйте набір даних у потік Data Wrangler з Amazon S3.
Створіть звіт про якість даних і статистичні дані та зробіть висновки щодо необхідної розробки функцій.
Виконайте необхідні перетворення даних у Data Wrangler.
Завантажте звіт про якість даних і статистику та перетворений набір даних.
Завантажте дані в проект Studio Lab для навчання моделі.

Наступна діаграма ілюструє цей робочий процес.

Передумови

Щоб використовувати Data Wrangler і Studio Lab, вам потрібні такі передумови:

Створіть робочий процес підготовки даних за допомогою Data Wrangler

Щоб почати, виконайте такі дії:

Завантажте свій набір даних на Amazon S3.
На консолі SageMaker під панель управління на панелі навігації виберіть Studio.
на Запустіть програму меню поруч із вашим профілем користувача, виберіть Studio.

Після того, як ви успішно ввійдете в Studio, ви побачите середовище розробки, як на знімку екрана нижче.
Щоб створити новий робочий процес Data Wrangler, на філе меню, виберіть Нові, Потім виберіть Потік даних Wrangler.

Перший крок у Data Wrangler – це імпорт ваші дані. Ви можете імпортувати дані з кількох джерел даних, наприклад Amazon S3, Амазонка Афіна, Амазонська червона зміна, Сніжинка та Збір даних. У цьому прикладі ми використовуємо Amazon S3. Якщо ви просто хочете побачити, як працює Data Wrangler, ви завжди можете вибрати Використовуйте зразок набору даних.
Вибирати Дати імпорту.
Вибирати Amazon S3.
Виберіть набір даних, який ви завантажили, і виберіть Імпортувати.

Data Wrangler дозволяє імпортувати весь набір даних або взяти його частину.
Щоб швидко отримати інформацію про набір даних, виберіть Перший К та цінності Вибірка і ввести 50000 фор Обсяг вибірки.

Зрозумійте якість даних і отримуйте статистику

Давайте скористаємося звітом про якість даних і аналітичні дані, щоб виконати аналіз даних, які ми імпортували в Data Wrangler. Ви можете використовувати звіт, щоб зрозуміти, які кроки потрібно зробити, щоб очистити та обробити свої дані. Цей звіт надає таку інформацію, як кількість пропущених значень і кількість викидів. Якщо у вас є проблеми з вашими даними, як-от витік цілей або дисбаланс, аналітичний звіт може звернути вашу увагу на ці проблеми.

Виберіть знак плюс біля Типи даних І вибирай Отримайте статистику даних.
для Тип аналізувиберіть Звіт про якість даних і статистику.
для Цільова колонкавиберіть Відточувати?.
для Тип проблеми¸ виберіть Класифікація.
Вибирати Створювати.

Вам буде запропоновано докладний звіт, який ви можете переглянути та завантажити. Звіт містить кілька розділів, таких як швидка модель, підсумок функцій, кореляція функцій і аналіз даних. На наступних знімках екрана наведено приклади цих розділів.

Спостереження зі звіту

Зі звіту ми можемо зробити такі зауваження:

Повторюваних рядків не знайдено.
Команда State видається досить рівномірно розподіленим, тому дані збалансовані щодо населення штату.
Команда Phone Стовпець містить занадто багато унікальних значень, щоб мати будь-яку практичну користь. Забагато унікальних значень робить цей стовпець некорисним. Ми можемо кинути Phone стовпець у нашій трансформації.
На основі розділу звіту про кореляцію функцій, Mins та Charge сильно корелюють. Ми можемо видалити одну з них.

Перетворення

На основі наших спостережень ми хочемо зробити такі перетворення:

Видалити Phone оскільки він має багато унікальних значень.
Ми також бачимо кілька функцій, які по суті мають 100% кореляцію одна з одною. Включення цих пар функцій у деякі алгоритми ML може створити небажані проблеми, тоді як в інших це призведе лише до незначної надмірності та зміщення. Давайте вилучимо одну функцію з кожної з висококорельованих пар: Day Charge від пари с Day Mins, Night Charge від пари с Night Mins та Intl Charge від пари с Intl Mins.
Конвертувати True or False в Churn у стовпці має бути числове значення 1 або 0.

Поверніться до потоку даних і виберіть знак плюс поруч Типи даних.
Вибирати Додати трансформацію.
Вибирати Додати крок.
Ви можете шукати потрібне перетворення (у нашому випадку керувати стовпцями).
Вибирати Керувати стовпцями.
для Перетворення¸ вибрати Колонка скидання.
для Стовпчики для опускання¸ вибрати Phone, Day Charge, Eve Charge, Night Charge та Intl Charge.
Вибирати попередній перегляд, Потім виберіть Оновити.

Давайте додамо ще одне перетворення для виконання категоріального кодування на Churn? колонка.
Виберіть трансформацію Закодувати категоричне.
для Перетвореннявиберіть Порядковий код.
для Вхідні стовпці, виберіть Churn? колонка.
для Неправильна стратегія обробкивиберіть Замінити на NaN.
Вибирати попередній перегляд, Потім виберіть Оновити.

зараз True та False перетворюються на 1 і 0 відповідно.

Тепер, коли ми добре розуміємо дані та підготували та трансформували дані для побудови моделі, ми можемо перенести дані до Studio Lab для побудови моделі.

Завантажте дані в Studio Lab

Щоб почати використовувати дані в Studio Lab, виконайте такі дії:

Вибирати Експорт даних до експорт до відра S3.
для Розташування Amazon S3, введіть свій шлях S3.
Вкажіть тип файлу.
Вибирати Експорт даних.
Після експорту даних ви можете завантажити їх із сегмента S3 на локальний комп’ютер.
Тепер ви можете перейти до Studio Lab і завантажити файл у Studio Lab.

Крім того, ви можете підключитися до Amazon S3 із Studio Lab. Для отримання додаткової інформації див Використовуйте зовнішні ресурси в Amazon SageMaker Studio Lab.
Давайте встановимо SageMaker та імпортуємо Pandas.
За потреби імпортуйте всі бібліотеки.
Тепер ми можемо прочитати файл CSV.
Давайте роздрукуємо churn щоб підтвердити правильність набору даних.

Тепер, коли у вас є оброблений набір даних у Studio Lab, ви можете виконувати подальші дії, необхідні для створення моделі.

Ціноутворення Data Wrangler

Ви можете виконати всі кроки в цій публікації для EDA або підготовки даних у Data Wrangler і платити для простого прикладу, робочі місця та ціни на зберігання залежно від використання або споживання. Ніяких передоплат або ліцензійних зборів не потрібно.

Прибирати

Коли ви не використовуєте Data Wrangler, важливо вимкнути екземпляр, на якому він працює, щоб уникнути додаткових зборів. Щоб уникнути втрати роботи, збережіть потік даних, перш ніж вимикати Data Wrangler.

Щоб зберегти потік даних у Studio, виберіть філе, Потім виберіть Збереження потоку даних Wrangler.
Data Wrangler автоматично зберігає ваш потік даних кожні 60 секунд.
Щоб вимкнути екземпляр Data Wrangler, виберіть у Studio Запуск екземплярів та ядер.
під ЗАПУЩЕНІ ПРОГРАМИвиберіть піктограму завершення роботи поруч із sagemaker-data-wrangler-1.0 app.
Вибирати Вимкнути все підтвердити.

Data Wrangler працює на примірнику ml.m5.4xlarge. Цей екземпляр зникає з ЗАПУСКАНІ ЕКЗЕМПЛЯРИ коли ви закриваєте програму Data Wrangler.

Після завершення роботи програми Data Wrangler її потрібно буде перезапустити, коли ви наступного разу відкриєте файл потоку Data Wrangler. Це може тривати кілька хвилин.

Висновок

У цій публікації ми побачили, як ви можете отримати уявлення про свій набір даних, виконати дослідницький аналіз даних, підготувати та перетворити дані за допомогою Data Wrangler у Studio, а також експортувати перетворені та підготовлені дані до Studio Lab і виконати створення моделі та інші кроки.

За допомогою SageMaker Data Wrangler ви можете спростити процес підготовки даних і розробки функцій, а також завершити кожен крок робочого процесу підготовки даних, включаючи вибір даних, очищення, дослідження та візуалізацію за допомогою єдиного візуального інтерфейсу.

Про авторів

Раджакумар Сампаткумар є головним технічним менеджером з роботи з клієнтами в AWS, надає клієнтам рекомендації щодо узгодження бізнес-технологій і підтримує переосмислення моделей і процесів роботи в хмарі. Він захоплений хмарою та машинним навчанням. Радж також є фахівцем з машинного навчання та працює з клієнтами AWS над проектуванням, розгортанням і керуванням їхніми робочими навантаженнями й архітектурами AWS.

Мінакшісундарам Тандавараян є старшим фахівцем зі штучного інтелекту та ML, який прагне розробляти, створювати та просувати дані та аналітику, орієнтовані на людину. Він підтримує клієнтів AWS Strategic у їх трансформації до організації, що керується даними.

Джеймс Ву є старшим архітектором рішень для AI/ML у AWS. допомога клієнтам у проектуванні та створенні рішень AI/ML. Робота Джеймса охоплює широкий спектр випадків використання машинного машинного навчання, з головним інтересом до комп’ютерного зору, глибокого навчання та масштабування машинного машинного навчання на підприємстві. До того, як приєднатися до AWS, Джеймс був архітектором, розробником і технологічним лідером понад 10 років, у тому числі 6 років у галузі інженерії та 4 роки в галузі маркетингу та реклами.

Часова мітка: Вересень 15, 2022Вересень 15, 2022

Часова мітка: Липень 8, 2022

Використовуйте Amazon SageMaker Data Wrangler для підготовки даних і Studio Labs, щоб вивчати та експериментувати з ML

Перевидано Платоном

Огляд рішення

Передумови

Створіть робочий процес підготовки даних за допомогою Data Wrangler

Зрозумійте якість даних і отримуйте статистику

Спостереження зі звіту

Перетворення

Завантажте дані в Studio Lab

Ціноутворення Data Wrangler

Прибирати

Висновок

Про авторів

Більше від AWS Машинне навчання

AWS DeepRacer дозволяє будівельникам будь-якого рівня кваліфікації підвищити кваліфікацію та розпочати машинне навчання | Веб-сервіси Amazon

Виявляйте шахрайство в компаніях, орієнтованих на мобільні пристрої, за допомогою GrabDefence Device Intelligence та Amazon Fraud Detector

Надайте живу допомогу агента своїм користувачам чат-бота за допомогою хмарного контакт-центру Amazon Lex і Talkdesk | Веб-сервіси Amazon

Запускайте кілька моделей глибокого навчання на GPU за допомогою мультимодельних кінцевих точок Amazon SageMaker

Як Amp на Amazon використовував дані для підвищення залученості клієнтів, частина 1: Створення платформи аналізу даних

Запобігайте захопленню облікового запису під час входу за допомогою нової моделі Account Takeover Insights у Amazon Fraud Detector

Вбудований PaddleOCR із проектами Amazon SageMaker для MLO для оптичного розпізнавання символів на документах, що посвідчують особу

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки