Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler

Команди з науки та інженерії даних витрачають значну частину свого часу на етапі підготовки даних життєвого циклу машинного навчання (ML), виконуючи етапи відбору, очищення та перетворення даних. Це необхідний і важливий крок будь-якого робочого процесу ML, щоб генерувати значущі ідеї та прогнози, оскільки погані або низькоякісні дані значно знижують релевантність отриманих ідей.

Команди розробників даних традиційно відповідають за прийом, консолідацію та перетворення вихідних даних для подальшого споживання. Дослідникам даних часто доводиться виконувати додаткову обробку даних для конкретних випадків використання ML, таких як природна мова та часові ряди. Наприклад, певні алгоритми ML можуть бути чутливими до відсутніх значень, розріджених ознак або викидів і вимагати особливої ​​уваги. Навіть у випадках, коли набір даних знаходиться в хорошому стані, науковці з даних можуть захотіти трансформувати розподіл функцій або створити нові функції, щоб максимізувати розуміння, отримане з моделей. Щоб досягти цих цілей, науковцям з даних доводиться покладатися на команди розробників даних для врахування запитуваних змін, що призводить до залежності та затримки процесу розробки моделі. Крім того, групи з наукових даних можуть вирішити виконувати підготовку даних і розробку функцій всередині, використовуючи різні парадигми програмування. Однак це вимагає інвестування часу та зусиль на встановлення та конфігурацію бібліотек і фреймворків, що не ідеально, оскільки цей час можна краще витратити на оптимізацію продуктивності моделі.

Amazon SageMaker Data Wrangler спрощує підготовку даних і процес розробки функцій, скорочуючи час, необхідний для агрегації та підготовки даних для машинного навчання з тижнів до хвилин, забезпечуючи єдиний візуальний інтерфейс для науковців з даних, щоб вибирати, очищати та досліджувати свої набори даних. Data Wrangler пропонує понад 300 вбудованих перетворень даних, які допомагають нормалізувати, трансформувати та комбінувати функції без написання будь-якого коду. Ви можете імпортувати дані з кількох джерел даних, наприклад Amazon Simple Storage Service (Amazon S3), Амазонка Афіна, Амазонська червона зміна та Сніжинка. Тепер ви також можете використовувати Збір даних як джерело даних у Data Wrangler, щоб легко підготувати дані для ML.

Платформа Databricks Lakehouse поєднує в собі найкращі елементи озер даних і сховищ даних, щоб забезпечити надійність, ефективне управління та продуктивність сховищ даних із підтримкою озер даних відкритості, гнучкості та машинного навчання. Завдяки Databricks як джерелу даних для Data Wrangler ви можете швидко й легко підключатися до Databricks, інтерактивно запитувати дані, збережені в Databricks, за допомогою SQL, і переглядати дані перед імпортуванням. Крім того, ви можете об’єднати свої дані в Databricks з даними, що зберігаються в Amazon S3, і даними, запитаними через Amazon Athena, Amazon Redshift і Snowflake, щоб створити правильний набір даних для вашого випадку використання ML.

У цій публікації ми трансформуємо набір даних кредитування кредитного клубу за допомогою Amazon SageMaker Data Wrangler для використання в навчанні моделі ML.

Огляд рішення

Наступна схема ілюструє нашу архітектуру рішення.

Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Набір даних позик Lending Club містить повні дані про позику для всіх позик, виданих протягом 2007–2011 років, включаючи поточний статус позики та інформацію про останні платежі. Він має 39,717 22 рядків, 3 стовпці об’єктів і XNUMX цільові мітки.

Щоб перетворити наші дані за допомогою Data Wrangler, ми виконуємо такі кроки високого рівня:

  1. Завантажте та розділіть набір даних.
  2. Створіть потік даних Wrangler.
  3. Імпортуйте дані з Databricks до Data Wrangler.
  4. Імпортуйте дані з Amazon S3 до Data Wrangler.
  5. Приєднуйтесь до даних.
  6. Застосувати трансформації.
  7. Експортуйте набір даних.

Передумови

У публікації передбачається, що у вас запущений кластер Databricks. Якщо ваш кластер працює на AWS, переконайтеся, що ви налаштували наступне:

Налаштування Databricks

слідувати Безпечний доступ до сегментів S3 за допомогою профілів екземплярів для необхідного Управління ідентифікацією та доступом AWS (IAM), політика сегмента S3 і конфігурація кластера Databricks. Переконайтеся, що кластер Databricks налаштовано належним чином Instance Profile, вибраний у розширених параметрах, щоб отримати доступ до потрібного сегмента S3.

Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Після того, як кластер Databricks буде запущено та запущено з необхідним доступом до Amazon S3, ви можете отримати файл JDBC URL з вашого кластера Databricks, який буде використовуватися Data Wrangler для підключення до нього.

Отримати URL-адресу JDBC

Щоб отримати URL-адресу JDBC, виконайте такі дії:

  1. У Databricks перейдіть до інтерфейсу кластерів.
  2. Виберіть свій кластер.
  3. на конфігурація вкладку, виберіть Додаткові параметри.
  4. під Додаткові параметри, виберіть JDBC/ODBC Вкладка.
  5. Скопіюйте URL-адресу JDBC.
    Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Обов’язково замініть особистий доступ знак в URL-адресі.

Налаштування Data Wrangler

Цей крок передбачає, що у вас є доступ до Amazon SageMaker, екземпляра Студія Amazon SageMaker, і користувач Studio.

Щоб надати доступ до з’єднання Databricks JDBC із Data Wrangler, користувачу Studio потрібен такий дозвіл:

  • secretsmanager:PutResourcePolicy

Виконайте наведені нижче кроки, щоб оновити роль виконання IAM, призначену користувачу Studio з наведеним вище дозволом, як користувачу-адміністратора IAM.

  1. На консолі IAM виберіть Ролі у навігаційній панелі.
  2. Виберіть роль, призначену вашому користувачеві Studio.
  3. Вибирати Додати дозволи.
  4. Вибирати Створіть вбудовану політику.
  5. Для обслуговування виберіть Менеджер секретів.
  6. On Діївиберіть Рівень доступу.
  7. Вибирати Керування дозволами.
  8. Вибирати PutResourcePolicy.
  9. для ресурсивиберіть питома і виберіть Будь-який в цьому обліковому записі.
    Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Завантажте та розділіть набір даних

Ви можете почати з завантаження набору даних. Для демонстраційних цілей ми розділили набір даних, скопіювавши стовпці ознак id, emp_title, emp_length, home_owner та annual_inc створити другу позики_2.csv файл. Ми видаляємо вищезгадані стовпці з оригінального файлу позик, за винятком id і перейменуйте вихідний файл у позики_1.csv. Завантажте позики_1.csv файл в Збір даних для створення таблиці loans_1 та позики_2.csv у відрі S3.

Створіть потік даних Wrangler

Інформацію про необхідні умови Data Wrangler див Почніть роботу з Data Wrangler.

Почнемо зі створення нового потоку даних.

  1. На консолі Studio, на філе меню, виберіть Нові.
  2. Вибирати Потік даних Wrangler.
  3. Перейменуйте потік за бажанням.
    Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Крім того, ви можете створити новий потік даних із панелі запуску.

  • На консолі Studio виберіть Студія Amazon SageMaker у навігаційній панелі.
  • Вибирати Новий потік даних.
    Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Створення нового потоку може зайняти кілька хвилин. Після створення потоку ви побачите Дати імпорту стр.

Імпортуйте дані з Databricks в Data Wrangler

Далі ми налаштуємо Databricks (JDBC) як джерело даних у Data Wrangler. Щоб імпортувати дані з Databricks, нам спочатку потрібно додати Databricks як джерело даних.

  1. на Дати імпорту на вкладці вашого потоку даних Wrangler виберіть Додати джерело даних.
  2. У спадному меню виберіть Databricks (JDBC).
    Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

на Імпортуйте дані з Databricks на сторінці, ви вводите дані свого кластера.

  1. для Назва набору даних, введіть ім’я, яке потрібно використовувати у файлі потоку.
  2. для Водій, виберіть драйвер com.simba.spark.jdbc.Driver.
  3. для URL-адреса JDBC, введіть URL-адресу вашого кластера Databricks, отриману раніше.

URL-адреса має нагадувати такий формат jdbc:spark://<serve- hostname>:443/default;transportMode=http;ssl=1;httpPath=<http- path>;AuthMech=3;UID=token;PWD=<personal-access-token>.

  1. У редакторі запитів SQL вкажіть такий оператор SQL SELECT:
    select * from loans_1

Якщо ви вибрали іншу назву таблиці під час завантаження даних у Databricks, замініть loans_1 у наведеному вище запиті SQL відповідно.

У SQL query у розділі Data Wrangler, ви можете зробити запит до будь-якої таблиці, підключеної до бази даних JDBC Databricks. Попередньо відібраний Увімкнути вибірку Параметр за замовчуванням отримує перші 50,000 XNUMX рядків вашого набору даних. Залежно від розміру набору даних, зніміть вибір Увімкнути вибірку може призвести до збільшення часу імпорту.

  1. Вибирати прогін.

Виконання запиту дає попередній перегляд вашого набору даних Databricks безпосередньо в Data Wrangler.
Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

  1. Вибирати Імпортувати.
    Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Data Wrangler забезпечує гнучкість налаштування кількох одночасних з’єднань з одним кластером Databricks або кількома кластерами, якщо потрібно, що дозволяє аналізувати та підготувати об’єднані набори даних.

Імпортуйте дані з Amazon S3 в Data Wrangler

Далі давайте імпортуємо loan_2.csv файл із Amazon S3.

  1. На вкладці Імпорт виберіть Amazon S3 як джерело даних.
    Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  2. Перейдіть до відра S3 для loan_2.csv файлу.

Вибравши файл CSV, можна попередньо переглянути дані.

  1. У ПОДРОБИЦІ панель, виберіть Розширена конфігурація щоб переконатися, що Увімкнути вибірку вибирається і ПАРАГРАФ вибирається для Delimiter.
  2. Вибирати Імпортувати.
    Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Після loans_2.csv набір даних успішно імпортовано, інтерфейс потоку даних відображає як джерела даних Databricks JDBC, так і Amazon S3.

Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Приєднуйтесь до даних

Тепер, коли ми імпортували дані з Databricks та Amazon S3, давайте об’єднаємо набори даних за допомогою спільного стовпця унікального ідентифікатора.

  1. на Потік даних вкладка, для Типи даних, виберіть знак плюса для loans_1.
  2. Вибирати Приєднайся до.
    Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  3. Виберіть loans_2.csv файл як правий набір даних.
  4. Вибирати Конфігурувати щоб налаштувати критерії приєднання.
    Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  5. для ІМ'Я, введіть назву для об’єднання.
  6. для Тип приєднаннявиберіть Внутрішній за цей пост.
  7. Виберіть id колонка для приєднання.
  8. Вибирати Застосовувати для попереднього перегляду об’єднаного набору даних.
  9. Вибирати додавати щоб додати його до потоку даних.
    Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Застосувати трансформації

Data Wrangler має понад 300 вбудованих перетворень, які не вимагають кодування. Давайте використаємо вбудовані перетворення для підготовки набору даних.

Колонка скидання

Спочатку ми скидаємо зайвий стовпець ідентифікатора.

  1. На приєднаному вузлі виберіть знак плюс.
  2. Вибирати Додати трансформацію.
    Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  3. під трансформує, вибирати + Додати крок.
  4. Вибирати Керувати стовпцями.
  5. для Перетвореннявиберіть Колонка скидання.
  6. для Стовпчики для опускання, виберіть стовпець id_0.
  7. Вибирати попередній перегляд.
    Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  8. Вибирати додавати.

Формат рядка

Давайте застосуємо форматування рядка, щоб видалити символ відсотка з int_rate та revol_util стовпчики.

  1. на дані вкладка, під Перетворюєвиберіть + Додати крок.
    Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  2. Вибирати Формат рядка.
  3. для Перетвореннявиберіть Зніміть символи справа.

Data Wrangler дозволяє застосувати вибрану трансформацію до кількох стовпців одночасно.

  1. для Вхідні стовпцівиберіть int_rate та revol_util.
  2. для Символи для видалення, введіть %.
  3. Вибирати попередній перегляд.
    Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  4. Вибирати додавати.

Визначте текст

Тепер давайте векторизуємо verification_status, стовпець текстової функції. Ми перетворюємо текстовий стовпець у вектори частота термінів–зворотна частота документа (TF-IDF), застосовуючи векторізатор лічильника та стандартний токенізатор, як описано нижче. Data Wrangler також надає можливість принести свій власний токенізатор, якщо потрібно.

  1. під трансформеривиберіть + Додати крок.
  2. Вибирати Визначте текст.
  3. для Перетвореннявиберіть Векторизувати.
  4. для Вхідні стовпцівиберіть verification_status.
  5. Вибирати попередній перегляд.
    Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  6. Вибирати додавати.

Експортуйте набір даних

Після того, як ми застосували кілька перетворень до різних типів стовпців, включаючи текстові, категоріальні та числові, ми готові використовувати перетворений набір даних для навчання моделі ML. Останнім кроком є ​​експорт трансформованого набору даних до Amazon S3. У Data Wrangler у вас є кілька варіантів на вибір для подальшого використання перетворень:

У цій публікації ми використовуємо переваги Експорт даних опція в Перетворення view, щоб експортувати перетворений набір даних безпосередньо в Amazon S3.

  1. Вибирати Експорт даних.
    Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  2. для Розташування S3виберіть перегорнути і виберіть своє відро S3.
  3. Вибирати Експорт даних.
    Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Прибирати

Якщо ваша робота з Data Wrangler завершена, закрийте свій екземпляр Data Wrangler щоб уникнути додаткових комісій.

Висновок

У цій публікації ми розповіли, як можна швидко й легко налаштувати та підключити Databricks як джерело даних у Data Wrangler, інтерактивно запитувати дані, збережені в Databricks, за допомогою SQL, та попередньо переглянути дані перед імпортуванням. Крім того, ми розглянули, як ви можете об’єднати свої дані в Databricks з даними, що зберігаються в Amazon S3. Потім ми застосували перетворення даних до об’єднаного набору даних, щоб створити конвеєр підготовки даних. Щоб вивчити більше можливостей аналізу Data Wrangler, включаючи створення звітів про цільові витоки та упередження, перегляньте наступну публікацію в блозі Прискорте підготовку даних за допомогою Amazon SageMaker Data Wrangler для прогнозування повторної госпіталізації пацієнтів з цукровим діабетом.

Щоб почати роботу з Data Wrangler, див Підготуйте дані ML за допомогою Amazon SageMaker Data Wrangler, і переглянути останню інформацію про Data Wrangler Сторінка продукту.


Про авторів

Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Руп Бейнз є архітектором рішень в AWS, який зосереджується на AI/ML. Він прагне допомагати клієнтам впроваджувати інновації та досягати їхніх бізнес-цілей за допомогою штучного інтелекту та машинного навчання. У вільний час Руп любить читати та ходити в походи.

Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Ігор Алексєєв — архітектор партнерських рішень в AWS в області даних та аналітики. Ігор працює зі стратегічними партнерами, допомагаючи їм створювати складні архітектури, оптимізовані для AWS. Перед тим як приєднатися до AWS як архітектор даних/рішень, він реалізував багато проектів у сфері великих даних, включаючи кілька озер даних в екосистемі Hadoop. Як інженер з обробки даних, він брав участь у застосуванні AI/ML для виявлення шахрайства та автоматизації офісу. Проекти Ігоря були в різних галузях, включаючи комунікації, фінанси, громадську безпеку, виробництво та охорону здоров’я. Раніше Ігор працював повним інженером/технічним керівником.

Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Хуонг Нгуєн є старшим менеджером з продуктів у AWS. Вона керує користувацьким досвідом для SageMaker Studio. Вона має 13-річний досвід створення продуктів, орієнтованих на клієнтів, і керованих даними, як для підприємств, так і для споживачів. У вільний час вона любить читати, бувати на природі та проводити час із сім’єю.

Підготуйте дані з Databricks для машинного навчання за допомогою Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Генрі Ван є інженером з розробки програмного забезпечення в AWS. Нещодавно він приєднався до команди Data Wrangler після закінчення UC Davis. Він цікавиться наукою про дані та машинним навчанням, а як хобі займається 3D-друком.

Часова мітка:

Більше від AWS Машинне навчання