Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Веб-сервіси Amazon

Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Веб-сервіси Amazon

Ми раді оголосити про запуск Amazon DocumentDB (з сумісністю з MongoDB) інтеграція з Canvas Amazon SageMaker, що дозволяє клієнтам Amazon DocumentDB створювати та використовувати генеративні рішення ШІ та машинного навчання (ML) без написання коду. Amazon DocumentDB — це повністю керована власна база даних документів JSON, яка дозволяє легко та економічно ефективно працювати з критичними робочими навантаженнями документів практично в будь-якому масштабі без керування інфраструктурою. Amazon SageMaker Canvas — це робочий простір для машинного навчання без коду, який пропонує готові до використання моделі, включно з базовими моделями, а також можливість готувати дані, створювати та розгортати власні моделі.

У цій публікації ми обговорюємо, як перенести дані, що зберігаються в Amazon DocumentDB, у SageMaker Canvas і використати ці дані для створення моделей ML для прогнозної аналітики. Не створюючи та не обслуговуючи конвеєри даних, ви зможете використовувати моделі ML за допомогою своїх неструктурованих даних, що зберігаються в Amazon DocumentDB.

Огляд рішення

Давайте візьмемо на себе роль бізнес-аналітика компанії з доставки їжі. Ваш мобільний додаток зберігає інформацію про ресторани в Amazon DocumentDB завдяки його масштабованості та можливостям гнучкої схеми. Ви хочете зібрати статистику на основі цих даних і побудувати модель ML, щоб передбачити, як будуть оцінюватися нові ресторани, але вам важко виконувати аналітику неструктурованих даних. Ви стикаєтеся з вузькими місцями, тому що для досягнення цих цілей вам потрібно покладатися на команди з розробки даних і науки про дані.

Ця нова інтеграція вирішує ці проблеми, спрощуючи перенесення даних Amazon DocumentDB у SageMaker Canvas і негайного початку підготовки та аналізу даних для ML. Крім того, SageMaker Canvas усуває залежність від досвіду машинного навчання для створення високоякісних моделей і створення прогнозів.

Ми демонструємо, як використовувати дані Amazon DocumentDB для побудови моделей ML у SageMaker Canvas, виконавши такі кроки:

  1. Створіть конектор Amazon DocumentDB у SageMaker Canvas.
  2. Аналізуйте дані за допомогою генеративного ШІ.
  3. Підготуйте дані для машинного навчання.
  4. Побудуйте модель і створіть прогнози.

Передумови

Щоб реалізувати це рішення, виконайте такі передумови:

  1. Мати доступ адміністратора AWS Cloud за допомогою Управління ідентифікацією та доступом AWS (Я Є) користувач з дозволами, необхідними для завершення інтеграції.
  2. Завершіть налаштування середовища за допомогою AWS CloudFormation за допомогою одного з наступних варіантів:
    1. Розгорніть шаблон CloudFormation у новому VPC – Цей параметр створює нове середовище AWS, яке складається з VPC, приватних підмереж, груп безпеки, ролей виконання IAM, Amazon Cloud9, необхідні кінцеві точки VPC та Домен SageMaker. Потім він розгортає Amazon DocumentDB у новому VPC. Завантажити шаблон або швидко запустіть стек CloudFormation, вибравши Запустити стек:
      Запустіть стек CloudFormation
    2. Розгорніть шаблон CloudFormation в існуючому VPC – Цей параметр створює необхідні кінцеві точки VPC, ролі виконання IAM і домен SageMaker в існуючому VPC з приватними підмережами. Завантажити шаблон або швидко запустіть стек CloudFormation, вибравши Запустити стек:
      Запустіть стек CloudFormation

Зауважте, що якщо ви створюєте новий домен SageMaker, ви повинні налаштувати домен у приватному VPC без доступу до Інтернету, щоб мати можливість додати конектор до Amazon DocumentDB. Щоб дізнатися більше, зверніться до Налаштуйте Amazon SageMaker Canvas у VPC без доступу до Інтернету.

  1. Слідуйте підручник щоб завантажити зразки даних ресторану в Amazon DocumentDB.
  2. Додайте доступ до Amazon Bedrock і моделі Anthropic Claude у ньому. Для отримання додаткової інформації див Додайте доступ до моделі.

Створіть конектор Amazon DocumentDB у SageMaker Canvas

Після створення домену SageMaker виконайте такі кроки:

  1. На консолі Amazon DocumentDB виберіть Машинне навчання без коду у навігаційній панелі.
  2. під Виберіть домен і профіль¸ виберіть свій домен SageMaker і профіль користувача.
  3. Вибирати Запустіть Canvas щоб запустити SageMaker Canvas у новій вкладці.
    Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Коли SageMaker Canvas завершить завантаження, ви потрапите на Дані потоків Вкладка.

  1. Вибирати Створювати щоб створити новий потік даних.
    Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  2. Введіть назву потоку даних і виберіть Створювати.
  3. Додайте нове підключення Amazon DocumentDB, вибравши Дати імпорту, Потім виберіть Табличний та цінності Тип набору даних.
  4. на Дати імпорту сторінка, для Джерело данихвиберіть DocumentDB та Додати підключення.
    Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  5. Введіть назву підключення, наприклад demo, і виберіть потрібний кластер Amazon DocumentDB.

Зауважте, що SageMaker Canvas попередньо заповнить спадне меню кластерами в тому самому VPC, що й ваш домен SageMaker.

  1. Введіть ім’я користувача, пароль та назву бази даних.
  2. Нарешті виберіть уподобання для читання.

Щоб захистити продуктивність основних екземплярів, SageMaker Canvas за замовчуванням Вторинний, що означає, що він читатиме лише вторинні екземпляри. При читанні перевага є Бажано вторинне, SageMaker Canvas читає з доступних вторинних екземплярів, але читатиме з основного екземпляра, якщо вторинний екземпляр недоступний. Щоб отримати додаткові відомості про те, як налаштувати з’єднання Amazon DocumentDB, див Підключіться до бази даних, що зберігається в AWS.

  1. Вибирати Додати підключення.
    Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Якщо підключення буде успішним, ви побачите колекції у своїй базі даних Amazon DocumentDB у вигляді таблиць.

  1. Перетягніть вибрану таблицю на порожнє полотно. Для цієї публікації ми додаємо дані нашого ресторану.

Перші 100 рядків відображаються як попередній перегляд.

  1. Щоб розпочати аналіз і підготовку даних, виберіть Дати імпорту.
    Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  2. Введіть назву набору даних і виберіть Дати імпорту.

Аналізуйте дані за допомогою генеративного ШІ

Далі ми хочемо отримати деяку інформацію про наші дані та шукати закономірності. SageMaker Canvas надає інтерфейс природною мовою для аналізу та підготовки даних. Коли дані завантажується вкладка, ви можете розпочати спілкування зі своїми даними, виконавши такі дії:

  1. Вибирати Чат для підготовки даних.
    Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  2. Збирайте уявлення про свої дані, ставлячи запитання, подібні до зразків, показаних на наступних знімках екрана.
    Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Щоб дізнатися більше про те, як використовувати природну мову для дослідження та підготовки даних, див Використовуйте природну мову для дослідження та підготовки даних за допомогою нових можливостей Amazon SageMaker Canvas.

Давайте глибше усвідомимо якість наших даних за допомогою звіту про якість даних SageMaker Canvas і Insights, який автоматично оцінює якість даних і виявляє відхилення.

  1. на Аналіз вкладку, виберіть Звіт про якість даних і статистику.
  2. Вибирати rating як цільовий стовпець і Регресія як тип проблеми, потім виберіть Створювати.

Це моделюватиме навчання моделі та дасть уявлення про те, як ми можемо покращити наші дані для машинного навчання. Повний звіт створюється за кілька хвилин.

Наш звіт показує, що 2.47% рядків у нашій цілі мають відсутні значення — ми вирішимо це на наступному кроці. Крім того, аналіз показує, що address line 2, name та type_of_food функції мають найбільшу силу передбачення в наших даних. Це вказує на те, що основна інформація про ресторан, як-от розташування та кухня, може сильно впливати на рейтинги.

Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Підготуйте дані для машинного навчання

SageMaker Canvas пропонує понад 300 вбудованих трансформацій для підготовки ваших імпортованих даних. Додаткову інформацію про функції трансформації SageMaker Canvas див Підготуйте дані за допомогою розширених перетворень. Давайте додамо деякі перетворення, щоб підготувати наші дані для навчання моделі ML.

  1. Перейдіть назад до Потік даних сторінки, вибравши назву потоку даних у верхній частині сторінки.
  2. Виберіть знак плюс біля Типи даних І вибирай Додати трансформацію.
    Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  3. Вибирати Додати крок.
  4. Давайте перейменуємо address line 2 стовпець до cities.
    1. Вибирати Керувати стовпцями.
    2. Вибирати Перейменувати стовпець та цінності Перетворення.
    3. Вибирати address line 2 та цінності Вхідний стовпець, введіть cities та цінності Нове найменування, і вибрати додавати.
      Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  5. Крім того, давайте видалимо деякі непотрібні стовпці.
    1. Додайте нове перетворення.
    2. для Перетвореннявиберіть Колонка скидання.
    3. для Стовпчики для опусканнявиберіть URL та restaurant_id.
    4. Вибирати додавати.
      Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.[
  6. наш rating у стовпці ознак відсутні деякі значення, тому давайте заповнимо ці рядки середнім значенням цього стовпця.
    1. Додайте нове перетворення.
    2. для Перетвореннявиберіть Врахувати.
    3. для Тип колонкивиберіть Числовий.
    4. для Вхідні стовпці, виберіть rating колонка.
    5. для Стратегія імпутаціївиберіть Середня.
    6. для Вихідний стовпець, введіть rating_avg_filled.
    7. Вибирати додавати.
      Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  7. Ми можемо кинути rating оскільки у нас є новий стовпець із заповненими значеннями.
  8. Тому що type_of_food є категоричним за своєю природою, ми хочемо закодувати його чисельно. Давайте закодуємо цю функцію за допомогою техніки одноразового кодування.
    1. Додайте нове перетворення.
    2. для Перетвореннявиберіть Одне гаряче кодування.
    3. Для стовпців введення виберіть type_of_food.
    4. для Неправильна стратегія обробки¸ вибрати тримати.
    5. для Стиль виведення¸ вибрати Колони.
    6. для Вихідний стовпець, введіть encoded.
    7. Вибирати додавати.
      Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Побудуйте модель і створіть прогнози

Тепер, коли ми трансформували наші дані, давайте навчимо числову модель ML для прогнозування рейтингів для ресторанів.

  1. Вибирати Створити модель.
  2. для Назва набору даних, введіть назву для експорту набору даних.
  3. Вибирати Експорт і зачекайте, поки перетворені дані будуть експортовані.
    Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  4. Виберіть Створити модель посилання в нижньому лівому куті сторінки.

Ви також можете вибрати набір даних у функції Data Wrangler ліворуч на сторінці.

Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

  1. Введіть назву моделі.
  2. Вибирати Прогностичний аналіз, Потім виберіть Створювати.
  3. Вибирати rating_avg_filled як цільовий стовпець.

SageMaker Canvas автоматично вибирає відповідний тип моделі.

  1. Вибирати Модель попереднього перегляду щоб гарантувати відсутність проблем із якістю даних.
  2. Вибирати Швидка збірка для побудови моделі.
    Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Створення моделі займе приблизно 2–15 хвилин.

Ви можете переглянути статус моделі після того, як модель завершить навчання. Наша модель має RSME 0.422, що означає, що модель часто передбачає рейтинг ресторану в межах +/- 0.422 від фактичного значення, надійне наближення для рейтингової шкали від 1 до 6.

Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

  1. Нарешті, ви можете створити зразки прогнозів, перейшовши до Прогнозуйте Вкладка.
    Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Прибирати

Щоб уникнути майбутніх витрат, видаліть ресурси, які ви створили під час перегляду цієї публікації. SageMaker Canvas виставляє вам рахунок за тривалість сеансу, і ми рекомендуємо вийти з SageMaker Canvas, коли ви ним не користуєтеся. Відноситься до Вихід із Amazon SageMaker Canvas для більш докладної інформації.

Висновок

У цій публікації ми обговорили, як можна використовувати SageMaker Canvas для генеративного штучного інтелекту та машинного навчання з даними, що зберігаються в Amazon DocumentDB. У нашому прикладі ми показали, як аналітик може швидко побудувати високоякісну модель ML за допомогою зразка набору даних ресторану.

Ми показали етапи реалізації рішення: від імпорту даних із Amazon DocumentDB до створення моделі ML у SageMaker Canvas. Весь процес був завершений через візуальний інтерфейс без написання жодного рядка коду.

Щоб розпочати свою подорож ML з низьким кодом/без коду, зверніться до Canvas Amazon SageMaker.


Про авторів

Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Аделік Кокер є глобальним архітектором рішень у AWS. Він працює з клієнтами в усьому світі, щоб надати рекомендації та технічну допомогу в розгортанні виробничих робочих навантажень у масштабі AWS. У вільний час він захоплюється навчанням, читанням, іграми та переглядом спортивних подій.

Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Гурурадж С Баярі є старшим спеціалістом з розробки рішень DocumentDB в AWS. Йому подобається допомагати клієнтам адаптувати спеціально створені бази даних Amazon. Він допомагає клієнтам розробляти, оцінювати та оптимізувати їх масштабування в Інтернеті та високоефективні робочі навантаження на основі NoSQL та/або реляційних баз даних.

Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Тім Пусатері є старшим менеджером із продуктів в AWS, де він працює над Amazon SageMaker Canvas. Його мета — допомогти клієнтам швидко отримати користь від AI/ML. Поза роботою він любить бути на свіжому повітрі, грати на гітарі, слухати живу музику та проводити час із родиною та друзями.

Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Pratik Das є менеджером із продуктів в AWS. Йому подобається працювати з клієнтами, які прагнуть створювати стійкі робочі навантаження та міцні основи даних у хмарі. Він надає досвід роботи з підприємствами щодо ініціатив з модернізації, аналітики та перетворення даних.

Використовуйте Amazon DocumentDB для створення рішень машинного навчання без використання коду в Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Варма Готтумуккала є старшим архітектором рішень спеціаліста з баз даних у AWS, розташованому в Далласі, Форт-Ворт. Varma працює з клієнтами над їхньою стратегією баз даних і архітектурою їхніх робочих навантажень, використовуючи спеціально створені бази даних AWS. До того як приєднатися до AWS, протягом останніх 22 років він інтенсивно працював з реляційними базами даних, базами даних NOSQL і кількома мовами програмування.

Часова мітка:

Більше від AWS Машинне навчання