Используйте Amazon DocumentDB для создания решений машинного обучения без программирования в Amazon SageMaker Canvas

Переиздано Платоном

Читают: 0

Мы рады объявить о запуске Amazon DocumentDB (с совместимостью с MongoDB) интеграция с Холст Amazon SageMaker, что позволяет клиентам Amazon DocumentDB создавать и использовать решения генеративного искусственного интеллекта и машинного обучения (ML) без написания кода. Amazon DocumentDB — это полностью управляемая собственная база данных документов JSON, которая позволяет легко и экономично управлять критически важными рабочими нагрузками документов практически в любом масштабе без управления инфраструктурой. Amazon SageMaker Canvas — это рабочее пространство машинного обучения без кода, предлагающее готовые к использованию модели, включая базовые модели, а также возможность подготовки данных, а также создания и развертывания пользовательских моделей.

В этом посте мы обсудим, как перенести данные, хранящиеся в Amazon DocumentDB, в SageMaker Canvas и использовать эти данные для создания моделей машинного обучения для прогнозной аналитики. Не создавая и не поддерживая конвейеры данных, вы сможете использовать в моделях машинного обучения неструктурированные данные, хранящиеся в Amazon DocumentDB.

Обзор решения

Давайте возьмем на себя роль бизнес-аналитика компании по доставке еды. Ваше мобильное приложение хранит информацию о ресторанах в Amazon DocumentDB благодаря его масштабируемости и гибким возможностям схемы. Вы хотите собрать информацию об этих данных и построить модель машинного обучения, чтобы предсказать, как будут оцениваться новые рестораны, но вам сложно выполнять анализ неструктурированных данных. Вы сталкиваетесь с узкими местами, потому что для достижения этих целей вам нужно полагаться на команды по разработке и анализу данных.

Эта новая интеграция решает эти проблемы, упрощая перенос данных Amazon DocumentDB в SageMaker Canvas и немедленное начало подготовки и анализа данных для машинного обучения. Кроме того, SageMaker Canvas устраняет зависимость от опыта машинного обучения для создания высококачественных моделей и прогнозирования.

Мы продемонстрируем, как использовать данные Amazon DocumentDB для построения моделей машинного обучения в SageMaker Canvas, выполнив следующие шаги:

Создайте коннектор Amazon DocumentDB в SageMaker Canvas.
Анализируйте данные с помощью генеративного ИИ.
Подготовьте данные для машинного обучения.
Постройте модель и сгенерируйте прогнозы.

Предпосылки

Чтобы реализовать это решение, выполните следующие предварительные условия:

Иметь доступ администратора облака AWS с помощью Управление идентификацией и доступом AWS (Я) пользователь с разрешениями, необходимыми для завершения интеграции.
Завершите настройку среды, используя AWS CloudFormation с помощью любого из следующих вариантов:
1. Разверните шаблон CloudFormation в новом VPC. – Этот вариант создает новую среду AWS, состоящую из VPC, частных подсетей, групп безопасности, ролей выполнения IAM, Амазон Облако9, необходимые конечные точки VPCи Домен SageMaker. Затем он развертывает Amazon DocumentDB в этом новом VPC. Загрузите шаблон или быстро запустите стек CloudFormation, выбрав Стек запуска:
2. Развертывание шаблона CloudFormation в существующем VPC. – Этот параметр создает необходимые конечные точки VPC, роли выполнения IAM и домен SageMaker в существующем VPC с частными подсетями. Загрузите шаблон или быстро запустите стек CloudFormation, выбрав Стек запуска:

Обратите внимание: если вы создаете новый домен SageMaker, вам необходимо настроить домен в частном VPC без доступа к Интернету, чтобы иметь возможность добавить соединитель в Amazon DocumentDB. Чтобы узнать больше, обратитесь к Настройка Amazon SageMaker Canvas в VPC без доступа к Интернету.

Следуйте учебник для загрузки примеров данных ресторана в Amazon DocumentDB.
Добавьте доступ к Amazon Bedrock и модели Anthropic Claude внутри нее. Для получения дополнительной информации см. Добавить доступ к модели.

Создайте коннектор Amazon DocumentDB в SageMaker Canvas.

После создания домена SageMaker выполните следующие шаги:

В консоли Amazon DocumentDB выберите Машинное обучение без кода в навигационной панели.
Под Выберите домен и профиль¸ выберите свой домен SageMaker и профиль пользователя.
Выберите Запустить холст для запуска SageMaker Canvas в новой вкладке.

Когда SageMaker Canvas завершит загрузку, вы окажетесь на Потоки данных меню.

Выберите Создавай для создания нового потока данных.
Введите имя для вашего потока данных и выберите Создавай.
Добавьте новое подключение к Amazon DocumentDB, выбрав Даты импорта, а затем выберите табличный для Тип набора данных.
На Даты импорта страница, для Источник данных, выберите DocumentDB и Добавить соединение.
Введите имя подключения, например demo, и выберите нужный кластер Amazon DocumentDB.

Обратите внимание, что SageMaker Canvas предварительно заполнит раскрывающееся меню кластерами в том же VPC, что и ваш домен SageMaker.

Введите имя пользователя, пароль и имя базы данных.
Наконец, выберите предпочтения чтения.

Чтобы защитить производительность основных экземпляров, SageMaker Canvas по умолчанию использует Старшая школа, что означает, что он будет читать только из вторичных экземпляров. Когда предпочтение чтения Вторичное предпочтительно, SageMaker Canvas считывает данные из доступных вторичных экземпляров, но будет читать из основного экземпляра, если вторичный экземпляр недоступен. Дополнительную информацию о настройке подключения к Amazon DocumentDB см. Подключитесь к базе данных, хранящейся в AWS..

Выберите Добавить соединение.

Если подключение установлено успешно, вы увидите коллекции в базе данных Amazon DocumentDB, представленные в виде таблиц.

Перетащите выбранную таблицу на пустой холст. Для этого поста мы добавляем данные о нашем ресторане.

Первые 100 строк отображаются в режиме предварительного просмотра.

Чтобы начать анализировать и готовить данные, выберите Даты импорта.
Введите имя набора данных и выберите Даты импорта.

Анализируйте данные с помощью генеративного ИИ

Далее мы хотим получить некоторую информацию о наших данных и найти закономерности. SageMaker Canvas предоставляет интерфейс на естественном языке для анализа и подготовки данных. Когда Данные вкладка загружается, вы можете начать общение со своими данными, выполнив следующие действия:

Выберите Чат для подготовки данных.
Соберите ценную информацию о своих данных, задавая вопросы, подобные примерам, показанным на следующих снимках экрана.

Чтобы узнать больше о том, как использовать естественный язык для исследования и подготовки данных, см. Используйте естественный язык для изучения и подготовки данных с помощью новой возможности Amazon SageMaker Canvas..

Давайте глубже поймем качество наших данных с помощью отчета о качестве и аналитике данных SageMaker Canvas, который автоматически оценивает качество данных и обнаруживает отклонения.

На Анализ , выберите Отчет о качестве данных и аналитических данных.
Выберите rating в качестве целевого столбца и Регрессия в качестве типа проблемы, затем выберите Создавай.

Это позволит моделировать обучение модели и даст представление о том, как мы можем улучшить наши данные для машинного обучения. Полный отчет формируется за несколько минут.

Наш отчет показывает, что 2.47% строк в нашей цели имеют пропущенные значения — мы рассмотрим это на следующем шаге. Кроме того, анализ показывает, что address line 2, nameи type_of_food функции имеют наибольшую предсказательную силу в наших данных. Это означает, что базовая информация о ресторане, такая как местоположение и кухня, может иметь огромное влияние на рейтинги.

Подготовьте данные для машинного обучения

SageMaker Canvas предлагает более 300 встроенных преобразований для подготовки импортированных данных. Дополнительную информацию о функциях преобразования SageMaker Canvas см. Подготовка данных с расширенными преобразованиями. Давайте добавим несколько преобразований, чтобы подготовить наши данные для обучения модели ML.

Вернитесь к Поток данных странице, выбрав имя вашего потока данных в верхней части страницы.
Выберите знак плюс рядом с Типы данных , а затем выбрать Добавить преобразование.
Выберите Добавить шаг.
Давайте переименуем address line 2 столбец к cities.
1. Выберите Управление столбцами.
2. Выберите Переименовать столбец для Transform.
3. Выберите address line 2 для Столбец ввода, войти cities для Новое наименование, и выберите Добавить.
Кроме того, давайте оставим несколько ненужных столбцов.
1. Добавьте новое преобразование.
2. Что касается Transform, выберите Удалить столбец.
3. Что касается Столбцы для удаления, выберите URL и restaurant_id.
4. Выберите Добавить.
  [
Наши rating В столбце функции есть некоторые пропущенные значения, поэтому давайте заполним эти строки средним значением этого столбца.
1. Добавьте новое преобразование.
2. Что касается Transform, выберите Вменять.
3. Что касается Тип столбца, выберите Числовой.
4. Что касается Входные столбцы, выбрать rating колонка.
5. Что касается Стратегия вменения, выберите среднее.
6. Что касается Выходной столбец, войти rating_avg_filled.
7. Выберите Добавить.
Мы можем бросить rating столбец, потому что у нас есть новый столбец с заполненными значениями.
Так как type_of_food категоричен по своей природе, мы захотим его численно закодировать. Давайте закодируем эту функцию, используя технику горячего кодирования.
1. Добавьте новое преобразование.
2. Что касается Transform, выберите Одно горячее кодирование.
3. Для столбцов ввода выберите type_of_food.
4. Что касается Неверная стратегия обращениявыберите Сохранить.
5. Что касается Стиль выводавыберите Колонки.
6. Что касается Выходной столбец, войти encoded.
7. Выберите Добавить.

Постройте модель и сгенерируйте прогнозы

Теперь, когда мы преобразовали наши данные, давайте обучим числовую модель машинного обучения прогнозированию рейтингов ресторанов.

Выберите Создать модель.
Что касается Имя набора данных, введите имя для экспорта набора данных.
Выберите Экспортировать и дождитесь экспорта преобразованных данных.
Выберите Создать модель ссылка в левом нижнем углу страницы.

Вы также можете выбрать набор данных с помощью функции Data Wrangler в левой части страницы.

Введите название модели.
Выберите Прогнозный анализ, а затем выберите Создавай.
Выберите rating_avg_filled в качестве целевого столбца.

SageMaker Canvas автоматически выбирает подходящий тип модели.

Выберите Предварительная версия модели чтобы гарантировать отсутствие проблем с качеством данных.
Выберите Быстрая сборка построить модель.

Создание модели займет примерно 2–15 минут.

Вы можете просмотреть статус модели после завершения обучения модели. Наша модель имеет RSME 0.422, что означает, что модель часто прогнозирует рейтинг ресторана в пределах +/- 0.422 от фактического значения, что является надежным приближением для рейтинговой шкалы от 1 до 6.

Наконец, вы можете сгенерировать образцы прогнозов, перейдя к прогнозировать меню.

Убирать

Чтобы избежать будущих расходов, удалите ресурсы, которые вы создали, следуя этому сообщению. SageMaker Canvas выставляет вам счет за продолжительность сеанса, и мы рекомендуем выходить из SageMaker Canvas, когда вы его не используете. Ссылаться на Выход из Amazon SageMaker Canvas Больше подробностей.

Заключение

В этом посте мы обсудили, как можно использовать SageMaker Canvas для генеративного искусственного интеллекта и машинного обучения с данными, хранящимися в Amazon DocumentDB. В нашем примере мы показали, как аналитик может быстро построить высококачественную модель машинного обучения, используя образец набора данных ресторана.

Мы показали шаги по реализации решения: от импорта данных из Amazon DocumentDB до построения модели машинного обучения в SageMaker Canvas. Весь процесс был выполнен через визуальный интерфейс без написания единой строчки кода.

Чтобы начать свое путешествие по машинному обучению с низким кодом/без кода, см. Холст Amazon SageMaker.

Об авторах

Аделеке Кокер является глобальным архитектором решений в AWS. Он работает с клиентами по всему миру, предоставляя рекомендации и техническую помощь по масштабному развертыванию производственных рабочих нагрузок на AWS. В свободное время он любит учиться, читать, играть в игры и смотреть спортивные соревнования.

Гурурадж С Баяри — старший специалист по архитектуре решений DocumentDB в AWS. Ему нравится помогать клиентам внедрять специально созданные базы данных Amazon. Он помогает клиентам проектировать, оценивать и оптимизировать масштабируемые в Интернете и высокопроизводительные рабочие нагрузки на базе NoSQL и/или реляционных баз данных.

Используйте Amazon DocumentDB для создания решений машинного обучения без написания кода в Amazon SageMaker Canvas | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Тим Пусатери — старший менеджер по продукту в AWS, где он работает над Amazon SageMaker Canvas. Его цель — помочь клиентам быстро извлечь выгоду из AI/ML. Вне работы он любит бывать на свежем воздухе, играть на гитаре, слушать живую музыку и проводить время с семьей и друзьями.

Используйте Amazon DocumentDB для создания решений машинного обучения без написания кода в Amazon SageMaker Canvas | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Пратик Дас является менеджером по продукту в AWS. Ему нравится работать с клиентами, стремящимися создать устойчивые рабочие нагрузки и надежную основу данных в облаке. Он привносит свой опыт, работая с предприятиями над инициативами по модернизации, анализу и преобразованию данных.

Используйте Amazon DocumentDB для создания решений машинного обучения без написания кода в Amazon SageMaker Canvas | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Варма Готтумуккала — старший специалист по архитектуре решений для баз данных в AWS из Далласа, Форт-Уэрт. Варма работает с клиентами над их стратегией баз данных и проектирует их рабочие нагрузки, используя специально созданные базы данных AWS. До прихода в AWS он в течение последних 22 лет активно работал с реляционными базами данных, базами данных NOSQL и несколькими языками программирования.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/use-amazon-documentdb-to-build-no-code-machine-learning-solutions-in-amazon-sagemaker-canvas/

Отметка времени: 15 декабря 2023

Отметка времени: Август 4, 2023

Переиздано Платоном

Создавайте контекстный таргетинг на основе таксономии с помощью AWS Media Intelligence и Hugging Face BERT.

Интеграция платформ SaaS с Amazon SageMaker для запуска приложений на основе машинного обучения | Веб-сервисы Амазонки

Используйте собственные сценарии обучения и автоматически выбирайте лучшую модель с помощью оптимизации гиперпараметров в Amazon SageMaker.

Ускорьте PyTorch с помощью DeepSpeed для обучения больших языковых моделей с помощью инстансов DL1 EC2 на базе Intel Habana Gaudi | Веб-сервисы Амазонки

Индексируйте свой контент Alfresco с помощью нового коннектора Amazon Kendra Alfresco | Веб-сервисы Амазонки

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись