Мы рады объявить о запуске Amazon DocumentDB (с совместимостью с MongoDB) интеграция с Холст Amazon SageMaker, что позволяет клиентам Amazon DocumentDB создавать и использовать решения генеративного искусственного интеллекта и машинного обучения (ML) без написания кода. Amazon DocumentDB — это полностью управляемая собственная база данных документов JSON, которая позволяет легко и экономично управлять критически важными рабочими нагрузками документов практически в любом масштабе без управления инфраструктурой. Amazon SageMaker Canvas — это рабочее пространство машинного обучения без кода, предлагающее готовые к использованию модели, включая базовые модели, а также возможность подготовки данных, а также создания и развертывания пользовательских моделей.
В этом посте мы обсудим, как перенести данные, хранящиеся в Amazon DocumentDB, в SageMaker Canvas и использовать эти данные для создания моделей машинного обучения для прогнозной аналитики. Не создавая и не поддерживая конвейеры данных, вы сможете использовать в моделях машинного обучения неструктурированные данные, хранящиеся в Amazon DocumentDB.
Обзор решения
Давайте возьмем на себя роль бизнес-аналитика компании по доставке еды. Ваше мобильное приложение хранит информацию о ресторанах в Amazon DocumentDB благодаря его масштабируемости и гибким возможностям схемы. Вы хотите собрать информацию об этих данных и построить модель машинного обучения, чтобы предсказать, как будут оцениваться новые рестораны, но вам сложно выполнять анализ неструктурированных данных. Вы сталкиваетесь с узкими местами, потому что для достижения этих целей вам нужно полагаться на команды по разработке и анализу данных.
Эта новая интеграция решает эти проблемы, упрощая перенос данных Amazon DocumentDB в SageMaker Canvas и немедленное начало подготовки и анализа данных для машинного обучения. Кроме того, SageMaker Canvas устраняет зависимость от опыта машинного обучения для создания высококачественных моделей и прогнозирования.
Мы продемонстрируем, как использовать данные Amazon DocumentDB для построения моделей машинного обучения в SageMaker Canvas, выполнив следующие шаги:
- Создайте коннектор Amazon DocumentDB в SageMaker Canvas.
- Анализируйте данные с помощью генеративного ИИ.
- Подготовьте данные для машинного обучения.
- Постройте модель и сгенерируйте прогнозы.
Предпосылки
Чтобы реализовать это решение, выполните следующие предварительные условия:
- Иметь доступ администратора облака AWS с помощью Управление идентификацией и доступом AWS (Я) пользователь с разрешениями, необходимыми для завершения интеграции.
- Завершите настройку среды, используя AWS CloudFormation с помощью любого из следующих вариантов:
- Разверните шаблон CloudFormation в новом VPC. – Этот вариант создает новую среду AWS, состоящую из VPC, частных подсетей, групп безопасности, ролей выполнения IAM, Амазон Облако9, необходимые конечные точки VPCи Домен SageMaker. Затем он развертывает Amazon DocumentDB в этом новом VPC. Загрузите шаблон или быстро запустите стек CloudFormation, выбрав Стек запуска:
- Развертывание шаблона CloudFormation в существующем VPC. – Этот параметр создает необходимые конечные точки VPC, роли выполнения IAM и домен SageMaker в существующем VPC с частными подсетями. Загрузите шаблон или быстро запустите стек CloudFormation, выбрав Стек запуска:
- Разверните шаблон CloudFormation в новом VPC. – Этот вариант создает новую среду AWS, состоящую из VPC, частных подсетей, групп безопасности, ролей выполнения IAM, Амазон Облако9, необходимые конечные точки VPCи Домен SageMaker. Затем он развертывает Amazon DocumentDB в этом новом VPC. Загрузите шаблон или быстро запустите стек CloudFormation, выбрав Стек запуска:
Обратите внимание: если вы создаете новый домен SageMaker, вам необходимо настроить домен в частном VPC без доступа к Интернету, чтобы иметь возможность добавить соединитель в Amazon DocumentDB. Чтобы узнать больше, обратитесь к Настройка Amazon SageMaker Canvas в VPC без доступа к Интернету.
- Следуйте учебник для загрузки примеров данных ресторана в Amazon DocumentDB.
- Добавьте доступ к Amazon Bedrock и модели Anthropic Claude внутри нее. Для получения дополнительной информации см. Добавить доступ к модели.
Создайте коннектор Amazon DocumentDB в SageMaker Canvas.
После создания домена SageMaker выполните следующие шаги:
- В консоли Amazon DocumentDB выберите Машинное обучение без кода в навигационной панели.
- Под Выберите домен и профиль¸ выберите свой домен SageMaker и профиль пользователя.
- Выберите Запустить холст для запуска SageMaker Canvas в новой вкладке.
Когда SageMaker Canvas завершит загрузку, вы окажетесь на Потоки данных меню.
- Выберите Создавай для создания нового потока данных.
- Введите имя для вашего потока данных и выберите Создавай.
- Добавьте новое подключение к Amazon DocumentDB, выбрав Даты импорта, а затем выберите табличный для Тип набора данных.
- На Даты импорта страница, для Источник данных, выберите DocumentDB и Добавить соединение.
- Введите имя подключения, например demo, и выберите нужный кластер Amazon DocumentDB.
Обратите внимание, что SageMaker Canvas предварительно заполнит раскрывающееся меню кластерами в том же VPC, что и ваш домен SageMaker.
- Введите имя пользователя, пароль и имя базы данных.
- Наконец, выберите предпочтения чтения.
Чтобы защитить производительность основных экземпляров, SageMaker Canvas по умолчанию использует Старшая школа, что означает, что он будет читать только из вторичных экземпляров. Когда предпочтение чтения Вторичное предпочтительно, SageMaker Canvas считывает данные из доступных вторичных экземпляров, но будет читать из основного экземпляра, если вторичный экземпляр недоступен. Дополнительную информацию о настройке подключения к Amazon DocumentDB см. Подключитесь к базе данных, хранящейся в AWS..
- Выберите Добавить соединение.
Если подключение установлено успешно, вы увидите коллекции в базе данных Amazon DocumentDB, представленные в виде таблиц.
- Перетащите выбранную таблицу на пустой холст. Для этого поста мы добавляем данные о нашем ресторане.
Первые 100 строк отображаются в режиме предварительного просмотра.
- Чтобы начать анализировать и готовить данные, выберите Даты импорта.
- Введите имя набора данных и выберите Даты импорта.
Анализируйте данные с помощью генеративного ИИ
Далее мы хотим получить некоторую информацию о наших данных и найти закономерности. SageMaker Canvas предоставляет интерфейс на естественном языке для анализа и подготовки данных. Когда Данные вкладка загружается, вы можете начать общение со своими данными, выполнив следующие действия:
- Выберите Чат для подготовки данных.
- Соберите ценную информацию о своих данных, задавая вопросы, подобные примерам, показанным на следующих снимках экрана.
Чтобы узнать больше о том, как использовать естественный язык для исследования и подготовки данных, см. Используйте естественный язык для изучения и подготовки данных с помощью новой возможности Amazon SageMaker Canvas..
Давайте глубже поймем качество наших данных с помощью отчета о качестве и аналитике данных SageMaker Canvas, который автоматически оценивает качество данных и обнаруживает отклонения.
- На Анализ , выберите Отчет о качестве данных и аналитических данных.
- Выберите
rating
в качестве целевого столбца и Регрессия в качестве типа проблемы, затем выберите Создавай.
Это позволит моделировать обучение модели и даст представление о том, как мы можем улучшить наши данные для машинного обучения. Полный отчет формируется за несколько минут.
Наш отчет показывает, что 2.47% строк в нашей цели имеют пропущенные значения — мы рассмотрим это на следующем шаге. Кроме того, анализ показывает, что address line 2
, name
и type_of_food
функции имеют наибольшую предсказательную силу в наших данных. Это означает, что базовая информация о ресторане, такая как местоположение и кухня, может иметь огромное влияние на рейтинги.
Подготовьте данные для машинного обучения
SageMaker Canvas предлагает более 300 встроенных преобразований для подготовки импортированных данных. Дополнительную информацию о функциях преобразования SageMaker Canvas см. Подготовка данных с расширенными преобразованиями. Давайте добавим несколько преобразований, чтобы подготовить наши данные для обучения модели ML.
- Вернитесь к Поток данных странице, выбрав имя вашего потока данных в верхней части страницы.
- Выберите знак плюс рядом с Типы данных , а затем выбрать Добавить преобразование.
- Выберите Добавить шаг.
- Давайте переименуем
address line 2
столбец кcities
.- Выберите Управление столбцами.
- Выберите Переименовать столбец для Transform.
- Выберите
address line 2
для Столбец ввода, войтиcities
для Новое наименование, и выберите Добавить.
- Кроме того, давайте оставим несколько ненужных столбцов.
- Добавьте новое преобразование.
- Что касается Transform, выберите Удалить столбец.
- Что касается Столбцы для удаления, выберите
URL
иrestaurant_id
. - Выберите Добавить.
[
- Наши
rating
В столбце функции есть некоторые пропущенные значения, поэтому давайте заполним эти строки средним значением этого столбца.- Добавьте новое преобразование.
- Что касается Transform, выберите Вменять.
- Что касается Тип столбца, выберите Числовой.
- Что касается Входные столбцы, выбрать
rating
колонка. - Что касается Стратегия вменения, выберите среднее.
- Что касается Выходной столбец, войти
rating_avg_filled
. - Выберите Добавить.
- Мы можем бросить
rating
столбец, потому что у нас есть новый столбец с заполненными значениями. - Так как
type_of_food
категоричен по своей природе, мы захотим его численно закодировать. Давайте закодируем эту функцию, используя технику горячего кодирования.- Добавьте новое преобразование.
- Что касается Transform, выберите Одно горячее кодирование.
- Для столбцов ввода выберите
type_of_food
. - Что касается Неверная стратегия обращениявыберите Сохранить.
- Что касается Стиль выводавыберите Колонки.
- Что касается Выходной столбец, войти
encoded
. - Выберите Добавить.
Постройте модель и сгенерируйте прогнозы
Теперь, когда мы преобразовали наши данные, давайте обучим числовую модель машинного обучения прогнозированию рейтингов ресторанов.
- Выберите Создать модель.
- Что касается Имя набора данных, введите имя для экспорта набора данных.
- Выберите Экспортировать и дождитесь экспорта преобразованных данных.
- Выберите Создать модель ссылка в левом нижнем углу страницы.
Вы также можете выбрать набор данных с помощью функции Data Wrangler в левой части страницы.
- Введите название модели.
- Выберите Прогнозный анализ, а затем выберите Создавай.
- Выберите
rating_avg_filled
в качестве целевого столбца.
SageMaker Canvas автоматически выбирает подходящий тип модели.
- Выберите Предварительная версия модели чтобы гарантировать отсутствие проблем с качеством данных.
- Выберите Быстрая сборка построить модель.
Создание модели займет примерно 2–15 минут.
Вы можете просмотреть статус модели после завершения обучения модели. Наша модель имеет RSME 0.422, что означает, что модель часто прогнозирует рейтинг ресторана в пределах +/- 0.422 от фактического значения, что является надежным приближением для рейтинговой шкалы от 1 до 6.
- Наконец, вы можете сгенерировать образцы прогнозов, перейдя к прогнозировать меню.
Убирать
Чтобы избежать будущих расходов, удалите ресурсы, которые вы создали, следуя этому сообщению. SageMaker Canvas выставляет вам счет за продолжительность сеанса, и мы рекомендуем выходить из SageMaker Canvas, когда вы его не используете. Ссылаться на Выход из Amazon SageMaker Canvas Больше подробностей.
Заключение
В этом посте мы обсудили, как можно использовать SageMaker Canvas для генеративного искусственного интеллекта и машинного обучения с данными, хранящимися в Amazon DocumentDB. В нашем примере мы показали, как аналитик может быстро построить высококачественную модель машинного обучения, используя образец набора данных ресторана.
Мы показали шаги по реализации решения: от импорта данных из Amazon DocumentDB до построения модели машинного обучения в SageMaker Canvas. Весь процесс был выполнен через визуальный интерфейс без написания единой строчки кода.
Чтобы начать свое путешествие по машинному обучению с низким кодом/без кода, см. Холст Amazon SageMaker.
Об авторах
Аделеке Кокер является глобальным архитектором решений в AWS. Он работает с клиентами по всему миру, предоставляя рекомендации и техническую помощь по масштабному развертыванию производственных рабочих нагрузок на AWS. В свободное время он любит учиться, читать, играть в игры и смотреть спортивные соревнования.
Гурурадж С Баяри — старший специалист по архитектуре решений DocumentDB в AWS. Ему нравится помогать клиентам внедрять специально созданные базы данных Amazon. Он помогает клиентам проектировать, оценивать и оптимизировать масштабируемые в Интернете и высокопроизводительные рабочие нагрузки на базе NoSQL и/или реляционных баз данных.
Тим Пусатери — старший менеджер по продукту в AWS, где он работает над Amazon SageMaker Canvas. Его цель — помочь клиентам быстро извлечь выгоду из AI/ML. Вне работы он любит бывать на свежем воздухе, играть на гитаре, слушать живую музыку и проводить время с семьей и друзьями.
Пратик Дас является менеджером по продукту в AWS. Ему нравится работать с клиентами, стремящимися создать устойчивые рабочие нагрузки и надежную основу данных в облаке. Он привносит свой опыт, работая с предприятиями над инициативами по модернизации, анализу и преобразованию данных.
Варма Готтумуккала — старший специалист по архитектуре решений для баз данных в AWS из Далласа, Форт-Уэрт. Варма работает с клиентами над их стратегией баз данных и проектирует их рабочие нагрузки, используя специально созданные базы данных AWS. До прихода в AWS он в течение последних 22 лет активно работал с реляционными базами данных, базами данных NOSQL и несколькими языками программирования.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/use-amazon-documentdb-to-build-no-code-machine-learning-solutions-in-amazon-sagemaker-canvas/
- :имеет
- :является
- :нет
- :куда
- 10
- 100
- 11
- 12
- 13
- 150
- 22
- 27
- 300
- 385
- 500
- 58
- 7
- 8
- 9
- a
- способность
- в состоянии
- О нас
- доступ
- выполнять
- фактического соединения
- Добавить
- Дополнительно
- адрес
- Администратор
- принять
- продвинутый
- После
- AI
- AI / ML
- Позволяющий
- причислены
- Amazon
- Создатель мудреца Амазонки
- Холст Amazon SageMaker
- Amazon Web Services
- an
- анализ
- аналитик
- Аналитические фармацевтические услуги
- аналитика
- анализировать
- анализ
- и
- анонсировать
- Антропный
- любой
- приложение
- примерно
- МЫ
- AS
- спрашивающий
- Помощь
- предполагать
- At
- автоматически
- доступен
- в среднем
- избежать
- AWS
- назад
- основанный
- основной
- BE
- , так как:
- до
- Банкноты
- узкие
- Дно
- приносить
- Приносит
- строить
- Строительство
- строит
- построенный
- встроенный
- бизнес
- но
- by
- CAN
- холст
- возможности
- возможности
- сложные
- расходы
- в чате
- выбор
- Выберите
- Выбирая
- облако
- Кластер
- код
- Коллекции
- Column
- Колонки
- Компания
- совместимость
- полный
- Заполненная
- связи
- состоит
- Консоли
- Corner
- рентабельным
- Создайте
- создали
- создает
- Создающий
- создание
- критической
- изготовленный на заказ
- Клиенты
- Dallas
- данным
- наука о данных
- База данных
- базы данных
- более глубокий
- по умолчанию
- поставка
- демонстрация
- демонстрировать
- Зависимость
- развертывание
- развертывание
- развертывает
- выводить
- Проект
- желанный
- подробнее
- обсуждать
- обсуждается
- отображается
- документ
- домен
- скачать
- Падение
- продолжительность
- или
- кодирование
- Проект и
- обеспечивать
- Enter
- предприятий
- Весь
- Окружающая среда
- оценивать
- События
- пример
- возбужденный
- выполнение
- существующий
- опыта
- Больше
- экспорт
- широко
- семья
- Особенность
- Особенности
- несколько
- заполнять
- заполненный
- Найдите
- First
- гибкого
- поток
- после
- питание
- доставка еды
- Что касается
- Год основания
- Устои
- друзья
- от
- полностью
- будущее
- игровой
- собирать
- порождать
- генерируется
- генеративный
- Генеративный ИИ
- получить
- Глобальный
- ГЛОБАЛЬНО
- цель
- Цели
- Группы
- руководство
- Управляемость
- Есть
- he
- помощь
- помощь
- помогает
- High
- высококачественный
- его
- Как
- How To
- HTML
- HTTPS
- Личность
- if
- немедленно
- Влияние
- осуществлять
- импортирующий
- улучшать
- in
- В том числе
- указывает
- информация
- Инфраструктура
- инициативы
- вход
- размышления
- пример
- интеграции.
- Интерфейс
- Интернет
- доступ в Интернет
- в
- вопросы
- IT
- ЕГО
- присоединение
- путешествие
- JPG
- JSON
- Земля
- язык
- Языки
- Фамилия
- запуск
- УЧИТЬСЯ
- изучение
- оставил
- Lets
- такое как
- линия
- LINK
- жить
- загрузка
- погрузка
- грузы
- расположение
- каротаж
- посмотреть
- искать
- любит
- машина
- обучение с помощью машины
- Сохранение
- ДЕЛАЕТ
- Создание
- управляемого
- менеджер
- управления
- Май..
- смысл
- означает
- Меню
- Минут
- отсутствующий
- ML
- Мобильный телефон
- Мобильное приложение
- модель
- Модели
- MongoDB
- БОЛЕЕ
- самых
- с разными
- Музыка
- должен
- имя
- родной
- натуральный
- природа
- навигационный
- Навигация
- Необходимость
- Новые
- следующий
- нет
- of
- предлагающий
- Предложения
- .
- on
- только
- работать
- Оптимизировать
- Опция
- Опции
- or
- наши
- внешний
- на открытом воздухе
- внешнюю
- за
- страница
- хлеб
- Пароль
- паттеранами
- Выполнять
- производительность
- Разрешения
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Играть
- плюс
- После
- мощностью
- Питание
- предсказывать
- прогноз
- Predictions
- Predictive Analytics
- предсказывает
- Подготовить
- подготовка
- предпосылки
- предварительный просмотр
- первичный
- частная
- Проблема
- проблемам
- процесс
- Продукт
- Менеджер по продукции
- Производство
- Профиль
- Программирование
- языки программирования
- для защиты
- обеспечивать
- приводит
- цель
- Вопросы
- САЙТ
- быстро
- номинальный
- рейтинг
- рейтинги
- Читать
- Reading
- готовый
- рекомендовать
- относиться
- полагаться
- удаляет
- отчету
- обязательный
- упругий
- Полезные ресурсы
- ресторан
- ресторан
- Роли
- роли
- s
- sagemaker
- то же
- Масштабируемость
- Шкала
- Наука
- скриншоты
- вторичный
- безопасность
- посмотреть
- выберите
- старший
- смысл
- Услуги
- Сессия
- установка
- показал
- показанный
- Шоу
- подпись
- просто
- одинарной
- So
- твердый
- Решение
- Решения
- Решает
- некоторые
- специалист
- тратить
- Спорт
- стек
- Начало
- Статус:
- Шаг
- Шаги
- хранить
- магазины
- простой
- Стратегия
- сильный
- подсеть
- успешный
- такие
- подходящее
- ТАБЛИЦЫ
- взять
- цель
- команды
- Технический
- техника
- шаблон
- который
- Ассоциация
- их
- тогда
- Там.
- Эти
- этой
- те
- Через
- время
- в
- топ
- Train
- Обучение
- Transform
- трансформация
- преобразований
- преобразован
- напишите
- ненужный
- использование
- Информация о пользователе
- через
- ценностное
- Наши ценности
- Вид
- фактически
- визуальный
- ждать
- хотеть
- законопроект
- наблюдение
- we
- Web
- веб-сервисы
- когда
- который
- в то время как
- будете
- в
- без
- Работа
- работавший
- работает
- работает
- стоимость
- письмо
- лет
- Ты
- ВАШЕ
- зефирнет