Импортируйте данные из более чем 40 источников данных для машинного обучения без программирования с помощью Amazon SageMaker Canvas

Переиздано Платоном

Читают: 0

Данные лежат в основе машинного обучения (ML). Включение релевантных данных для всестороннего представления вашей бизнес-проблемы гарантирует, что вы эффективно фиксируете тенденции и взаимосвязи, чтобы вы могли получить информацию, необходимую для принятия бизнес-решений. С Холст Amazon SageMaker, теперь вы можете импортировать данные из более 40 источников данных для использования для машинного обучения без кода. Canvas расширяет доступ к машинному обучению, предоставляя бизнес-аналитикам визуальный интерфейс, который позволяет им самостоятельно генерировать точные прогнозы машинного обучения, не требуя опыта машинного обучения или написания единой строки кода. Теперь вы можете импортировать данные в приложение из популярных реляционных хранилищ данных, таких как Амазонка Афина а также платформы стороннего программного обеспечения как услуги (SaaS), поддерживаемые Поток приложений Amazon таких как Salesforce, SAP OData и Google Analytics.

Процесс сбора высококачественных данных для машинного обучения может быть сложным и трудоемким, поскольку распространение приложений SaaS и служб хранения данных привело к разбросу данных по множеству систем. Например, может потребоваться провести анализ оттока клиентов, используя данные о клиентах из Salesforce, финансовые данные из SAP и данные о логистике из Snowflake. Чтобы создать набор данных из этих источников, вам необходимо войти в каждое приложение по отдельности, выбрать нужные данные и экспортировать их локально, где их затем можно будет агрегировать с помощью другого инструмента. Затем этот набор данных необходимо импортировать в отдельное приложение для машинного обучения.

С этим запуском Canvas позволяет вам извлечь выгоду из данных, хранящихся в разрозненных источниках, поддерживая импорт и агрегирование данных в приложении из более чем 40 источников данных. Эта функция стала возможной благодаря новым коннекторам для Athena и Amazon AppFlow через Клей AWS Каталог данных. Amazon AppFlow — это управляемый сервис, который позволяет безопасно передавать данные из сторонних приложений SaaS в Простой сервис хранения Amazon (Amazon S3) и каталогизируйте данные с помощью каталога данных всего за несколько кликов. После переноса данных вы можете просто получить доступ к источнику данных в Canvas, где вы можете просматривать схемы таблиц, объединять таблицы внутри или между источниками данных, писать запросы Athena, а также просматривать и импортировать свои данные. После импорта данных вы можете использовать существующие функции Canvas, такие как создание модели машинного обучения, просмотр данных о влиянии столбцов или создание прогнозов. Вы можете автоматизировать процесс передачи данных в Amazon AppFlow, чтобы активировать его по расписанию, чтобы у вас всегда был доступ к последним данным в Canvas.

Обзор решения

Шаги, описанные в этом посте, представляют собой два примера того, как импортировать данные в Canvas для машинного обучения без кода. В первом примере мы демонстрируем, как импортировать данные через Athena. Во втором примере показано, как импортировать данные из стороннего приложения SaaS через Amazon AppFlow.

Импорт данных из Афины

В этом разделе мы покажем пример импорта данных в Canvas из Athena для проведения анализа сегментации клиентов. Мы создаем модель классификации ML, чтобы разделить нашу клиентскую базу на четыре разных класса, с конечной целью использовать модель, чтобы предсказать, к какому классу попадет новый клиент. Мы выполняем три основных шага: импортируем данные, обучаем модель и генерируем прогнозы. Давайте начнем.

Импортировать данные

Чтобы импортировать данные из Athena, выполните следующие шаги:

На консоли Canvas выберите Datasets в области навигации, затем выберите Импортировать.
Развернуть Источник данных меню и выберите Афина.
Выберите правильную базу данных и таблицу, из которых вы хотите импортировать. При желании вы можете предварительно просмотреть таблицу, выбрав значок предварительного просмотра.

На следующем снимке экрана показан пример таблицы предварительного просмотра.

В нашем примере мы сегментируем клиентов на основе маркетингового канала, через который они воспользовались нашими услугами. Это указано в столбце segmentation, где A — печатные издания, B — мобильные устройства, C — рекламные акции в магазинах, а D — телевидение.

Когда вы убедитесь, что у вас есть правильная таблица, перетащите нужную таблицу в Перетащите наборы данных, чтобы присоединиться .
Теперь вы можете дополнительно выбирать или отменять выбор столбцов, объединять таблицы, перетаскивая другую таблицу в Перетащите наборы данных, чтобы присоединиться или напишите SQL-запросы, чтобы указать свой срез данных. Для этого поста мы используем все данные в таблице.
Чтобы импортировать данные, выберите Импорт данных.

Ваши данные импортируются в Canvas как набор данных из определенной таблицы в Athena.

Обучить модель

После импорта данных они отображаются на Datasets страница. На этом этапе можно построить модель. Для этого выполните следующие шаги:

Выберите свой набор данных и выберите Создать модель.
Что касается Название модели, введите название вашей модели (для этого поста my_first_model).
Canvas позволяет создавать модели для предиктивного анализа, анализа изображений и анализа текста. Поскольку мы хотим классифицировать клиентов, выберите Прогнозный анализ для Тип проблемы.
Чтобы продолжить, выберите Создавай.

На строить На странице вы можете увидеть статистику о вашем наборе данных, такую как процент пропущенных значений и среднее значение данных.

Что касается Целевой столбец, выберите столбец (для этого поста segmentation).

Canvas предлагает два типа моделей, которые могут генерировать прогнозы. Быстрая сборка ставит скорость выше точности, создавая модель за 2–15 минут. Стандартная сборка ставит точность выше скорости, обеспечивая модель за 2–4 часа.

Для этого поста выберите Быстрая сборка.
После обучения модели можно проанализировать точность модели.

Следующая модель правильно классифицирует клиентов в 94.67% случаев.

При желании вы также можете просмотреть, как каждый столбец влияет на классификацию. В этом примере по мере взросления клиента столбец оказывает меньшее влияние на категоризацию. Чтобы сгенерировать прогнозы с помощью новой модели, выберите прогнозировать.

Генерация прогнозов

На прогнозировать на вкладке вы можете генерировать как пакетные прогнозы, так и отдельные прогнозы. Выполните следующие шаги:

Для этого поста выберите Один прогноз понять, к чему приведет сегментация клиентов для нового клиента.

Для нашего прогноза мы хотим понять, какой сегментации будет клиент, если ему 32 года и он по профессии юрист.

Замените соответствующие значения этими входными данными.
Выберите Обновление ПО.

Обновленный прогноз отображается в окне прогноза. В этом примере 32-летний юрист относится к сегменту D.

Импорт данных из стороннего приложения SaaS в AWS

Чтобы импортировать данные из сторонних приложений SaaS в Canvas для машинного обучения без кода, необходимо сначала перенести данные из приложения в Amazon S3 через Amazon AppFlow. В этом примере мы переносим производственные данные из SAP OData.

Чтобы перенести данные, выполните следующие действия:

На консоли Amazon AppFlow выберите Создать поток.
Что касается Имя потокавведите имя.
Выберите Следующая.
Что касается Название источника, выберите нужное стороннее приложение SaaS (в данном посте — SAP OData).
Выберите Создать новое соединение.
В Подключиться к SAP OData всплывающем окне, заполните данные аутентификации и выберите Свяжитесь.
Что касается Объект SAP OData, выберите объект, содержащий ваши данные, в SAP OData.
Что касается Название места назначения, выберите Amazon S3.
Что касается Детали ковша, укажите данные корзины S3.
Выберите Каталогизируйте свои данные в каталоге данных AWS Glue..
Что касается Роль пользователя, выбрать Управление идентификацией и доступом AWS (IAM), которую пользователь Canvas будет использовать для доступа к данным.
Что касается Триггер потока, наведите на Запуск по требованию.

Кроме того, вы можете автоматизировать передачу потока, выбрав Запустить поток по расписанию.

Выберите Следующая.
Выберите способ сопоставления полей и завершите сопоставление полей. Для этого поста, поскольку нет соответствующей целевой базы данных для сопоставления, нет необходимости указывать сопоставление.
Выберите Далее.
При необходимости добавьте фильтры, чтобы ограничить передаваемые данные.
Выберите Следующая.
Проверьте свои данные и выберите Создать поток.

Когда поток создан, в верхней части страницы появится зеленая лента, указывающая на то, что поток успешно обновлен.

Выберите Выполнить поток.

На этом этапе вы успешно перенесли свои данные из SAP OData в Amazon S3.

Теперь вы можете импортировать данные из приложения Canvas. Чтобы импортировать данные из Canvas, выполните тот же набор шагов, что и в разделе Импорт данных раздел ранее в этом посте. Для этого примера на Источник данных раскрывающееся меню на Импорт данных страница, вы можете увидеть SAP OData в списке.

Теперь вы можете использовать все существующие функции Canvas, такие как очистка данных, построение модели машинного обучения, просмотр данных о влиянии столбцов и создание прогнозов.

Убирать

Чтобы очистить подготовленные ресурсы, выйдите из приложения Canvas, выбрав Выйти в навигационной панели.

Заключение

Благодаря Canvas теперь вы можете импортировать данные для машинного обучения без кода из 47 источников данных через собственные коннекторы с Athena и Amazon AppFlow через каталог данных AWS Glue. Этот процесс позволяет вам напрямую получать доступ и агрегировать данные из источников данных в Canvas после передачи данных через Amazon AppFlow. Вы можете автоматизировать передачу данных, чтобы активировать ее по расписанию, а это значит, что вам не нужно заново проходить процесс для обновления данных. С помощью этого процесса вы можете создавать новые наборы данных с вашими последними данными, не выходя из приложения Canvas. Эта функция теперь доступна во всех регионах AWS, где доступен Canvas. Чтобы начать импорт данных, перейдите в консоль Canvas и выполните шаги, описанные в этом посте. Чтобы узнать больше, см. Подключиться к источникам данных.

Об авторах

Брэндон Наир является старшим менеджером по продуктам Amazon SageMaker Canvas. Его профессиональный интерес заключается в создании масштабируемых сервисов и приложений машинного обучения. Вне работы его можно найти исследующим национальные парки, совершенствующим свои навыки игры в гольф или планирующим поездку с приключениями.

Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Санджана Камбалапалли является менеджером по разработке программного обеспечения для AWS Sagemaker Canvas, целью которого является демократизация машинного обучения путем создания приложений машинного обучения без кода.

Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Синь Сюй является инженером-разработчиком программного обеспечения в команде Canvas, где он занимается подготовкой данных, среди прочего, в продуктах машинного обучения без кода. В свободное время любит бегать, читать и смотреть фильмы.

Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Волкан Унсал является старшим инженером по внешнему виду в команде Canvas, где он создает продукты без кода, чтобы сделать искусственный интеллект доступным для людей. В свободное время любит бегать, читать, смотреть киберспорт и боевые искусства.

SEO-контент и PR-распределение. Получите усиление сегодня.
Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/import-data-from-over-40-data-sources-for-no-code-machine-learning-with-amazon-sagemaker-canvas/

Отметка времени: 6 апреля 2023

Отметка времени: 18 Апрель, 2023

Импортируйте данные из более чем 40 источников данных для машинного обучения без написания кода с помощью Amazon SageMaker Canvas.

Переиздано Платоном

Обзор решения

Импорт данных из Афины

Импортировать данные

Обучить модель

Генерация прогнозов

Импорт данных из стороннего приложения SaaS в AWS

Убирать

Заключение

Об авторах

Больше от Машинное обучение AWS

Как United Airlines создала экономичную систему активного обучения оптическому распознаванию символов | Веб-сервисы Amazon

Основополагающая защита данных для ускорения корпоративного обучения LLM с помощью Protopia AI | Веб-сервисы Amazon

Открытие инноваций: AWS и Anthropic вместе расширяют границы генеративного искусственного интеллекта | Веб-сервисы Amazon

Создайте рабочий процесс MLOps для нескольких аккаунтов с помощью реестра моделей Amazon SageMaker.

Используйте Snowflake в качестве источника данных для обучения моделей машинного обучения с помощью Amazon SageMaker.

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись