Импортируйте данные из более чем 40 источников данных для машинного обучения без написания кода с помощью Amazon SageMaker Canvas.

Импортируйте данные из более чем 40 источников данных для машинного обучения без написания кода с помощью Amazon SageMaker Canvas.

Данные лежат в основе машинного обучения (ML). Включение релевантных данных для всестороннего представления вашей бизнес-проблемы гарантирует, что вы эффективно фиксируете тенденции и взаимосвязи, чтобы вы могли получить информацию, необходимую для принятия бизнес-решений. С Холст Amazon SageMaker, теперь вы можете импортировать данные из более 40 источников данных для использования для машинного обучения без кода. Canvas расширяет доступ к машинному обучению, предоставляя бизнес-аналитикам визуальный интерфейс, который позволяет им самостоятельно генерировать точные прогнозы машинного обучения, не требуя опыта машинного обучения или написания единой строки кода. Теперь вы можете импортировать данные в приложение из популярных реляционных хранилищ данных, таких как Амазонка Афина а также платформы стороннего программного обеспечения как услуги (SaaS), поддерживаемые Поток приложений Amazon таких как Salesforce, SAP OData и Google Analytics.

Процесс сбора высококачественных данных для машинного обучения может быть сложным и трудоемким, поскольку распространение приложений SaaS и служб хранения данных привело к разбросу данных по множеству систем. Например, может потребоваться провести анализ оттока клиентов, используя данные о клиентах из Salesforce, финансовые данные из SAP и данные о логистике из Snowflake. Чтобы создать набор данных из этих источников, вам необходимо войти в каждое приложение по отдельности, выбрать нужные данные и экспортировать их локально, где их затем можно будет агрегировать с помощью другого инструмента. Затем этот набор данных необходимо импортировать в отдельное приложение для машинного обучения.

С этим запуском Canvas позволяет вам извлечь выгоду из данных, хранящихся в разрозненных источниках, поддерживая импорт и агрегирование данных в приложении из более чем 40 источников данных. Эта функция стала возможной благодаря новым коннекторам для Athena и Amazon AppFlow через Клей AWS Каталог данных. Amazon AppFlow — это управляемый сервис, который позволяет безопасно передавать данные из сторонних приложений SaaS в Простой сервис хранения Amazon (Amazon S3) и каталогизируйте данные с помощью каталога данных всего за несколько кликов. После переноса данных вы можете просто получить доступ к источнику данных в Canvas, где вы можете просматривать схемы таблиц, объединять таблицы внутри или между источниками данных, писать запросы Athena, а также просматривать и импортировать свои данные. После импорта данных вы можете использовать существующие функции Canvas, такие как создание модели машинного обучения, просмотр данных о влиянии столбцов или создание прогнозов. Вы можете автоматизировать процесс передачи данных в Amazon AppFlow, чтобы активировать его по расписанию, чтобы у вас всегда был доступ к последним данным в Canvas.

Обзор решения

Шаги, описанные в этом посте, представляют собой два примера того, как импортировать данные в Canvas для машинного обучения без кода. В первом примере мы демонстрируем, как импортировать данные через Athena. Во втором примере показано, как импортировать данные из стороннего приложения SaaS через Amazon AppFlow.

Импорт данных из Афины

В этом разделе мы покажем пример импорта данных в Canvas из Athena для проведения анализа сегментации клиентов. Мы создаем модель классификации ML, чтобы разделить нашу клиентскую базу на четыре разных класса, с конечной целью использовать модель, чтобы предсказать, к какому классу попадет новый клиент. Мы выполняем три основных шага: импортируем данные, обучаем модель и генерируем прогнозы. Давайте начнем.

Импортировать данные

Чтобы импортировать данные из Athena, выполните следующие шаги:

  1. На консоли Canvas выберите Datasets в области навигации, затем выберите Импортировать.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  2. Развернуть Источник данных меню и выберите Афина.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  3. Выберите правильную базу данных и таблицу, из которых вы хотите импортировать. При желании вы можете предварительно просмотреть таблицу, выбрав значок предварительного просмотра.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

На следующем снимке экрана показан пример таблицы предварительного просмотра.

Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

В нашем примере мы сегментируем клиентов на основе маркетингового канала, через который они воспользовались нашими услугами. Это указано в столбце segmentation, где A — печатные издания, B — мобильные устройства, C — рекламные акции в магазинах, а D — телевидение.

  1. Когда вы убедитесь, что у вас есть правильная таблица, перетащите нужную таблицу в Перетащите наборы данных, чтобы присоединиться .
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  2. Теперь вы можете дополнительно выбирать или отменять выбор столбцов, объединять таблицы, перетаскивая другую таблицу в Перетащите наборы данных, чтобы присоединиться или напишите SQL-запросы, чтобы указать свой срез данных. Для этого поста мы используем все данные в таблице.
  3. Чтобы импортировать данные, выберите Импорт данных.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Ваши данные импортируются в Canvas как набор данных из определенной таблицы в Athena.

Обучить модель

После импорта данных они отображаются на Datasets страница. На этом этапе можно построить модель. Для этого выполните следующие шаги:

  1. Выберите свой набор данных и выберите Создать модель.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  2. Что касается Название модели, введите название вашей модели (для этого поста my_first_model).
  3. Canvas позволяет создавать модели для предиктивного анализа, анализа изображений и анализа текста. Поскольку мы хотим классифицировать клиентов, выберите Прогнозный анализ для Тип проблемы.
  4. Чтобы продолжить, выберите Создавай.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

На строить На странице вы можете увидеть статистику о вашем наборе данных, такую ​​как процент пропущенных значений и среднее значение данных.

  1. Что касается Целевой столбец, выберите столбец (для этого поста segmentation).
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Canvas предлагает два типа моделей, которые могут генерировать прогнозы. Быстрая сборка ставит скорость выше точности, создавая модель за 2–15 минут. Стандартная сборка ставит точность выше скорости, обеспечивая модель за 2–4 часа.

  1. Для этого поста выберите Быстрая сборка.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  2. После обучения модели можно проанализировать точность модели.

Следующая модель правильно классифицирует клиентов в 94.67% случаев.

Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

  1. При желании вы также можете просмотреть, как каждый столбец влияет на классификацию. В этом примере по мере взросления клиента столбец оказывает меньшее влияние на категоризацию. Чтобы сгенерировать прогнозы с помощью новой модели, выберите прогнозировать.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Генерация прогнозов

На прогнозировать на вкладке вы можете генерировать как пакетные прогнозы, так и отдельные прогнозы. Выполните следующие шаги:

  1. Для этого поста выберите Один прогноз понять, к чему приведет сегментация клиентов для нового клиента.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Для нашего прогноза мы хотим понять, какой сегментации будет клиент, если ему 32 года и он по профессии юрист.

  1. Замените соответствующие значения этими входными данными.
  2. Выберите Обновление ПО.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Обновленный прогноз отображается в окне прогноза. В этом примере 32-летний юрист относится к сегменту D.

Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Импорт данных из стороннего приложения SaaS в AWS

Чтобы импортировать данные из сторонних приложений SaaS в Canvas для машинного обучения без кода, необходимо сначала перенести данные из приложения в Amazon S3 через Amazon AppFlow. В этом примере мы переносим производственные данные из SAP OData.

Чтобы перенести данные, выполните следующие действия:

  1. На консоли Amazon AppFlow выберите Создать поток.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  2. Что касается Имя потокавведите имя.
  3. Выберите Следующая.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  4. Что касается Название источника, выберите нужное стороннее приложение SaaS (в данном посте — SAP OData).
  5. Выберите Создать новое соединение.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  6. В Подключиться к SAP OData всплывающем окне, заполните данные аутентификации и выберите Свяжитесь.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  7. Что касается Объект SAP OData, выберите объект, содержащий ваши данные, в SAP OData.
  8. Что касается Название места назначения, выберите Amazon S3.
  9. Что касается Детали ковша, укажите данные корзины S3.
  10. Выберите Каталогизируйте свои данные в каталоге данных AWS Glue..
  11. Что касается Роль пользователя, выбрать Управление идентификацией и доступом AWS (IAM), которую пользователь Canvas будет использовать для доступа к данным.
  12. Что касается Триггер потока, наведите на Запуск по требованию.

Кроме того, вы можете автоматизировать передачу потока, выбрав Запустить поток по расписанию.

  1. Выберите Следующая.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  2. Выберите способ сопоставления полей и завершите сопоставление полей. Для этого поста, поскольку нет соответствующей целевой базы данных для сопоставления, нет необходимости указывать сопоставление.
  3. Выберите Далее.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  4. При необходимости добавьте фильтры, чтобы ограничить передаваемые данные.
  5. Выберите Следующая.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  6. Проверьте свои данные и выберите Создать поток.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Когда поток создан, в верхней части страницы появится зеленая лента, указывающая на то, что поток успешно обновлен.

  1. Выберите Выполнить поток.
    Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

На этом этапе вы успешно перенесли свои данные из SAP OData в Amazon S3.

Теперь вы можете импортировать данные из приложения Canvas. Чтобы импортировать данные из Canvas, выполните тот же набор шагов, что и в разделе Импорт данных раздел ранее в этом посте. Для этого примера на Источник данных раскрывающееся меню на Импорт данных страница, вы можете увидеть SAP OData в списке.

Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Теперь вы можете использовать все существующие функции Canvas, такие как очистка данных, построение модели машинного обучения, просмотр данных о влиянии столбцов и создание прогнозов.

Убирать

Чтобы очистить подготовленные ресурсы, выйдите из приложения Canvas, выбрав Выйти в навигационной панели.

Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Заключение

Благодаря Canvas теперь вы можете импортировать данные для машинного обучения без кода из 47 источников данных через собственные коннекторы с Athena и Amazon AppFlow через каталог данных AWS Glue. Этот процесс позволяет вам напрямую получать доступ и агрегировать данные из источников данных в Canvas после передачи данных через Amazon AppFlow. Вы можете автоматизировать передачу данных, чтобы активировать ее по расписанию, а это значит, что вам не нужно заново проходить процесс для обновления данных. С помощью этого процесса вы можете создавать новые наборы данных с вашими последними данными, не выходя из приложения Canvas. Эта функция теперь доступна во всех регионах AWS, где доступен Canvas. Чтобы начать импорт данных, перейдите в консоль Canvas и выполните шаги, описанные в этом посте. Чтобы узнать больше, см. Подключиться к источникам данных.


Об авторах

Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Брэндон Наир является старшим менеджером по продуктам Amazon SageMaker Canvas. Его профессиональный интерес заключается в создании масштабируемых сервисов и приложений машинного обучения. Вне работы его можно найти исследующим национальные парки, совершенствующим свои навыки игры в гольф или планирующим поездку с приключениями.

Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Санджана Камбалапалли является менеджером по разработке программного обеспечения для AWS Sagemaker Canvas, целью которого является демократизация машинного обучения путем создания приложений машинного обучения без кода.

Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Синь Сюй является инженером-разработчиком программного обеспечения в команде Canvas, где он занимается подготовкой данных, среди прочего, в продуктах машинного обучения без кода. В свободное время любит бегать, читать и смотреть фильмы.

Импортируйте данные из более чем 40 источников данных для машинного обучения без кода с помощью Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Волкан Унсал является старшим инженером по внешнему виду в команде Canvas, где он создает продукты без кода, чтобы сделать искусственный интеллект доступным для людей. В свободное время любит бегать, читать, смотреть киберспорт и боевые искусства.

Отметка времени:

Больше от Машинное обучение AWS