Создайте конвейер пакетных рекомендаций с помощью Amazon Personalize без кода

Переиздано Платоном

Читают: 0

Поскольку персонализированный контент с большей вероятностью будет стимулировать взаимодействие с клиентами, компании постоянно стремятся предоставлять адаптированный контент на основе профиля и поведения своих клиентов. Системы рекомендаций, в частности, стремятся предсказать предпочтение, которое конечный пользователь отдаст тому или иному элементу. Некоторые распространенные варианты использования включают рекомендации продуктов в розничных интернет-магазинах, персонализацию информационных бюллетеней, создание рекомендаций музыкальных списков воспроизведения или даже обнаружение аналогичного контента в онлайн-сервисах мультимедиа.

Однако создать эффективную систему рекомендаций может быть сложно из-за сложности обучения модели, выбора алгоритма и управления платформой. Amazon персонализировать позволяет разработчикам улучшить взаимодействие с клиентами с помощью персонализированных рекомендаций по продуктам и контенту, не требуя опыта машинного обучения (ML). Разработчики могут сразу привлекать клиентов, используя собранные данные о поведении пользователей. В фоновом режиме Amazon Personalize изучает эти данные, определяет, что является значимым, выбирает правильные алгоритмы, обучает и оптимизирует модель персонализации, настроенную для ваших данных, и предоставляет рекомендации через конечную точку API.

Хотя предоставление рекомендаций в режиме реального времени может помочь повысить вовлеченность и удовлетворенность, иногда это может на самом деле не требоваться, и выполнение этого в пакетном режиме по расписанию может быть просто более экономичным и управляемым вариантом.

В этом посте показано, как использовать сервисы AWS не только для создания рекомендаций, но и для запуска конвейера пакетных рекомендаций. Мы проходим сквозное решение без единой строки кода. Мы подробно обсудим две темы:

Обзор решения

В этом решении мы используем ФильмОбъектив набор данных. Этот набор данных включает 86,000 2,113 оценок фильмов от XNUMX XNUMX пользователей. Мы пытаемся использовать эти данные для создания рекомендаций для каждого из этих пользователей.

Подготовка данных очень важна для того, чтобы мы могли получить данные о поведении клиентов в формате, готовом для Amazon Personalize. Архитектура, описанная в этом посте, использует AWS Glue, бессерверный сервис интеграции данных, для преобразования необработанных данных в формат, готовый для использования Amazon Personalize. Решение использует Amazon Personalize для создания пакетных рекомендаций для всех пользователей с помощью пакетного вывода. Затем мы используем рабочий процесс Step Functions, чтобы автоматизированный рабочий процесс можно было запускать путем многократного вызова Amazon Personalize API.

Следующая диаграмма демонстрирует это решение.

Мы создадим это решение, выполнив следующие шаги:

Создайте задание преобразования данных, чтобы преобразовать наши необработанные данные с помощью AWS Glue.
Создайте решение Amazon Personalize с преобразованным набором данных.
Создайте рабочий процесс Step Functions, чтобы организовать создание пакетных выводов.

Предпосылки

Для этого пошагового руководства вам потребуется следующее:

Создайте задание преобразования данных для преобразования необработанных данных с помощью AWS Glue.

При использовании Amazon Personalize входные данные должны иметь определенную схему и формат файла. Данные о взаимодействиях между пользователями и элементами должны быть в формате CSV с определенными столбцами, тогда как список пользователей, для которых вы хотите создать рекомендации, должен быть в формате JSON. В этом разделе мы используем AWS Glue Studio для преобразования необработанных входных данных в необходимые структуры и формат для Amazon Personalize.

AWS Glue Studio предоставляет графический интерфейс, предназначенный для простого создания и запуска заданий извлечения, преобразования и загрузки (ETL). Вы можете визуально создавать рабочие нагрузки преобразования данных с помощью простых операций перетаскивания.

Сначала мы подготавливаем исходные данные в Простой сервис хранения Amazon (Amazon S3), то преобразуем данные без кода.

На консоли Amazon S3 создайте корзину S3 с тремя папками: необработанная, преобразованная и проверенная.
Скачать Набор данных MovieLens и загрузите несжатый файл с именем user_ratingmovies-timestamp.dat в корзину в папке raw.
На консоли AWS Glue Studio выберите Джобс в навигационной панели.
Выберите Визуал с источником и целью, а затем выберите Создавай.
Выберите первый узел с именем Источник данных — сегмент S3.. Здесь мы указываем наши входные данные.
На Свойства источника данных вкладка, выберите S3 местоположение и перейдите к загруженному файлу.
Что касается Формат данных, выберите CSV, А для Разделитель, выберите Tab.
Мы можем выбрать вкладку Схема вывода, чтобы убедиться, что схема правильно определила столбцы.
Если схема не соответствует вашим ожиданиям, выберите Редактировать для редактирования схемы.

Затем мы преобразуем эти данные в соответствии с требованиями к схеме для Amazon Personalize.

Выберите Преобразование — применить сопоставление узел и, на Transform вкладку, обновите целевой ключ и типы данных.
Amazon Personalize, как минимум, ожидает следующую структуру для набор данных о взаимодействиях:

- user_id (Строка)
- item_id (Строка)
- timestamp (длинный, в формате времени эпохи Unix)

В этом примере мы исключаем из набора данных фильмы с низким рейтингом.

Для этого удалите последний узел с именем корзина S3 и добавьте узел фильтра на Transform меню.
Выберите Добавить состояние и отфильтровать данные, где рейтинг < 3.5.

Теперь мы записываем вывод обратно в Amazon S3.

Развернуть цель меню и выберите Amazon S3.
Что касается Целевое местоположение S3, выберите папку с именем transformed.
Выберите CSV как формат и суффикс Целевое местоположение interactions/.

Далее выводим список пользователей, для которых хотим получить рекомендации.

Выберите Применить сопоставление узел снова, а затем разверните Transform меню и выберите Применить сопоставление.
Удалить все поля, кроме user_id и переименуйте это поле в userId. Amazon Personalize ожидает, что это поле будет названо ID пользователя.
Развернуть цель снова меню и выберите Amazon S3.
На этот раз выберите JSON в качестве формата, а затем выберите преобразованную папку S3 и добавьте к ней суффикс batch_users_input/.

Это дает JSON список пользователей в качестве входных данных для Amazon Personalize. Теперь у нас должна получиться диаграмма, которая выглядит следующим образом.

Теперь мы готовы запустить нашу работу по преобразованию.

На консоли IAM создайте роль с именем Glue-Service-Role и присоедините следующие управляемые политики:
- AWSGlueServiceRole
- AmazonS3FullAccess

Дополнительные сведения о создании ролей службы IAM см. Создание роли для делегирования разрешений сервису AWS.

Вернитесь к заданию AWS Glue Studio и выберите Детали работы меню.
Установите имя задания как batch-personalize-input-transform-job.
Выберите только что созданную роль IAM.
Оставьте значения по умолчанию для всего остального.
Выберите Сохранить.
Когда будете готовы, выберите Run и следить за работой в Работает меню.
По завершении задания перейдите к консоли Amazon S3, чтобы убедиться, что выходной файл успешно создан.

Теперь мы преобразовали наши данные в формат и структуру, которые требуются для Amazon Personalize. Преобразованный набор данных должен иметь следующие поля и формат:

Набор данных взаимодействий – Формат CSV с полями USER_ID, ITEM_ID, TIMESTAMP
Пользовательский набор данных – Формат JSON с элементом userId

Создайте решение Amazon Personalize с преобразованным набором данных

С нашим набором данных о взаимодействиях и входными данными пользователей в правильном формате теперь мы можем создать наше решение Amazon Personalize. В этом разделе мы создаем нашу группу наборов данных, импортируем наши данные, а затем создаем задание пакетного вывода. Группа наборов данных упорядочивает ресурсы в контейнеры для компонентов Amazon Personalize.

На консоли Amazon Personalize выберите Создавай группа наборов данных.
Что касается Домен, наведите на На заказ.
Выберите Создать группу наборов данных и продолжить.

Затем создайте набор данных взаимодействий.

Введите имя набора данных и выберите Создать новую схему.
Выберите Создать набор данных и продолжить.

Теперь мы импортируем данные о взаимодействиях, которые мы создали ранее.

Перейдите к корзине S3, в которой мы создали наш набор данных CSV о взаимодействиях.

На Разрешения... на вкладке добавьте следующую политику доступа к сегменту, чтобы Amazon Personalize имел доступ. Обновите политику, включив в нее имя корзины.

{
   "Version":"2012-10-17",
   "Id":"PersonalizeS3BucketAccessPolicy",
   "Statement":[
      {
         "Sid":"PersonalizeS3BucketAccessPolicy",
         "Effect":"Allow",
         "Principal":{
            "Service":"personalize.amazonaws.com"
         },
         "Action":[
            "s3:GetObject",
            "s3:ListBucket",
            "s3:PutObject"
         ],
         "Resource":[
            "arn:aws:s3:::<your-bucket-name>",
            "arn:aws:s3:::<your-bucket-name> /*"
         ]
      }
   ]
}

Вернитесь к Amazon Personalize и выберите Создайте задание по импорту набора данных. Теперь наш набор данных о взаимодействиях должен быть импортирован в Amazon Personalize. Дождитесь завершения задания импорта со статусом Активно, прежде чем переходить к следующему шагу. Это должно занять примерно 8 минут.

На консоли Amazon Personalize выберите Обзор в панели навигации и выберите Создать решение.
Введите имя решения.
Что касается Тип решения, выберите Рекомендация товара.
Что касается Разработка , выбрать aws-user-personalization рецепт.
Выберите Создать и обучить решение.

Теперь решение обучается на наборе данных о взаимодействиях, который был импортирован с рецептом персонализации пользователя. Следите за состоянием этого процесса в разделе Версии решения. Дождитесь его завершения, прежде чем продолжить. Это должно занять примерно 20 минут.

Теперь мы создаем наше задание пакетного вывода, которое генерирует рекомендации для каждого из пользователей, присутствующих во входных данных JSON.

На панели навигации под Пользовательские ресурсы, выберите Работа с пакетным выводом.
Введите имя задания и для Решения, выберите решение, созданное ранее.
Выберите Создать задание на пакетный вывод.
Что касается Конфигурация входных данных, введите путь S3, где batch_users_input файл находится.

Это файл JSON, содержащий userId.

Что касается Конфигурация выходных данных путь, выберите рекомендуемый путь в S3.
Выберите Создать задание на пакетный вывод.

Этот процесс занимает примерно 30 минут. Когда задание завершено, рекомендации для каждого из пользователей, указанных в пользовательском входном файле, сохраняются в выходном расположении S3.

Мы успешно создали набор рекомендаций для всех наших пользователей. Однако пока мы реализовали решение только с помощью консоли. Чтобы убедиться, что этот пакетный вывод выполняется регулярно с последним набором данных, нам необходимо создать рабочий процесс оркестрации. В следующем разделе мы покажем вам, как создать рабочий процесс оркестровки с помощью пошаговых функций.

Создайте рабочий процесс Step Functions для организации рабочего процесса пакетного вывода.

Чтобы организовать конвейер, выполните следующие действия:

В консоли Step Functions выберите Создать конечный автомат.
Выберите Визуально проектируйте свой рабочий процесс, а затем выберите Следующая.
Перетащите CreateDatasetImportJob узел слева (вы можете найти этот узел в поле поиска) на холст.
Выберите узел, и вы должны увидеть параметры API конфигурации справа. Запишите АРН.
Введите свои значения в поле Параметры API текстовое окно.

Это вызывает CreateDatasetImportJob API с указанными вами значениями параметров.

Перетащите CreateSolutionVersion узел на холст.
Обновите параметры API, указав ARN решения, которое вы записали.

Это создает новую версию решения с недавно импортированными данными, вызывая метод CreateSolutionVersion API.

Перетащите CreateBatchInferenceJob node на холст и аналогичным образом обновите параметры API соответствующими значениями.

Убедитесь, что вы используете $.SolutionVersionArn синтаксис для получения параметра ARN версии решения из предыдущего шага. Эти параметры API передаются в Создать задание BatchInferenceJob API.

Нам нужно создать логику ожидания в рабочем процессе пошаговых функций, чтобы убедиться, что задание пакетного вывода рекомендаций завершено до завершения рабочего процесса.

Найдите и перетащите узел ожидания.
В конфигурации для Подожди, введите 300 секунд.

Это произвольное значение; вы должны изменить это время ожидания в соответствии с вашим конкретным вариантом использования.

Выберите CreateBatchInferenceJob узел снова и перейдите к Обработка ошибок меню.
Что касается Привлекайте Ошибки, войти Personalize.ResourceInUseException.
Что касается Резервное состояние, выберите Подожди.

Этот шаг позволяет нам периодически проверять состояние задания, и он выходит из цикла только после завершения задания.

Что касается Путь к Результату, войти $.errorMessage.

Фактически это означает, что при получении исключения «ресурс используется» задание ожидает x секунд, прежде чем повторить попытку с теми же входными данными.

Выберите Сохранить, а затем выберите Начать исполнение.

Мы успешно организовали конвейер пакетных рекомендаций для Amazon Personalize. В качестве дополнительного шага вы можете использовать Amazon EventBridge чтобы запланировать триггер этого рабочего процесса на регулярной основе. Для получения более подробной информации см. EventBridge (События CloudWatch) для изменения статуса выполнения Step Functions.

Убирать

Чтобы избежать будущих расходов, удалите ресурсы, созданные для этого пошагового руководства.

Заключение

В этом посте мы продемонстрировали, как создать конвейер пакетных рекомендаций, используя комбинацию AWS Glue, Amazon Personalize и Step Functions, не требуя ни одной строки кода или опыта машинного обучения. Мы использовали AWS Glue для подготовки наших данных в формате, который требуется для Amazon Personalize. Затем мы использовали Amazon Personalize для импорта данных, создания решения с рецептом персонализации пользователя и создания задания пакетного логического вывода, которое по умолчанию генерирует 25 рекомендаций для каждого пользователя на основе прошлых взаимодействий. Затем мы организовали эти шаги с помощью пошаговых функций, чтобы мы могли выполнять эти задания автоматически.

Что касается дальнейших шагов, сегментация пользователей — это один из новых рецептов в Amazon Personalize, который вы, возможно, захотите изучить, чтобы создать пользовательские сегменты для каждой строки входных данных. Для получения более подробной информации см. Получение пакетных рекомендаций и пользовательских сегментов.

Об авторе

Максин Ви является архитектором решений AWS Data Lab. Максин работает с клиентами над их вариантами использования, разрабатывает решения для решения их бизнес-задач и помогает им создавать масштабируемые прототипы. До своего перехода в AWS Максин помогала клиентам внедрять проекты бизнес-аналитики, хранилищ данных и озер данных в Австралии.

Отметка времени: 30 августа 202230 августа 2022

Отметка времени: Август 11, 2022

Создайте конвейер пакетных рекомендаций с помощью Amazon Personalize без кода

Переиздано Платоном

Обзор решения

Предпосылки

Создайте задание преобразования данных для преобразования необработанных данных с помощью AWS Glue.

Создайте решение Amazon Personalize с преобразованным набором данных

Создайте рабочий процесс Step Functions для организации рабочего процесса пакетного вывода.

Убирать

Заключение

Об авторе

Больше от Машинное обучение AWS

Сокращение пищевых отходов для повышения устойчивости и финансовых результатов в розничной торговле с помощью Amazon Forecast

AWS DeepRacer позволяет строителям всех уровней квалификации повысить свою квалификацию и начать работу с машинным обучением | Веб-сервисы Amazon

Представляем самостоятельное управление квотами и более высокие квоты обслуживания по умолчанию для Amazon Textract.

Запустите автоматическую настройку модели с помощью Amazon SageMaker JumpStart.

Выбор модели классификации изображений с помощью Amazon SageMaker JumpStart

Персонализируйте результаты поиска с помощью интеграции Amazon Personalize и Amazon OpenSearch Service | Веб-сервисы Amazon

Создайте конвейер анализа тональности MLOps с помощью Amazon SageMaker Ground Truth и Databricks MLflow.

Создайте детектор аномалий качества воздуха с помощью Amazon Lookout for Metrics.

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись