Создайте чат-бота по фильмам для платформ TV/OTT с использованием расширенной генерации поиска в Amazon Bedrock

Переиздано Платоном

Читают: 0

Улучшение того, как пользователи находят новый контент, имеет решающее значение для повышения вовлеченности и удовлетворенности пользователей медиаплатформами. Поиск по ключевым словам сам по себе имеет проблемы с уловлением семантики и намерений пользователя, что приводит к результатам, которым не хватает соответствующего контекста; например, поиск вечерних свиданий или фильмов на рождественскую тематику. Это может привести к снижению показателей удержания, если пользователи не смогут надежно найти нужный им контент. Однако с большие языковые модели (LLM), есть возможность решить эти семантические проблемы и проблемы намерений пользователя. Объединив вложения которые улавливают семантику с помощью метода, называемого Поисковая дополненная генерация (RAG)вы можете генерировать более релевантные ответы на основе контекста, полученного из ваших собственных источников данных.

В этом посте мы покажем вам, как безопасно создать чат-бота для просмотра фильмов, внедрив RAG с вашими собственными данными, используя Основы знаний для Коренная порода Амазонки. Мы используем набор данных IMDb и Box Office Mojo, чтобы моделировать каталог для клиентов средств массовой информации и развлечений, а также демонстрируем, как вы можете создать собственное решение RAG всего за пару шагов.

Обзор решения

Ассоциация IMDb и Box Office Mojo Movies/TV/OTT лицензируемый пакет данных предоставляет широкий спектр развлекательных метаданных, в том числе более 1.6 миллиарда пользовательских рейтингов; кредиты для более чем 13 миллионов актеров и членов съемочной группы; 10 миллионов наименований фильмов, телепередач и развлекательных программ; и глобальные отчетные данные о кассовых сборах из более чем 60 стран. Многие клиенты AWS в сфере медиа и развлечений лицензируют данные IMDb через Обмен данными AWS для улучшения обнаружения контента и повышения вовлеченности и удержания клиентов.

Введение в базы знаний для Amazon Bedrock

Чтобы снабдить LLM актуальной частной информацией, организации используют RAG — метод, который предполагает получение данных из источников данных компании и обогащение подсказки этими данными для предоставления более релевантных и точных ответов. Базы знаний для Amazon Bedrock обеспечивают полностью управляемую возможность RAG, которая позволяет настраивать ответы LLM с использованием контекстных и актуальных данных компании. Базы знаний автоматизируют сквозной рабочий процесс RAG, включая прием, извлечение, быстрое расширение и цитирование, устраняя необходимость написания специального кода для интеграции источников данных и управления запросами. Базы знаний для Amazon Bedrock также позволяют вести многоходовой диалог, чтобы LLM мог отвечать на сложные запросы пользователей правильным ответом.

В рамках этого решения мы используем следующие сервисы:

Мы проходим следующие этапы высокого уровня:

Предварительно обработайте данные IMDb, чтобы создать документы из каждой записи фильма и загрузить данные в файл. Простой сервис хранения Amazon (Amazon S3) ведро.
Создайте базу знаний.
Синхронизируйте свою базу знаний с источником данных.
Используйте базу знаний, чтобы ответить на семантические запросы о каталоге фильмов.

Предпосылки

Для данных IMDb, использованных в этом посте, требуется лицензия на коммерческий контент и платная подписка на пакет лицензий IMDb и Box Office Mojo Movies/TV/OTT на AWS Data Exchange. Чтобы узнать о лицензии и получить доступ к образцам данных, посетите Developer.imdb.com. Чтобы получить доступ к набору данных, см. Мощные рекомендации и поиск с использованием графа знаний IMDb — часть 1 и следуйте Доступ к данным IMDb .

Предварительная обработка данных IMDb

Прежде чем создать базу знаний, нам необходимо предварительно обработать набор данных IMDb в текстовые файлы и загрузить их в корзину S3. В этом посте мы моделируем каталог клиентов, используя набор данных IMDb. Мы берем для каталога 10,000 XNUMX популярных фильмов из набора данных IMDb и создаем набор данных.

Используйте следующее ноутбук чтобы создать набор данных с дополнительной информацией, такой как имена актеров, режиссера и продюсера. Мы используем следующий код для создания одного файла для фильма со всей информацией, хранящейся в файле в виде неструктурированного текста, понятного LLM:

def create_txt_files_imdb(row): full_text = "" full_text += f"{row['originalTitle']} ({row['titleId']}) was shot in year {int(row['year'])} with rating {row['rating']} and poster url {row['poster_url']}.nn" full_text += f"{row['originalTitle']} has genres {', '.join(row['genres'])}.nn" full_text += f"{row['originalTitle']} has actors {', '.join(row['Actors'])}.nn" full_text += f"{row['originalTitle']} has directors {', '.join(row['Directors'])}.nn" full_text += f"{row['originalTitle']} has producers {', '.join(row['Producers'])}.nn" full_text += f"{row['originalTitle']} has keyword {', '.join([x.replace('-',' ') for x in row['keyword']])}.nn" full_text += f"{row['originalTitle']} has location {', '.join(row['location'])}.nn" full_text += f"{row['originalTitle']} has plot {row['plot']}.nn" with open(f"<path>/data/imdb_data/{row['titleId']}.txt","w") as f: f.write(full_text) return full_text

Получив данные в формате .txt, вы можете загрузить их в Amazon S3 с помощью следующей команды:

aws s3 cp <path to local data> s3://<bucket-name>/<path>/ --recursive

Создайте базу знаний IMDb

Выполните следующие шаги, чтобы создать базу знаний:

На консоли Amazon Bedrock выберите База знаний в навигационной панели.
Выберите Создать базу знаний.
Что касается Название базы знаний, войти imdb.
Что касается Описание базы знаний, введите дополнительное описание, например «База знаний для приема и хранения данных imdb».
Что касается IAM-разрешения, наведите на Создайте и используйте новую роль службы, затем введите имя новой роли службы.
Выберите Следующая.

Страница консоли сведений о базе знаний

Что касается Имя источника данных, войти imdb-s3.
Что касается URI S3, введите URI S3, в который вы загрузили данные.
В Расширенные настройки – опционально раздел, для Стратегия дробления, выберите Нет фрагментации.
Выберите Следующая.

Базы знаний позволяют разбивать документы на более мелкие сегменты, чтобы упростить обработку больших документов. В нашем случае мы уже разбили данные на документ меньшего размера (по одному на фильм).

консоль базы знаний 2

В База данных векторов раздел, выберите Быстрое создание нового векторного хранилища.

Amazon Bedrock автоматически создаст полностью управляемую бессерверную векторную поисковую коллекцию OpenSearch и настроит параметры для внедрения ваших источников данных с использованием выбранной модели Titan Embedding G1 — Text Embedding.

Страница векторного магазина базы знаний

Выберите Следующая.

Build a movie chatbot for TV/OTT platforms using Retrieval Augmented Generation in Amazon Bedrock | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Просмотрите свои настройки и выберите Создать базу знаний.

Синхронизируйте свои данные с базой знаний

Теперь, когда вы создали свою базу знаний, вы можете синхронизировать ее со своими данными.

В консоли Amazon Bedrock перейдите к своей базе знаний.
В Источник данных раздел, выбрать Синхронизация.

синхронизация базы знаний

После синхронизации источника данных вы готовы запросить данные.

Улучшите поиск, используя семантические результаты

Выполните следующие шаги, чтобы протестировать решение и улучшить поиск с помощью семантических результатов:

В консоли Amazon Bedrock перейдите к своей базе знаний.
Выберите свою базу знаний и выберите Тестовая база знаний.
Выберите Выберите модель, и выберите Антропный Клод v2.1.
Выберите Применить.

Теперь вы готовы запросить данные.

Мы можем задать несколько семантических вопросов, например: «Порекомендуйте мне несколько фильмов на рождественскую тематику».

запрос Порекомендуйте мне несколько фильмов на рождественскую тематику.

Ответы базы знаний содержат цитаты, которые вы можете изучить на предмет правильности и актуальности ответов.

цитаты из базы знаний

Вы также можете получить любую необходимую вам информацию из этих фильмов. В следующем примере мы спрашиваем: «Кто снял «Кошмар перед Рождеством»?»

«Кто снял «Кошмар перед Рождеством»?»

Вы также можете задать более конкретные вопросы, связанные с жанрами и рейтингами, например «покажите мне классические анимационные фильмы с рейтингом выше 7?»

покажите мне классические мультфильмы с рейтингом выше 7?

Пополните свою базу знаний агентами

Агенты Amazon Bedrock поможет вам автоматизировать сложные задачи. Агенты могут разбить пользовательский запрос на более мелкие задачи и вызывать пользовательские API или базы знаний, чтобы дополнить информацию для выполнения действий. С помощью Agents for Amazon Bedrock разработчики могут интегрировать интеллектуальные агенты в свои приложения, ускоряя доставку приложений на базе искусственного интеллекта и экономя недели времени на разработку. С помощью агентов вы можете расширить свою базу знаний, добавив больше функций, таких как рекомендации от Amazon персонализировать для получения пользовательских рекомендаций или выполнения таких действий, как фильтрация фильмов в зависимости от потребностей пользователя.

Заключение

В этом посте мы показали, как за несколько шагов создать диалогового чат-бота по фильмам с использованием Amazon Bedrock, который будет отвечать на семантический поиск и диалоговый опыт на основе ваших собственных данных и лицензированного набора данных IMDb и Box Office Mojo Movies/TV/OTT. В следующем посте мы рассмотрим процесс добавления дополнительных функций в ваше решение с помощью агентов для Amazon Bedrock. Чтобы начать работу с базами знаний на Amazon Bedrock, см. Базы знаний для Amazon Bedrock.

Об авторах

Build a movie chatbot for TV/OTT platforms using Retrieval Augmented Generation in Amazon Bedrock | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Гаурав Реле является старшим специалистом по данным в Инновационном центре генеративного искусственного интеллекта, где он работает с клиентами AWS из разных отраслей, чтобы ускорить использование ими генеративного искусственного интеллекта и облачных сервисов AWS для решения их бизнес-задач.

Build a movie chatbot for TV/OTT platforms using Retrieval Augmented Generation in Amazon Bedrock | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Дивья Бхаргави — старший научный сотрудник Инновационного центра генеративного искусственного интеллекта, где она решает важные бизнес-задачи для клиентов AWS с использованием методов генеративного искусственного интеллекта. Она работает над пониманием и поиском изображений/видео, графами знаний, дополненными большими языковыми моделями, и вариантами использования персонализированной рекламы.

Build a movie chatbot for TV/OTT platforms using Retrieval Augmented Generation in Amazon Bedrock | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Сурен Гунтуру — специалист по данным, работающий в Инновационном центре генеративного искусственного интеллекта, где он работает с различными клиентами AWS над решением важных бизнес-задач. Он специализируется на построении конвейеров машинного обучения с использованием больших языковых моделей, в первую очередь через Amazon Bedrock и другие облачные сервисы AWS.

Build a movie chatbot for TV/OTT platforms using Retrieval Augmented Generation in Amazon Bedrock | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Видья Сагар Равипати является научным менеджером в Инновационном центре генеративного искусственного интеллекта, где он использует свой обширный опыт работы с крупномасштабными распределенными системами и свою страсть к машинному обучению, чтобы помочь клиентам AWS в различных отраслях промышленности ускорить внедрение искусственного интеллекта и облачных технологий.

SEO-контент и PR-распределение. Получите усиление сегодня.
PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/build-a-movie-chatbot-for-tv-ott-platforms-using-retrieval-augmented-generation-in-amazon-bedrock/

Отметка времени: 31 января 2024

Отметка времени: Декабрь 22, 2023

Переиздано Платоном

Обнаружение аномалий с помощью Amazon SageMaker Edge Manager с использованием AWS IoT Greengrass V2

Проводите анализ «что, если» с помощью Amazon Forecast до 80 % быстрее, чем раньше.

InformedIQ автоматизирует проверки автокредитования Origence с помощью машинного обучения

Создавайте агенты генеративного ИИ с помощью Amazon Bedrock, Amazon DynamoDB, Amazon Kendra, Amazon Lex и LangChain | Веб-сервисы Amazon

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись