Улучшение того, как пользователи находят новый контент, имеет решающее значение для повышения вовлеченности и удовлетворенности пользователей медиаплатформами. Поиск по ключевым словам сам по себе имеет проблемы с уловлением семантики и намерений пользователя, что приводит к результатам, которым не хватает соответствующего контекста; например, поиск вечерних свиданий или фильмов на рождественскую тематику. Это может привести к снижению показателей удержания, если пользователи не смогут надежно найти нужный им контент. Однако с большие языковые модели (LLM), есть возможность решить эти семантические проблемы и проблемы намерений пользователя. Объединив вложения которые улавливают семантику с помощью метода, называемого Поисковая дополненная генерация (RAG)вы можете генерировать более релевантные ответы на основе контекста, полученного из ваших собственных источников данных.
В этом посте мы покажем вам, как безопасно создать чат-бота для просмотра фильмов, внедрив RAG с вашими собственными данными, используя Основы знаний для Коренная порода Амазонки. Мы используем набор данных IMDb и Box Office Mojo, чтобы моделировать каталог для клиентов средств массовой информации и развлечений, а также демонстрируем, как вы можете создать собственное решение RAG всего за пару шагов.
Обзор решения
Ассоциация IMDb и Box Office Mojo Movies/TV/OTT лицензируемый пакет данных предоставляет широкий спектр развлекательных метаданных, в том числе более 1.6 миллиарда пользовательских рейтингов; кредиты для более чем 13 миллионов актеров и членов съемочной группы; 10 миллионов наименований фильмов, телепередач и развлекательных программ; и глобальные отчетные данные о кассовых сборах из более чем 60 стран. Многие клиенты AWS в сфере медиа и развлечений лицензируют данные IMDb через Обмен данными AWS для улучшения обнаружения контента и повышения вовлеченности и удержания клиентов.
Введение в базы знаний для Amazon Bedrock
Чтобы снабдить LLM актуальной частной информацией, организации используют RAG — метод, который предполагает получение данных из источников данных компании и обогащение подсказки этими данными для предоставления более релевантных и точных ответов. Базы знаний для Amazon Bedrock обеспечивают полностью управляемую возможность RAG, которая позволяет настраивать ответы LLM с использованием контекстных и актуальных данных компании. Базы знаний автоматизируют сквозной рабочий процесс RAG, включая прием, извлечение, быстрое расширение и цитирование, устраняя необходимость написания специального кода для интеграции источников данных и управления запросами. Базы знаний для Amazon Bedrock также позволяют вести многоходовой диалог, чтобы LLM мог отвечать на сложные запросы пользователей правильным ответом.
В рамках этого решения мы используем следующие сервисы:
Мы проходим следующие этапы высокого уровня:
- Предварительно обработайте данные IMDb, чтобы создать документы из каждой записи фильма и загрузить данные в файл. Простой сервис хранения Amazon (Amazon S3) ведро.
- Создайте базу знаний.
- Синхронизируйте свою базу знаний с источником данных.
- Используйте базу знаний, чтобы ответить на семантические запросы о каталоге фильмов.
Предпосылки
Для данных IMDb, использованных в этом посте, требуется лицензия на коммерческий контент и платная подписка на пакет лицензий IMDb и Box Office Mojo Movies/TV/OTT на AWS Data Exchange. Чтобы узнать о лицензии и получить доступ к образцам данных, посетите Developer.imdb.com. Чтобы получить доступ к набору данных, см. Мощные рекомендации и поиск с использованием графа знаний IMDb — часть 1 и следуйте Доступ к данным IMDb .
Предварительная обработка данных IMDb
Прежде чем создать базу знаний, нам необходимо предварительно обработать набор данных IMDb в текстовые файлы и загрузить их в корзину S3. В этом посте мы моделируем каталог клиентов, используя набор данных IMDb. Мы берем для каталога 10,000 XNUMX популярных фильмов из набора данных IMDb и создаем набор данных.
Используйте следующее ноутбук чтобы создать набор данных с дополнительной информацией, такой как имена актеров, режиссера и продюсера. Мы используем следующий код для создания одного файла для фильма со всей информацией, хранящейся в файле в виде неструктурированного текста, понятного LLM:
Получив данные в формате .txt, вы можете загрузить их в Amazon S3 с помощью следующей команды:
Создайте базу знаний IMDb
Выполните следующие шаги, чтобы создать базу знаний:
- На консоли Amazon Bedrock выберите База знаний в навигационной панели.
- Выберите Создать базу знаний.
- Что касается Название базы знаний, войти
imdb
. - Что касается Описание базы знаний, введите дополнительное описание, например «База знаний для приема и хранения данных imdb».
- Что касается IAM-разрешения, наведите на Создайте и используйте новую роль службы, затем введите имя новой роли службы.
- Выберите Следующая.
- Что касается Имя источника данных, войти
imdb-s3
. - Что касается URI S3, введите URI S3, в который вы загрузили данные.
- В Расширенные настройки – опционально раздел, для Стратегия дробления, выберите Нет фрагментации.
- Выберите Следующая.
Базы знаний позволяют разбивать документы на более мелкие сегменты, чтобы упростить обработку больших документов. В нашем случае мы уже разбили данные на документ меньшего размера (по одному на фильм).
- В База данных векторов раздел, выберите Быстрое создание нового векторного хранилища.
Amazon Bedrock автоматически создаст полностью управляемую бессерверную векторную поисковую коллекцию OpenSearch и настроит параметры для внедрения ваших источников данных с использованием выбранной модели Titan Embedding G1 — Text Embedding.
- Выберите Следующая.
- Просмотрите свои настройки и выберите Создать базу знаний.
Синхронизируйте свои данные с базой знаний
Теперь, когда вы создали свою базу знаний, вы можете синхронизировать ее со своими данными.
- В консоли Amazon Bedrock перейдите к своей базе знаний.
- В Источник данных раздел, выбрать Синхронизация.
После синхронизации источника данных вы готовы запросить данные.
Улучшите поиск, используя семантические результаты
Выполните следующие шаги, чтобы протестировать решение и улучшить поиск с помощью семантических результатов:
- В консоли Amazon Bedrock перейдите к своей базе знаний.
- Выберите свою базу знаний и выберите Тестовая база знаний.
- Выберите Выберите модель, и выберите Антропный Клод v2.1.
- Выберите Применить.
Теперь вы готовы запросить данные.
Мы можем задать несколько семантических вопросов, например: «Порекомендуйте мне несколько фильмов на рождественскую тематику».
Ответы базы знаний содержат цитаты, которые вы можете изучить на предмет правильности и актуальности ответов.
Вы также можете получить любую необходимую вам информацию из этих фильмов. В следующем примере мы спрашиваем: «Кто снял «Кошмар перед Рождеством»?»
Вы также можете задать более конкретные вопросы, связанные с жанрами и рейтингами, например «покажите мне классические анимационные фильмы с рейтингом выше 7?»
Пополните свою базу знаний агентами
Агенты Amazon Bedrock поможет вам автоматизировать сложные задачи. Агенты могут разбить пользовательский запрос на более мелкие задачи и вызывать пользовательские API или базы знаний, чтобы дополнить информацию для выполнения действий. С помощью Agents for Amazon Bedrock разработчики могут интегрировать интеллектуальные агенты в свои приложения, ускоряя доставку приложений на базе искусственного интеллекта и экономя недели времени на разработку. С помощью агентов вы можете расширить свою базу знаний, добавив больше функций, таких как рекомендации от Amazon персонализировать для получения пользовательских рекомендаций или выполнения таких действий, как фильтрация фильмов в зависимости от потребностей пользователя.
Заключение
В этом посте мы показали, как за несколько шагов создать диалогового чат-бота по фильмам с использованием Amazon Bedrock, который будет отвечать на семантический поиск и диалоговый опыт на основе ваших собственных данных и лицензированного набора данных IMDb и Box Office Mojo Movies/TV/OTT. В следующем посте мы рассмотрим процесс добавления дополнительных функций в ваше решение с помощью агентов для Amazon Bedrock. Чтобы начать работу с базами знаний на Amazon Bedrock, см. Базы знаний для Amazon Bedrock.
Об авторах
Гаурав Реле является старшим специалистом по данным в Инновационном центре генеративного искусственного интеллекта, где он работает с клиентами AWS из разных отраслей, чтобы ускорить использование ими генеративного искусственного интеллекта и облачных сервисов AWS для решения их бизнес-задач.
Дивья Бхаргави — старший научный сотрудник Инновационного центра генеративного искусственного интеллекта, где она решает важные бизнес-задачи для клиентов AWS с использованием методов генеративного искусственного интеллекта. Она работает над пониманием и поиском изображений/видео, графами знаний, дополненными большими языковыми моделями, и вариантами использования персонализированной рекламы.
Сурен Гунтуру — специалист по данным, работающий в Инновационном центре генеративного искусственного интеллекта, где он работает с различными клиентами AWS над решением важных бизнес-задач. Он специализируется на построении конвейеров машинного обучения с использованием больших языковых моделей, в первую очередь через Amazon Bedrock и другие облачные сервисы AWS.
Видья Сагар Равипати является научным менеджером в Инновационном центре генеративного искусственного интеллекта, где он использует свой обширный опыт работы с крупномасштабными распределенными системами и свою страсть к машинному обучению, чтобы помочь клиентам AWS в различных отраслях промышленности ускорить внедрение искусственного интеллекта и облачных технологий.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/build-a-movie-chatbot-for-tv-ott-platforms-using-retrieval-augmented-generation-in-amazon-bedrock/
- :имеет
- :является
- :куда
- $ 10 миллионов
- 000
- 1
- 10
- 100
- 11
- 118
- 12
- 13
- 360
- 385
- 60
- 7
- a
- О нас
- ускорять
- ускоряющий
- доступ
- точный
- через
- действия
- актеры
- добавить
- дополнительный
- Принятие
- Реклама
- агенты
- AI
- Поддержка
- Все
- позволяет
- в одиночестве
- уже
- причислены
- Amazon
- Amazon Web Services
- an
- и
- ответ
- ответы
- любой
- API
- Приложения
- прикладной
- Программы
- МЫ
- AS
- спросить
- At
- увеличивать
- дополненная
- автоматизировать
- автоматически
- AWS
- Обмен данными AWS
- Использование темпера с изогнутым основанием
- основанный
- BE
- до
- миллиард
- Коробка
- Театральная касса
- Ломать
- строить
- Строительство
- бизнес
- by
- призывают
- под названием
- CAN
- возможности
- захватить
- Захват
- случаев
- случаев
- каталог
- Центр
- проблемы
- Chatbot
- Выберите
- выбранный
- рождество
- классический
- облако
- принятие облака
- облачные сервисы
- код
- лыжных шлемов
- комбинируя
- коммерческая
- Компания
- комплекс
- Консоли
- содержать
- содержание
- контекст
- контекстной
- диалоговый
- Беседы
- исправить
- страны
- Пара
- Создайте
- создали
- кредиты
- экипаж
- критической
- изготовленный на заказ
- клиент
- Взаимодействие с клиентами
- Клиенты
- настроить
- данным
- Обмен данными
- ученый данных
- Время
- доставить
- поставка
- описание
- подробнее
- застройщиков
- Развитие
- различный
- направленный
- директор
- Директора
- обнаружить
- открытие
- распределенный
- распределенные системы
- документ
- Документация
- вниз
- управлять
- уничтожение
- вложения
- включить
- впритык
- обязательство
- обогащение
- Enter
- Развлечения
- Каждая
- пример
- обмена
- опыт
- Впечатления
- Больше
- несколько
- Файл
- Файлы
- фильтрация
- Найдите
- обнаружение
- следовать
- после
- Что касается
- формат
- от
- полностью
- функциональность
- g1
- порождать
- поколение
- генеративный
- Генеративный ИИ
- Жанры
- получить
- Глобальный
- Go
- график
- большой
- Есть
- he
- помощь
- на высшем уровне
- его
- Как
- How To
- Однако
- HTML
- HTTP
- HTTPS
- if
- Осуществляющий
- улучшать
- in
- В том числе
- Увеличение
- промышленность
- info
- информация
- Инновации
- спрашивать
- интегрировать
- Умный
- намерение
- в
- включает в себя
- IT
- JPG
- всего
- знания
- График знаний
- Отсутствие
- язык
- большой
- крупномасштабный
- вести
- ведущий
- изучение
- рычаги
- Лицензия
- Лицензирована
- Лицензирование
- такое как
- LLM
- локальным
- расположение
- ниже
- машина
- обучение с помощью машины
- сделать
- управлять
- управляемого
- менеджер
- многих
- me
- Медиа
- Участники
- Метаданные
- методы
- миллиона
- ML
- модель
- Модели
- БОЛЕЕ
- кино
- Кино
- имя
- имена
- Откройте
- Навигация
- Необходимость
- потребности
- Новые
- следующий
- ночь
- of
- Офис
- on
- ONE
- Возможность
- or
- организации
- Другое
- наши
- за
- собственный
- пакет
- страница
- выплачен
- хлеб
- часть
- страсть
- путь
- для
- выполнения
- Персонализированные
- Платформы
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- участок
- Популярное
- После
- в первую очередь
- проблемам
- процесс
- производитель
- Производители
- ( изучите наши патенты),
- приводит
- Запросы
- запрос
- Вопросы
- тряпка
- ассортимент
- Стоимость
- рейтинг
- рейтинги
- готовый
- рекомендовать
- Рекомендация
- рекомендаций
- запись
- относиться
- Связанный
- соответствующие
- Reporting
- требуется
- ответ
- ответы
- Итоги
- сохранение
- поиск
- возвращают
- Роли
- РЯД
- Бег
- удовлетворение
- экономия
- Наука
- Ученый
- Поиск
- Раздел
- безопасно
- сегментами
- выберите
- семантический
- семантика
- старший
- Serverless
- обслуживание
- Услуги
- настройки
- она
- выстрел
- показывать
- демонстрации
- показал
- просто
- имитировать
- одинарной
- Размер
- меньше
- So
- Решение
- РЕШАТЬ
- Решает
- некоторые
- Источник
- Источники
- специализируется
- конкретный
- и политические лидеры
- Шаги
- диск
- магазин
- хранить
- хранение
- простой
- подписка
- такие
- дополнять
- синхронизации.
- системы
- взять
- задачи
- техника
- тестXNUMX
- текст
- чем
- который
- Ассоциация
- информация
- их
- Их
- Тематическая
- тогда
- Там.
- Эти
- они
- этой
- Через
- время
- исполин
- позиций
- в
- tv
- понимание
- понимать
- неструктурированных
- новейший
- загружено
- URL
- использование
- используемый
- Информация о пользователе
- пользователей
- через
- различный
- Огромная
- вертикалей
- Войти
- W
- от
- хотеть
- законопроект
- we
- Web
- веб-сервисы
- Недели
- широкий
- Широкий диапазон
- будете
- рабочий
- работает
- работает
- записывать
- X
- год
- Ты
- ВАШЕ
- зефирнет