Створіть кіночат-бот для платформ TV/OTT за допомогою Retrieval Augmented Generation в Amazon Bedrock

Перевидано Платоном

читають: 0

Покращення того, як користувачі відкривають новий вміст, має вирішальне значення для підвищення залученості користувачів і задоволення від медіаплатформ. Пошук лише за ключовими словами має проблеми з визначенням семантики та намірів користувача, що призводить до результатів без відповідного контексту; наприклад, знайти вечірнє побачення або фільми на різдвяну тематику. Це може знизити рівень утримання, якщо користувачі не можуть надійно знайти потрібний їм вміст. Проте с великі мовні моделі (LLM), є можливість вирішити ці семантичні проблеми та виклики намірів користувача. Шляхом комбінування вбудовування які фіксують семантику за допомогою техніки під назвою Доповнена генерація пошуку (RAG), ви можете генерувати більш відповідні відповіді на основі отриманого контексту з ваших власних джерел даних.

У цій публікації ми покажемо вам, як безпечно створити кіночат-бот, запровадивши RAG із використанням ваших власних даних Бази знань та цінності Amazon Bedrock. Ми використовуємо набір даних IMDb і Box Office Mojo, щоб симулювати каталог для медіа та розважальних клієнтів і продемонструвати, як ви можете створити власне рішення RAG лише за пару кроків.

Огляд рішення

Команда IMDb і Box Office Mojo Movies/TV/OTT ліцензований пакет даних надає широкий спектр розважальних метаданих, включаючи понад 1.6 мільярд оцінок користувачів; титри для понад 13 мільйонів акторів і членів знімальної групи; 10 мільйонів назв фільмів, телепередач і розваг; і глобальні касові звіти з більш ніж 60 країн. Багато клієнтів медіа та розваг AWS ліцензують дані IMDb Обмін даними AWS щоб покращити виявлення вмісту та підвищити залучення та утримання клієнтів.

Вступ до баз знань для Amazon Bedrock

Щоб оснастити LLM актуальною закритою інформацією, організації використовують RAG, техніку, яка передбачає отримання даних із джерел даних компанії та збагачення підказки цими даними для надання більш відповідних і точних відповідей. Бази знань для Amazon Bedrock забезпечують повністю керовану функцію RAG, яка дає змогу налаштовувати відповіді LLM за допомогою контекстних і релевантних даних компанії. Бази знань автоматизують наскрізний робочий процес RAG, включаючи введення, пошук, оперативне доповнення та цитування, усуваючи необхідність писати спеціальний код для інтеграції джерел даних і керування запитами. Бази знань для Amazon Bedrock також уможливлюють багаточергові розмови, щоб магістр права міг відповідати на складні запити користувача правильною відповіддю.

Ми використовуємо такі послуги як частину цього рішення:

Ми проходимо такі кроки високого рівня:

Попередньо обробіть дані IMDb, щоб створити документи з кожного запису фільму та завантажити дані в Служба простого зберігання Amazon (Amazon S3) відро.
Створіть базу знань.
Синхронізуйте свою базу знань із джерелом даних.
Використовуйте базу знань, щоб відповісти на семантичні запити про каталог фільмів.

Передумови

Для даних IMDb, які використовуються в цій публікації, потрібна ліцензія на комерційний вміст і платна підписка на IMDb і пакет ліцензій Box Office Mojo Movies/TV/OTT на AWS Data Exchange. Щоб запитати про ліцензію та отримати доступ до зразків даних, відвідайте developer.imdb.com. Щоб отримати доступ до набору даних, зверніться до Потужна рекомендація та пошук за допомогою графа знань IMDb – Частина 1 і дотримуйтесь Доступ до даних IMDb .

Попередня обробка даних IMDb

Перш ніж створити базу знань, нам потрібно попередньо обробити набір даних IMDb у текстові файли та завантажити їх у сегмент S3. У цій публікації ми моделюємо каталог клієнтів за допомогою набору даних IMDb. Ми беремо 10,000 XNUMX популярних фільмів із набору даних IMDb для каталогу та створюємо набір даних.

Використовуйте наступне ноутбук щоб створити набір даних із додатковою інформацією, як-от імена акторів, режисера та продюсера. Ми використовуємо наступний код, щоб створити єдиний файл для фільму з усією інформацією, що зберігається у файлі, у вигляді неструктурованого тексту, який можуть зрозуміти LLM:

def create_txt_files_imdb(row): full_text = "" full_text += f"{row['originalTitle']} ({row['titleId']}) was shot in year {int(row['year'])} with rating {row['rating']} and poster url {row['poster_url']}.nn" full_text += f"{row['originalTitle']} has genres {', '.join(row['genres'])}.nn" full_text += f"{row['originalTitle']} has actors {', '.join(row['Actors'])}.nn" full_text += f"{row['originalTitle']} has directors {', '.join(row['Directors'])}.nn" full_text += f"{row['originalTitle']} has producers {', '.join(row['Producers'])}.nn" full_text += f"{row['originalTitle']} has keyword {', '.join([x.replace('-',' ') for x in row['keyword']])}.nn" full_text += f"{row['originalTitle']} has location {', '.join(row['location'])}.nn" full_text += f"{row['originalTitle']} has plot {row['plot']}.nn" with open(f"<path>/data/imdb_data/{row['titleId']}.txt","w") as f: f.write(full_text) return full_text

Отримавши дані у форматі .txt, ви можете завантажити їх в Amazon S3 за допомогою такої команди:

aws s3 cp <path to local data> s3://<bucket-name>/<path>/ --recursive

Створіть базу знань IMDb

Виконайте наступні кроки, щоб створити свою базу знань:

Виберіть на консолі Amazon Bedrock База знань у навігаційній панелі.
Вибирати Створити базу знань.
для Назва бази знань, введіть imdb.
для Опис бази знань, введіть необов’язковий опис, наприклад База знань для прийому та зберігання даних imdb.
для Дозволи IAMвиберіть Створіть і використовуйте нову роль служби, а потім введіть назву вашої нової ролі служби.
Вибирати МАЙБУТНІ.

сторінка консолі деталей бази знань

для Назва джерела даних, введіть imdb-s3.
для S3 URI, введіть S3 URI, до якого ви завантажили дані.
У Розширені налаштування – за бажанням розділ, для Стратегія чанкінгувиберіть Немає шматків.
Вибирати МАЙБУТНІ.

Бази знань дозволяють розділити документи на менші сегменти, щоб спростити обробку великих документів. У нашому випадку ми вже розділили дані в документ меншого розміру (по одному на фільм).

консоль бази знань 2

У Векторна база даних розділ, виберіть Швидке створення нового векторного магазину.

Amazon Bedrock автоматично створить повністю керовану колекцію векторного пошуку OpenSearch Serverless і налаштує параметри для вбудовування ваших джерел даних за допомогою вибраної моделі Titan Embedding G1 – Text embedding.

векторна сторінка магазину бази знань

Вибирати МАЙБУТНІ.

Перегляньте свої налаштування та виберіть Створити базу знань.

Синхронізуйте свої дані з базою знань

Тепер, коли ви створили свою базу знань, ви можете синхронізувати її зі своїми даними.

На консолі Amazon Bedrock перейдіть до своєї бази знань.
У Джерело даних розділ, вибрати Синхронізація.

синхронізація бази знань

Після синхронізації джерела даних ви готові запитувати дані.

Покращити пошук за допомогою семантичних результатів

Виконайте наступні дії, щоб перевірити рішення та покращити пошук за допомогою семантичних результатів:

На консолі Amazon Bedrock перейдіть до своєї бази знань.
Виберіть свою базу знань і вибирайте Тест бази знань.
Вибирати Виберіть модель, і вибрати Антропний Клод v2.1.
Вибирати Застосовувати.

Тепер ви готові запитувати дані.

Ми можемо поставити кілька семантичних запитань, наприклад «Порекомендуйте мені фільми на різдвяну тематику».

запит Порекомендуйте мені фільми на різдвяну тему.

Відповіді бази знань містять цитати, які ви можете перевірити на правильність відповідей і фактичність.

цитування бази знань

Ви також можете детально переглянути будь-яку потрібну інформацію з цих фільмів. У наступному прикладі ми запитуємо «хто зрежисував кошмар перед Різдвом?»

«Хто зняв кошмар перед Різдвом?»

Ви також можете поставити конкретніші запитання щодо жанрів і рейтингів, наприклад «показати мені класичні анімаційні фільми з рейтингом більше 7?»

показати мені класичні анімаційні фільми з рейтингом понад 7?

Поповнюйте свою базу знань за допомогою агентів

Агенти Amazon Bedrock допоможе вам автоматизувати складні завдання. Агенти можуть розбити запит користувача на менші завдання та викликати спеціальні API або бази знань, щоб доповнити інформацію для виконання дій. Завдяки агентам для Amazon Bedrock розробники можуть інтегрувати інтелектуальні агенти у свої програми, прискорюючи доставку додатків на базі ШІ та економлячи тижні часу на розробку. За допомогою агентів ви можете розширити свою базу знань, додавши додаткові функції, наприклад рекомендації від Амазонка персоналізувати для отримання індивідуальних рекомендацій для користувача або виконання таких дій, як фільтрація фільмів на основі потреб користувача.

Висновок

У цьому дописі ми показали, як створити розмовний кіночат-бот за допомогою Amazon Bedrock за кілька кроків, щоб відповісти на семантичний пошук і розмовний досвід на основі ваших власних даних і ліцензованого набору даних IMDb і Box Office Mojo Movies/TV/OTT. У наступній публікації ми ознайомимося з процесом додавання додаткових функцій до вашого рішення за допомогою агентів для Amazon Bedrock. Щоб розпочати роботу з базами знань Amazon Bedrock, зверніться до Бази знань для Amazon Bedrock.

Про авторів

Створіть кіночат-бот для платформ TV/OTT за допомогою Retrieval Augmented Generation в Amazon Bedrock | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Гаурав Реле є старшим спеціалістом із обробки даних у Центрі інновацій Generative AI, де він працює з клієнтами AWS у різних галузях, щоб прискорити використання ними генеративного штучного інтелекту та хмарних сервісів AWS для вирішення своїх бізнес-завдань.

Створіть кіночат-бот для платформ TV/OTT за допомогою Retrieval Augmented Generation в Amazon Bedrock | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Дів'я Бхаргаві є старшим прикладним науковцем у Центрі інновацій Generative AI, де вона вирішує важливі бізнес-проблеми для клієнтів AWS за допомогою генеративних методів AI. Вона працює над розумінням і пошуком зображень/відео, великими мовними моделями, доповненими графами знань, і сценаріями використання персоналізованої реклами.

Створіть кіночат-бот для платформ TV/OTT за допомогою Retrieval Augmented Generation в Amazon Bedrock | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Сурен Гунтуру є науковцем з даних, який працює в Центрі інновацій Generative AI, де він працює з різними клієнтами AWS для вирішення важливих бізнес-завдань. Він спеціалізується на створенні конвеєрів машинного навчання за допомогою великих мовних моделей, головним чином через Amazon Bedrock та інші хмарні сервіси AWS.

Створіть кіночат-бот для платформ TV/OTT за допомогою Retrieval Augmented Generation в Amazon Bedrock | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Від'я Сагар Равіпаті є науковим менеджером у Центрі інновацій Generative AI, де він використовує свій величезний досвід роботи з великомасштабними розподіленими системами та свою пристрасть до машинного навчання, щоб допомогти клієнтам AWS у різних галузевих галузях прискорити впровадження ШІ та хмари.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/build-a-movie-chatbot-for-tv-ott-platforms-using-retrieval-augmented-generation-in-amazon-bedrock/

Часова мітка: Січень 31, 2024

Часова мітка: Квітень 6, 2023

Перевидано Платоном

Розмістіть сервер коду на Amazon SageMaker

AWS пропонує нові посібники зі штучного інтелекту, машинного навчання та генеративного штучного інтелекту для планування вашої стратегії ШІ | Веб-сервіси Amazon

Аліда глибше розуміє відгуки клієнтів завдяки Amazon Bedrock | Веб-сервіси Amazon

Покращте масштабованість API Amazon Rekognition без збереження стану за допомогою кількох регіонів

Створюйте розмовні програми на базі знань за допомогою LlamaIndex і Llama 2-Chat | Веб-сервіси Amazon

“ID + Selfie” – покращення цифрової перевірки особи за допомогою AWS

Покращення модерації вмісту за допомогою масового аналізу Amazon Rekognition і спеціальної модерації | Веб-сервіси Amazon

Імпортуйте дані з понад 40 джерел даних для машинного навчання без використання коду за допомогою Amazon SageMaker Canvas

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки