Покращення того, як користувачі відкривають новий вміст, має вирішальне значення для підвищення залученості користувачів і задоволення від медіаплатформ. Пошук лише за ключовими словами має проблеми з визначенням семантики та намірів користувача, що призводить до результатів без відповідного контексту; наприклад, знайти вечірнє побачення або фільми на різдвяну тематику. Це може знизити рівень утримання, якщо користувачі не можуть надійно знайти потрібний їм вміст. Проте с великі мовні моделі (LLM), є можливість вирішити ці семантичні проблеми та виклики намірів користувача. Шляхом комбінування вбудовування які фіксують семантику за допомогою техніки під назвою Доповнена генерація пошуку (RAG), ви можете генерувати більш відповідні відповіді на основі отриманого контексту з ваших власних джерел даних.
У цій публікації ми покажемо вам, як безпечно створити кіночат-бот, запровадивши RAG із використанням ваших власних даних Бази знань та цінності Amazon Bedrock. Ми використовуємо набір даних IMDb і Box Office Mojo, щоб симулювати каталог для медіа та розважальних клієнтів і продемонструвати, як ви можете створити власне рішення RAG лише за пару кроків.
Огляд рішення
Команда IMDb і Box Office Mojo Movies/TV/OTT ліцензований пакет даних надає широкий спектр розважальних метаданих, включаючи понад 1.6 мільярд оцінок користувачів; титри для понад 13 мільйонів акторів і членів знімальної групи; 10 мільйонів назв фільмів, телепередач і розваг; і глобальні касові звіти з більш ніж 60 країн. Багато клієнтів медіа та розваг AWS ліцензують дані IMDb Обмін даними AWS щоб покращити виявлення вмісту та підвищити залучення та утримання клієнтів.
Вступ до баз знань для Amazon Bedrock
Щоб оснастити LLM актуальною закритою інформацією, організації використовують RAG, техніку, яка передбачає отримання даних із джерел даних компанії та збагачення підказки цими даними для надання більш відповідних і точних відповідей. Бази знань для Amazon Bedrock забезпечують повністю керовану функцію RAG, яка дає змогу налаштовувати відповіді LLM за допомогою контекстних і релевантних даних компанії. Бази знань автоматизують наскрізний робочий процес RAG, включаючи введення, пошук, оперативне доповнення та цитування, усуваючи необхідність писати спеціальний код для інтеграції джерел даних і керування запитами. Бази знань для Amazon Bedrock також уможливлюють багаточергові розмови, щоб магістр права міг відповідати на складні запити користувача правильною відповіддю.
Ми використовуємо такі послуги як частину цього рішення:
Ми проходимо такі кроки високого рівня:
- Попередньо обробіть дані IMDb, щоб створити документи з кожного запису фільму та завантажити дані в Служба простого зберігання Amazon (Amazon S3) відро.
- Створіть базу знань.
- Синхронізуйте свою базу знань із джерелом даних.
- Використовуйте базу знань, щоб відповісти на семантичні запити про каталог фільмів.
Передумови
Для даних IMDb, які використовуються в цій публікації, потрібна ліцензія на комерційний вміст і платна підписка на IMDb і пакет ліцензій Box Office Mojo Movies/TV/OTT на AWS Data Exchange. Щоб запитати про ліцензію та отримати доступ до зразків даних, відвідайте developer.imdb.com. Щоб отримати доступ до набору даних, зверніться до Потужна рекомендація та пошук за допомогою графа знань IMDb – Частина 1 і дотримуйтесь Доступ до даних IMDb .
Попередня обробка даних IMDb
Перш ніж створити базу знань, нам потрібно попередньо обробити набір даних IMDb у текстові файли та завантажити їх у сегмент S3. У цій публікації ми моделюємо каталог клієнтів за допомогою набору даних IMDb. Ми беремо 10,000 XNUMX популярних фільмів із набору даних IMDb для каталогу та створюємо набір даних.
Використовуйте наступне ноутбук щоб створити набір даних із додатковою інформацією, як-от імена акторів, режисера та продюсера. Ми використовуємо наступний код, щоб створити єдиний файл для фільму з усією інформацією, що зберігається у файлі, у вигляді неструктурованого тексту, який можуть зрозуміти LLM:
Отримавши дані у форматі .txt, ви можете завантажити їх в Amazon S3 за допомогою такої команди:
Створіть базу знань IMDb
Виконайте наступні кроки, щоб створити свою базу знань:
- Виберіть на консолі Amazon Bedrock База знань у навігаційній панелі.
- Вибирати Створити базу знань.
- для Назва бази знань, введіть
imdb
. - для Опис бази знань, введіть необов’язковий опис, наприклад База знань для прийому та зберігання даних imdb.
- для Дозволи IAMвиберіть Створіть і використовуйте нову роль служби, а потім введіть назву вашої нової ролі служби.
- Вибирати МАЙБУТНІ.
- для Назва джерела даних, введіть
imdb-s3
. - для S3 URI, введіть S3 URI, до якого ви завантажили дані.
- У Розширені налаштування – за бажанням розділ, для Стратегія чанкінгувиберіть Немає шматків.
- Вибирати МАЙБУТНІ.
Бази знань дозволяють розділити документи на менші сегменти, щоб спростити обробку великих документів. У нашому випадку ми вже розділили дані в документ меншого розміру (по одному на фільм).
- У Векторна база даних розділ, виберіть Швидке створення нового векторного магазину.
Amazon Bedrock автоматично створить повністю керовану колекцію векторного пошуку OpenSearch Serverless і налаштує параметри для вбудовування ваших джерел даних за допомогою вибраної моделі Titan Embedding G1 – Text embedding.
- Вибирати МАЙБУТНІ.
- Перегляньте свої налаштування та виберіть Створити базу знань.
Синхронізуйте свої дані з базою знань
Тепер, коли ви створили свою базу знань, ви можете синхронізувати її зі своїми даними.
- На консолі Amazon Bedrock перейдіть до своєї бази знань.
- У Джерело даних розділ, вибрати Синхронізація.
Після синхронізації джерела даних ви готові запитувати дані.
Покращити пошук за допомогою семантичних результатів
Виконайте наступні дії, щоб перевірити рішення та покращити пошук за допомогою семантичних результатів:
- На консолі Amazon Bedrock перейдіть до своєї бази знань.
- Виберіть свою базу знань і вибирайте Тест бази знань.
- Вибирати Виберіть модель, і вибрати Антропний Клод v2.1.
- Вибирати Застосовувати.
Тепер ви готові запитувати дані.
Ми можемо поставити кілька семантичних запитань, наприклад «Порекомендуйте мені фільми на різдвяну тематику».
Відповіді бази знань містять цитати, які ви можете перевірити на правильність відповідей і фактичність.
Ви також можете детально переглянути будь-яку потрібну інформацію з цих фільмів. У наступному прикладі ми запитуємо «хто зрежисував кошмар перед Різдвом?»
Ви також можете поставити конкретніші запитання щодо жанрів і рейтингів, наприклад «показати мені класичні анімаційні фільми з рейтингом більше 7?»
Поповнюйте свою базу знань за допомогою агентів
Агенти Amazon Bedrock допоможе вам автоматизувати складні завдання. Агенти можуть розбити запит користувача на менші завдання та викликати спеціальні API або бази знань, щоб доповнити інформацію для виконання дій. Завдяки агентам для Amazon Bedrock розробники можуть інтегрувати інтелектуальні агенти у свої програми, прискорюючи доставку додатків на базі ШІ та економлячи тижні часу на розробку. За допомогою агентів ви можете розширити свою базу знань, додавши додаткові функції, наприклад рекомендації від Амазонка персоналізувати для отримання індивідуальних рекомендацій для користувача або виконання таких дій, як фільтрація фільмів на основі потреб користувача.
Висновок
У цьому дописі ми показали, як створити розмовний кіночат-бот за допомогою Amazon Bedrock за кілька кроків, щоб відповісти на семантичний пошук і розмовний досвід на основі ваших власних даних і ліцензованого набору даних IMDb і Box Office Mojo Movies/TV/OTT. У наступній публікації ми ознайомимося з процесом додавання додаткових функцій до вашого рішення за допомогою агентів для Amazon Bedrock. Щоб розпочати роботу з базами знань Amazon Bedrock, зверніться до Бази знань для Amazon Bedrock.
Про авторів
Гаурав Реле є старшим спеціалістом із обробки даних у Центрі інновацій Generative AI, де він працює з клієнтами AWS у різних галузях, щоб прискорити використання ними генеративного штучного інтелекту та хмарних сервісів AWS для вирішення своїх бізнес-завдань.
Дів'я Бхаргаві є старшим прикладним науковцем у Центрі інновацій Generative AI, де вона вирішує важливі бізнес-проблеми для клієнтів AWS за допомогою генеративних методів AI. Вона працює над розумінням і пошуком зображень/відео, великими мовними моделями, доповненими графами знань, і сценаріями використання персоналізованої реклами.
Сурен Гунтуру є науковцем з даних, який працює в Центрі інновацій Generative AI, де він працює з різними клієнтами AWS для вирішення важливих бізнес-завдань. Він спеціалізується на створенні конвеєрів машинного навчання за допомогою великих мовних моделей, головним чином через Amazon Bedrock та інші хмарні сервіси AWS.
Від'я Сагар Равіпаті є науковим менеджером у Центрі інновацій Generative AI, де він використовує свій величезний досвід роботи з великомасштабними розподіленими системами та свою пристрасть до машинного навчання, щоб допомогти клієнтам AWS у різних галузевих галузях прискорити впровадження ШІ та хмари.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/build-a-movie-chatbot-for-tv-ott-platforms-using-retrieval-augmented-generation-in-amazon-bedrock/
- : має
- :є
- :де
- $ 10 мільйонів
- 000
- 1
- 10
- 100
- 11
- 118
- 12
- 13
- 360
- 385
- 60
- 7
- a
- МЕНЮ
- прискорювати
- прискорення
- доступ
- точний
- через
- дії
- актори
- додати
- Додатковий
- Прийняття
- реклама
- агенти
- AI
- Можливість
- ВСІ
- дозволяє
- тільки
- вже
- Також
- Amazon
- Amazon Web Services
- an
- та
- відповідь
- Відповіді
- будь-який
- Інтерфейси
- застосування
- прикладної
- додатка
- ЕСТЬ
- AS
- запитати
- At
- збільшення
- збільшено
- автоматизувати
- автоматично
- AWS
- Обмін даними AWS
- база
- заснований
- BE
- перед тим
- Мільярд
- Box
- театральна каса
- Перерва
- будувати
- Створюємо
- бізнес
- by
- call
- званий
- CAN
- можливості
- захоплення
- захопивши
- випадок
- випадків
- каталог
- Центр
- проблеми
- Chatbot
- Вибирати
- вибраний
- різдво
- classic
- хмара
- прийняття хмари
- хмарні сервіси
- код
- збір
- об'єднання
- комерційний
- компанія
- комплекс
- Консоль
- містити
- зміст
- контекст
- контекстуальний
- діалоговий
- розмови
- виправити
- країни
- Пара
- створювати
- створений
- кредити
- екіпаж
- критичний
- виготовлений на замовлення
- клієнт
- Залучення клієнтів
- Клієнти
- налаштувати
- дані
- Обмін даними
- вчений даних
- Дата
- доставляти
- доставка
- description
- деталі
- розробників
- розробка
- різний
- спрямований
- Директор
- Директори
- відкрити
- відкриття
- розподілений
- розподілені системи
- документ
- документація
- вниз
- управляти
- усуваючи
- вбудовування
- включіть
- кінець в кінець
- зачеплення
- збагачення
- Що натомість? Створіть віртуальну версію себе у
- розваги
- Кожен
- приклад
- обмін
- досвід
- Досліди
- дослідити
- кілька
- філе
- Файли
- фільтрація
- знайти
- виявлення
- стежити
- після
- для
- формат
- від
- повністю
- функціональність
- g1
- породжувати
- покоління
- генеративний
- Генеративний ШІ
- Жанри
- отримати
- Глобальний
- Go
- графік
- великий
- Мати
- he
- допомога
- на вищому рівні
- його
- Як
- How To
- Однак
- HTML
- HTTP
- HTTPS
- if
- реалізації
- удосконалювати
- in
- У тому числі
- Augmenter
- промисловість
- інформація
- інформація
- інновація
- питати
- інтегрувати
- Розумний
- намір
- в
- включає в себе
- IT
- JPG
- просто
- знання
- Графік знань
- відсутність
- мова
- великий
- масштабний
- вести
- провідний
- вивчення
- важелі
- ліцензія
- Ліцензований
- ліцензування
- як
- LLM
- місцевий
- розташування
- знизити
- машина
- навчання за допомогою машини
- зробити
- управляти
- вдалося
- менеджер
- багато
- me
- Медіа
- члени
- метадані
- методика
- мільйона
- ML
- модель
- Моделі
- більше
- фільм
- кіно
- ім'я
- Імена
- Переміщення
- навігація
- Необхідність
- потреби
- Нові
- наступний
- ніч
- of
- Office
- on
- ONE
- Можливість
- or
- організації
- Інше
- наші
- над
- власний
- пакет
- сторінка
- оплачувану
- pane
- частина
- пристрасть
- шлях
- для
- виконанні
- Персоналізовані
- Платформи
- plato
- Інформація про дані Платона
- PlatoData
- ділянку
- популярний
- пошта
- в першу чергу
- проблеми
- процес
- виробник
- Виробники
- власником
- забезпечує
- запити
- запит
- питань
- ганчіркою
- діапазон
- ставки
- рейтинг
- рейтинги
- готовий
- рекомендувати
- Рекомендація
- рекомендації
- запис
- послатися
- пов'язаний
- доречний
- Звітність
- Вимагається
- відповідь
- відповіді
- результати
- утримання
- пошук
- повертати
- Роль
- ROW
- біг
- задоволення
- економія
- наука
- вчений
- Пошук
- розділ
- безпечно
- сегменти
- вибрати
- смисловий
- семантика
- старший
- Без сервера
- обслуговування
- Послуги
- налаштування
- вона
- постріл
- Показувати
- демонстрації
- показав
- простий
- імітувати
- один
- Розмір
- менше
- So
- рішення
- ВИРІШИТИ
- Вирішує
- деякі
- Source
- Джерела
- спеціалізується
- конкретний
- почалася
- заходи
- зберігання
- зберігати
- зберігати
- зберігання
- просто
- передплата
- такі
- доповнювати
- синхронізація.
- Systems
- Приймати
- завдання
- техніка
- тест
- текст
- ніж
- Що
- Команда
- інформація
- їх
- Їх
- Тематичні
- потім
- Там.
- Ці
- вони
- це
- через
- час
- велетень
- назви
- до
- tv
- розуміння
- зрозуміла
- неструктурований
- відповідний сучасним вимогам
- завантажено
- URL
- використання
- використовуваний
- користувач
- користувачі
- використання
- різний
- величезний
- вертикалі
- візит
- W
- ходити
- хотіти
- було
- we
- Web
- веб-сервіси
- тижня
- широкий
- Широкий діапазон
- волі
- з
- робочий
- робочий
- працює
- запис
- X
- рік
- Ти
- вашу
- зефірнет