Створіть систему контекстного пошуку тексту та зображень для рекомендацій продуктів за допомогою Amazon Bedrock і Amazon OpenSearch Serverless

Перевидано Платоном

читають: 0

Зростання контекстного та семантичного пошуку зробило електронну комерцію та роздрібну торгівлю простим пошуком для споживачів. Пошукові системи та системи рекомендацій, що працюють на основі генеративного штучного інтелекту, можуть експоненціально покращити пошук продукту, розуміючи запити природною мовою та повертаючи точніші результати. Це покращує загальну взаємодію з користувачем, допомагаючи клієнтам знайти саме те, що вони шукають.

Служба Amazon OpenSearch тепер підтримує косинусова подібність метрика для індексів k-NN. Косинус подібності вимірює косинус кута між двома векторами, де менший косинус кута означає більшу подібність між векторами. За допомогою косинусної подібності ви можете виміряти орієнтацію між двома векторами, що робить його хорошим вибором для деяких конкретних програм семантичного пошуку.

У цій публікації ми покажемо, як створити систему контекстного пошуку тексту та зображень для рекомендацій продуктів за допомогою Модель Amazon Titan Multimodal Embeddings, доступний в Amazon Bedrock, С Amazon OpenSearch Serverless.

Модель мультимодального вбудовування розроблена для вивчення спільних представлень різних модальностей, таких як текст, зображення та аудіо. Навчаючись на великомасштабних наборах даних, що містять зображення та відповідні підписи, модель мультимодального вбудовування вчиться вбудовувати зображення та тексти в спільний прихований простір. Нижче наведено огляд високого рівня того, як це працює концептуально:

Окремі кодери – Ці моделі мають окремі кодери для кожної модальності — текстовий кодер для тексту (наприклад, BERT або RoBERTa), кодер зображень (наприклад, CNN для зображень) і аудіокодер для аудіо (наприклад, такі моделі, як Wav2Vec) . Кожен кодер генерує вбудовування, що фіксує семантичні характеристики відповідних модальностей
Злиття модальності – Вбудовані унімодальні кодери поєднуються за допомогою додаткових рівнів нейронної мережі. Мета полягає в тому, щоб навчитися взаємодії та кореляції між модальностями. Загальні підходи до злиття включають конкатенацію, поелементні операції, об’єднання та механізми уваги.
Спільний простір представництва – Шари злиття допомагають проектувати окремі модальності в загальний простір представлення. Навчаючись на мультимодальних наборах даних, модель вивчає загальний простір вбудовування, де вбудовування з кожної модальності, які представляють той самий основний семантичний вміст, знаходяться ближче одне до одного.
Низхідні завдання – Згенеровані спільні мультимодальні вбудовування можна потім використовувати для різноманітних подальших завдань, таких як мультимодальний пошук, класифікація або переклад. Модель використовує кореляції між модальностями, щоб покращити продуктивність цих завдань порівняно з окремими модальними вбудованими способами. Ключовою перевагою є здатність зрозуміти взаємодію та семантику між такими модальностями, як текст, зображення та аудіо, за допомогою спільного моделювання.

Огляд рішення

Рішення забезпечує реалізацію для створення прототипу пошукової системи на базі великої мовної моделі (LLM) для отримання та рекомендації продуктів на основі запитів із текстом або зображеннями. Ми детально описуємо кроки використання an Amazon Titan Multimodal Embeddings модель для кодування зображень і тексту у вбудовуваннях, введення вбудовувань в індекс служби OpenSearch і надсилання запитів до індексу за допомогою служби OpenSearch функціональність k-найближчих сусідів (k-NN)..

Це рішення включає наступні компоненти:

Модель Amazon Titan Multimodal Embeddings – Ця базова модель (FM) генерує вбудовування зображень продуктів, які використовуються в цій публікації. За допомогою Amazon Titan Multimodal Embeddings ви можете створювати вбудовування для свого вмісту та зберігати їх у векторній базі даних. Коли кінцевий користувач надсилає будь-яку комбінацію тексту та зображення як пошуковий запит, модель генерує вбудовування для пошукового запиту та зіставляє їх із збереженими вбудовуваннями, щоб надати відповідні результати пошуку та рекомендації кінцевим користувачам. Ви можете додатково налаштувати модель, щоб покращити її розуміння вашого унікального вмісту та забезпечити більш значущі результати, використовуючи пари зображення-текст для тонкого налаштування. За замовчуванням модель генерує вектори (вбудовування) 1,024 вимірів, доступ до неї здійснюється через Amazon Bedrock. Ви також можете створити менші розміри для оптимізації швидкості та продуктивності
Amazon OpenSearch Serverless – Це безсерверна конфігурація на вимогу для служби OpenSearch. Ми використовуємо Amazon OpenSearch Serverless як векторну базу даних для зберігання вбудовувань, згенерованих моделлю Amazon Titan Multimodal Embeddings. Індекс, створений у колекції Amazon OpenSearch Serverless, служить векторним сховищем для нашого рішення Retrieval Augmented Generation (RAG).
Студія Amazon SageMaker – Це інтегроване середовище розробки (IDE) для машинного навчання (ML). Практики ML можуть виконувати всі етапи розробки ML — від підготовки ваших даних до створення, навчання та розгортання моделей ML.

Дизайн рішення складається з двох частин: індексування даних і контекстний пошук. Під час індексування даних ви обробляєте зображення продукту, щоб створити вбудовування для цих зображень, а потім заповнюєте сховище векторних даних. Ці кроки виконуються перед етапами взаємодії з користувачем.

На етапі контекстного пошуку пошуковий запит (текст або зображення) від користувача перетворюється на вбудовування, а пошук подібності виконується у векторній базі даних, щоб знайти схожі зображення продукту на основі пошуку подібності. Потім ви відобразите найкращі подібні результати. Весь код для цієї публікації доступний у GitHub репо.

Наступна діаграма ілюструє архітектуру рішення.

Нижче наведено етапи робочого циклу вирішення.

Завантажте текст опису продукту та зображення з загального доступу Служба простого зберігання Amazon (Amazon S3) відро.
Перегляньте та підготуйте набір даних.
Створюйте вбудовування для зображень продукту за допомогою моделі Amazon Titan Multimodal Embeddings (amazon.titan-embed-image-v1). Якщо у вас є величезна кількість зображень і описів, ви можете додатково використовувати Пакетний висновок для Amazon Bedrock.
Зберігати вбудовування в Amazon OpenSearch Serverless як пошукова система.
Нарешті, витягніть запит користувача природною мовою, перетворіть його на вбудовані елементи за допомогою моделі Amazon Titan Multimodal Embeddings і виконайте пошук k-NN, щоб отримати відповідні результати пошуку.

Ми використовуємо SageMaker Studio (не показано на схемі) як IDE для розробки рішення.

Ці кроки детально обговорюються в наступних розділах. Ми також додаємо знімки екрана та деталі результату.

Передумови

Щоб реалізувати рішення, представлене в цій публікації, ви повинні мати наступне:

An Обліковий запис AWS і знайомство з FM, Amazon Bedrock, Amazon SageMakerі OpenSearch Service.
Модель Amazon Titan Multimodal Embeddings увімкнено в Amazon Bedrock. Ви можете підтвердити, що його ввімкнено на Доступ до моделі сторінки консолі Amazon Bedrock. Якщо Amazon Titan Multimodal Embeddings увімкнено, статус доступу відображатиметься як Доступ дозволено, як показано на наступному знімку екрана.

Якщо модель недоступна, увімкніть доступ до моделі, вибравши Керуйте доступом до моделі, вибір Amazon Titan Multimodal Embeddings G1, і вибір Запит на доступ до моделі. Модель готова до використання відразу.

Налаштуйте рішення

Коли необхідні кроки виконано, ви готові налаштувати рішення:

У своєму обліковому записі AWS відкрийте консоль SageMaker і виберіть Studio у навігаційній панелі.
Виберіть домен і профіль користувача, а потім виберіть Відкрийте Studio.

Ваш домен і ім’я профілю користувача можуть відрізнятися.

Вибирати Системний термінал при Утиліти та файли.
Виконайте таку команду, щоб клонувати GitHub репо до екземпляра SageMaker Studio:

git clone https://github.com/aws-samples/amazon-bedrock-samples.git

перейдіть до multimodal/Titan/titan-multimodal-embeddings/amazon-bedrock-multimodal-oss-searchengine-e2e папку.
Відкрийте titan_mm_embed_search_blog.ipynb зошит.

Запустіть розчин

Відкрийте файл titan_mm_embed_search_blog.ipynb і використовувати ядро Data Science Python 3. На прогін меню, виберіть Запустіть усі клітинки щоб запустити код у цьому блокноті.

Цей блокнот виконує такі дії:

Встановіть пакети та бібліотеки, необхідні для цього рішення.
Завантажити загальнодоступні Набір об’єктів Amazon Berkeley і метадані у фреймі даних pandas.

Набір даних являє собою набір із 147,702 398,212 списків продуктів із багатомовними метаданими та 1,600 XNUMX унікальних зображень каталогу. Для цієї публікації ви використовуєте лише зображення та назви товарів англійською мовою США. Ви використовуєте приблизно XNUMX продуктів.

Створіть вбудовування для зображень предметів за допомогою моделі Amazon Titan Multimodal Embeddings за допомогою get_titan_multomodal_embedding() функція. Заради абстракції ми визначили всі важливі функції, які використовуються в цьому блокноті, у utils.py файлу.

Далі ви створюєте та налаштовуєте безсерверне векторне сховище Amazon OpenSearch (колекція та індекс).

Перш ніж створювати нову колекцію та індекс векторного пошуку, ви повинні спочатку створити три пов’язані політики OpenSearch Service: політику безпеки шифрування, політику безпеки мережі та політику доступу до даних.

Нарешті, вставте зображення, вбудоване у векторний індекс.

Тепер ви можете виконувати мультимодальний пошук у реальному часі.

Запустіть контекстний пошук

У цьому розділі ми показуємо результати контекстного пошуку на основі текстового або графічного запиту.

Спочатку виконаємо пошук зображень на основі введення тексту. У наступному прикладі ми використовуємо введення тексту «скло посуду для напоїв» і надсилаємо його пошуковій системі для пошуку схожих предметів.

Наступний знімок екрана показує результати.

Тепер давайте подивимося на результати на основі простого зображення. Вхідне зображення перетворюється на векторні вбудовані елементи, і на основі пошуку подібності модель повертає результат.

Ви можете використовувати будь-яке зображення, але для наступного прикладу ми використовуємо випадкове зображення з набору даних на основі ідентифікатора елемента (наприклад, item_id = “B07JCDQWM6”), а потім надішліть це зображення пошуковій системі, щоб знайти схожі елементи.

Наступний знімок екрана показує результати.

Прибирати

Щоб уникнути майбутніх витрат, видаліть ресурси, які використовуються в цьому рішенні. Ви можете зробити це, запустивши розділ очищення блокнота.

Висновок

У цьому дописі представлено покрокове керівництво щодо використання моделі Amazon Titan Multimodal Embeddings в Amazon Bedrock для створення потужних програм контекстного пошуку. Зокрема, ми продемонстрували приклад програми пошуку списку товарів. Ми побачили, як модель вбудовування забезпечує ефективне й точне виявлення інформації із зображень і текстових даних, тим самим покращуючи роботу користувача під час пошуку відповідних елементів.

Amazon Titan Multimodal Embeddings допомагає точніше та контекстно відповідніше мультимодальному пошуку, рекомендаціям і персоналізації для кінцевих користувачів. Наприклад, компанія стокової фотографії, яка має сотні мільйонів зображень, може використовувати модель для забезпечення своїх функцій пошуку, щоб користувачі могли шукати зображення за допомогою фрази, зображення або комбінації зображення та тексту.

Модель Amazon Titan Multimodal Embeddings в Amazon Bedrock тепер доступна в регіонах AWS Схід США (Північна Вірджинія) і Захід США (Орегон). Щоб дізнатися більше, зверніться до Amazon Titan Image Generator, Multimodal Embeddings і Text models тепер доступні в Amazon Bedrock, Сторінка продукту Amazon Titan, А Посібник користувача Amazon Bedrock. Щоб почати роботу з Amazon Titan Multimodal Embeddings в Amazon Bedrock, відвідайте Консоль Amazon Bedrock.

Почніть будувати з моделі Amazon Titan Multimodal Embeddings у Amazon Bedrock сьогодні.

Про авторів

Сандіп Сінгх є старшим науковцем з генеративного штучного інтелекту в Amazon Web Services, який допомагає компаніям впроваджувати інновації за допомогою генеративного штучного інтелекту. Він спеціалізується на генеративному штучному інтелекті, штучному інтелекті, машинному навчанні та системному дизайні. Він захоплений розробкою найсучасніших рішень на основі ШІ/ML для вирішення складних бізнес-завдань для різних галузей, оптимізуючи ефективність і масштабованість.

Мані Хануджа є технічним керівником – Generative AI Specialists, автором книги Applied Machine Learning and High Performance Computing on AWS, а також членом ради директорів фонду «Жінки у сфері виробничої освіти». Вона керує проектами машинного навчання в різних областях, таких як комп’ютерне бачення, обробка природної мови та генеративний штучний інтелект. Вона виступає на внутрішніх і зовнішніх конференціях, таких як AWS re:Invent, Women in Manufacturing West, вебінарах YouTube і GHC 23. У вільний час вона любить довго бігати вздовж пляжу.

Рупіндер Гревал є старшим архітектором рішень зі штучного інтелекту/ML в AWS. Зараз він зосереджується на обслуговуванні моделей і MLO на Amazon SageMaker. До цієї посади він працював інженером машинного навчання, створюючи та розміщуючи моделі. Поза роботою він любить грати в теніс і їздити на велосипеді гірськими стежками.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/build-a-contextual-text-and-image-search-engine-for-product-recommendations-using-amazon-bedrock-and-amazon-opensearch-serverless/

Часова мітка: Квітень 3, 2024

Часова мітка: Квітень 11, 2023

Перевидано Платоном

Створіть безсерверну систему підбиття підсумків нарад за допомогою великих мовних моделей на Amazon SageMaker JumpStart | Веб-сервіси Amazon

Створіть віртуального агента на основі штучного інтелекту для Genesys Cloud за допомогою QnABot і Amazon Lex

AWS Panorama тепер підтримує NVIDIA JetPack SDK 4.6.2

Представляємо Amazon Texttract Bulk Document Uploader для покращеної оцінки та аналізу | Веб-сервіси Amazon

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки