Создайте контекстную поисковую систему по тексту и изображениям для рекомендаций по продуктам с использованием Amazon Bedrock и Amazon OpenSearch Serverless

Переиздано Платоном

Читают: 0

Развитие контекстного и семантического поиска сделало предприятия электронной коммерции и розничной торговли более простыми в поиске своих потребителей. Поисковые системы и системы рекомендаций, основанные на генеративном искусственном интеллекте, могут значительно улучшить процесс поиска продуктов, понимая запросы на естественном языке и возвращая более точные результаты. Это улучшает общий пользовательский опыт, помогая клиентам найти именно то, что они ищут.

Сервис Amazon OpenSearch теперь поддерживает косинусное подобие метрика для индексов k-NN. Подобие косинуса измеряет косинус угла между двумя векторами, где меньший угол косинуса означает большее сходство между векторами. С помощью косинусного сходства вы можете измерить ориентацию между двумя векторами, что делает его хорошим выбором для некоторых конкретных приложений семантического поиска.

В этом посте мы покажем, как создать контекстную поисковую систему по тексту и изображениям для рекомендаций по продуктам, используя Модель мультимодальных вложений Amazon Titan, доступно в Коренная порода Амазонкипризывают Amazon OpenSearch без сервера.

Модель мультимодального внедрения предназначена для изучения совместных представлений различных модальностей, таких как текст, изображения и аудио. Обучаясь на крупномасштабных наборах данных, содержащих изображения и соответствующие им подписи, модель мультимодального внедрения учится встраивать изображения и тексты в общее скрытое пространство. Ниже приводится общий обзор того, как это работает концептуально:

Отдельные кодеры – Эти модели имеют отдельные кодеры для каждой модальности — текстовый кодировщик для текста (например, BERT или RoBERTa), кодировщик изображений для изображений (например, CNN для изображений) и аудиокодеры для звука (например, такие модели, как Wav2Vec). . Каждый кодер генерирует вложения, фиксирующие семантические особенности соответствующих модальностей.
Слияние модальностей – Вложения из унимодальных кодеров объединяются с использованием дополнительных слоев нейронной сети. Цель состоит в том, чтобы изучить взаимодействия и корреляции между модальностями. Общие подходы к слиянию включают конкатенацию, поэлементные операции, объединение и механизмы внимания.
Общее пространство представления – Слои слияния помогают спроецировать отдельные модальности в общее пространство представления. Обучаясь на мультимодальных наборах данных, модель изучает общее пространство внедрения, в котором внедрения каждой модальности, представляющие одно и то же базовое семантическое содержание, расположены ближе друг к другу.
Последующие задачи – Созданные совместные мультимодальные внедрения могут затем использоваться для различных последующих задач, таких как мультимодальный поиск, классификация или перевод. Модель использует корреляции между модальностями для повышения производительности этих задач по сравнению с отдельными модальными вложениями. Ключевым преимуществом является способность понимать взаимодействие и семантику между такими модальностями, как текст, изображения и аудио, посредством совместного моделирования.

Обзор решения

Решение обеспечивает реализацию создания прототипа поисковой системы на основе большой языковой модели (LLM) для поиска и рекомендации продуктов на основе текстовых или графических запросов. Мы подробно описываем шаги по использованию Мультимодальные встраивания Amazon Titan модель для кодирования изображений и текста во внедрения, приема внедрений в индекс службы OpenSearch и запроса индекса с помощью службы OpenSearch. Функциональность k-ближайших соседей (k-NN).

Это решение включает в себя следующие компоненты:

Модель мультимодальных вложений Amazon Titan – Эта базовая модель (FM) генерирует встраивания изображений продуктов, использованных в этом посте. С помощью мультимодальных встраиваний Amazon Titan вы можете создавать встраивания для своего контента и хранить их в векторной базе данных. Когда конечный пользователь отправляет любую комбинацию текста и изображения в качестве поискового запроса, модель генерирует внедрения для поискового запроса и сопоставляет их с сохраненными внедрениями, чтобы предоставить конечным пользователям релевантные результаты поиска и рекомендации. Вы можете дополнительно настроить модель, чтобы она лучше понимала ваш уникальный контент и обеспечивала более значимые результаты, используя пары изображение-текст для точной настройки. По умолчанию модель генерирует векторы (вложения) 1,024 измерений, а доступ к ней осуществляется через Amazon Bedrock. Вы также можете создавать меньшие размеры для оптимизации скорости и производительности.
Amazon OpenSearch без сервера – Это бессерверная конфигурация по требованию для службы OpenSearch. Мы используем Amazon OpenSearch Serverless в качестве векторной базы данных для хранения внедрений, созданных с помощью модели мультимодальных внедрений Amazon Titan. Индекс, созданный в бессерверной коллекции Amazon OpenSearch, служит векторным хранилищем для нашего решения Retrieval Augmented Generation (RAG).
Студия Amazon SageMaker – Это интегрированная среда разработки (IDE) для машинного обучения (ML). Специалисты по машинному обучению могут выполнять все этапы разработки машинного обучения — от подготовки данных до построения, обучения и развертывания моделей машинного обучения.

Конструкция решения состоит из двух частей: индексации данных и контекстного поиска. Во время индексации данных вы обрабатываете изображения продуктов для создания вложений для этих изображений, а затем заполняете хранилище векторных данных. Эти шаги выполняются до шагов взаимодействия с пользователем.

На этапе контекстного поиска поисковый запрос (текст или изображение) от пользователя преобразуется во встраивания, и в базе данных векторов выполняется поиск по сходству, чтобы найти похожие изображения продуктов на основе поиска по сходству. Затем вы отображаете лучшие похожие результаты. Весь код для этого поста доступен в Репо GitHub.

Следующая диаграмма иллюстрирует архитектуру решения.

Ниже приведены этапы рабочего процесса решения:

Скачать текст описания товара и изображения из паблика Простой сервис хранения Amazon (Amazon S3) ведро.
Просмотрите и подготовьте набор данных.
Создайте внедрения для изображений продуктов с помощью модели мультимодальных внедрений Amazon Titan (amazon.titan-embed-image-v1). Если у вас огромное количество изображений и описаний, при желании можно использовать Пакетный вывод для Amazon Bedrock.
Хранить вложения в Amazon OpenSearch без сервера как поисковик.
Наконец, извлеките пользовательский запрос на естественном языке, преобразуйте его во внедрения с помощью модели мультимодальных внедрений Amazon Titan и выполните поиск по k-NN, чтобы получить релевантные результаты поиска.

В качестве IDE для разработки решения мы используем SageMaker Studio (не показана на схеме).

Эти шаги подробно обсуждаются в следующих разделах. Мы также прилагаем скриншоты и подробную информацию о результатах.

Предпосылки

Чтобы реализовать решение, представленное в этом посте, у вас должно быть следующее:

An Аккаунт AWS и знакомство с FM, Amazon Bedrock, Создатель мудреца Амазонкии Служба OpenSearch.
Модель мультимодального внедрения Amazon Titan включена в Amazon Bedrock. Вы можете подтвердить, что он включен на Доступ к модели страница консоли Amazon Bedrock. Если мультимодальные внедрения Amazon Titan включены, статус доступа будет отображаться как Доступ предоставлен, как показано на следующем скриншоте.

Если модель недоступна, включите доступ к модели, выбрав Управление доступом к модели, выбирая Мультимодальные встраивания Amazon Titan G1, и выбор Запросить доступ к модели. Модель сразу же становится доступной для использования.

Настройка решения

После выполнения необходимых шагов вы готовы к настройке решения:

В своей учетной записи AWS откройте консоль SageMaker и выберите Студия в навигационной панели.
Выберите свой домен и профиль пользователя, затем выберите Открытая студия.

Имя вашего домена и профиля пользователя могут отличаться.

Выберите Системный терминал под Утилиты и файлы.
Запустите следующую команду, чтобы клонировать Репо GitHub в экземпляр SageMaker Studio:

git clone https://github.com/aws-samples/amazon-bedrock-samples.git

Перейдите в multimodal/Titan/titan-multimodal-embeddings/amazon-bedrock-multimodal-oss-searchengine-e2e папку.
Откройте приложение titan_mm_embed_search_blog.ipynb Блокнот.

Запустите решение

Открыть файл titan_mm_embed_search_blog.ipynb и используйте ядро Data Science Python 3. На Run Меню, выберите Запустить все ячейки чтобы запустить код в этом блокноте.

Этот блокнот выполняет следующие действия:

Установите пакеты и библиотеки, необходимые для этого решения.
Загрузите общедоступный Набор данных объектов Amazon Berkeley и метаданные во фрейме данных pandas.

Набор данных представляет собой коллекцию из 147,702 398,212 списков продуктов с многоязычными метаданными и 1,600 XNUMX уникальных изображений каталога. В этом посте вы используете изображения и названия предметов только на английском языке (США). Вы используете около XNUMX продуктов.

Сгенерируйте внедрения для изображений элементов с помощью модели мультимодальных внедрений Amazon Titan с помощью get_titan_multomodal_embedding() функция. Для абстракции мы определили все важные функции, используемые в этом блокноте, в utils.py .

Затем вы создаете и настраиваете бессерверное векторное хранилище Amazon OpenSearch (коллекцию и индекс).

Прежде чем создавать новую коллекцию векторного поиска и индекс, необходимо сначала создать три связанные политики OpenSearch Service: политику безопасности шифрования, политику сетевой безопасности и политику доступа к данным.

Наконец, вставьте изображение в векторный индекс.

Теперь вы можете выполнять мультимодальный поиск в режиме реального времени.

Запустите контекстный поиск

В этом разделе мы показываем результаты контекстного поиска по текстовому или графическому запросу.

Сначала давайте выполним поиск изображений на основе ввода текста. В следующем примере мы используем текстовый ввод «стакан для питья» и отправляем его в поисковую систему для поиска похожих предметов.

На следующем снимке экрана показаны результаты.

Теперь давайте посмотрим на результаты на основе простого изображения. Входное изображение преобразуется в векторные представления, и на основе поиска по сходству модель возвращает результат.

Вы можете использовать любое изображение, но в следующем примере мы используем случайное изображение из набора данных на основе идентификатора элемента (например, item_id = «B07JCDQWM6»), а затем отправьте это изображение в поисковую систему для поиска похожих предметов.

На следующем снимке экрана показаны результаты.

Убирать

Чтобы избежать будущих расходов, удалите ресурсы, используемые в этом решении. Вы можете сделать это, запустив раздел очистки блокнота.

Заключение

В этом посте представлено пошаговое руководство по использованию модели мультимодального внедрения Amazon Titan в Amazon Bedrock для создания мощных приложений контекстного поиска. В частности, мы продемонстрировали пример приложения для поиска по товарному списку. Мы увидели, как модель внедрения обеспечивает эффективное и точное обнаружение информации из изображений и текстовых данных, тем самым улучшая взаимодействие с пользователем при поиске соответствующих элементов.

Amazon Titan Multimodal Embeddings помогает обеспечить более точный и контекстно-релевантный мультимодальный поиск, рекомендации и персонализацию для конечных пользователей. Например, компания, занимающаяся стоковой фотографией и имеющая сотни миллионов изображений, может использовать эту модель для расширения своих функций поиска, чтобы пользователи могли искать изображения, используя фразу, изображение или комбинацию изображения и текста.

Модель мультимодального внедрения Amazon Titan в Amazon Bedrock теперь доступна в регионах AWS Восток США (Сев. Вирджиния) и Запад США (Орегон). Чтобы узнать больше, обратитесь к Генератор изображений Amazon Titan, мультимодальные встраивания и текстовые модели теперь доступны в Amazon Bedrock., Страница продукта Amazon Titan, и Руководство пользователя Amazon Bedrock. Чтобы начать работу с мультимодальными встраиваниями Amazon Titan в Amazon Bedrock, посетите Консоль Amazon Bedrock.

Начните создавать модели Amazon Titan Multimodal Embeddings в Коренная порода Амазонки прямо сейчас

Об авторах

Сандип Сингх — старший специалист по данным генеративного ИИ в Amazon Web Services, помогающий предприятиям внедрять инновации с помощью генеративного ИИ. Он специализируется на генеративном искусственном интеллекте, искусственном интеллекте, машинном обучении и системном проектировании. Он увлечен разработкой современных решений на базе искусственного интеллекта и машинного обучения для решения сложных бизнес-задач для различных отраслей, оптимизации эффективности и масштабируемости.

Мани Хануджа — технический руководитель, специалисты по генеративному искусственному интеллекту, автор книги «Прикладное машинное обучение и высокопроизводительные вычисления на AWS», а также член совета директоров Фонда образования женщин в производстве. Она возглавляет проекты машинного обучения в различных областях, таких как компьютерное зрение, обработка естественного языка и генеративный искусственный интеллект. Она выступает на внутренних и внешних конференциях, таких как AWS re:Invent, Women in Manufacturing West, вебинарах YouTube и GHC 23. В свободное время она любит совершать длительные пробежки по пляжу.

Рупиндер Гревал — старший специалист по архитектуре решений AI/ML в AWS. В настоящее время он занимается обслуживанием моделей и MLOps в Amazon SageMaker. До этой должности он работал инженером по машинному обучению, создавая и размещая модели. Вне работы он любит играть в теннис и кататься на велосипеде по горным тропам.