Зростання контекстного та семантичного пошуку зробило електронну комерцію та роздрібну торгівлю простим пошуком для споживачів. Пошукові системи та системи рекомендацій, що працюють на основі генеративного штучного інтелекту, можуть експоненціально покращити пошук продукту, розуміючи запити природною мовою та повертаючи точніші результати. Це покращує загальну взаємодію з користувачем, допомагаючи клієнтам знайти саме те, що вони шукають.
Служба Amazon OpenSearch тепер підтримує косинусова подібність метрика для індексів k-NN. Косинус подібності вимірює косинус кута між двома векторами, де менший косинус кута означає більшу подібність між векторами. За допомогою косинусної подібності ви можете виміряти орієнтацію між двома векторами, що робить його хорошим вибором для деяких конкретних програм семантичного пошуку.
У цій публікації ми покажемо, як створити систему контекстного пошуку тексту та зображень для рекомендацій продуктів за допомогою Модель Amazon Titan Multimodal Embeddings, доступний в Amazon Bedrock, С Amazon OpenSearch Serverless.
Модель мультимодального вбудовування розроблена для вивчення спільних представлень різних модальностей, таких як текст, зображення та аудіо. Навчаючись на великомасштабних наборах даних, що містять зображення та відповідні підписи, модель мультимодального вбудовування вчиться вбудовувати зображення та тексти в спільний прихований простір. Нижче наведено огляд високого рівня того, як це працює концептуально:
- Окремі кодери – Ці моделі мають окремі кодери для кожної модальності — текстовий кодер для тексту (наприклад, BERT або RoBERTa), кодер зображень (наприклад, CNN для зображень) і аудіокодер для аудіо (наприклад, такі моделі, як Wav2Vec) . Кожен кодер генерує вбудовування, що фіксує семантичні характеристики відповідних модальностей
- Злиття модальності – Вбудовані унімодальні кодери поєднуються за допомогою додаткових рівнів нейронної мережі. Мета полягає в тому, щоб навчитися взаємодії та кореляції між модальностями. Загальні підходи до злиття включають конкатенацію, поелементні операції, об’єднання та механізми уваги.
- Спільний простір представництва – Шари злиття допомагають проектувати окремі модальності в загальний простір представлення. Навчаючись на мультимодальних наборах даних, модель вивчає загальний простір вбудовування, де вбудовування з кожної модальності, які представляють той самий основний семантичний вміст, знаходяться ближче одне до одного.
- Низхідні завдання – Згенеровані спільні мультимодальні вбудовування можна потім використовувати для різноманітних подальших завдань, таких як мультимодальний пошук, класифікація або переклад. Модель використовує кореляції між модальностями, щоб покращити продуктивність цих завдань порівняно з окремими модальними вбудованими способами. Ключовою перевагою є здатність зрозуміти взаємодію та семантику між такими модальностями, як текст, зображення та аудіо, за допомогою спільного моделювання.
Огляд рішення
Рішення забезпечує реалізацію для створення прототипу пошукової системи на базі великої мовної моделі (LLM) для отримання та рекомендації продуктів на основі запитів із текстом або зображеннями. Ми детально описуємо кроки використання an Amazon Titan Multimodal Embeddings модель для кодування зображень і тексту у вбудовуваннях, введення вбудовувань в індекс служби OpenSearch і надсилання запитів до індексу за допомогою служби OpenSearch функціональність k-найближчих сусідів (k-NN)..
Це рішення включає наступні компоненти:
- Модель Amazon Titan Multimodal Embeddings – Ця базова модель (FM) генерує вбудовування зображень продуктів, які використовуються в цій публікації. За допомогою Amazon Titan Multimodal Embeddings ви можете створювати вбудовування для свого вмісту та зберігати їх у векторній базі даних. Коли кінцевий користувач надсилає будь-яку комбінацію тексту та зображення як пошуковий запит, модель генерує вбудовування для пошукового запиту та зіставляє їх із збереженими вбудовуваннями, щоб надати відповідні результати пошуку та рекомендації кінцевим користувачам. Ви можете додатково налаштувати модель, щоб покращити її розуміння вашого унікального вмісту та забезпечити більш значущі результати, використовуючи пари зображення-текст для тонкого налаштування. За замовчуванням модель генерує вектори (вбудовування) 1,024 вимірів, доступ до неї здійснюється через Amazon Bedrock. Ви також можете створити менші розміри для оптимізації швидкості та продуктивності
- Amazon OpenSearch Serverless – Це безсерверна конфігурація на вимогу для служби OpenSearch. Ми використовуємо Amazon OpenSearch Serverless як векторну базу даних для зберігання вбудовувань, згенерованих моделлю Amazon Titan Multimodal Embeddings. Індекс, створений у колекції Amazon OpenSearch Serverless, служить векторним сховищем для нашого рішення Retrieval Augmented Generation (RAG).
- Студія Amazon SageMaker – Це інтегроване середовище розробки (IDE) для машинного навчання (ML). Практики ML можуть виконувати всі етапи розробки ML — від підготовки ваших даних до створення, навчання та розгортання моделей ML.
Дизайн рішення складається з двох частин: індексування даних і контекстний пошук. Під час індексування даних ви обробляєте зображення продукту, щоб створити вбудовування для цих зображень, а потім заповнюєте сховище векторних даних. Ці кроки виконуються перед етапами взаємодії з користувачем.
На етапі контекстного пошуку пошуковий запит (текст або зображення) від користувача перетворюється на вбудовування, а пошук подібності виконується у векторній базі даних, щоб знайти схожі зображення продукту на основі пошуку подібності. Потім ви відобразите найкращі подібні результати. Весь код для цієї публікації доступний у GitHub репо.
Наступна діаграма ілюструє архітектуру рішення.
Нижче наведено етапи робочого циклу вирішення.
- Завантажте текст опису продукту та зображення з загального доступу Служба простого зберігання Amazon (Amazon S3) відро.
- Перегляньте та підготуйте набір даних.
- Створюйте вбудовування для зображень продукту за допомогою моделі Amazon Titan Multimodal Embeddings (amazon.titan-embed-image-v1). Якщо у вас є величезна кількість зображень і описів, ви можете додатково використовувати Пакетний висновок для Amazon Bedrock.
- Зберігати вбудовування в Amazon OpenSearch Serverless як пошукова система.
- Нарешті, витягніть запит користувача природною мовою, перетворіть його на вбудовані елементи за допомогою моделі Amazon Titan Multimodal Embeddings і виконайте пошук k-NN, щоб отримати відповідні результати пошуку.
Ми використовуємо SageMaker Studio (не показано на схемі) як IDE для розробки рішення.
Ці кроки детально обговорюються в наступних розділах. Ми також додаємо знімки екрана та деталі результату.
Передумови
Щоб реалізувати рішення, представлене в цій публікації, ви повинні мати наступне:
- An Обліковий запис AWS і знайомство з FM, Amazon Bedrock, Amazon SageMakerі OpenSearch Service.
- Модель Amazon Titan Multimodal Embeddings увімкнено в Amazon Bedrock. Ви можете підтвердити, що його ввімкнено на Доступ до моделі сторінки консолі Amazon Bedrock. Якщо Amazon Titan Multimodal Embeddings увімкнено, статус доступу відображатиметься як Доступ дозволено, як показано на наступному знімку екрана.
Якщо модель недоступна, увімкніть доступ до моделі, вибравши Керуйте доступом до моделі, вибір Amazon Titan Multimodal Embeddings G1, і вибір Запит на доступ до моделі. Модель готова до використання відразу.
Налаштуйте рішення
Коли необхідні кроки виконано, ви готові налаштувати рішення:
- У своєму обліковому записі AWS відкрийте консоль SageMaker і виберіть Studio у навігаційній панелі.
- Виберіть домен і профіль користувача, а потім виберіть Відкрийте Studio.
Ваш домен і ім’я профілю користувача можуть відрізнятися.
- Вибирати Системний термінал при Утиліти та файли.
- Виконайте таку команду, щоб клонувати GitHub репо до екземпляра SageMaker Studio:
- перейдіть до
multimodal/Titan/titan-multimodal-embeddings/amazon-bedrock-multimodal-oss-searchengine-e2e
папку. - Відкрийте
titan_mm_embed_search_blog.ipynb
зошит.
Запустіть розчин
Відкрийте файл titan_mm_embed_search_blog.ipynb
і використовувати ядро Data Science Python 3. На прогін меню, виберіть Запустіть усі клітинки щоб запустити код у цьому блокноті.
Цей блокнот виконує такі дії:
- Встановіть пакети та бібліотеки, необхідні для цього рішення.
- Завантажити загальнодоступні Набір об’єктів Amazon Berkeley і метадані у фреймі даних pandas.
Набір даних являє собою набір із 147,702 398,212 списків продуктів із багатомовними метаданими та 1,600 XNUMX унікальних зображень каталогу. Для цієї публікації ви використовуєте лише зображення та назви товарів англійською мовою США. Ви використовуєте приблизно XNUMX продуктів.
- Створіть вбудовування для зображень предметів за допомогою моделі Amazon Titan Multimodal Embeddings за допомогою
get_titan_multomodal_embedding()
функція. Заради абстракції ми визначили всі важливі функції, які використовуються в цьому блокноті, уutils.py
файлу.
Далі ви створюєте та налаштовуєте безсерверне векторне сховище Amazon OpenSearch (колекція та індекс).
- Перш ніж створювати нову колекцію та індекс векторного пошуку, ви повинні спочатку створити три пов’язані політики OpenSearch Service: політику безпеки шифрування, політику безпеки мережі та політику доступу до даних.
- Нарешті, вставте зображення, вбудоване у векторний індекс.
Тепер ви можете виконувати мультимодальний пошук у реальному часі.
Запустіть контекстний пошук
У цьому розділі ми показуємо результати контекстного пошуку на основі текстового або графічного запиту.
Спочатку виконаємо пошук зображень на основі введення тексту. У наступному прикладі ми використовуємо введення тексту «скло посуду для напоїв» і надсилаємо його пошуковій системі для пошуку схожих предметів.
Наступний знімок екрана показує результати.
Тепер давайте подивимося на результати на основі простого зображення. Вхідне зображення перетворюється на векторні вбудовані елементи, і на основі пошуку подібності модель повертає результат.
Ви можете використовувати будь-яке зображення, але для наступного прикладу ми використовуємо випадкове зображення з набору даних на основі ідентифікатора елемента (наприклад, item_id
= “B07JCDQWM6”), а потім надішліть це зображення пошуковій системі, щоб знайти схожі елементи.
Наступний знімок екрана показує результати.
Прибирати
Щоб уникнути майбутніх витрат, видаліть ресурси, які використовуються в цьому рішенні. Ви можете зробити це, запустивши розділ очищення блокнота.
Висновок
У цьому дописі представлено покрокове керівництво щодо використання моделі Amazon Titan Multimodal Embeddings в Amazon Bedrock для створення потужних програм контекстного пошуку. Зокрема, ми продемонстрували приклад програми пошуку списку товарів. Ми побачили, як модель вбудовування забезпечує ефективне й точне виявлення інформації із зображень і текстових даних, тим самим покращуючи роботу користувача під час пошуку відповідних елементів.
Amazon Titan Multimodal Embeddings допомагає точніше та контекстно відповідніше мультимодальному пошуку, рекомендаціям і персоналізації для кінцевих користувачів. Наприклад, компанія стокової фотографії, яка має сотні мільйонів зображень, може використовувати модель для забезпечення своїх функцій пошуку, щоб користувачі могли шукати зображення за допомогою фрази, зображення або комбінації зображення та тексту.
Модель Amazon Titan Multimodal Embeddings в Amazon Bedrock тепер доступна в регіонах AWS Схід США (Північна Вірджинія) і Захід США (Орегон). Щоб дізнатися більше, зверніться до Amazon Titan Image Generator, Multimodal Embeddings і Text models тепер доступні в Amazon Bedrock, Сторінка продукту Amazon Titan, А Посібник користувача Amazon Bedrock. Щоб почати роботу з Amazon Titan Multimodal Embeddings в Amazon Bedrock, відвідайте Консоль Amazon Bedrock.
Почніть будувати з моделі Amazon Titan Multimodal Embeddings у Amazon Bedrock сьогодні.
Про авторів
Сандіп Сінгх є старшим науковцем з генеративного штучного інтелекту в Amazon Web Services, який допомагає компаніям впроваджувати інновації за допомогою генеративного штучного інтелекту. Він спеціалізується на генеративному штучному інтелекті, штучному інтелекті, машинному навчанні та системному дизайні. Він захоплений розробкою найсучасніших рішень на основі ШІ/ML для вирішення складних бізнес-завдань для різних галузей, оптимізуючи ефективність і масштабованість.
Мані Хануджа є технічним керівником – Generative AI Specialists, автором книги Applied Machine Learning and High Performance Computing on AWS, а також членом ради директорів фонду «Жінки у сфері виробничої освіти». Вона керує проектами машинного навчання в різних областях, таких як комп’ютерне бачення, обробка природної мови та генеративний штучний інтелект. Вона виступає на внутрішніх і зовнішніх конференціях, таких як AWS re:Invent, Women in Manufacturing West, вебінарах YouTube і GHC 23. У вільний час вона любить довго бігати вздовж пляжу.
Рупіндер Гревал є старшим архітектором рішень зі штучного інтелекту/ML в AWS. Зараз він зосереджується на обслуговуванні моделей і MLO на Amazon SageMaker. До цієї посади він працював інженером машинного навчання, створюючи та розміщуючи моделі. Поза роботою він любить грати в теніс і їздити на велосипеді гірськими стежками.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/build-a-contextual-text-and-image-search-engine-for-product-recommendations-using-amazon-bedrock-and-amazon-opensearch-serverless/
- : має
- :є
- : ні
- :де
- $UP
- 1
- 100
- 125
- 212
- 23
- 258
- 411
- 600
- 7
- 89
- a
- здатність
- МЕНЮ
- абстракція
- доступ
- доступний
- рахунки
- точний
- через
- Додатковий
- Перевага
- AI
- Дані ШІ
- AI / ML
- ВСІ
- по
- Також
- Amazon
- Amazon SageMaker
- Amazon Web Services
- an
- та
- кут
- будь-який
- додаток
- застосування
- прикладної
- підходи
- приблизно
- архітектура
- ЕСТЬ
- штучний
- штучний інтелект
- AS
- асоційований
- At
- увагу
- аудіо
- збільшено
- автор
- доступний
- уникнути
- AWS
- AWS re:Invent
- заснований
- BE
- Пляж
- Берклі
- між
- рада
- рада директорів
- книга
- будувати
- Створюємо
- бізнес
- підприємства
- але
- by
- CAN
- Підписи
- захопивши
- вантажі
- вибір
- Вибирати
- Вибираючи
- класифікація
- ближче
- CNN
- код
- збір
- поєднання
- комбінований
- загальний
- компанія
- порівняний
- повний
- Зроблено
- комплекс
- Компоненти
- комп'ютер
- Комп'ютерне бачення
- обчислення
- Концептуально
- конференції
- конфігурація
- підтвердити
- складається
- Консоль
- Споживачі
- зміст
- контекстуальний
- конвертувати
- перероблений
- кореляції
- Відповідний
- створювати
- створений
- В даний час
- Клієнти
- налаштувати
- дані
- доступ до даних
- наука про дані
- вчений даних
- Database
- набори даних
- дефолт
- певний
- продемонстрований
- позначає
- розгортання
- description
- дизайн
- призначений
- деталь
- деталі
- розвивати
- розвивається
- розробка
- схема
- різний
- розміри
- Директори
- відкриття
- обговорювалися
- дисплей
- Різне
- do
- домен
- домени
- під час
- кожен
- Схід
- електронної комерції
- Освіта
- ефективність
- ефективний
- Вставляти
- вбудовування
- включіть
- включений
- дозволяє
- шифрування
- двигун
- інженер
- Двигуни
- англійська
- підвищувати
- Підсилює
- підвищення
- Навколишнє середовище
- точно
- приклад
- досвід
- Досліди
- експоненціально
- зовнішній
- Знайомство
- риси
- філе
- знайти
- Перший
- фокусується
- після
- для
- фонд
- FRAME
- Безкоштовна
- від
- функція
- функціональність
- Функції
- далі
- злиття
- майбутнє
- породжувати
- генерується
- генерує
- покоління
- генеративний
- Генеративний ШІ
- generator
- отримати
- отримує
- Go
- мета
- добре
- Мати
- he
- допомога
- допомогу
- допомагає
- її
- Високий
- на вищому рівні
- вище
- хостинг
- Як
- How To
- HTML
- HTTP
- HTTPS
- величезний
- Сотні
- сотні мільйонів
- ID
- if
- ілюструє
- зображення
- Пошук зображень
- зображень
- негайно
- здійснювати
- реалізація
- важливо
- удосконалювати
- in
- включати
- includes
- індекс
- покажчики
- індивідуальний
- промисловості
- інформація
- оновлювати
- вхід
- екземпляр
- інтегрований
- Інтелект
- взаємодія
- Взаємодії
- внутрішній
- в
- IT
- пунктів
- ЙОГО
- спільна
- JPEG
- ключ
- мова
- великий
- масштабний
- шарів
- вести
- Веде за собою
- УЧИТЬСЯ
- вивчення
- вчиться
- libraries
- як
- Сподобалося
- список
- оголошення
- LLM
- Довго
- подивитися
- шукати
- машина
- навчання за допомогою машини
- made
- РОБОТИ
- виробництво
- сірники
- Може..
- значущим
- вимір
- заходи
- механізми
- член
- Меню
- метадані
- метрика
- мільйони
- ML
- MLOps
- модель
- моделювання
- Моделі
- більше
- Гора
- повинен
- ім'я
- Імена
- Природний
- Обробка природних мов
- навігація
- сусіди
- мережу
- мережева безпека
- нервовий
- нейронної мережі
- Нові
- ноутбук
- зараз
- номер
- об'єкти
- of
- on
- On-Demand
- тільки
- відкрити
- операції
- Оптимізувати
- оптимізуючий
- or
- Орегон
- наші
- вихід
- поза
- загальний
- огляд
- пакети
- пар
- панди
- pane
- приватність
- частини
- пристрасний
- Виконувати
- продуктивність
- виступає
- Втілення
- фаза
- малюнок
- plato
- Інформація про дані Платона
- PlatoData
- ігри
- Політика
- політика
- об'єднання
- пошта
- влада
- Харчування
- потужний
- Готувати
- підготовка
- передумова
- представлений
- попередній
- проблеми
- процес
- обробка
- Product
- Продукти
- профіль
- проект
- проектів
- прототип
- забезпечувати
- за умови
- забезпечує
- громадськість
- публічно
- Python
- запити
- запит
- ганчіркою
- випадковий
- RE
- готовий
- реального часу
- рекомендувати
- Рекомендація
- рекомендації
- послатися
- райони
- доречний
- представляти
- подання
- вимагається
- ресурси
- ті
- результат
- результати
- роздрібна торгівля
- пошук
- повернення
- Умови повернення
- Зростання
- Роль
- прогін
- біг
- пробіжки
- мудрець
- користь
- то ж
- бачив
- масштабованість
- наука
- вчений
- скріншоти
- Пошук
- Пошукова система
- Пошукові системи
- Грати короля карти - безкоштовно Nijumi логічна гра гри
- розділ
- розділам
- безпеку
- вибирає
- смисловий
- семантика
- послати
- старший
- окремий
- Без сервера
- служить
- обслуговування
- Послуги
- виступаючої
- комплект
- загальні
- вона
- Повинен
- Показувати
- показаний
- Шоу
- аналогічний
- простий
- менше
- So
- рішення
- Рішення
- ВИРІШИТИ
- деякі
- Простір
- Говорить
- спеціаліст
- Фахівці
- спеціалізується
- конкретний
- швидкість
- почалася
- впроваджений
- Статус
- заходи
- акції
- зберігання
- зберігати
- зберігати
- зберігання
- просто
- студія
- такі
- Опори
- система
- Systems
- завдання
- технології
- теніс
- текст
- текстуальний
- Що
- Команда
- суглоб
- їх
- Їх
- потім
- тим самим
- Ці
- це
- три
- через
- час
- велетень
- до
- сьогодні
- разом
- топ
- Навчання
- Переклад
- два
- при
- що лежить в основі
- розуміти
- розуміння
- створеного
- us
- використання
- використовуваний
- користувач
- User Experience
- користувачі
- використовує
- використання
- різний
- через
- Віргінія
- бачення
- візит
- покрокове керівництво
- we
- Web
- веб-сервіси
- Вебінари
- West
- Що
- коли
- який
- в той час як
- Вікіпедія
- волі
- з
- жінки
- Work
- працював
- робочий
- працює
- Ти
- вашу
- YouTube
- зефірнет