Улучшите подсказки Stable Diffusion с помощью Retrival Augmented Generation | Веб-сервисы Amazon

Улучшите подсказки Stable Diffusion с помощью Retrival Augmented Generation | Веб-сервисы Amazon

Генерация текста в изображение — это быстро развивающаяся область искусственного интеллекта, имеющая приложения в различных областях, таких как средства массовой информации и развлечения, игры, визуализация продуктов электронной коммерции, реклама и маркетинг, архитектурный дизайн и визуализация, художественные произведения и медицинские изображения.

Стабильная диффузия — это модель преобразования текста в изображение, которая позволяет создавать высококачественные изображения за считанные секунды. В ноябре 2022 года мы объявило что клиенты AWS могут создавать изображения из текста с помощью Стабильная диффузия модели в Amazon SageMaker JumpStart, центр машинного обучения (ML), предлагающий модели, алгоритмы и решения. Эволюция продолжилась в апреле 2023 года с введением Коренная порода Амазонки, полностью управляемый сервис, предлагающий доступ к новейшим моделям фундаментов, включая Stable Diffusion, через удобный API.

По мере того, как постоянно растущее число клиентов приступает к преобразованию текста в изображение, возникает общая проблема — как создавать подсказки, способные создавать высококачественные целевые изображения. Эта задача часто требует значительного времени и ресурсов, поскольку пользователи отправляются в цикл экспериментов, чтобы найти подсказки, соответствующие их представлениям.

Поисковая дополненная генерация (RAG) — это процесс, в котором языковая модель извлекает контекстные документы из внешнего источника данных и использует эту информацию для создания более точного и информативного текста. Этот метод особенно полезен для наукоемких задач обработки естественного языка (НЛП). Теперь мы распространяем его преобразующее воздействие на мир преобразования текста в изображение. В этом посте мы покажем, как использовать возможности RAG для улучшения подсказок, отправляемых в ваши модели стабильной диффузии. Вы можете создать своего собственного помощника искусственного интеллекта для генерации подсказок за считанные минуты с помощью больших языковых моделей (LLM) на Amazon Bedrock, а также на SageMaker JumpStart.

Подходы к созданию текстовых подсказок в изображении

Создание подсказки для модели преобразования текста в изображение может показаться на первый взгляд простой задачей, но это обманчиво сложная задача. Это больше, чем просто набрать несколько слов и ожидать, что модель создаст в воображении образ, соответствующий вашему мысленному образу. Эффективные подсказки должны содержать четкие инструкции, оставляя при этом место для творчества. Они должны балансировать между специфичностью и двусмысленностью и быть адаптированы к конкретной используемой модели. Для решения проблемы оперативного проектирования отрасль исследовала различные подходы:

  • Подскажите библиотеки – Некоторые компании создают библиотеки заранее написанных подсказок, к которым вы можете получить доступ и настроить их. Эти библиотеки содержат широкий спектр подсказок, адаптированных к различным вариантам использования, что позволяет вам выбирать или адаптировать подсказки в соответствии с вашими конкретными потребностями.
  • Шаблоны подсказок и рекомендации – Многие компании и организации предоставляют пользователям набор предопределенных шаблонов подсказок и рекомендаций. Эти шаблоны предлагают структурированные форматы для написания подсказок, что упрощает создание эффективных инструкций.
  • Вклад сообщества и пользователей – Краудсорсинговые платформы и сообщества пользователей часто играют важную роль в улучшении подсказок. Пользователи могут делиться с сообществом своими отточенными моделями, успешными подсказками, советами и передовым опытом, помогая другим изучать и совершенствовать свои навыки написания подсказок.
  • Тонкая настройка модели – Компании могут точно настроить свои модели преобразования текста в изображение, чтобы лучше понимать определенные типы подсказок и реагировать на них. Точная настройка может улучшить производительность модели для конкретных областей или вариантов использования.

В совокупности эти отраслевые подходы направлены на то, чтобы сделать процесс создания эффективных подсказок для преобразования текста в изображение более доступным, удобным для пользователя и эффективным, что в конечном итоге повышает удобство использования и универсальность моделей преобразования текста в изображение для широкого спектра приложений.

Использование RAG для быстрого проектирования

В этом разделе мы углубимся в то, как методы RAG могут изменить правила игры в оперативном проектировании, работая в гармонии с этими существующими подходами. Путем плавной интеграции RAG в процесс мы можем оптимизировать и повысить эффективность оперативного проектирования.

Семантический поиск в оперативной базе данных

Представьте себе компанию, которая накопила обширное хранилище подсказок в своей библиотеке подсказок или создала большое количество шаблонов подсказок, каждый из которых предназначен для конкретных случаев использования и целей. Традиционно пользователи, ищущие вдохновение для своих подсказок для преобразования текста в изображение, вручную просматривали эти библиотеки, часто просматривая обширные списки опций. Этот процесс может занять много времени и быть неэффективным. Встраивая подсказки из библиотеки подсказок с помощью моделей встраивания текста, компании могут создать систему семантического поиска. Вот как это работает:

  • Встраивание подсказок – Компания использует встраивание текста для преобразования каждого приглашения в своей библиотеке в числовое представление. Эти вложения отражают семантическое значение и контекст подсказок.
  • Пользовательский запрос – Когда пользователи предоставляют свои собственные подсказки или описывают желаемое изображение, система также может анализировать и вставлять их вводимые данные.
  • Семантический поиск – Используя вложения, система осуществляет семантический поиск. Он извлекает наиболее релевантные подсказки из библиотеки на основе запроса пользователя, учитывая как вводимые пользователем данные, так и исторические данные в библиотеке подсказок.

Внедряя семантический поиск в свои библиотеки подсказок, компании дают своим сотрудникам возможность легко получать доступ к огромному резервуару подсказок. Такой подход не только ускоряет быстрое создание, но также поощряет творческий подход и последовательность при преобразовании текста в изображение.

Улучшите подсказки Stable Diffusion с помощью Retrival Augmented Generation | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Оперативная генерация из семантического поиска

Хотя семантический поиск упрощает процесс поиска релевантных подсказок, RAG делает еще один шаг вперед, используя результаты поиска для создания оптимизированных подсказок. Вот как это работает:

  • Результаты семантического поиска – После получения наиболее релевантных подсказок из библиотеки система представляет эти подсказки пользователю вместе с исходным вводом пользователя.
  • Модель генерации текста – Пользователь может выбрать подсказку из результатов поиска или предоставить дополнительный контекст своих предпочтений. Система передает как выбранное приглашение, так и вводимые пользователем данные в LLM.
  • Оптимизированная подсказка – LLM, учитывая языковые нюансы, создает оптимизированное приглашение, которое объединяет элементы выбранного приглашения и ввода пользователя. Эта новая подсказка адаптирована к требованиям пользователя и предназначена для получения желаемого изображения.

Сочетание семантического поиска и генерации подсказок не только упрощает процесс поиска подсказок, но также гарантирует, что создаваемые подсказки будут очень актуальными и эффективными. Это дает вам возможность точно настраивать и настраивать подсказки, что в конечном итоге приводит к улучшению результатов преобразования текста в изображение. Ниже приведены примеры изображений, созданных в Stable Diffusion XL с использованием подсказок семантического поиска и генерации подсказок.

Исходная подсказка Подсказки семантического поиска Оптимизированная подсказка от LLM

мультфильм про маленькую собачку

Улучшите подсказки Stable Diffusion с помощью Retrival Augmented Generation | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

  • Милый мультфильм о собаке, которая ест сэндвич за обеденным столом
  • мультяшная иллюстрация панк-собаки, стиль аниме, белый фон
  • мультфильм о мальчике и его собаке, идущих по лесной тропе

Улучшите подсказки Stable Diffusion с помощью Retrival Augmented Generation | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Мультяшная сцена о мальчике, счастливо идущем рука об руку по лесной тропе со своей милой собакой, в анимационном стиле.

Улучшите подсказки Stable Diffusion с помощью Retrival Augmented Generation | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Приложения для быстрого проектирования на основе RAG в различных отраслях

Прежде чем мы рассмотрим применение предложенной нами архитектуры RAG, давайте начнем с отрасли, в которой модель генерации изображений наиболее применима. В AdTech скорость и креативность имеют решающее значение. Генерация подсказок на основе RAG может мгновенно повысить ценность за счет создания подсказок для быстрого создания множества изображений для рекламной кампании. Лица, принимающие решения, могут просмотреть автоматически сгенерированные изображения, чтобы выбрать изображение-кандидат для кампании. Эта функция может быть отдельным приложением или встроена в популярные программные инструменты и платформы, доступные в настоящее время.

Еще одна отрасль, в которой модель стабильного распространения может повысить производительность, — это средства массовой информации и развлечения. Архитектура RAG может помочь, например, в сценариях создания аватаров. Начиная с простой подсказки, RAG может добавить к идеям аватаров гораздо больше цвета и характеристик. Он может генерировать множество подсказок кандидатам и предлагать больше творческих идей. Из этих сгенерированных изображений вы можете найти вариант, идеально подходящий для данного приложения. Это повышает производительность, автоматически генерируя множество подсказок. Вариант, который он может придумать, является непосредственной выгодой от решения.

Обзор решения

Предоставление клиентам возможности создавать собственных ИИ-помощников на базе RAG для оперативного проектирования на AWS является свидетельством универсальности современных технологий. AWS предоставляет множество опций и сервисов для облегчения этой задачи. На следующей эталонной схеме архитектуры показано приложение RAG для оперативного проектирования на AWS.

Улучшите подсказки Stable Diffusion с помощью Retrival Augmented Generation | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Когда дело доходит до выбора подходящего LLM для вашего помощника по искусственному интеллекту, AWS предлагает широкий выбор вариантов, отвечающих вашим конкретным требованиям.

Во-первых, вы можете выбрать LLM, доступные через SageMaker JumpStart, используя выделенные экземпляры. Эти экземпляры поддерживают различные модели, включая Falcon, Llama 2, Bloom Z и Flan-T5, или вы можете изучить собственные модели, такие как Cohere’s Command and Multilingual Embedding или Jurassic-2 от AI21 Labs.

Если вы предпочитаете более упрощенный подход, AWS предлагает программы LLM на Коренная порода Амазонки, с участием таких моделей, как Амазонка Титан и Антропический Клод. Эти модели легко доступны через простые вызовы API, что позволяет вам без труда использовать их возможности. Гибкость и разнообразие вариантов гарантируют, что у вас есть свобода выбора LLM, который лучше всего соответствует вашим оперативным целям проектирования, ищете ли вы инновации с открытыми контейнерами или надежные возможности запатентованных моделей.

Когда дело доходит до создания необходимой векторной базы данных, AWS предоставляет множество возможностей через свои собственные сервисы. Вы можете выбрать Сервис Amazon OpenSearch, Амазон Аврораили Сервис реляционных баз данных Amazon (Amazon RDS) для PostgreSQL, каждый из которых предлагает надежные функции, отвечающие вашим конкретным потребностям. Кроме того, вы можете изучить продукты партнеров AWS, таких как Pinecone, Weaviate, Elastic, Milvus или Chroma, которые предоставляют специализированные решения для эффективного хранения и поиска векторных данных.

Чтобы помочь вам приступить к созданию помощника искусственного интеллекта на основе RAG для быстрого проектирования, мы подготовили подробную демонстрацию в нашей статье. GitHub хранилище. В этой демонстрации используются следующие ресурсы:

  • Генерация изображений: Stable Diffusion XL на Amazon Bedrock
  • Встраивание текста: Amazon Titan на Amazon Bedrock
  • Генерация текста: Клод 2 на Amazon Bedrock
  • База данных векторов: FAISS, библиотека с открытым исходным кодом для эффективного поиска по сходству.
  • Библиотека подсказок: Примеры подсказок из Диффузионная база данных, первый крупномасштабный набор данных галереи подсказок для генеративных моделей преобразования текста в изображение.

Кроме того, мы внедрили LangChain для реализации LLM и Streamit для компонента веб-приложения, что обеспечивает бесперебойную и удобную работу.

Предпосылки

Для запуска этого демонстрационного приложения вам необходимо иметь следующее:

  • Аккаунт AWS
  • Базовое понимание того, как ориентироваться Студия Amazon SageMaker
  • Базовое понимание того, как загрузить репо с GitHub
  • Базовые знания о запуске команды на терминале

Запустите демонстрационное приложение

Весь необходимый код с инструкциями вы можете скачать на сайте GitHub репо. После развертывания приложения вы увидите страницу, похожую на следующий снимок экрана.

Улучшите подсказки Stable Diffusion с помощью Retrival Augmented Generation | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

С помощью этой демонстрации мы стремимся сделать процесс внедрения доступным и понятным, предоставив вам практический опыт, который поможет вам начать свое путешествие в мир RAG и оперативного проектирования на AWS.

Убирать

После того, как вы опробуете приложение, очистите свои ресурсы, остановив приложение.

Заключение

RAG стал парадигмой, меняющей правила игры в мире быстрого дизайна, возрождая возможности Stable Diffusion по преобразованию текста в изображение. Гармонизируя методы RAG с существующими подходами и используя надежные ресурсы AWS, мы открыли путь к оптимизации творчества и ускорению обучения.

Дополнительные ресурсы можно найти по следующему адресу:


Об авторах

Улучшите подсказки Stable Diffusion с помощью Retrival Augmented Generation | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Джеймс Йи является старшим архитектором партнерских решений AI/ML в команде Emerging Technologies в Amazon Web Services. Он увлечен работой с корпоративными клиентами и партнерами над проектированием, развертыванием и масштабированием приложений AI/ML для получения их бизнес-ценностей. Вне работы он любит играть в футбол, путешествовать и проводить время со своей семьей.

Улучшите подсказки Stable Diffusion с помощью Retrival Augmented Generation | Веб-сервисы Amazon PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.Руми Олсен является архитектором решений в партнерской программе AWS. На своей текущей должности она специализируется на бессерверных решениях и решениях для машинного обучения, а также имеет опыт работы с технологиями обработки естественного языка. Она проводит большую часть своего свободного времени со своей дочерью, исследуя природу Тихоокеанского Северо-Запада.

Отметка времени:

Больше от Машинное обучение AWS