Генерация текста в изображение — это быстро развивающаяся область искусственного интеллекта, имеющая приложения в различных областях, таких как средства массовой информации и развлечения, игры, визуализация продуктов электронной коммерции, реклама и маркетинг, архитектурный дизайн и визуализация, художественные произведения и медицинские изображения.
Стабильная диффузия — это модель преобразования текста в изображение, которая позволяет создавать высококачественные изображения за считанные секунды. В ноябре 2022 года мы объявило что клиенты AWS могут создавать изображения из текста с помощью Стабильная диффузия модели в Amazon SageMaker JumpStart, центр машинного обучения (ML), предлагающий модели, алгоритмы и решения. Эволюция продолжилась в апреле 2023 года с введением Коренная порода Амазонки, полностью управляемый сервис, предлагающий доступ к новейшим моделям фундаментов, включая Stable Diffusion, через удобный API.
По мере того, как постоянно растущее число клиентов приступает к преобразованию текста в изображение, возникает общая проблема — как создавать подсказки, способные создавать высококачественные целевые изображения. Эта задача часто требует значительного времени и ресурсов, поскольку пользователи отправляются в цикл экспериментов, чтобы найти подсказки, соответствующие их представлениям.
Поисковая дополненная генерация (RAG) — это процесс, в котором языковая модель извлекает контекстные документы из внешнего источника данных и использует эту информацию для создания более точного и информативного текста. Этот метод особенно полезен для наукоемких задач обработки естественного языка (НЛП). Теперь мы распространяем его преобразующее воздействие на мир преобразования текста в изображение. В этом посте мы покажем, как использовать возможности RAG для улучшения подсказок, отправляемых в ваши модели стабильной диффузии. Вы можете создать своего собственного помощника искусственного интеллекта для генерации подсказок за считанные минуты с помощью больших языковых моделей (LLM) на Amazon Bedrock, а также на SageMaker JumpStart.
Подходы к созданию текстовых подсказок в изображении
Создание подсказки для модели преобразования текста в изображение может показаться на первый взгляд простой задачей, но это обманчиво сложная задача. Это больше, чем просто набрать несколько слов и ожидать, что модель создаст в воображении образ, соответствующий вашему мысленному образу. Эффективные подсказки должны содержать четкие инструкции, оставляя при этом место для творчества. Они должны балансировать между специфичностью и двусмысленностью и быть адаптированы к конкретной используемой модели. Для решения проблемы оперативного проектирования отрасль исследовала различные подходы:
- Подскажите библиотеки – Некоторые компании создают библиотеки заранее написанных подсказок, к которым вы можете получить доступ и настроить их. Эти библиотеки содержат широкий спектр подсказок, адаптированных к различным вариантам использования, что позволяет вам выбирать или адаптировать подсказки в соответствии с вашими конкретными потребностями.
- Шаблоны подсказок и рекомендации – Многие компании и организации предоставляют пользователям набор предопределенных шаблонов подсказок и рекомендаций. Эти шаблоны предлагают структурированные форматы для написания подсказок, что упрощает создание эффективных инструкций.
- Вклад сообщества и пользователей – Краудсорсинговые платформы и сообщества пользователей часто играют важную роль в улучшении подсказок. Пользователи могут делиться с сообществом своими отточенными моделями, успешными подсказками, советами и передовым опытом, помогая другим изучать и совершенствовать свои навыки написания подсказок.
- Тонкая настройка модели – Компании могут точно настроить свои модели преобразования текста в изображение, чтобы лучше понимать определенные типы подсказок и реагировать на них. Точная настройка может улучшить производительность модели для конкретных областей или вариантов использования.
В совокупности эти отраслевые подходы направлены на то, чтобы сделать процесс создания эффективных подсказок для преобразования текста в изображение более доступным, удобным для пользователя и эффективным, что в конечном итоге повышает удобство использования и универсальность моделей преобразования текста в изображение для широкого спектра приложений.
Использование RAG для быстрого проектирования
В этом разделе мы углубимся в то, как методы RAG могут изменить правила игры в оперативном проектировании, работая в гармонии с этими существующими подходами. Путем плавной интеграции RAG в процесс мы можем оптимизировать и повысить эффективность оперативного проектирования.
Семантический поиск в оперативной базе данных
Представьте себе компанию, которая накопила обширное хранилище подсказок в своей библиотеке подсказок или создала большое количество шаблонов подсказок, каждый из которых предназначен для конкретных случаев использования и целей. Традиционно пользователи, ищущие вдохновение для своих подсказок для преобразования текста в изображение, вручную просматривали эти библиотеки, часто просматривая обширные списки опций. Этот процесс может занять много времени и быть неэффективным. Встраивая подсказки из библиотеки подсказок с помощью моделей встраивания текста, компании могут создать систему семантического поиска. Вот как это работает:
- Встраивание подсказок – Компания использует встраивание текста для преобразования каждого приглашения в своей библиотеке в числовое представление. Эти вложения отражают семантическое значение и контекст подсказок.
- Пользовательский запрос – Когда пользователи предоставляют свои собственные подсказки или описывают желаемое изображение, система также может анализировать и вставлять их вводимые данные.
- Семантический поиск – Используя вложения, система осуществляет семантический поиск. Он извлекает наиболее релевантные подсказки из библиотеки на основе запроса пользователя, учитывая как вводимые пользователем данные, так и исторические данные в библиотеке подсказок.
Внедряя семантический поиск в свои библиотеки подсказок, компании дают своим сотрудникам возможность легко получать доступ к огромному резервуару подсказок. Такой подход не только ускоряет быстрое создание, но также поощряет творческий подход и последовательность при преобразовании текста в изображение.
Оперативная генерация из семантического поиска
Хотя семантический поиск упрощает процесс поиска релевантных подсказок, RAG делает еще один шаг вперед, используя результаты поиска для создания оптимизированных подсказок. Вот как это работает:
- Результаты семантического поиска – После получения наиболее релевантных подсказок из библиотеки система представляет эти подсказки пользователю вместе с исходным вводом пользователя.
- Модель генерации текста – Пользователь может выбрать подсказку из результатов поиска или предоставить дополнительный контекст своих предпочтений. Система передает как выбранное приглашение, так и вводимые пользователем данные в LLM.
- Оптимизированная подсказка – LLM, учитывая языковые нюансы, создает оптимизированное приглашение, которое объединяет элементы выбранного приглашения и ввода пользователя. Эта новая подсказка адаптирована к требованиям пользователя и предназначена для получения желаемого изображения.
Сочетание семантического поиска и генерации подсказок не только упрощает процесс поиска подсказок, но также гарантирует, что создаваемые подсказки будут очень актуальными и эффективными. Это дает вам возможность точно настраивать и настраивать подсказки, что в конечном итоге приводит к улучшению результатов преобразования текста в изображение. Ниже приведены примеры изображений, созданных в Stable Diffusion XL с использованием подсказок семантического поиска и генерации подсказок.
Исходная подсказка | Подсказки семантического поиска | Оптимизированная подсказка от LLM |
мультфильм про маленькую собачку |
|
Мультяшная сцена о мальчике, счастливо идущем рука об руку по лесной тропе со своей милой собакой, в анимационном стиле. |
Приложения для быстрого проектирования на основе RAG в различных отраслях
Прежде чем мы рассмотрим применение предложенной нами архитектуры RAG, давайте начнем с отрасли, в которой модель генерации изображений наиболее применима. В AdTech скорость и креативность имеют решающее значение. Генерация подсказок на основе RAG может мгновенно повысить ценность за счет создания подсказок для быстрого создания множества изображений для рекламной кампании. Лица, принимающие решения, могут просмотреть автоматически сгенерированные изображения, чтобы выбрать изображение-кандидат для кампании. Эта функция может быть отдельным приложением или встроена в популярные программные инструменты и платформы, доступные в настоящее время.
Еще одна отрасль, в которой модель стабильного распространения может повысить производительность, — это средства массовой информации и развлечения. Архитектура RAG может помочь, например, в сценариях создания аватаров. Начиная с простой подсказки, RAG может добавить к идеям аватаров гораздо больше цвета и характеристик. Он может генерировать множество подсказок кандидатам и предлагать больше творческих идей. Из этих сгенерированных изображений вы можете найти вариант, идеально подходящий для данного приложения. Это повышает производительность, автоматически генерируя множество подсказок. Вариант, который он может придумать, является непосредственной выгодой от решения.
Обзор решения
Предоставление клиентам возможности создавать собственных ИИ-помощников на базе RAG для оперативного проектирования на AWS является свидетельством универсальности современных технологий. AWS предоставляет множество опций и сервисов для облегчения этой задачи. На следующей эталонной схеме архитектуры показано приложение RAG для оперативного проектирования на AWS.
Когда дело доходит до выбора подходящего LLM для вашего помощника по искусственному интеллекту, AWS предлагает широкий выбор вариантов, отвечающих вашим конкретным требованиям.
Во-первых, вы можете выбрать LLM, доступные через SageMaker JumpStart, используя выделенные экземпляры. Эти экземпляры поддерживают различные модели, включая Falcon, Llama 2, Bloom Z и Flan-T5, или вы можете изучить собственные модели, такие как Cohere’s Command and Multilingual Embedding или Jurassic-2 от AI21 Labs.
Если вы предпочитаете более упрощенный подход, AWS предлагает программы LLM на Коренная порода Амазонки, с участием таких моделей, как Амазонка Титан и Антропический Клод. Эти модели легко доступны через простые вызовы API, что позволяет вам без труда использовать их возможности. Гибкость и разнообразие вариантов гарантируют, что у вас есть свобода выбора LLM, который лучше всего соответствует вашим оперативным целям проектирования, ищете ли вы инновации с открытыми контейнерами или надежные возможности запатентованных моделей.
Когда дело доходит до создания необходимой векторной базы данных, AWS предоставляет множество возможностей через свои собственные сервисы. Вы можете выбрать Сервис Amazon OpenSearch, Амазон Аврораили Сервис реляционных баз данных Amazon (Amazon RDS) для PostgreSQL, каждый из которых предлагает надежные функции, отвечающие вашим конкретным потребностям. Кроме того, вы можете изучить продукты партнеров AWS, таких как Pinecone, Weaviate, Elastic, Milvus или Chroma, которые предоставляют специализированные решения для эффективного хранения и поиска векторных данных.
Чтобы помочь вам приступить к созданию помощника искусственного интеллекта на основе RAG для быстрого проектирования, мы подготовили подробную демонстрацию в нашей статье. GitHub хранилище. В этой демонстрации используются следующие ресурсы:
- Генерация изображений: Stable Diffusion XL на Amazon Bedrock
- Встраивание текста: Amazon Titan на Amazon Bedrock
- Генерация текста: Клод 2 на Amazon Bedrock
- База данных векторов: FAISS, библиотека с открытым исходным кодом для эффективного поиска по сходству.
- Библиотека подсказок: Примеры подсказок из Диффузионная база данных, первый крупномасштабный набор данных галереи подсказок для генеративных моделей преобразования текста в изображение.
Кроме того, мы внедрили LangChain для реализации LLM и Streamit для компонента веб-приложения, что обеспечивает бесперебойную и удобную работу.
Предпосылки
Для запуска этого демонстрационного приложения вам необходимо иметь следующее:
- Аккаунт AWS
- Базовое понимание того, как ориентироваться Студия Amazon SageMaker
- Базовое понимание того, как загрузить репо с GitHub
- Базовые знания о запуске команды на терминале
Запустите демонстрационное приложение
Весь необходимый код с инструкциями вы можете скачать на сайте GitHub репо. После развертывания приложения вы увидите страницу, похожую на следующий снимок экрана.
С помощью этой демонстрации мы стремимся сделать процесс внедрения доступным и понятным, предоставив вам практический опыт, который поможет вам начать свое путешествие в мир RAG и оперативного проектирования на AWS.
Убирать
После того, как вы опробуете приложение, очистите свои ресурсы, остановив приложение.
Заключение
RAG стал парадигмой, меняющей правила игры в мире быстрого дизайна, возрождая возможности Stable Diffusion по преобразованию текста в изображение. Гармонизируя методы RAG с существующими подходами и используя надежные ресурсы AWS, мы открыли путь к оптимизации творчества и ускорению обучения.
Дополнительные ресурсы можно найти по следующему адресу:
Об авторах
Джеймс Йи является старшим архитектором партнерских решений AI/ML в команде Emerging Technologies в Amazon Web Services. Он увлечен работой с корпоративными клиентами и партнерами над проектированием, развертыванием и масштабированием приложений AI/ML для получения их бизнес-ценностей. Вне работы он любит играть в футбол, путешествовать и проводить время со своей семьей.
Руми Олсен является архитектором решений в партнерской программе AWS. На своей текущей должности она специализируется на бессерверных решениях и решениях для машинного обучения, а также имеет опыт работы с технологиями обработки естественного языка. Она проводит большую часть своего свободного времени со своей дочерью, исследуя природу Тихоокеанского Северо-Запада.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/improve-your-stable-diffusion-prompts-with-retrieval-augmented-generation/
- :имеет
- :является
- :нет
- :куда
- $UP
- 100
- 14
- 2022
- 2023
- 210
- 7
- a
- О нас
- ускоренный
- ускоряет
- доступ
- доступной
- накопленный
- точный
- через
- приспосабливать
- Добавить
- дополнительный
- адрес
- Реклама
- Реклама
- После
- AI
- Помощник АИ
- AI / ML
- цель
- алгоритмы
- выравнивать
- Выравнивает
- Все
- Позволяющий
- рядом
- причислены
- Amazon
- Амазон РДС
- Amazon Web Services
- Двусмысленность
- an
- анализировать
- и
- анимация
- Аниме
- Антропный
- API
- приложение
- отношение
- Применение
- Приложения
- подхода
- подходы
- апрель
- архитектурный
- архитектура
- МЫ
- области
- искусственный
- искусственный интеллект
- художественный
- AS
- помощь
- помощник
- At
- дополненная
- автоматически
- доступен
- аватар
- AWS
- фон
- Баланс
- основанный
- BE
- не являетесь
- польза
- ЛУЧШЕЕ
- лучшие практики
- Лучшая
- Цвести
- изоферменты печени
- строить
- Строительство
- бизнес
- но
- by
- Объявления
- Кампания
- CAN
- кандидат
- возможности
- захватить
- мультфильм
- случаев
- обслуживать
- вызов
- Переключатель
- характеристика
- выбор
- Выберите
- чистым
- Очистить
- код
- коллективно
- цвет
- сочетание
- комбинаты
- как
- выходит
- Общий
- Сообщества
- сообщество
- Компании
- Компания
- комплекс
- компонент
- комплексный
- значительный
- принимая во внимание
- строить
- содержать
- Контейнеры
- контекст
- контекстной
- продолжающийся
- взносы
- Удобно
- конвертировать
- выработать
- Создайте
- создали
- создание
- творения
- творческий
- креативность
- критической
- Текущий
- В настоящее время
- Клиенты
- настроить
- передовой
- данным
- База данных
- лица, принимающие решения
- преданный
- копаться
- запросы
- демонстрация
- демонстрировать
- развертывание
- развернуть
- выводить
- описывать
- Проект
- предназначенный
- желанный
- Вещание
- Ужин
- обнаружить
- Разное
- Разнообразие
- Документация
- Собака
- доменов
- вниз
- скачать
- каждый
- легко
- электронной коммерции
- Эффективный
- затрат
- эффективный
- легко
- элементы
- начинать
- вставлять
- встроенный
- вложения
- появившийся
- появление
- новые технологии
- сотрудников
- расширение прав и возможностей
- Наделяет
- призывает
- прилагать усилия
- усилия
- Двигатель
- Проект и
- повышать
- повышение
- обеспечивать
- обеспечивает
- Предприятие
- Развлечения
- существенный
- постоянно растет
- эволюция
- пример
- Примеры
- существующий
- ожидается
- опыт
- Больше
- Разведанный
- Исследование
- продлить
- обширный
- и, что лучший способ
- содействовал
- семья
- Особенность
- Особенности
- Показывая
- несколько
- поле
- Найдите
- обнаружение
- Во-первых,
- соответствовать
- Трансформируемость
- после
- Что касается
- лес
- Год основания
- Freedom
- от
- полностью
- далее
- Фото
- игра
- игра-чейнджер
- игровой
- порождать
- генерируется
- порождающий
- поколение
- генеративный
- получить
- данный
- взгляд
- Go
- Цели
- Рост
- методические рекомендации
- рука
- практический
- Гармония
- упряжь
- Есть
- имеющий
- he
- помощь
- помощь
- ее
- высококачественный
- очень
- его
- исторический
- Как
- How To
- HTML
- HTTPS
- хаб
- человек
- препятствие
- идеи
- иллюстрирует
- изображение
- изображений
- Изображениями
- немедленная
- реализация
- Осуществляющий
- улучшать
- улучшенный
- улучшение
- in
- В том числе
- включенный
- Увеличивает
- промышленность
- неэффективное
- информация
- информативный
- Инновации
- вход
- Вдохновение
- мгновение
- инструкции
- Интегрируя
- Интеллекта
- в
- Введение
- IT
- ЕГО
- путешествие
- JPG
- всего
- знания
- Labs
- Переулок
- язык
- большой
- крупномасштабный
- ведущий
- УЧИТЬСЯ
- изучение
- уход
- библиотеки
- Библиотека
- такое как
- Списки
- мало
- Лама
- LLM
- машина
- обучение с помощью машины
- сделать
- Создание
- управляемого
- вручную
- многих
- Маркетинг
- Май..
- смысл
- Медиа
- основным медицинским
- психический
- Минут
- ML
- модель
- Модели
- Модерн
- БОЛЕЕ
- самых
- много
- множество
- должен
- родной
- натуральный
- Обработка естественного языка
- природа
- Откройте
- необходимо
- Необходимость
- потребности
- Новые
- НЛП
- Ноябрь
- сейчас
- нюансы
- номер
- целей
- of
- предлагают
- предлагающий
- Предложения
- .
- on
- только
- открытый
- с открытым исходным кодом
- оптимизированный
- Опции
- or
- организации
- оригинал
- Другое
- наши
- внешний
- выходной
- внешнюю
- собственный
- Тихий океан
- страница
- парадигма
- особый
- особенно
- партнер
- партнеры
- страстный
- путь
- ИДЕАЛЬНОЕ
- производительность
- выполняет
- Платформы
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Играть
- игры
- полнокровие
- Популярное
- После
- мощностью
- практиками
- предпочитать
- предпочтения
- разрабатывает
- процесс
- обработка
- Продукт
- производительность
- Продукция
- FitPartner™
- наводящие
- ( изучите наши патенты),
- обеспечивать
- приводит
- обеспечение
- положил
- быстро
- ассортимент
- быстро
- ссылка
- совершенствовать
- соответствующие
- хранилище
- представление
- Требования
- Полезные ресурсы
- Реагируйте
- Итоги
- правую
- надежный
- Роли
- Комната
- Run
- Бег
- sagemaker
- Шкала
- сцена
- бесшовные
- легко
- Поиск
- Поисковая система
- секунды
- Раздел
- посмотреть
- поиск
- казаться
- выберите
- выбранный
- выбор
- старший
- послать
- служить
- Serverless
- обслуживание
- Услуги
- набор
- Поделиться
- она
- должен
- значительный
- просто
- упрощенный
- упрощает
- навыки
- Футбольный
- Software
- Решение
- Решения
- некоторые
- Источник
- специализированный
- специализируется
- конкретный
- специфичность
- Спектр
- скорость
- Расходы
- стабильный
- автономные
- Начало
- и политические лидеры
- Начало
- Шаг
- остановка
- диск
- простой
- упорядочить
- обтекаемый
- тока
- структурированный
- стиль
- успешный
- такие
- Костюм
- поддержка
- система
- с учетом
- принимает
- Сложность задачи
- задачи
- команда
- техника
- снижения вреда
- технологии
- Технологии
- шаблоны
- воли
- текст
- чем
- который
- Ассоциация
- мир
- их
- Эти
- они
- этой
- Через
- время
- кропотливый
- Советы
- исполин
- в
- вместе
- инструменты
- трогать
- Традиционно
- преобразующей
- Путешествие
- стараться
- Типы
- В конечном счете
- непокрытый
- понимать
- понимание
- юзабилити
- использование
- используемый
- Информация о пользователе
- удобно
- пользователей
- использования
- через
- Использующий
- ценностное
- Наши ценности
- разнообразие
- различный
- Огромная
- многосторонность
- видения
- Войти
- визуализация
- ходьба
- we
- Web
- веб приложение
- веб-сервисы
- ЧТО Ж
- когда
- будь то
- который
- в то время как
- белый
- широкий
- Широкий диапазон
- будете
- в
- слова
- Работа
- работает
- работает
- Мир
- бы
- письмо
- Уступать
- Ты
- ВАШЕ
- зефирнет