Покращуйте підказки Stable Diffusion за допомогою Retrieval Augmented Generation | Веб-сервіси Amazon

Покращуйте підказки Stable Diffusion за допомогою Retrieval Augmented Generation | Веб-сервіси Amazon

Генерація тексту в зображення – це сфера штучного інтелекту, яка швидко розвивається, і має застосування в різноманітних сферах, таких як медіа та розваги, ігри, візуалізація продуктів електронної комерції, реклама та маркетинг, архітектурний дизайн та візуалізація, художні твори та медична візуалізація.

Стабільна дифузія це модель перетворення тексту в зображення, яка дає змогу створювати високоякісні зображення за лічені секунди. У листопаді 2022 року ми оголошений за допомогою якого клієнти AWS можуть створювати зображення з тексту Стабільна дифузія моделі в Росії Amazon SageMaker JumpStart, центр машинного навчання (ML), який пропонує моделі, алгоритми та рішення. Еволюція продовжилася в квітні 2023 року з впровадженням Amazon Bedrock, повністю керований сервіс, що пропонує доступ до найсучасніших базових моделей, включаючи Stable Diffusion, через зручний API.

У міру того, як постійно зростає кількість клієнтів, які намагаються перетворити текст на зображення, виникає загальна перешкода — як створювати підказки, які володіють потужністю, щоб отримувати високоякісні, орієнтовані на цільове зображення зображення. Це завдання часто вимагає значного часу та ресурсів, оскільки користувачі починають багаторазову подорож експериментів, щоб знайти підказки, які відповідають їхнім баченням.

Retrieval Augmented Generation (RAG) — це процес, у якому мовна модель отримує контекстні документи із зовнішнього джерела даних і використовує цю інформацію для створення більш точного та інформативного тексту. Ця техніка особливо корисна для наукомістких завдань обробки природної мови (NLP). Тепер ми поширюємо його трансформаційний штрих на світ створення тексту в зображення. У цій публікації ми демонструємо, як використовувати потужність RAG для покращення підказок, які надсилаються вашим моделям Stable Diffusion. Ви можете створити власного AI-помічника для швидкої генерації за лічені хвилини за допомогою великих мовних моделей (LLM) на Amazon Bedrock, а також на SageMaker JumpStart.

Підходи до створення текстових підказок

На перший погляд створення підказки для моделі перетворення тексту в зображення може здатися простим, але це оманливо складне завдання. Це більше, ніж просто ввести кілька слів і очікувати, що модель створить образ, який узгоджується з вашим уявним образом. Ефективні підказки повинні надавати чіткі інструкції, залишаючи простір для творчості. Вони повинні врівноважувати конкретність і двозначність, і вони повинні бути адаптовані до конкретної моделі, що використовується. Щоб вирішити проблему оперативного проектування, промисловість дослідила різні підходи:

  • Підкажіть бібліотеки – Деякі компанії курують бібліотеки попередньо написаних підказок, до яких ви можете отримати доступ і налаштувати їх. Ці бібліотеки містять широкий спектр підказок, адаптованих до різних випадків використання, що дозволяє вам вибирати або адаптувати підказки відповідно до ваших конкретних потреб.
  • Підкажіть шаблони та вказівки – Багато компаній і організацій надають користувачам набір попередньо визначених шаблонів підказок і вказівок. Ці шаблони пропонують структуровані формати для написання підказок, що спрощує створення ефективних інструкцій.
  • Внески спільноти та користувачів – Краудсорсингові платформи та спільноти користувачів часто відіграють значну роль у покращенні підказок. Користувачі можуть ділитися своїми налаштованими моделями, успішними підказками, порадами та найкращими практиками зі спільнотою, допомагаючи іншим навчатися та вдосконалювати свої навички швидкого написання.
  • Тонка настройка моделі – Компанії можуть налаштувати свої моделі перетворення тексту в зображення, щоб краще розуміти конкретні типи підказок і реагувати на них. Точне налаштування може покращити продуктивність моделі для певних доменів або випадків використання.

Ці галузеві підходи спільно спрямовані на те, щоб зробити процес створення ефективних підказок перетворення тексту в зображення більш доступним, зручним для користувача та ефективним, зрештою покращуючи зручність використання та універсальність моделей генерування тексту в зображення для широкого спектру застосувань.

Використання RAG для швидкого проектування

У цьому розділі ми заглибимося в те, як методи RAG можуть змінити правила гри в швидкому проектуванні, працюючи в гармонії з цими існуючими підходами. Бездоганно інтегрувавши RAG у процес, ми можемо оптимізувати та підвищити ефективність швидкого проектування.

Семантичний пошук в базі даних підказок

Уявіть собі компанію, яка накопичила величезне сховище підказок у своїй бібліотеці підказок або створила велику кількість шаблонів підказок, кожен з яких призначений для конкретних випадків використання та цілей. Традиційно користувачі, які шукали натхнення для підказок перетворення тексту в зображення, вручну переглядали ці бібліотеки, часто перебираючи великі списки опцій. Цей процес може бути трудомістким і неефективним. Вбудовуючи підказки з бібліотеки підказок за допомогою моделей вбудовування тексту, компанії можуть створити семантичну пошукову систему. Ось як це працює:

  • Вбудовування підказок – Компанія використовує вбудовування тексту для перетворення кожної підказки у своїй бібліотеці в числове представлення. Ці вкладення вловлюють семантичне значення та контекст підказок.
  • Запит користувача – Коли користувачі надають власні підказки або описують бажане зображення, система також може аналізувати та вбудовувати їхні введення.
  • Семантичний пошук – Використовуючи вбудовування, система виконує семантичний пошук. Він отримує найбільш відповідні підказки з бібліотеки на основі запиту користувача, враховуючи як введені користувачем дані, так і історичні дані в бібліотеці підказок.

Впроваджуючи семантичний пошук у своїх бібліотеках підказок, компанії дають своїм співробітникам можливість легко отримувати доступ до величезного резервуару підказок. Цей підхід не тільки прискорює оперативне створення, але й заохочує креативність і послідовність у створенні тексту в зображення.y

Покращуйте підказки Stable Diffusion за допомогою Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Оперативна генерація із семантичного пошуку

Хоча семантичний пошук спрощує процес пошуку відповідних підказок, RAG робить крок далі, використовуючи ці результати пошуку для створення оптимізованих підказок. Ось як це працює:

  • Результати семантичного пошуку – Після отримання найбільш релевантних підказок із бібліотеки система представляє ці підказки користувачеві разом із початковим введенням користувача.
  • Модель генерації тексту – Користувач може вибрати підказку з результатів пошуку або надати додатковий контекст своїх уподобань. Система передає як вибрану підказку, так і дані користувача в LLM.
  • Оптимізована підказка – LLM, з його розумінням мовних нюансів, створює оптимізовану підказку, яка поєднує елементи з вибраної підказки та введення користувача. Ця нова підказка адаптована до вимог користувача та створена для отримання бажаного зображення.

Поєднання семантичного пошуку та генерування підказок не тільки спрощує процес пошуку підказок, але й гарантує, що згенеровані підказки є дуже актуальними та ефективними. Це дає вам змогу точно налаштовувати та налаштовувати підказки, що зрештою призводить до покращення результатів генерації тексту в зображення. Нижче наведено приклади зображень, створених за допомогою Stable Diffusion XL за допомогою підказок семантичного пошуку та генерації підказок.

Оригінальна підказка Підказки від семантичного пошуку Оптимізована підказка від LLM

мультфільм песика

Покращуйте підказки Stable Diffusion за допомогою Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

  • милий мультфільм собаки з бутербродом за обіднім столом
  • мультфільм ілюстрація собаки панк, стиль аніме, білий фон
  • мультфільм хлопчика та його собаки, що гуляють лісовою смугою

Покращуйте підказки Stable Diffusion за допомогою Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Сцена з мультфільму хлопчика, який щасливо йде, взявшись за руки, лісовою смугою зі своїм милим собакою, у стилі анімації.

Покращуйте підказки Stable Diffusion за допомогою Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Програми оперативного проектування на основі RAG у різних галузях

Перш ніж досліджувати застосування запропонованої нами архітектури RAG, давайте почнемо з галузі, у якій модель генерації зображень найбільш застосовна. В AdTech швидкість і креативність мають вирішальне значення. Генерація підказок на основі RAG може миттєво додати цінність, генеруючи підказки для швидкого створення багатьох зображень для рекламної кампанії. Люди, які приймають рішення, можуть переглядати автоматично згенеровані зображення, щоб вибрати зображення-кандидата для кампанії. Ця функція може бути окремою програмою або вбудованою в популярні програмні засоби та платформи, які зараз доступні.

Ще одна галузь, у якій модель Stable Diffusion може підвищити продуктивність, — медіа та розваги. Наприклад, архітектура RAG може допомогти у випадках використання створення аватарів. Починаючи з простої підказки, RAG може додати набагато більше кольорів і характеристик ідеям аватарів. Він може створити багато підказок кандидатів і надати більше творчих ідей. З цих згенерованих зображень ви можете знайти ідеальний варіант для певної програми. Це підвищує продуктивність завдяки автоматичному створенню багатьох підказок. Варіація, яку він може придумати, є негайною вигодою від рішення.

Огляд рішення

Надання клієнтам можливості створювати власного помічника штучного інтелекту на основі RAG для швидкого проектування на AWS є свідченням універсальності сучасних технологій. AWS надає безліч варіантів і послуг, щоб полегшити цю роботу. Наступна діаграма еталонної архітектури ілюструє додаток RAG для швидкого проектування на AWS.

Покращуйте підказки Stable Diffusion за допомогою Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Коли справа доходить до вибору правильних LLM для вашого помічника зі штучним інтелектом, AWS пропонує широкий спектр варіантів для задоволення ваших конкретних вимог.

По-перше, ви можете вибрати LLM, доступні через SageMaker JumpStart, використовуючи спеціальні екземпляри. Ці екземпляри підтримують різні моделі, зокрема Falcon, Llama 2, Bloom Z і Flan-T5, або ви можете досліджувати власні моделі, такі як Cohere’s Command і Multilingual Embedding або Jurassic-2 від AI21 Labs.

Якщо ви віддаєте перевагу більш спрощеному підходу, AWS пропонує LLM на Amazon Bedrock, що включає такі моделі, як Амазонський титан і Антропічний Клод. Ці моделі легко доступні за допомогою простих викликів API, що дозволяє без зусиль використовувати їхню потужність. Гнучкість і різноманітність варіантів гарантують, що ви матимете свободу вибору магістра права, який найкраще відповідає вашим цілям швидкого проектування, незалежно від того, чи шукаєте ви інновації з відкритими контейнерами чи надійні можливості запатентованих моделей.

Коли справа доходить до створення основної векторної бази даних, AWS надає безліч варіантів через власні служби. Ви можете вибрати Служба Amazon OpenSearch, Амазонська Аврораабо Служба реляційної бази даних Amazon (Amazon RDS) для PostgreSQL, кожна з яких пропонує надійні функції відповідно до ваших конкретних потреб. Крім того, ви можете ознайомитися з продуктами таких партнерів AWS, як Pinecone, Weaviate, Elastic, Milvus або Chroma, які надають спеціалізовані рішення для ефективного зберігання та пошуку векторів.

Щоб допомогти вам розпочати створення помічника штучного інтелекту на основі RAG для швидкого проектування, ми зібрали повну демонстрацію в нашому GitHub сховище. Ця демонстрація використовує такі ресурси:

  • Створення зображення: Stable Diffusion XL на Amazon Bedrock
  • Вбудовування тексту: Amazon Titan на Amazon Bedrock
  • Генерація тексту: Claude 2 на Amazon Bedrock
  • Векторна база даних: FAISS, бібліотека з відкритим кодом для ефективного пошуку подібності
  • Бібліотека підказок: Приклади підказок з DiffusionDB, перший великомасштабний набір даних галереї підказок для генеративних моделей перетворення тексту в зображення

Крім того, ми включили LangChain для впровадження LLM і Streamit для компонента веб-додатків, забезпечуючи безперебійну та зручну роботу.

Передумови

Щоб запустити цю демонстраційну програму, вам потрібно мати наступне:

  • Обліковий запис AWS
  • Базове розуміння того, як орієнтуватися Студія Amazon SageMaker
  • Базове розуміння того, як завантажити репо з GitHub
  • Базові знання виконання команд на терміналі

Запустіть демонстраційну програму

Ви можете завантажити весь необхідний код з інструкціями з GitHub репо. Після розгортання програми ви побачите сторінку, як на знімку екрана нижче.

Покращуйте підказки Stable Diffusion за допомогою Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

За допомогою цієї демонстрації ми прагнемо зробити процес впровадження доступним і зрозумілим, надавши вам практичний досвід, щоб розпочати свою подорож у світ RAG і швидкого проектування на AWS.

Прибирати

Випробувавши програму, очистіть свої ресурси, зупинивши програму.

Висновок

RAG став революційною парадигмою у світі оперативного дизайну, відновивши можливості Stable Diffusion для перетворення тексту в зображення. Узгодивши методи RAG із існуючими підходами та використовуючи потужні ресурси AWS, ми відкрили шлях до раціоналізованої творчості та прискореного навчання.

Щоб отримати додаткові ресурси, відвідайте наступне:


Про авторів

Покращуйте підказки Stable Diffusion за допомогою Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Джеймс І є старшим архітектором партнерських рішень AI/ML у команді нових технологій Amazon Web Services. Він захоплений роботою з корпоративними клієнтами та партнерами над розробкою, розгортанням і масштабуванням додатків штучного інтелекту/ML, щоб отримати їхні бізнес-цінності. Поза роботою він любить грати у футбол, подорожувати та проводити час із сім’єю.

Покращуйте підказки Stable Diffusion за допомогою Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.Румі Олсен є архітектором рішень у партнерській програмі AWS. На поточній посаді вона спеціалізується на безсерверних і машинних рішеннях, а також має досвід роботи в технологіях обробки природної мови. Більшість свого вільного часу вона проводить зі своєю дочкою, досліджуючи природу тихоокеанського північного заходу.

Часова мітка:

Більше від AWS Машинне навчання