Генерація тексту в зображення – це сфера штучного інтелекту, яка швидко розвивається, і має застосування в різноманітних сферах, таких як медіа та розваги, ігри, візуалізація продуктів електронної комерції, реклама та маркетинг, архітектурний дизайн та візуалізація, художні твори та медична візуалізація.
Стабільна дифузія це модель перетворення тексту в зображення, яка дає змогу створювати високоякісні зображення за лічені секунди. У листопаді 2022 року ми оголошений за допомогою якого клієнти AWS можуть створювати зображення з тексту Стабільна дифузія моделі в Росії Amazon SageMaker JumpStart, центр машинного навчання (ML), який пропонує моделі, алгоритми та рішення. Еволюція продовжилася в квітні 2023 року з впровадженням Amazon Bedrock, повністю керований сервіс, що пропонує доступ до найсучасніших базових моделей, включаючи Stable Diffusion, через зручний API.
У міру того, як постійно зростає кількість клієнтів, які намагаються перетворити текст на зображення, виникає загальна перешкода — як створювати підказки, які володіють потужністю, щоб отримувати високоякісні, орієнтовані на цільове зображення зображення. Це завдання часто вимагає значного часу та ресурсів, оскільки користувачі починають багаторазову подорож експериментів, щоб знайти підказки, які відповідають їхнім баченням.
Retrieval Augmented Generation (RAG) — це процес, у якому мовна модель отримує контекстні документи із зовнішнього джерела даних і використовує цю інформацію для створення більш точного та інформативного тексту. Ця техніка особливо корисна для наукомістких завдань обробки природної мови (NLP). Тепер ми поширюємо його трансформаційний штрих на світ створення тексту в зображення. У цій публікації ми демонструємо, як використовувати потужність RAG для покращення підказок, які надсилаються вашим моделям Stable Diffusion. Ви можете створити власного AI-помічника для швидкої генерації за лічені хвилини за допомогою великих мовних моделей (LLM) на Amazon Bedrock, а також на SageMaker JumpStart.
Підходи до створення текстових підказок
На перший погляд створення підказки для моделі перетворення тексту в зображення може здатися простим, але це оманливо складне завдання. Це більше, ніж просто ввести кілька слів і очікувати, що модель створить образ, який узгоджується з вашим уявним образом. Ефективні підказки повинні надавати чіткі інструкції, залишаючи простір для творчості. Вони повинні врівноважувати конкретність і двозначність, і вони повинні бути адаптовані до конкретної моделі, що використовується. Щоб вирішити проблему оперативного проектування, промисловість дослідила різні підходи:
- Підкажіть бібліотеки – Деякі компанії курують бібліотеки попередньо написаних підказок, до яких ви можете отримати доступ і налаштувати їх. Ці бібліотеки містять широкий спектр підказок, адаптованих до різних випадків використання, що дозволяє вам вибирати або адаптувати підказки відповідно до ваших конкретних потреб.
- Підкажіть шаблони та вказівки – Багато компаній і організацій надають користувачам набір попередньо визначених шаблонів підказок і вказівок. Ці шаблони пропонують структуровані формати для написання підказок, що спрощує створення ефективних інструкцій.
- Внески спільноти та користувачів – Краудсорсингові платформи та спільноти користувачів часто відіграють значну роль у покращенні підказок. Користувачі можуть ділитися своїми налаштованими моделями, успішними підказками, порадами та найкращими практиками зі спільнотою, допомагаючи іншим навчатися та вдосконалювати свої навички швидкого написання.
- Тонка настройка моделі – Компанії можуть налаштувати свої моделі перетворення тексту в зображення, щоб краще розуміти конкретні типи підказок і реагувати на них. Точне налаштування може покращити продуктивність моделі для певних доменів або випадків використання.
Ці галузеві підходи спільно спрямовані на те, щоб зробити процес створення ефективних підказок перетворення тексту в зображення більш доступним, зручним для користувача та ефективним, зрештою покращуючи зручність використання та універсальність моделей генерування тексту в зображення для широкого спектру застосувань.
Використання RAG для швидкого проектування
У цьому розділі ми заглибимося в те, як методи RAG можуть змінити правила гри в швидкому проектуванні, працюючи в гармонії з цими існуючими підходами. Бездоганно інтегрувавши RAG у процес, ми можемо оптимізувати та підвищити ефективність швидкого проектування.
Семантичний пошук в базі даних підказок
Уявіть собі компанію, яка накопичила величезне сховище підказок у своїй бібліотеці підказок або створила велику кількість шаблонів підказок, кожен з яких призначений для конкретних випадків використання та цілей. Традиційно користувачі, які шукали натхнення для підказок перетворення тексту в зображення, вручну переглядали ці бібліотеки, часто перебираючи великі списки опцій. Цей процес може бути трудомістким і неефективним. Вбудовуючи підказки з бібліотеки підказок за допомогою моделей вбудовування тексту, компанії можуть створити семантичну пошукову систему. Ось як це працює:
- Вбудовування підказок – Компанія використовує вбудовування тексту для перетворення кожної підказки у своїй бібліотеці в числове представлення. Ці вкладення вловлюють семантичне значення та контекст підказок.
- Запит користувача – Коли користувачі надають власні підказки або описують бажане зображення, система також може аналізувати та вбудовувати їхні введення.
- Семантичний пошук – Використовуючи вбудовування, система виконує семантичний пошук. Він отримує найбільш відповідні підказки з бібліотеки на основі запиту користувача, враховуючи як введені користувачем дані, так і історичні дані в бібліотеці підказок.
Впроваджуючи семантичний пошук у своїх бібліотеках підказок, компанії дають своїм співробітникам можливість легко отримувати доступ до величезного резервуару підказок. Цей підхід не тільки прискорює оперативне створення, але й заохочує креативність і послідовність у створенні тексту в зображення.y
Оперативна генерація із семантичного пошуку
Хоча семантичний пошук спрощує процес пошуку відповідних підказок, RAG робить крок далі, використовуючи ці результати пошуку для створення оптимізованих підказок. Ось як це працює:
- Результати семантичного пошуку – Після отримання найбільш релевантних підказок із бібліотеки система представляє ці підказки користувачеві разом із початковим введенням користувача.
- Модель генерації тексту – Користувач може вибрати підказку з результатів пошуку або надати додатковий контекст своїх уподобань. Система передає як вибрану підказку, так і дані користувача в LLM.
- Оптимізована підказка – LLM, з його розумінням мовних нюансів, створює оптимізовану підказку, яка поєднує елементи з вибраної підказки та введення користувача. Ця нова підказка адаптована до вимог користувача та створена для отримання бажаного зображення.
Поєднання семантичного пошуку та генерування підказок не тільки спрощує процес пошуку підказок, але й гарантує, що згенеровані підказки є дуже актуальними та ефективними. Це дає вам змогу точно налаштовувати та налаштовувати підказки, що зрештою призводить до покращення результатів генерації тексту в зображення. Нижче наведено приклади зображень, створених за допомогою Stable Diffusion XL за допомогою підказок семантичного пошуку та генерації підказок.
Оригінальна підказка | Підказки від семантичного пошуку | Оптимізована підказка від LLM |
мультфільм песика |
|
Сцена з мультфільму хлопчика, який щасливо йде, взявшись за руки, лісовою смугою зі своїм милим собакою, у стилі анімації. |
Програми оперативного проектування на основі RAG у різних галузях
Перш ніж досліджувати застосування запропонованої нами архітектури RAG, давайте почнемо з галузі, у якій модель генерації зображень найбільш застосовна. В AdTech швидкість і креативність мають вирішальне значення. Генерація підказок на основі RAG може миттєво додати цінність, генеруючи підказки для швидкого створення багатьох зображень для рекламної кампанії. Люди, які приймають рішення, можуть переглядати автоматично згенеровані зображення, щоб вибрати зображення-кандидата для кампанії. Ця функція може бути окремою програмою або вбудованою в популярні програмні засоби та платформи, які зараз доступні.
Ще одна галузь, у якій модель Stable Diffusion може підвищити продуктивність, — медіа та розваги. Наприклад, архітектура RAG може допомогти у випадках використання створення аватарів. Починаючи з простої підказки, RAG може додати набагато більше кольорів і характеристик ідеям аватарів. Він може створити багато підказок кандидатів і надати більше творчих ідей. З цих згенерованих зображень ви можете знайти ідеальний варіант для певної програми. Це підвищує продуктивність завдяки автоматичному створенню багатьох підказок. Варіація, яку він може придумати, є негайною вигодою від рішення.
Огляд рішення
Надання клієнтам можливості створювати власного помічника штучного інтелекту на основі RAG для швидкого проектування на AWS є свідченням універсальності сучасних технологій. AWS надає безліч варіантів і послуг, щоб полегшити цю роботу. Наступна діаграма еталонної архітектури ілюструє додаток RAG для швидкого проектування на AWS.
Коли справа доходить до вибору правильних LLM для вашого помічника зі штучним інтелектом, AWS пропонує широкий спектр варіантів для задоволення ваших конкретних вимог.
По-перше, ви можете вибрати LLM, доступні через SageMaker JumpStart, використовуючи спеціальні екземпляри. Ці екземпляри підтримують різні моделі, зокрема Falcon, Llama 2, Bloom Z і Flan-T5, або ви можете досліджувати власні моделі, такі як Cohere’s Command і Multilingual Embedding або Jurassic-2 від AI21 Labs.
Якщо ви віддаєте перевагу більш спрощеному підходу, AWS пропонує LLM на Amazon Bedrock, що включає такі моделі, як Амазонський титан і Антропічний Клод. Ці моделі легко доступні за допомогою простих викликів API, що дозволяє без зусиль використовувати їхню потужність. Гнучкість і різноманітність варіантів гарантують, що ви матимете свободу вибору магістра права, який найкраще відповідає вашим цілям швидкого проектування, незалежно від того, чи шукаєте ви інновації з відкритими контейнерами чи надійні можливості запатентованих моделей.
Коли справа доходить до створення основної векторної бази даних, AWS надає безліч варіантів через власні служби. Ви можете вибрати Служба Amazon OpenSearch, Амазонська Аврораабо Служба реляційної бази даних Amazon (Amazon RDS) для PostgreSQL, кожна з яких пропонує надійні функції відповідно до ваших конкретних потреб. Крім того, ви можете ознайомитися з продуктами таких партнерів AWS, як Pinecone, Weaviate, Elastic, Milvus або Chroma, які надають спеціалізовані рішення для ефективного зберігання та пошуку векторів.
Щоб допомогти вам розпочати створення помічника штучного інтелекту на основі RAG для швидкого проектування, ми зібрали повну демонстрацію в нашому GitHub сховище. Ця демонстрація використовує такі ресурси:
- Створення зображення: Stable Diffusion XL на Amazon Bedrock
- Вбудовування тексту: Amazon Titan на Amazon Bedrock
- Генерація тексту: Claude 2 на Amazon Bedrock
- Векторна база даних: FAISS, бібліотека з відкритим кодом для ефективного пошуку подібності
- Бібліотека підказок: Приклади підказок з DiffusionDB, перший великомасштабний набір даних галереї підказок для генеративних моделей перетворення тексту в зображення
Крім того, ми включили LangChain для впровадження LLM і Streamit для компонента веб-додатків, забезпечуючи безперебійну та зручну роботу.
Передумови
Щоб запустити цю демонстраційну програму, вам потрібно мати наступне:
- Обліковий запис AWS
- Базове розуміння того, як орієнтуватися Студія Amazon SageMaker
- Базове розуміння того, як завантажити репо з GitHub
- Базові знання виконання команд на терміналі
Запустіть демонстраційну програму
Ви можете завантажити весь необхідний код з інструкціями з GitHub репо. Після розгортання програми ви побачите сторінку, як на знімку екрана нижче.
За допомогою цієї демонстрації ми прагнемо зробити процес впровадження доступним і зрозумілим, надавши вам практичний досвід, щоб розпочати свою подорож у світ RAG і швидкого проектування на AWS.
Прибирати
Випробувавши програму, очистіть свої ресурси, зупинивши програму.
Висновок
RAG став революційною парадигмою у світі оперативного дизайну, відновивши можливості Stable Diffusion для перетворення тексту в зображення. Узгодивши методи RAG із існуючими підходами та використовуючи потужні ресурси AWS, ми відкрили шлях до раціоналізованої творчості та прискореного навчання.
Щоб отримати додаткові ресурси, відвідайте наступне:
Про авторів
Джеймс І є старшим архітектором партнерських рішень AI/ML у команді нових технологій Amazon Web Services. Він захоплений роботою з корпоративними клієнтами та партнерами над розробкою, розгортанням і масштабуванням додатків штучного інтелекту/ML, щоб отримати їхні бізнес-цінності. Поза роботою він любить грати у футбол, подорожувати та проводити час із сім’єю.
Румі Олсен є архітектором рішень у партнерській програмі AWS. На поточній посаді вона спеціалізується на безсерверних і машинних рішеннях, а також має досвід роботи в технологіях обробки природної мови. Більшість свого вільного часу вона проводить зі своєю дочкою, досліджуючи природу тихоокеанського північного заходу.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/improve-your-stable-diffusion-prompts-with-retrieval-augmented-generation/
- : має
- :є
- : ні
- :де
- $UP
- 100
- 14
- 2022
- 2023
- 210
- 7
- a
- МЕНЮ
- прискорений
- прискорюється
- доступ
- доступною
- Накопичений
- точний
- через
- пристосовувати
- додавати
- Додатковий
- адреса
- реклама
- реклама
- після
- AI
- AI помічник
- AI / ML
- мета
- алгоритми
- вирівнювати
- Вирівнює
- ВСІ
- Дозволити
- пліч-о-пліч
- Також
- Amazon
- Amazon RDS
- Amazon Web Services
- Неоднозначність
- an
- аналізувати
- та
- анімація
- Аніме
- Антропний
- API
- додаток
- застосовно
- додаток
- застосування
- підхід
- підходи
- квітня
- архітектурний
- архітектура
- ЕСТЬ
- області
- штучний
- штучний інтелект
- художній
- AS
- допомогу
- Помічник
- At
- збільшено
- автоматично
- доступний
- аватар
- AWS
- фон
- Balance
- заснований
- BE
- буття
- користь
- КРАЩЕ
- передового досвіду
- Краще
- Цвісти
- обидва
- будувати
- Створюємо
- бізнес
- але
- by
- Виклики
- Кампанія
- CAN
- кандидат
- можливості
- захоплення
- мультиплікація
- випадків
- догоджати
- виклик
- Перемикач
- характеристика
- вибір
- Вибирати
- очистити
- ясно
- код
- колективно
- color
- поєднання
- комбінати
- Приходити
- приходить
- загальний
- спільноти
- співтовариство
- Компанії
- компанія
- комплекс
- компонент
- всеосяжний
- значний
- беручи до уваги
- будувати
- містити
- Контейнери
- контекст
- контекстуальний
- триває
- внески
- Зручний
- конвертувати
- виробити
- створювати
- створений
- створення
- творіння
- Креатив
- креативність
- критичний
- Поточний
- В даний час
- Клієнти
- налаштувати
- передовий
- дані
- Database
- ті що приймають рішення
- присвячених
- заглиблюватися
- запити
- демонстрація
- демонструвати
- розгортання
- розгорнути
- дрейф
- описувати
- дизайн
- призначений
- бажаний
- радіомовлення
- Вечеря
- відкрити
- Різне
- різноманітність
- документація
- Пес
- домени
- вниз
- скачати
- кожен
- легко
- електронної комерції
- Ефективний
- ефективність
- ефективний
- легко
- елементи
- приступати
- Вставляти
- вбудований
- вбудовування
- з'явився
- з'являються
- новітні технології
- співробітників
- уповноважувати
- повноваження
- заохочує
- endeavor
- зусиль
- двигун
- Машинобудування
- підвищувати
- підвищення
- забезпечувати
- гарантує
- підприємство
- розваги
- істотний
- постійно збільшується
- еволюція
- приклад
- Приклади
- існуючий
- очікував
- досвід
- дослідити
- Розвіданий
- Дослідження
- продовжити
- обширний
- зовнішній
- фасилітувати
- сім'я
- особливість
- риси
- Показуючи
- кілька
- поле
- знайти
- виявлення
- Перший
- відповідати
- Гнучкість
- після
- для
- ліс
- фонд
- Freedom
- від
- повністю
- далі
- Галерея
- гра
- змінювач гри
- азартні ігри
- породжувати
- генерується
- породжує
- покоління
- генеративний
- отримати
- даний
- Погляд
- Go
- Цілі
- Зростання
- керівні вказівки
- рука
- практичний
- Harmony
- збруя
- Мати
- має
- he
- допомога
- допомогу
- її
- високоякісний
- дуже
- його
- історичний
- Як
- How To
- HTML
- HTTPS
- Концентратор
- людина
- перешкода
- ідеї
- ілюструє
- зображення
- зображень
- Зображеннями
- Негайний
- реалізація
- реалізації
- удосконалювати
- поліпшений
- поліпшення
- in
- У тому числі
- Зареєстрований
- Збільшує
- промисловість
- неефективний
- інформація
- інформативний
- інновація
- вхід
- натхнення
- мить
- інструкції
- Інтеграція
- Інтелект
- в
- Вступ
- IT
- ЙОГО
- подорож
- JPG
- просто
- знання
- Labs
- Lane
- мова
- великий
- масштабний
- провідний
- УЧИТЬСЯ
- вивчення
- догляд
- libraries
- бібліотека
- як
- списки
- трохи
- Лама
- LLM
- машина
- навчання за допомогою машини
- зробити
- Робить
- вдалося
- вручну
- багато
- Маркетинг
- Може..
- сенс
- Медіа
- медичний
- психічний
- хвилин
- ML
- модель
- Моделі
- сучасний
- більше
- найбільш
- багато
- безліч
- повинен
- рідний
- Природний
- Обробка природних мов
- природа
- Переміщення
- необхідно
- Необхідність
- потреби
- Нові
- nlp
- Листопад
- зараз
- нюанси
- номер
- цілей
- of
- пропонувати
- пропонує
- Пропозиції
- часто
- on
- тільки
- відкрити
- з відкритим вихідним кодом
- оптимізований
- Опції
- or
- організації
- оригінал
- інші
- наші
- з
- вихід
- поза
- власний
- Тихий океан
- сторінка
- парадигма
- приватність
- особливо
- партнер
- партнери
- пристрасний
- шлях
- ідеальний
- продуктивність
- виступає
- Платформи
- plato
- Інформація про дані Платона
- PlatoData
- Play
- ігри
- безліч
- популярний
- пошта
- влада
- практики
- надавати перевагу
- переваги
- подарунки
- процес
- обробка
- Product
- продуктивність
- Продукти
- програма
- підказок
- власником
- забезпечувати
- забезпечує
- забезпечення
- put
- швидко
- діапазон
- швидко
- посилання
- удосконалювати
- доречний
- Сховище
- подання
- Вимога
- ресурси
- Реагувати
- результати
- право
- міцний
- Роль
- Кімната
- прогін
- біг
- мудрець
- шкала
- сцена
- безшовні
- плавно
- Пошук
- Пошукова система
- seconds
- розділ
- побачити
- пошук
- здається
- вибрати
- обраний
- вибирає
- старший
- посланий
- служити
- Без сервера
- обслуговування
- Послуги
- комплект
- Поділитись
- вона
- Повинен
- значний
- простий
- спрощений
- спрощує
- навички
- Футбол
- Софтвер
- рішення
- Рішення
- деякі
- Source
- спеціалізований
- спеціалізується
- конкретний
- специфічність
- спектр
- швидкість
- Витрати
- стабільний
- автономні
- старт
- почалася
- Починаючи
- Крок
- зупинка
- зберігання
- просто
- раціоналізувати
- обтічний
- Спрощує
- структурований
- стиль
- успішний
- такі
- костюм
- підтримка
- система
- з урахуванням
- приймає
- Завдання
- завдання
- команда
- техніка
- методи
- Технології
- Технологія
- Шаблони
- заповіт
- текст
- ніж
- Що
- Команда
- світ
- їх
- Ці
- вони
- це
- через
- час
- трудомісткий
- Поради
- велетень
- до
- разом
- інструменти
- торкатися
- традиційно
- перетворювальний
- Подорож
- намагатися
- Типи
- Зрештою
- непокритий
- розуміти
- розуміння
- юзабіліті
- використання
- використовуваний
- користувач
- зручно
- користувачі
- використовує
- використання
- використовує
- значення
- Цінності
- різноманітність
- різний
- величезний
- Універсальність
- бачення
- візит
- візуалізації
- ходьба
- we
- Web
- Веб-додаток
- веб-сервіси
- ДОБРЕ
- коли
- Чи
- який
- в той час як
- білий
- широкий
- Широкий діапазон
- волі
- з
- в
- слова
- Work
- робочий
- працює
- світ
- б
- лист
- вихід
- Ти
- вашу
- зефірнет