Високоякісні зображення зі стабільною дифузією в Amazon SageMaker JumpStart

Перевидано Платоном

читають: 0

У листопаді 2022 року ми оголошений за допомогою якого клієнти AWS можуть створювати зображення з тексту Стабільна дифузія моделі в Росії Amazon SageMaker JumpStart. Сьогодні ми оголошуємо про нову функцію, яка дозволяє покращувати зображення (змінювати розмір зображення без втрати якості) за допомогою моделей Stable Diffusion у JumpStart. Зображення з низькою роздільною здатністю, розмите та піксельне можна перетворити на зображення високої роздільної здатності, яке виглядає більш плавним, чітким і деталізованим. Цей процес, наз підвищення масштабу, можна застосовувати як до реальних зображень, так і до зображень, створених моделі стабільної дифузії тексту в зображення. Це можна використовувати для покращення якості зображення в різних галузях, таких як електронна комерція та нерухомість, а також для художників і фотографів. Крім того, масштабування може покращити візуальну якість зображень із низькою роздільною здатністю під час відображення на екранах із високою роздільною здатністю.

Stable Diffusion використовує алгоритм штучного інтелекту для масштабування зображень, усуваючи потребу в ручній роботі, яка може вимагати ручного заповнення прогалин у зображенні. Він був навчений на мільйонах зображень і може точно передбачати зображення високої роздільної здатності, що призводить до значного підвищення деталізації порівняно з традиційними програмами для збільшення зображення. Крім того, на відміну від методів неглибокого навчання, таких як найближчий сусід, Stable Diffusion враховує контекст зображення, використовуючи текстову підказку для керування процесом масштабування.

У цьому дописі ми надаємо огляд того, як розгортати та запускати логічний висновок за допомогою моделі Stable Diffusion upscaler двома способами: через інтерфейс користувача (UI) JumpStart у Студія Amazon SageMaker, і програмно через API JumpStart доступні в SageMaker Python SDK.

Огляд рішення

На наступних зображеннях показано приклади масштабування, виконаного моделлю. Ліворуч оригінальне зображення з низькою роздільною здатністю, збільшене відповідно до розміру зображення, створеного моделлю. Праворуч зображення, створене моделлю.

Перше згенероване зображення є результатом зображення кота з низькою роздільною здатністю та підказкою «білий кіт».

Високоякісні зображення зі стабільною дифузією в Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Друге згенероване зображення є результатом зображення метелика з низькою роздільною здатністю та підказки «метелик на зеленому листі».

Високоякісні зображення зі стабільною дифузією в Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Запуск великих моделей, таких як Stable Diffusion, потребує спеціальних сценаріїв висновку. Ви повинні запустити наскрізні тести, щоб переконатися, що сценарій, модель і потрібний екземпляр працюють разом ефективно. JumpStart спрощує цей процес, надаючи готові до використання сценарії, які були ретельно перевірені. Ви можете отримати доступ до цих сценаріїв одним клацанням миші в інтерфейсі Studio або за допомогою кількох рядків коду через API JumpStart.

У наступних розділах надається огляд того, як розгорнути модель і запустити висновок за допомогою інтерфейсу користувача Studio або API JumpStart.

Зауважте, що використовуючи цю модель, ви погоджуєтеся з Ліцензія CreativeML Open RAIL++-M.

Отримайте доступ до JumpStart через інтерфейс користувача Studio

У цьому розділі ми демонструємо, як навчати та розгортати моделі JumpStart за допомогою інтерфейсу користувача Studio. У наступному відео показано, як знайти попередньо підготовлену модель Stable Diffusion upscaler на JumpStart і розгорнути її. Сторінка моделі містить цінну інформацію про модель і способи її використання. Для висновку ми використовуємо тип екземпляра ml.p3.2xlarge, оскільки він забезпечує прискорення GPU, необхідне для низької затримки висновку за низькою ціною. Після налаштування екземпляра хостингу SageMaker виберіть Розгортання. Це займе 5–10 хвилин, доки кінцева точка не запрацює та не готова відповідати на запити висновків.

Щоб пришвидшити час для висновку, JumpStart надає зразок блокнота, який показує, як запустити висновок на щойно створеній кінцевій точці. Щоб отримати доступ до блокнота в Studio, виберіть Відкрийте Блокнот в Використовуйте Endpoint із Studio розділ сторінки кінцевої точки моделі.

Використовуйте JumpStart програмно з SageMaker SDK

Ви можете використовувати JumpStart UI для розгортання попередньо навченої моделі в інтерактивному режимі всього за кілька кліків. Однак ви також можете використовувати моделі JumpStart програмно за допомогою API, інтегрованих у SDK SageMaker Python.

У цьому розділі ми вибираємо відповідну попередньо навчену модель у JumpStart, розгортаємо цю модель на кінцевій точці SageMaker і запускаємо висновок на розгорнутій кінцевій точці, використовуючи SageMaker Python SDK. Наступні приклади містять фрагменти коду. Повний код із усіма кроками в цій демонстрації див Вступ до JumpStart – покращуйте якість зображення за допомогою підказок зразок зошита.

Розгорніть попередньо навчену модель

SageMaker використовує контейнери Docker для різноманітних завдань збірки та виконання. JumpStart використовує Контейнери глибокого навчання SageMaker (DLC), які залежать від фреймворку. Спочатку ми отримуємо будь-які додаткові пакети, а також сценарії для обробки навчання та висновків для вибраного завдання. Потім попередньо підготовлені артефакти моделі вибираються окремо model_uris, що забезпечує гнучкість платформи. Це дозволяє використовувати декілька попередньо навчених моделей з одним сценарієм висновку. Наступний код ілюструє цей процес:

model_id, model_version = "model-upscaling-stabilityai-stable-diffusion-x4-upscaler-fp16", "*"
# Retrieve the inference docker container uri
deploy_image_uri = image_uris.retrieve( region=None, framework=None, # automatically inferred from model_id image_scope="inference", model_id=model_id, model_version=model_version, instance_type=inference_instance_type,
)
# Retrieve the inference script uri
deploy_source_uri = script_uris.retrieve(model_id=model_id, model_version=model_version, script_scope="inference") base_model_uri = model_uris.retrieve(model_id=model_id, model_version=model_version, model_scope="inference")

Далі ми надаємо ці ресурси в a Модель SageMaker створити екземпляр і розгорнути кінцеву точку:

# Create the SageMaker model instance
model = Model( image_uri=deploy_image_uri, source_dir=deploy_source_uri, model_data=base_model_uri, entry_point="inference.py", # entry point file in source_dir and present in deploy_source_uri role=aws_role, predictor_cls=Predictor, name=endpoint_name,
) # deploy the Model - note that we need to pass the Predictor class when we deploy the model through the Model class,
# in order to run inference through the SageMaker API
base_model_predictor = model.deploy( initial_instance_count=1, instance_type=inference_instance_type, predictor_cls=Predictor, endpoint_name=endpoint_name,
)

Після розгортання нашої моделі ми можемо отримувати прогнози з неї в режимі реального часу!

Формат введення

Кінцева точка приймає зображення з низькою роздільною здатністю як необроблені значення RGB або зображення в кодуванні base64. Обробник висновку декодує зображення на основі content_type:

для content_type = “application/json”, вхідне корисне навантаження має бути словником JSON із необробленими значеннями RGB, текстовою підказкою та іншими необов’язковими параметрами
для content_type = “application/json;jpeg”, вхідним корисним навантаженням має бути словник JSON із зображенням у кодуванні base64, текстовою підказкою та іншими необов’язковими параметрами

Формат виводу

Наступні приклади коду дають вам уявлення про те, як виглядають виходи. Подібно до вхідного формату, кінцева точка може відповісти необробленими значеннями RGB зображення або зображенням у кодуванні base64. Це можна вказати за допомогою налаштування accept до одного з двох значень:

для accept = “application/json”, кінцева точка повертає словник JSON зі значеннями RGB для зображення
для accept = “application/json;jpeg”, кінцева точка повертає словник JSON із зображенням JPEG у вигляді байтів, закодованих за допомогою кодування base64.b64

Зверніть увагу, що надсилання або отримання корисного навантаження з необробленими значеннями RGB може досягати обмежень за замовчуванням для вхідного корисного навантаження та розміру відповіді. Тому ми рекомендуємо використовувати зображення в кодуванні base64 шляхом налаштування content_type = “application/json;jpeg” та accept = “application/json;jpeg”.

Наступний код є прикладом запиту на висновок:

content_type = “application/json;jpeg” # We recommend rescaling the image of low_resolution_image such that both height and width are powers of 2.
# This can be achieved by original_image = Image.open('low_res_image.jpg'); rescaled_image = original_image.rescale((128,128)); rescaled_image.save('rescaled_image.jpg')
with open(low_res_img_file_name,'rb') as f: low_res_image_bytes = f.read() encoded_image = base64.b64encode(bytearray(low_res_image_bytes)).decode() payload = { "prompt": "a cat", "image": encoded_image, "num_inference_steps":50, "guidance_scale":7.5} accept = "application/json;jpeg" def query(model_predictor, payload, content_type, accept): """Query the model predictor.""" query_response = model_predictor.predict( payload, { "ContentType": content_type, "Accept": accept, }, ) return query_response

Відповідь кінцевої точки – це об’єкт JSON, що містить згенеровані зображення та підказку:

def parse_response(query_response): """Parse response and return the generated images and prompt.""" response_dict = json.loads(query_response) return response_dict["generated_images"], response_dict["prompt"] query_response = query(model_predictor, json.dumps(payload).encode('utf-8'), content_type, accept)
generated_images, prompt = parse_response(query_response)

Підтримувані параметри

Моделі масштабування Stable Diffusion підтримують багато параметрів для створення зображень:

зображення – Зображення з низькою роздільною здатністю.
підказка – Підказка для створення зображення. Це може бути рядок або список рядків.
num_inference_steps (необов'язково) – Кількість кроків усунення шумів під час створення зображення. Більше кроків веде до вищої якості зображення. Якщо вказано, воно має бути додатним цілим числом. Зверніть увагу, що більше кроків висновку призведе до довшого часу відповіді.
guidance_scale (необов'язковий) – Вища шкала вказівок призводить до того, що зображення більше пов’язане з підказкою, за рахунок погіршення якості зображення. Якщо вказано, це має бути float. guidance_scale<=1 ігнорується.
negative_prompt (необов'язковий) – Це спрямовує генерацію зображення проти цієї підказки. Якщо вказано, це має бути рядок або список рядків і використовуватися з guidance_scale. Якщо guidance_scale вимкнено, це також вимкнено. Крім того, якщо підказка є списком рядків, то negative_prompt також має бути списком рядків.
насіння (необов'язково) – Це фіксує рандомізований стан для відтворюваності. Якщо вказано, воно має бути цілим числом. Щоразу, коли ви використовуєте те саме підказку з тим самим початковим кодом, кінцеве зображення завжди буде однаковим.
noise_level (необов'язковий) – Це додає шум до прихованих векторів перед масштабуванням. Якщо вказано, воно має бути цілим числом.

Ви можете рекурсивно збільшити масштаб зображення, викликаючи кінцеву точку неодноразово, щоб отримати зображення все вищої якості.

Розмір зображення та типи екземплярів

Зображення, створені моделлю, можуть бути вчетверо більші за вихідне зображення з низькою роздільною здатністю. Крім того, вимога до пам’яті моделі (пам’ять графічного процесора) зростає зі збільшенням розміру згенерованого зображення. Таким чином, якщо ви масштабуєте вже зображення з високою роздільною здатністю або рекурсивно масштабуєте зображення, виберіть тип екземпляра з великою пам’яттю GPU. Наприклад, ml.g5.2xlarge має більше пам’яті GPU, ніж тип екземпляра ml.p3.2xlarge, який ми використовували раніше. Додаткову інформацію про різні типи екземплярів див Типи екземплярів Amazon EC2.

Масштабування зображень по частинах

Щоб зменшити вимоги до пам’яті під час масштабування великих зображень, ви можете розбити зображення на менші частини, відомі як плиткаі масштабуйте кожну плитку окремо. Після збільшення масштабу плиток їх можна змішати, щоб створити остаточне зображення. Цей метод вимагає адаптації підказки для кожної плитки, щоб модель могла зрозуміти вміст плитки та уникнути створення дивних зображень. Частина підказки щодо стилю має залишатися однаковою для всіх плиток, щоб полегшити змішування. При використанні вищих налаштувань шумозаглушення важливо бути більш конкретним у підказці, оскільки модель має більше свободи для адаптації зображення. Це може бути складно, коли плитка містить лише фон або не пов’язана безпосередньо з основним вмістом зображення.

Обмеження та упередженість

Незважаючи на те, що Stable Diffusion має вражаючу продуктивність у масштабуванні, він страждає від кількох обмежень і упереджень. Вони включають, але не обмежуються:

Модель може не генерувати точні обличчя чи кінцівки, оскільки навчальні дані не містять достатньо зображень із цими функціями
Модель проходила навчання на Набір даних LAION-5B, який має вміст для дорослих і може бути непридатним для використання в продукті без подальших розглядів
Модель може погано працювати з неанглійськими мовами, оскільки модель навчена на тексті англійською мовою
Модель не може створити якісний текст у зображеннях

Для отримання додаткової інформації про обмеження та упередження зверніться до Карта моделі Stable Diffusion upscaler.

Прибирати

Після того, як ви завершите роботу блокнота, обов’язково видаліть усі ресурси, створені в процесі, щоб переконатися, що виставлення рахунків зупинено. Код для очищення кінцевої точки доступний у асоційованому ноутбук.

Висновок

У цій публікації ми показали, як розгорнути попередньо навчену модель Stable Diffusion upscaler за допомогою JumpStart. Ми показали фрагменти коду в цій публікації — повний код із усіма кроками в цій демонстрації доступний у Вступ до JumpStart – покращуйте якість зображення за допомогою підказок приклад зошита. Спробуйте рішення самостійно та надішліть нам свої коментарі.

Щоб дізнатися більше про модель і як вона працює, перегляньте такі ресурси:

Щоб дізнатися більше про JumpStart, перегляньте такі публікації блогу:

Про авторів

Доктор Вівек Мадан є прикладним науковцем у команді Amazon SageMaker JumpStart. Він отримав ступінь доктора філософії в Університеті Іллінойсу в Урбана-Шампейн і був науковим співробітником у технічному університеті Джорджії. Він є активним дослідником машинного навчання та розробки алгоритмів і публікував статті на конференціях EMNLP, ICLR, COLT, FOCS і SODA.

Хайко Хоц є старшим архітектором рішень для штучного інтелекту та машинного навчання з особливою увагою до обробки природної мови (NLP), великих мовних моделей (LLM) і генеративного штучного інтелекту. До цієї посади він був керівником відділу обробки даних у відділі обслуговування клієнтів Amazon в ЄС. Heiko допомагає нашим клієнтам досягти успіху на шляху AI/ML на AWS і співпрацює з організаціями в багатьох галузях, включаючи страхування, фінансові послуги, медіа та розваги, охорону здоров’я, комунальні послуги та виробництво. У вільний час Хейко якомога більше подорожує.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/upscale-images-with-stable-diffusion-in-amazon-sagemaker-jumpstart/

Часова мітка: Січень 25, 2023

Часова мітка: Лютий 21, 2023

Перевидано Платоном

Швидке та економічно ефективне тонке налаштування LLaMA 2 за допомогою AWS Trainium | Веб-сервіси Amazon

Подорож генеративного віртуального помічника зі штучним інтелектом PGA TOUR від концепції до розробки та прототипу | Веб-сервіси Amazon

Розумний пошук вмісту Adobe Experience Manager за допомогою Amazon Kendra | Веб-сервіси Amazon

Модель основи AI21 Jurassic-1 тепер доступна на Amazon SageMaker

Отримайте статистику з SAP ERP за допомогою рішень ML без коду за допомогою Amazon AppFlow і Amazon SageMaker Canvas

Реалізуйте персоналізовані рекомендації в реальному часі за допомогою Amazon Personalize | Веб-сервіси Amazon

AWS і Hugging Face співпрацюють, щоб зробити генеративний ШІ більш доступним і економічно ефективним

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки