在 Amazon SageMaker JumpStart 中稳定传播的高档图像

由柏拉图重新发布

关注： 0

2022 年 XNUMX 月，我们公布 AWS 客户可以从文本生成图像稳定扩散模特儿亚马逊SageMaker JumpStart. 今天，我们宣布了一项新功能，可让您使用 JumpStart 中的稳定扩散模型来放大图像（调整图像大小而不损失质量）。低分辨率、模糊和像素化的图像可以转换为看起来更平滑、更清晰和更详细的高分辨率图像。这个过程，称为倍增, 可以应用于真实图像和由生成的图像文本到图像的稳定扩散模型. 这可用于提高电子商务和房地产等各个行业以及艺术家和摄影师的图像质量。此外，当在高分辨率屏幕上显示时，升级可以提高低分辨率图像的视觉质量。

Stable Diffusion 使用 AI 算法来放大图像，消除了可能需要手动填充图像间隙的手动工作。它已经过数百万张图像的训练，可以准确预测高分辨率图像，与传统图像放大器相比，细节显着增加。此外，与最近邻等非深度学习技术不同，Stable Diffusion 考虑了图像的上下文，使用文本提示来指导放大过程。

在这篇文章中，我们概述了如何通过两种方式部署和运行稳定扩散器模型的推理：通过 JumpStart 的用户界面 (UI) 亚马逊SageMaker Studio，并以编程方式通过 JumpStart API 可用的 SageMaker Python 开发工具包.

解决方案概述

下图显示了模型执行的放大示例。左边是放大后的原始低分辨率图像，以匹配模型生成的图像的大小。右边是模型生成的图像。

第一张生成的图像是低分辨率猫图像和提示“一只白猫”的结果。

Amazon SageMaker JumpStart PlatoBlockchain 数据智能中具有稳定扩散的高档图像。垂直搜索。人工智能。

第二张生成的图像是低分辨率蝴蝶图像和提示“绿叶上的蝴蝶”的结果。

Amazon SageMaker JumpStart PlatoBlockchain 数据智能中具有稳定扩散的高档图像。垂直搜索。人工智能。

运行像 Stable Diffusion 这样的大型模型需要自定义推理脚本。您必须运行端到端测试以确保脚本、模型和所需实例有效地协同工作。 JumpStart 通过提供已经过可靠测试的现成脚本简化了这个过程。您可以通过 Studio UI 一键访问这些脚本，或者通过 JumpStart API.

以下部分概述了如何使用 Studio UI 或 JumpStart API 部署模型和运行推理。

请注意，使用此模型即表示您同意 CreativeML Open RAIL++-M 许可证.

通过 Studio UI 访问 JumpStart

在本节中，我们将演示如何通过 Studio UI 训练和部署 JumpStart 模型。以下视频展示了如何在 JumpStart 上找到预训练的 Stable Diffusion upscaler 模型并进行部署。模型页面包含有关模型及其使用方法的有价值信息。对于推理，我们使用 ml.p3.2xlarge 实例类型，因为它以低价位提供低推理延迟所需的 GPU 加速。配置 SageMaker 托管实例后，选择部署. 端点启动并运行并准备好响应推理请求需要 5-10 分钟。

为了加快推理时间，JumpStart 提供了一个示例笔记本，展示了如何在新创建的端点上运行推理。要在 Studio 中访问笔记本，请选择 打开笔记本 ，在 使用 Studio 中的端点 模型端点页面的部分。

通过 SageMaker SDK 以编程方式使用 JumpStart

只需单击几下，您就可以使用 JumpStart UI 以交互方式部署预训练模型。但是，您也可以使用集成到 SageMaker Python SDK 中的 API 以编程方式使用 JumpStart 模型。

在本节中，我们在 JumpStart 中选择合适的预训练模型，将此模型部署到 SageMaker 端点，并在部署的端点上运行推理，所有这些都使用 SageMaker Python SDK。以下示例包含代码片段。有关此演示中所有步骤的完整代码，请参阅 JumpStart 简介 – 根据提示提高图像质量示例笔记本。

部署预训练模型

SageMaker 利用 Docker 容器执行各种构建和运行时任务。 JumpStart 利用 SageMaker 深度学习容器 (DLC) 是特定于框架的。我们首先获取任何额外的包，以及用于处理所选任务的训练和推理的脚本。然后分别获取预训练模型工件 model_uris，这为平台提供了灵活性。这允许多个预训练模型与单个推理脚本一起使用。下面的代码说明了这个过程：

model_id, model_version = "model-upscaling-stabilityai-stable-diffusion-x4-upscaler-fp16", "*"
# Retrieve the inference docker container uri
deploy_image_uri = image_uris.retrieve( region=None, framework=None, # automatically inferred from model_id image_scope="inference", model_id=model_id, model_version=model_version, instance_type=inference_instance_type,
)
# Retrieve the inference script uri
deploy_source_uri = script_uris.retrieve(model_id=model_id, model_version=model_version, script_scope="inference") base_model_uri = model_uris.retrieve(model_id=model_id, model_version=model_version, model_scope="inference")

接下来，我们将这些资源提供给一个 SageMaker 模型实例化并部署端点：

# Create the SageMaker model instance
model = Model( image_uri=deploy_image_uri, source_dir=deploy_source_uri, model_data=base_model_uri, entry_point="inference.py", # entry point file in source_dir and present in deploy_source_uri role=aws_role, predictor_cls=Predictor, name=endpoint_name,
) # deploy the Model - note that we need to pass the Predictor class when we deploy the model through the Model class,
# in order to run inference through the SageMaker API
base_model_predictor = model.deploy( initial_instance_count=1, instance_type=inference_instance_type, predictor_cls=Predictor, endpoint_name=endpoint_name,
)

部署模型后，我们可以从中实时获得预测！

输入格式

端点接受低分辨率图像作为原始 RGB 值或 base64 编码图像。推理处理程序根据以下内容对图像进行解码 content_type:

针对 content_type = “application/json”，输入有效负载必须是一个包含原始 RGB 值、文本提示和其他可选参数的 JSON 字典
针对 content_type = “application/json;jpeg”，输入负载必须是带有 base64 编码图像、文本提示和其他可选参数的 JSON 字典

输出格式

以下代码示例让您大致了解输出的内容。与输入格式类似，端点可以响应图像的原始 RGB 值或 base64 编码图像。这可以通过设置指定 accept 到两个值之一：

针对 accept = “application/json”，端点返回一个 JSON 字典，其中包含图像的 RGB 值
针对 accept = “application/json;jpeg”，端点返回一个 JSON 字典，其中 JPEG 图像作为使用 base64.b64 编码的字节编码

请注意，使用原始 RGB 值发送或接收负载可能会达到输入负载和响应大小的默认限制。因此，我们建议通过设置使用 base64 编码的图像 content_type = “application/json;jpeg” 和 accept = “application/json;jpeg”.

以下代码是一个示例推理请求：

content_type = “application/json;jpeg” # We recommend rescaling the image of low_resolution_image such that both height and width are powers of 2.
# This can be achieved by original_image = Image.open('low_res_image.jpg'); rescaled_image = original_image.rescale((128,128)); rescaled_image.save('rescaled_image.jpg')
with open(low_res_img_file_name,'rb') as f: low_res_image_bytes = f.read() encoded_image = base64.b64encode(bytearray(low_res_image_bytes)).decode() payload = { "prompt": "a cat", "image": encoded_image, "num_inference_steps":50, "guidance_scale":7.5} accept = "application/json;jpeg" def query(model_predictor, payload, content_type, accept): """Query the model predictor.""" query_response = model_predictor.predict( payload, { "ContentType": content_type, "Accept": accept, }, ) return query_response

端点响应是一个包含生成的图像和提示的 JSON 对象：

def parse_response(query_response): """Parse response and return the generated images and prompt.""" response_dict = json.loads(query_response) return response_dict["generated_images"], response_dict["prompt"] query_response = query(model_predictor, json.dumps(payload).encode('utf-8'), content_type, accept)
generated_images, prompt = parse_response(query_response)

支持的参数

稳定的扩散放大模型支持许多图像生成参数：

图片 – 低分辨率图像。
提示 – 引导图像生成的提示。它可以是一个字符串或一个字符串列表。
num_inference_steps（可选） – 图像生成过程中的去噪步骤数。更多的步骤导致更高质量的图像。如果指定，它必须是正整数。请注意，更多的推理步骤将导致更长的响应时间。
guidance_scale（可选） – 更高的指导比例会导致图像与提示更密切相关，但会牺牲图像质量。如果指定，它必须是一个浮点数。 guidance_scale<=1 被忽略。
negative_prompt（可选） – 这将根据此提示引导图像生成。如果指定，它必须是一个字符串或一个字符串列表，并与 guidance_scale。如果 guidance_scale 被禁用，这也被禁用。此外，如果提示是一个字符串列表，那么 negative_prompt 也必须是一个字符串列表。
种子（可选） – 这修复了可重复性的随机状态。如果指定，它必须是一个整数。每当您对相同的种子使用相同的提示时，生成的图像将始终相同。
噪音级别（可选） – 这会在放大之前为潜在向量增加噪声。如果指定，它必须是一个整数。

您可以通过重复调用端点来递归升级图像以获得越来越高质量的图像。

镜像大小和实例类型

模型生成的图像可以是原始低分辨率图像的四倍大。此外，模型的内存需求（GPU 内存）随着生成图像的大小而增长。因此，如果您正在放大已经是高分辨率的图像或递归地放大图像，请选择具有大 GPU 内存的实例类型。例如，ml.g5.2xlarge 比我们之前使用的 ml.p3.2xlarge 实例类型具有更多的 GPU 内存。有关不同实例类型的更多信息，请参阅 Amazon EC2实例类型.

逐个放大图像

为了在放大大图像时减少内存需求，您可以将图像分成更小的部分，称为瓷砖, 并单独升级每个图块。将图块放大后，可以将它们混合在一起以创建最终图像。此方法需要为每个图块调整提示，以便模型可以理解图块的内容并避免创建奇怪的图像。提示的样式部分应该对所有图块保持一致，以使混合更容易。当使用更高的去噪设置时，在提示中更具体是很重要的，因为模型可以更自由地调整图像。当图块仅包含背景或与图片的主要内容不直接相关时，这可能具有挑战性。

局限性和偏见

尽管 Stable Diffusion 在放大方面具有令人印象深刻的性能，但它也存在一些局限性和偏差。这些包括但不限于：

该模型可能无法生成准确的面部或四肢，因为训练数据不包含具有这些特征的足够图像
该模型是在 LAION-5B 数据集，其中包含成人内容，未经进一步考虑可能不适合产品使用
该模型可能不适用于非英语语言，因为该模型是针对英语文本进行训练的
该模型无法在图像中生成良好的文本

有关限制和偏差的更多信息，请参阅 Stable Diffusion upscaler 模型卡.

清理

完成运行笔记本后，请务必删除在此过程中创建的所有资源，以确保停止计费。清理端点的代码在关联的笔记本.

结论

在本文中，我们展示了如何使用 JumpStart 部署预训练的 Stable Diffusion upscaler 模型。我们在这篇文章中展示了代码片段——包含此演示中所有步骤的完整代码可在 JumpStart 简介 – 根据提示提高图像质量示例笔记本。自己尝试解决方案并将您的意见发送给我们。

要了解有关该模型及其工作原理的更多信息，请参阅以下资源：

要了解有关 JumpStart 的更多信息，请查看以下博客文章：

作者简介

Vivek Madan 博士 是 Amazon SageMaker JumpStart 团队的一名应用科学家。他在伊利诺伊大学厄巴纳-香槟分校获得博士学位，并且是乔治亚理工学院的博士后研究员。他是机器学习和算法设计方面的活跃研究员，并在 EMNLP、ICLR、COLT、FOCS 和 SODA 会议上发表过论文。

海科霍茨 是 AI 和机器学习的高级解决方案架构师，特别关注自然语言处理 (NLP)、大型语言模型 (LLM) 和生成 AI。在此之前，他是亚马逊欧盟客户服务的数据科学主管。 Heiko 帮助我们的客户在 AWS 上的 AI/ML 之旅中取得成功，并与许多行业的组织合作，包括保险、金融服务、媒体和娱乐、医疗保健、公用事业和制造业。在业余时间，Heiko 尽可能多地旅行。

SEO 支持的内容和 PR 分发。今天得到放大。
柏拉图区块链。 Web3 元宇宙智能。知识放大。访问这里。
Sumber: https://aws.amazon.com/blogs/machine-learning/upscale-images-with-stable-diffusion-in-amazon-sagemaker-jumpstart/

时间戳记： 2023 年 1 月 25 日

时间戳记： 2023 年 2 月 21 日

由柏拉图重新发布

使用适用于 NLP 和 CV PyTorch 模型的 Amazon EC2 G5 实例，将每次推理的成本降低三倍，实现四倍的 ML 推理吞吐量

使用 AWS Trainium 快速且经济高效地微调 LLaMA 2 | 亚马逊网络服务

PGA TOUR 生成式 AI 虚拟助手从概念到开发再到原型的历程 |亚马逊网络服务

使用 Amazon Kendra 智能搜索 Adobe Experience Manager 内容 | 亚马逊网络服务

AI21 Jurassic-1 基础模型现已在 Amazon SageMaker 上可用

使用 Amazon AppFlow 和 Amazon SageMaker Canvas 的无代码 ML 解决方案从 SAP ERP 中提取见解

使用 Amazon Personalize 实施实时个性化推荐 | 亚马逊网络服务

AWS 和 Hugging Face 合作使生成 AI 更易于访问且更具成本效益

关于我们

垂直搜索和Ai

应用平台

保持联系

账号管理