Amazon SageMaker JumpStart での安定した拡散による画像のアップスケール

プラトン再発行

フォロワー： 0

2022年XNUMX月、私たちは発表の AWS のお客様は、テキストから画像を生成できる安定拡散モデルイン Amazon SageMaker ジャンプスタート. 本日、JumpStart の Stable Diffusion モデルを使用して画像をアップスケールする (品質を落とさずに画像のサイズを変更する) ことができる新機能を発表します。低解像度でぼやけたピクセル化された画像は、より滑らかで鮮明で詳細に見える高解像度画像に変換できます。と呼ばれるこのプロセス アップスケーリング、実際の画像とによって生成された画像の両方に適用できますテキストから画像への安定拡散モデル. アーティストや写真家だけでなく、e コマースや不動産などのさまざまな業界で画質を向上させるために使用できます。さらに、アップスケーリングは、高解像度の画面に表示されたときに、低解像度の画像の視覚的な品質を向上させることができます。

Stable Diffusion は AI アルゴリズムを使用して画像をアップスケールし、画像のギャップを手動で埋める必要のある手動作業の必要性を排除します。何百万もの画像でトレーニングされており、高解像度の画像を正確に予測できるため、従来の画像アップスケーラーと比較して詳細が大幅に向上します。さらに、最近傍法などの非深層学習手法とは異なり、Stable Diffusion は画像のコンテキストを考慮し、テキストプロンプトを使用してアップスケーリングプロセスをガイドします。

この投稿では、XNUMX つの方法で Stable Diffusion アップスケーラーモデルをデプロイして推論を実行する方法の概要を説明します。 Amazon SageMakerスタジオ、およびプログラムによって JumpStart API で利用可能 SageMaker Python SDK.

ソリューションの概要

次の画像は、モデルによって実行されるアップスケーリングの例を示しています。左側は、モデルによって生成された画像のサイズに合わせて拡大された元の低解像度画像です。右側は、モデルによって生成された画像です。

最初に生成された画像は、低解像度の猫画像とプロンプト「白猫」の結果です。

Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence の Stable Diffusion を使用して画像をアップスケールします。垂直検索。あい。

XNUMX 番目に生成された画像は、低解像度の蝶の画像と「緑の葉の上の蝶」というプロンプトの結果です。

Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence の Stable Diffusion を使用して画像をアップスケールします。垂直検索。あい。

Stable Diffusion のような大きなモデルを実行するには、カスタムの推論スクリプトが必要です。エンドツーエンドのテストを実行して、スクリプト、モデル、および目的のインスタンスが効率的に連携することを確認する必要があります。 JumpStart は、しっかりとテストされたすぐに使えるスクリプトを提供することで、このプロセスを簡素化します。これらのスクリプトには、Studio UI からワンクリックでアクセスできます。 JumpStart API.

次のセクションでは、Studio UI または JumpStart API を使用してモデルをデプロイし、推論を実行する方法の概要を説明します。

このモデルを使用することにより、以下に同意することに注意してください CreativeML Open RAIL++-M ライセンス.

StudioUIからJumpStartにアクセスします

このセクションでは、Studio UI を使用して JumpStart モデルをトレーニングおよびデプロイする方法を示します。次のビデオは、事前トレーニング済みの Stable Diffusion アップスケーラーモデルを JumpStart で見つけてデプロイする方法を示しています。モデルページには、モデルとその使用方法に関する貴重な情報が含まれています。推論には ml.p3.2xlarge インスタンスタイプを使用します。これは、低価格で低推論レイテンシーに必要な GPU アクセラレーションを提供するためです。 SageMaker ホスティングインスタンスを設定したら、選択します 配備します. エンドポイントが起動して実行され、推論リクエストに応答できるようになるまで 5 ～ 10 分かかります。

推論までの時間を短縮するために、JumpStart には、新しく作成されたエンドポイントで推論を実行する方法を示すサンプルノートブックが用意されています。 Studio でノートブックにアクセスするには、 ノートブックを開く セクションに StudioのEndpointを使用する モデルエンドポイントページのセクション。

SageMakerSDKでJumpStartをプログラムで使用する

JumpStart UI を使用すると、数回クリックするだけで、事前トレーニング済みのモデルをインタラクティブにデプロイできます。ただし、SageMaker Python SDK に統合された API を使用して、プログラムで JumpStart モデルを使用することもできます。

このセクションでは、JumpStart で適切な事前トレーニング済みモデルを選択し、このモデルを SageMaker エンドポイントにデプロイし、デプロイされたエンドポイントで推論を実行します。すべて SageMaker Python SDK を使用します。次の例には、コードスニペットが含まれています。このデモのすべてのステップを含む完全なコードについては、 JumpStart の紹介 – プロンプトに従って画質を向上させるノートブックの例。

事前トレーニング済みのモデルをデプロイする

SageMaker は、さまざまなビルドおよびランタイムタスクに Docker コンテナを利用します。 JumpStart は SageMakerディープラーニングコンテナフレームワーク固有の (DLC)。最初に、追加のパッケージと、選択したタスクのトレーニングと推論を処理するスクリプトをフェッチします。次に、事前トレーニング済みのモデルアーティファクトが個別にフェッチされます。 model_uris、プラットフォームに柔軟性を提供します。これにより、複数の事前トレーニング済みモデルを XNUMX つの推論スクリプトで使用できます。次のコードは、このプロセスを示しています。

model_id, model_version = "model-upscaling-stabilityai-stable-diffusion-x4-upscaler-fp16", "*"
# Retrieve the inference docker container uri
deploy_image_uri = image_uris.retrieve( region=None, framework=None, # automatically inferred from model_id image_scope="inference", model_id=model_id, model_version=model_version, instance_type=inference_instance_type,
)
# Retrieve the inference script uri
deploy_source_uri = script_uris.retrieve(model_id=model_id, model_version=model_version, script_scope="inference") base_model_uri = model_uris.retrieve(model_id=model_id, model_version=model_version, model_scope="inference")

次に、これらのリソースを SageMakerモデルインスタンス化してエンドポイントをデプロイします。

# Create the SageMaker model instance
model = Model( image_uri=deploy_image_uri, source_dir=deploy_source_uri, model_data=base_model_uri, entry_point="inference.py", # entry point file in source_dir and present in deploy_source_uri role=aws_role, predictor_cls=Predictor, name=endpoint_name,
) # deploy the Model - note that we need to pass the Predictor class when we deploy the model through the Model class,
# in order to run inference through the SageMaker API
base_model_predictor = model.deploy( initial_instance_count=1, instance_type=inference_instance_type, predictor_cls=Predictor, endpoint_name=endpoint_name,
)

モデルがデプロイされた後、リアルタイムで予測を取得できます!

入力形式

エンドポイントは、低解像度の画像を生の RGB 値または base64 でエンコードされた画像として受け入れます。推論ハンドラーは、に基づいて画像をデコードします。 content_type:

content_type = “application/json”、入力ペイロードは、未加工の RGB 値、テキストプロンプト、およびその他のオプションパラメータを含む JSON ディクショナリである必要があります
content_type = “application/json;jpeg”、入力ペイロードは、base64 でエンコードされた画像、テキストプロンプト、およびその他のオプションパラメータを含む JSON ディクショナリである必要があります

出力フォーマット

次のコード例では、出力がどのように見えるかを垣間見ることができます。入力形式と同様に、エンドポイントは画像の生の RGB 値または base64 でエンコードされた画像で応答できます。設定で指定可能 accept XNUMX つの値のいずれかに:

accept = “application/json”、エンドポイントは画像の RGB 値を含む JSON ディクショナリを返します
accept = “application/json;jpeg”の場合、エンドポイントは base64.b64 エンコーディングでエンコードされたバイトとして JPEG 画像を含む JSON ディクショナリを返します

生の RGB 値でペイロードを送受信すると、入力ペイロードと応答サイズのデフォルト制限に達する可能性があることに注意してください。したがって、base64 でエンコードされたイメージを設定して使用することをお勧めします。 content_type = “application/json;jpeg” および accept = “application/json;jpeg”.

次のコードは、推論リクエストの例です。

content_type = “application/json;jpeg” # We recommend rescaling the image of low_resolution_image such that both height and width are powers of 2.
# This can be achieved by original_image = Image.open('low_res_image.jpg'); rescaled_image = original_image.rescale((128,128)); rescaled_image.save('rescaled_image.jpg')
with open(low_res_img_file_name,'rb') as f: low_res_image_bytes = f.read() encoded_image = base64.b64encode(bytearray(low_res_image_bytes)).decode() payload = { "prompt": "a cat", "image": encoded_image, "num_inference_steps":50, "guidance_scale":7.5} accept = "application/json;jpeg" def query(model_predictor, payload, content_type, accept): """Query the model predictor.""" query_response = model_predictor.predict( payload, { "ContentType": content_type, "Accept": accept, }, ) return query_response

エンドポイントの応答は、生成された画像とプロンプトを含む JSON オブジェクトです。

def parse_response(query_response): """Parse response and return the generated images and prompt.""" response_dict = json.loads(query_response) return response_dict["generated_images"], response_dict["prompt"] query_response = query(model_predictor, json.dumps(payload).encode('utf-8'), content_type, accept)
generated_images, prompt = parse_response(query_response)

サポートされるパラメーター

Stable Diffusion アップスケーリングモデルは、画像生成用の多くのパラメーターをサポートしています。

画像 – 低解像度の画像。
プロンプト – イメージ生成をガイドするプロンプト。文字列または文字列のリストにすることができます。
num_inference_steps (オプション) – 画像生成中のノイズ除去ステップの数。ステップ数が多いほど、画質が向上します。指定する場合は、正の整数にする必要があります。推論ステップが増えると、応答時間が長くなることに注意してください。
guide_scale (オプション) – ガイダンススケールを高くすると、画像の品質が犠牲になりますが、プロンプトにより密接に関連する画像になります。指定する場合は、float にする必要があります。 guidance_scale<=1 無視されます。
negative_prompt (オプション) – これは、このプロンプトに対してイメージ生成をガイドします。指定する場合は、文字列または文字列のリストであり、一緒に使用する必要があります guidance_scale。場合 guidance_scale が無効になっている場合、これも無効になります。さらに、プロンプトが文字列のリストである場合、negative_prompt も文字列のリストでなければなりません。
シード（オプション） – これにより、再現性のためにランダム化された状態が修正されます。指定する場合は、整数にする必要があります。同じシードで同じプロンプトを使用すると、結果のイメージは常に同じになります。
noise_level (オプション) – これにより、アップスケーリングの前に潜在ベクトルにノイズが追加されます。指定する場合は、整数にする必要があります。

エンドポイントを繰り返し呼び出して画像を再帰的にアップスケールし、より高品質の画像を取得できます。

イメージのサイズとインスタンスタイプ

モデルによって生成される画像は、元の低解像度画像の最大 5.2 倍のサイズになる場合があります。さらに、モデルのメモリ要件 (GPU メモリ) は、生成された画像のサイズと共に増加します。したがって、すでに高解像度の画像をアップスケーリングする場合、または画像を再帰的にアップスケーリングする場合は、大容量の GPU メモリを備えたインスタンスタイプを選択してください。たとえば、ml.g3.2xlarge には、以前に使用した ml.pXNUMXxlarge インスタンスタイプよりも多くの GPU メモリがあります。さまざまなインスタンスタイプの詳細については、次を参照してください。 AmazonEC2インスタンスタイプ.

画像を少しずつアップスケーリングする

大きな画像をアップスケーリングするときのメモリ要件を減らすために、画像を小さなセクションに分割できます。 タイル、各タイルを個別にアップスケールします。タイルが拡大された後、それらをブレンドして最終的な画像を作成できます。この方法では、モデルがタイルの内容を理解し、奇妙な画像の作成を回避できるように、タイルごとにプロンプトを調整する必要があります。ブレンドを容易にするために、プロンプトのスタイル部分はすべてのタイルで一貫している必要があります。より高いノイズ除去設定を使用する場合、モデルが画像を適応させる自由度が高くなるため、プロンプトでより具体的にすることが重要です。タイルに背景しか含まれていない場合や、画像のメインコンテンツに直接関連していない場合、これは困難な場合があります。

制限とバイアス

Stable Diffusion はアップスケーリングで優れたパフォーマンスを発揮しますが、いくつかの制限や偏りがあります。これらには以下が含まれますが、これらに限定されません。

トレーニングデータにこれらの機能を備えた十分な画像が含まれていないため、モデルは正確な顔や手足を生成しない場合があります
モデルは、 LAION-5B データセット、成人向けコンテンツが含まれており、さらに考慮しないと製品の使用に適さない可能性があります
モデルは英語のテキストでトレーニングされているため、モデルは英語以外の言語ではうまく機能しない可能性があります
モデルは画像内に適切なテキストを生成できません

制限とバイアスの詳細については、 Stable Diffusion アップスケーラーモデルカード.

クリーンアップ

ノートブックの実行が完了したら、プロセスで作成されたすべてのリソースを必ず削除して、請求が停止されるようにしてください。エンドポイントをクリーンアップするコードは、関連するノート.

まとめ

この投稿では、JumpStart を使用して事前トレーニング済みの Stable Diffusion アップスケーラーモデルをデプロイする方法を示しました。この投稿ではコードスニペットを示しました。このデモのすべての手順を含む完全なコードは、 JumpStart の紹介 – プロンプトに従って画質を向上させる例のノート。ご自身で解決策を試し、ご意見をお寄せください。

モデルとその仕組みの詳細については、次のリソースを参照してください。

JumpStart の詳細については、次のブログ投稿をご覧ください。

著者について

ヴィヴェック・マダン博士 Amazon SageMaker JumpStart チームの応用科学者です。イリノイ大学アーバナシャンペーン校で博士号を取得し、ジョージア工科大学で博士研究員を務めました。彼は機械学習とアルゴリズム設計の活発な研究者であり、EMNLP、ICLR、COLT、FOCS、および SODA カンファレンスで論文を発表しています。

ヘイコ・ホッツ AI と機械学習のシニアソリューションアーキテクトで、自然言語処理 (NLP)、大規模言語モデル (LLM)、ジェネレーティブ AI に特に重点を置いています。この役職に就く前は、Amazon の EU カスタマーサービスのデータサイエンス責任者でした。 Heiko は、お客様が AWS で AI/ML ジャーニーを成功させるのを支援し、保険、金融サービス、メディアとエンターテイメント、ヘルスケア、公益事業、製造など、多くの業界の組織と協力してきました。余暇には、平子はできるだけ旅行に出かけます。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/upscale-images-with-stable-diffusion-in-amazon-sagemaker-jumpstart/

タイムスタンプ： 2023 年 1 月 25 日

タイムスタンプ： 2023 年 2 月 21 日

プラトン再発行

NLP および CV PyTorch モデル用の Amazon EC2 G5 インスタンスを使用して、推論あたりのコストを XNUMX 分の XNUMX に抑えて XNUMX 倍の ML 推論スループットを実現

AWS Trainium を使用した高速かつコスト効率の高い LLaMA 2 微調整 | アマゾンウェブサービス

PGA ツアーの生成 AI 仮想アシスタントの旅、コンセプトから開発、プロトタイプまで |アマゾンウェブサービス

Amazon Kendra を使用して Adobe Experience Manager コンテンツをインテリジェントに検索する | アマゾンウェブサービス

AI21 Jurassic-1 基礎モデルが Amazon SageMaker で利用可能になりました

AmazonAppFlowとAmazonSageMakerCanvasを使用したノーコードMLソリューションを使用して、SAPERPから洞察を抽出します

Amazon Personalize | を使用して、リアルタイムのパーソナライズされた推奨事項を実装します。アマゾンウェブサービス

AWS と Hugging Face が協力して、ジェネレーティブ AI をよりアクセスしやすく、費用対効果の高いものにします

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー