Amazon SageMaker を使用したジェネレーティブ AI による仮想ファッションスタイリング

プラトン再発行

フォロワー： 0

ファッション業界は、利益率の高いビジネス世界銀行の報告によると、2.1 年までに 2025 兆ドルの価値があると推定されています。この分野には、衣料品、靴、アクセサリーの作成、製造、流通、販売など、さまざまな分野があります。業界は絶え間なく変化し、新しいスタイルやトレンドが頻繁に現れています。したがって、ファッション企業は、関連性を維持し、市場で成功を収めるために、柔軟で適応できなければなりません。

生成型人工知能 (AI) は、学習した一連のパターンとデータに基づいて、画像、テキスト、オーディオ、ビデオなどの新しいコンテンツを生成するように設計された AI アルゴリズムを指します。これを利用して、パーソナライズと費用対効果を向上させながら、新しく革新的なアパレルデザインを生み出すことができます。 AI 駆動のデザインツールは、テキストプロンプトを通じて潜在的な顧客が指定した入力パラメーターまたはスタイルに基づいて、独自のアパレルデザインを作成できます。さらに、AI を利用して、顧客の好みに合わせてデザインをパーソナライズすることもできます。たとえば、顧客はさまざまな色、パターン、スタイルから選択でき、AI モデルはそれらの選択に基づいて独自のデザインを生成します。現在、ファッション業界での AI の採用は、さまざまな技術的、実現可能性、およびコストの課題によって妨げられています。ただし、これらの障害は、自然言語ベースの画像セマンティックセグメンテーションや仮想スタイリングの拡散などの高度な生成 AI 手法を利用することで軽減できるようになりました。

このブログ投稿では、テキストプロンプトを使用したジェネレーティブ AI 支援ファッションオンラインスタイリングの実装について詳しく説明しています。機械学習 (ML) エンジニアは、事前トレーニング済みの CLIPSeq と Stable Diffusion に基づいて、テキストからセマンティックへのセグメンテーションモデルとインペインティングモデルを微調整して展開できます。アマゾンセージメーカー. これにより、ファッションデザイナーや消費者は、テキストプロンプトに基づいて仮想モデリングイメージを作成し、好みのスタイルを選択できます。

ソリューションアーキテクチャ

ジェネレーティブ AI ソリューション

　クリップセグ model は、単純なテキストコマンドを使用して写真内のファッションアイテムを簡単に識別できるようにする新しいイメージセマンティックセグメンテーションメソッドを導入しました。テキストプロンプトまたはイメージエンコーダーを使用して、テキストおよび視覚情報をマルチモーダル埋め込み空間にエンコードし、プロンプトに基づいてターゲットオブジェクトを非常に正確にセグメンテーションできます。このモデルは、ゼロショット転送、自然言語教師、マルチモーダル自己教師あり対照学習などの手法を使用して、膨大な量のデータでトレーニングされています。これは、によって公開されている事前トレーニング済みのモデルを利用できることを意味します。ティモ・リュデッケなど、カスタマイズの必要はありません。

CLIPSeg アーキテクチャ

CLIPSeg は、テキストと画像のエンコーダーを使用してテキストと視覚情報をマルチモーダル埋め込み空間にエンコードし、テキストプロンプトに基づいてセマンティックセグメンテーションを実行するモデルです。 CLIPSeg のアーキテクチャは、テキストエンコーダーと画像エンコーダーの XNUMX つの主要コンポーネントで構成されています。テキストエンコーダーはテキストプロンプトを受け取り、それをテキスト埋め込みに変換しますが、イメージエンコーダーは画像を受け取り、それを画像埋め込みに変換します。次に、両方の埋め込みが連結され、完全に接続されたレイヤーを通過して、最終的なセグメンテーションマスクが生成されます。

データフローに関しては、モデルは画像のデータセットと対応するテキストプロンプトでトレーニングされます。テキストプロンプトは、セグメント化されるターゲットオブジェクトを記述します。トレーニングプロセス中に、テキストエンコーダーとイメージエンコーダーは、テキストプロンプトとイメージ間のマッピングを学習して最終的なセグメンテーションマスクを生成するように最適化されます。モデルがトレーニングされると、新しいテキストプロンプトと画像を取り込み、プロンプトに記述されたオブジェクトのセグメンテーションマスクを生成できます。

Stable Diffusion は、ファッションデザイナーがテキストの説明だけに基づいて非常にリアルな画像を大量に生成できるようにする手法であり、長くて費用のかかるカスタマイズは必要ありません。これは、流行のスタイルをすばやく作成したいデザイナーや、パーソナライズされた製品を低コストで作成したいメーカーにとって有益です.

次の図は、Stable Diffusion のアーキテクチャとデータフローを示しています。

安定拡散アーキテクチャ

Stable Diffusion は、従来の GAN ベースの方法と比較して、元の画像の分布に一致する、より安定した写真のようにリアルな画像を生成できる生成 AI です。このモデルは、テキストから画像への生成用のテキスト、レイアウトから画像への生成用のバウンディングボックス、インペインティング用のマスクされた画像、超解像度用の低解像度画像など、幅広い目的で調整できます。拡散モデルには幅広いビジネスアプリケーションがあり、その実用的な用途は進化し続けています。これらのモデルは、ファッション、小売、e コマース、エンターテイメント、ソーシャルメディア、マーケティングなど、さまざまな業界に大きなメリットをもたらします。

CLIPSeg を使用してテキストプロンプトからマスクを生成する

ヴォーグオンラインスタイリングは、顧客がオンラインプラットフォームを通じて AI からファッションのアドバイスやレコメンドを受けることができるサービスです。これは、顧客の外見を補完し、予算内に収まり、個人の好みに合った衣服やアクセサリーを選択することによって実現されます。ジェネレーティブ AI を活用することで、タスクをより簡単に実行できるようになり、顧客満足度の向上と費用の削減につながります。

ソリューションは、 Amazon Elastic Compute Cloud（EC2） 3.2G メモリを搭載した単一の V100 GPU を備えた p16xlarge インスタンス。パフォーマンスを向上させ、GPU メモリの使用量を削減するためにいくつかの手法が採用された結果、画像生成が高速化されました。これらには、fp16 の使用と、アテンションブロックの帯域幅を減らすためのメモリ効率的なアテンションの有効化が含まれます。

まず、ユーザーにファッション画像をアップロードしてもらい、続いて CLIPSeq から事前トレーニング済みのモデルをダウンロードして抽出しました。次に、画像は正規化され、サイズ制限に準拠するようにサイズ変更されます。 Stable Diffusion V2 は最大 768×768 の画像解像度をサポートし、V1 は最大 512×512 をサポートします。次のコードを参照してください。

from models.clipseg import CLIPDensePredT # The original image
image = download_image(img_url).resize((768, 768)) # Download pre-trained CLIPSeq model and unzip the pkg
! wget https://owncloud.gwdg.de/index.php/s/ioHbRzFx6th32hn/download -O weights.zip
! unzip -d weights -j weights.zip # Load CLIP model. Available models = ['RN50', 'RN101', 'RN50x4', # 'RN50x16', 'RN50x64', 'ViT-B/32', 'ViT-B/16', 'ViT-L/14', 'ViT-L/14@336px']
model = CLIPDensePredT(version='ViT-B/16', reduce_dim=64)
model.eval() # non-strict, because we only stored decoder weights (not CLIP weights)
model.load_state_dict(torch.load('weights/rd64-uni.pth', map_location=torch.device('cuda')), strict=False) # Image normalization and resizing
transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]), transforms.Resize((768, 768)),
])
img = transform(image).unsqueeze(0)

事前トレーニング済みの CLIPSeq モデルを使用すると、テキストプロンプトを使用して画像からターゲットオブジェクトを抽出できます。これは、テキストプロンプトをテキストエンコーダーに入力することによって行われます。テキストエンコーダーはそれをテキスト埋め込みに変換します。次に、画像は画像エンコーダーに入力され、画像の埋め込みに変換されます。次に、両方の埋め込みが連結され、完全に接続されたレイヤーを通過して、最終的なセグメンテーションマスクが生成されます。これにより、テキストプロンプトに記述されたターゲットオブジェクトが強調表示されます。次のコードを参照してください。

# Text prompt
prompt = 'Get the dress only.' # predict
mask_image_filename = 'the_mask_image.png'
with torch.no_grad(): preds = model(img.repeat(4,1,1,1), prompt)[0] # save the mask image after computing the area under the standard # Gaussian probability density function and calculates the cumulative # distribution function of the normal distribution with ndtr. plt.imsave(mask_image_filename,torch.special.ndtr(preds[0][0]))

セマンティックセグメンテーションからの正確なマスクイメージを使用すると、コンテンツの置換にインペインティングを使用できます。インペインティングは、トレーニング済みの生成モデルを使用して画像の欠けている部分を埋めるプロセスです。マスクイメージを使用してターゲットオブジェクトを識別することにより、インペインティング手法を適用して、ターゲットオブジェクトを別の衣類やアクセサリーなどの別のものに置き換えることができます。 Stable Diffusion V2 モデルは、元の画像の分布に一致する高解像度で写真のようにリアルな画像を生成できるため、この目的に使用できます。

DreamBooth を使用した事前トレーニング済みモデルからの微調整

微調整は、少量のラベル付きデータを使用して、事前トレーニング済みのモデルを新しいタスクでさらにトレーニングする深層学習のプロセスです。ゼロからトレーニングするのではなく、同様のタスクのために大規模なデータセットで既にトレーニングされているネットワークを使用し、新しいデータセットでさらにトレーニングして、その特定のタスクに特化したものにするという考え方です。

ファッションデザイナーは、主題主導型の微調整された Stable Diffusion インペインティングモデルを使用して、女性向けのカジュアルなロングスカートなど、特定のクラスのスタイルを生成することもできます。これを行うための最初のステップは、次のような適切なテキストラベルを付けて、ターゲットドメインのサンプル画像のセット (約 1 ダース) を提供し、それらをデザイン、スタイル、色、生地を参照する一意の識別子にバインドすることです。 . テキストのラベルは、微調整されたモデルの結果を決定する上で重要な役割を果たします。効果的に微調整を強化するには、いくつかの方法があります。迅速なエンジニアリングそしてここにいくつかの例があります。

Sample text prompts to descibe some of the most common design elements of casual long skirts for ladies: Design Style: A-line, wrap, maxi, mini, and pleated skirts are some of the most popular styles for casual wear. A-line skirts are fitted at the waist and flare out at the hem, creating a flattering silhouette. Wrap skirts have a wrap closure and can be tied at the waist for a customizable fit. Maxi skirts are long and flowy, while mini skirts are short and flirty. Pleated skirts have folds that add texture and movement to the garment.
Pattern: Casual skirts can feature a variety of patterns, including stripes, florals, polka dots, and solids. These patterns can range from bold and graphic to subtle and understated.
Colors: Casual skirts come in a range of colors, including neutral shades likeblack, white, and gray, as well as brighter hues like pink, red, and blue. Some skirts may also feature multiple colors in a single garment, such asa skirt with a bold pattern that incorporates several shades.
Fabrics: Common fabrics used in casual skirts include cotton, denim, linen, and rayon. These materials offer different levels of comfort and durability, making it easy to find a skirt that suits your personal style and needs.

小さな画像セットを使用して Stable Diffusion を微調整すると、モデルのオーバーフィッティングが発生する可能性があります。 DreamBooth[5] は、クラス固有の事前保存損失を使用してこれに対処します。 XNUMX つのステップで、一意の識別子をその特定のサブジェクトにバインドすることを学習します。まず、一意の識別子と対象者が属するクラスの名前 (「skirt」など) を含むテキストプロンプトとペアになった入力画像を使用して、低解像度モデルを微調整します。実際には、これは、モデルに適合する画像と、微調整されていないクラスの視覚的事前分布からサンプリングされた画像を同時に持つことを意味します。これらの事前保存画像は、「クラス名詞」プロンプトを使用してサンプリングおよびラベル付けされます。次に、入力画像セットから低解像度画像と高解像度画像をペアリングすることにより、超高解像度コンポーネントを微調整します。これにより、微調整されたモデルの出力が細部まで忠実に維持されます。

UNet を使用して、解像度 512×512 の画像用に事前トレーニング済みのインペインティングテキストエンコーダーを微調整するには、解像度 22×768 の場合、約 768GB 以上の VRAM が必要です。理想的には、パフォーマンスの低下を避けるために、望ましい出力画像解像度に一致するようにサンプルのサイズを微調整する必要があります。テキストエンコーダーは、モデルの顔などのより正確な詳細を生成します。 2 つのオプションは、単一の AWS EC5.2 gXNUMXxlarge インスタンスで実行することです。 XNUMXつの地域または、Hugging Face Accelerate を使用して、微調整されたコードを分散構成全体で実行します。さらにメモリを節約するには、DreamBooth のトレーニングスクリプト train_dreambooth_inpaint.py を変更してパイプラインの enable_attention_slicing() 関数を追加するだけで、計算を一度にではなく段階的に実行するスライスバージョンのアテンションを選択できます。

Accelerate は、XNUMX つの微調整コードを任意の分散構成で実行できるようにするライブラリです。ハグフェイスとAmazonが登場ハグフェイスディープラーニングコンテナ（DLC）複数の GPU とノードにわたって微調整タスクをスケーリングします。単一の CLI コマンドで Amazon SageMaker の起動設定を構成できます。

# From your aws account, install the sagemaker sdk for Accelerate
pip install "accelerate[sagemaker]" --upgrade # Configure the launch configuration for Amazon SageMaker accelerate config # List and verify Accelerate configuration
accelerate env # Make necessary modification of the training script as the following to save # output on S3, if needed
# - torch.save('/opt/ml/model`)
# + accelerator.save('/opt/ml/model')

微調整ジョブを起動するには、次を使用して Accelerate の構成を確認します。 CLI 必要なトレーニング引数を指定してから、次のシェルスクリプトを使用します。

# Instance images — Custom images that represents the specific # concept for dreambooth training. You should collect # high #quality images based on your use cases.
# Class images — Regularization images for prior-preservation # loss to prevent overfitting. You should generate these # images directly from the base pre-trained model. # You can choose to generate them on your own or generate # them on the fly when running the training script.
# # You can access train_dreambooth_inpaint.py from huggingface/diffuser export MODEL_NAME="stabilityai/stable-diffusion-2-inpainting"
export INSTANCE_DIR="/data/fashion/gowns/highres/"
export CLASS_DIR="/opt/data/fashion/generated_gowns/imgs"
export OUTPUT_DIR="/opt/model/diffuser/outputs/inpainting/" accelerate launch train_dreambooth_inpaint.py --pretrained_model_name_or_path=$MODEL_NAME --train_text_encoder --instance_data_dir=$INSTANCE_DIR --class_data_dir=$CLASS_DIR --output_dir=$OUTPUT_DIR --with_prior_preservation --prior_loss_weight=1.0 --instance_prompt="A supermodel poses in long summer travel skirt, photorealistic" --class_prompt="A supermodel poses in skirt, photorealistic" --resolution=512 --train_batch_size=1 --use_8bit_adam --gradient_checkpointing --learning_rate=2e-6 --lr_scheduler="constant" --lr_warmup_steps=0 --num_class_images=200 --max_train_steps=800

微調整されたインペインティングモデルにより、テキストプロンプトで記述されたファッションクラスにより具体的なイメージを生成できます。高解像度の画像とテキストプロンプトのセットで微調整されているため、モデルはフォーマルなイブニングガウンなど、クラスにより合わせた画像を生成できます. クラスがより具体的であり、微調整に使用されるデータが多いほど、出力イメージがより正確でリアルになることに注意することが重要です。

%tree -d ./finetuned-stable-diffusion-v2-1-inpainting
finetuned-stable-diffusion-v2-1-inpainting
├── 512-inpainting-ema.ckpt
├── feature_extractor
├── code
│ └──inference.py
│ ├──requirements.txt
├── scheduler
├── text_encoder ├── tokenizer
├── unet
└── vae

推論のために SageMaker を使用して微調整されたインペインティングモデルをデプロイする

Amazon SageMaker を使用すると、リアルタイムの推論のために微調整された Stable Diffusion モデルをデプロイできます。モデルをアップロードするには Amazon シンプルストレージサービス (S3) 展開のために、model.tar.gz アーカイブ tarball を作成する必要があります。アーカイブには、すべてのファイルが含まれているフォルダーではなく、すべてのファイルが直接含まれていることを確認してください。断続的なチェックポイントを削除すると、DreamBooth 微調整アーカイブフォルダーは次のように表示されます。

推論ハンドラーを作成する最初のステップには、inference.py ファイルの作成が含まれます。このファイルは、モデルをロードし、着信するすべての推論リクエストを処理するための中心的なハブとして機能します。モデルがロードされた後、model_fn() 関数が実行されます。推論を実行する必要が生じると、predict_fn() 関数が呼び出されます。さらに、decode_base64() 関数を使用して、ペイロードに含まれる JSON 文字列を PIL 画像データ型に変換します。

%%writefile code/inference.py
import base64
import torch
from PIL import Image
from io import BytesIO
from diffusers import EulerDiscreteScheduler, StableDiffusionInpaintPipeline def decode_base64(base64_string): decoded_string = BytesIO(base64.b64decode(base64_string)) img = Image.open(decoded_string) return img def model_fn(model_dir): # Load stable diffusion and move it to the GPU scheduler = EulerDiscreteScheduler.from_pretrained(model_dir, subfolder="scheduler") pipe = StableDiffusionInpaintPipeline.from_pretrained(model_dir, scheduler=scheduler, revision="fp16", torch_dtype=torch.float16) pipe = pipe.to("cuda") pipe.enable_xformers_memory_efficient_attention() #pipe.enable_attention_slicing() return pipe def predict_fn(data, pipe): # get prompt & parameters prompt = data.pop("inputs", data) # Require json string input. Inference to convert imge to string. input_img = data.pop("input_img", data) mask_img = data.pop("mask_img", data) # set valid HP for stable diffusion num_inference_steps = data.pop("num_inference_steps", 25) guidance_scale = data.pop("guidance_scale", 6.5) num_images_per_prompt = data.pop("num_images_per_prompt", 2) image_length = data.pop("image_length", 512) # run generation with parameters generated_images = pipe( prompt, image = decode_base64(input_img), mask_image = decode_base64(mask_img), num_inference_steps=num_inference_steps, guidance_scale=guidance_scale, num_images_per_prompt=num_images_per_prompt, height=image_length, width=image_length, #)["images"] # for Stabel Diffusion v1.x ).images # create response encoded_images = [] for image in generated_images: buffered = BytesIO() image.save(buffered, format="JPEG") encoded_images.append(base64.b64encode(buffered.getvalue()).decode()) return {"generated_images": encoded_images}

モデルを Amazon S3 バケットにアップロードするには、最初に model.tar.gz アーカイブを作成する必要があります。アーカイブは、ファイルを保持するフォルダーではなく、ファイルで直接構成する必要があることに注意することが重要です。たとえば、ファイルは次のように表示されます。

import tarfile
import os # helper to create the model.tar.gz
def compress(tar_dir=None,output_file="model.tar.gz"): parent_dir=os.getcwd() os.chdir(tar_dir) with tarfile.open(os.path.join(parent_dir, output_file), "w:gz") as tar: for item in os.listdir('.'): print(item) tar.add(item, arcname=item) os.chdir(parent_dir) compress(str(model_tar)) # After we created the model.tar.gz archive we can upload it to Amazon S3. We will # use the sagemaker SDK to upload the model to our sagemaker session bucket.
from sagemaker.s3 import S3Uploader # upload model.tar.gz to s3
s3_model_uri=S3Uploader.upload(local_path="model.tar.gz", desired_s3_uri=f"s3://{sess.default_bucket()}/finetuned-stable-diffusion-v2-1-inpainting")

モデルアーカイブがアップロードされたら、リアルタイムの推論のために HuggingfaceModel を使用して Amazon SageMaker にデプロイできます。 4 GB の VRAM を備えた単一の NVIDIA Tesla T4 GPU を搭載した g16dn.xlarge インスタンスを使用して、エンドポイントをホストできます。自動スケーリングを有効にして、さまざまなトラフィック需要を処理できます。エンドポイントに自動スケーリングを組み込む方法については、次を参照してください。本番稼働: Amazon SageMaker を使用したハグ顔トランスフォーマーの自動スケーリング.

from sagemaker.huggingface.model import HuggingFaceModel # create Hugging Face Model Class
huggingface_model = HuggingFaceModel( model_data=s3_model_uri, # path to your model and script role=role, # iam role with permissions to create an Endpoint transformers_version="4.17", # transformers version used pytorch_version="1.10", # pytorch version used py_version='py38', # python version used
) # deploy the endpoint endpoint
predictor = huggingface_model.deploy( initial_instance_count=1, instance_type="ml.g4dn.xlarge" )

huggingface_model.deploy() メソッドは、推論のリクエストに使用できる HuggingFacePredictor オブジェクトを返します。エンドポイントには、入力キーを含む JSON が必要です。これは、モデルが画像を生成するための入力プロンプトを表します。 num_inference_steps、guide_scale、「num_images_per_prompt」などのパラメーターで生成を制御することもできます。 predictor.predict() 関数は、生成された 64 つの画像を base64 でエンコードされた文字列として保持する「 generated_images 」キーを含む JSON を返します。 64 つのヘルパー関数、decode_baseXNUMX_to_image と display_images を追加して、それぞれ応答をデコードし、画像を表示しました。前者は baseXNUMX でエンコードされた文字列をデコードして PIL.Image オブジェクトを返し、後者は PIL.Image オブジェクトのリストを表示します。次のコードを参照してください。

import PIL
from io import BytesIO
from IPython.display import display
import base64
import matplotlib.pyplot as plt
import json # Encoder to convert an image to json string
def encode_base64(file_name): with open(file_name, "rb") as image: image_string = base64.b64encode(bytearray(image.read())).decode() return image_string # Decode to to convert a json str to an image def decode_base64_image(base64_string): decoded_string = BytesIO(base64.b64decode(base64_string)) img = PIL.Image.open(decoded_string) return img # display PIL images as grid
def display_images(images=None,columns=3, width=100, height=100): plt.figure(figsize=(width, height)) for i, image in enumerate(images): plt.subplot(int(len(images) / columns + 1), columns, i + 1) plt.axis('off') plt.imshow(image) # Display images in a row/col grid
def image_grid(imgs, rows, cols): assert len(imgs) == rows*cols w, h = imgs[0].size grid = PIL.Image.new('RGB', size=(cols*w, rows*h)) grid_w, grid_h = grid.size for i, img in enumerate(imgs): grid.paste(img, box=(i%cols*w, i//cols*h)) return grid

インペインティングの作業を進めましょう。入力画像と、前述のテキストプロンプトで CLIPSeg を使用して作成されたマスクを考えると、15 つの画像を生成するのに約 XNUMX 秒かかると推定されています。次のコードを参照してください。

num_images_per_prompt = 3
prompt = "A female super-model poses in a casual long vacation skirt, with full body length, bright colors, photorealistic, high quality, highly detailed, elegant, sharp focus" # Convert image to string
input_image_filename = "./imgs/skirt-model-2.jpg"
encoded_input_image = encode_base64(input_image_filename)
encoded_mask_image = encode_base64("./imgs/skirt-model-2-mask.jpg") # Set in-painint parameters
guidance_scale = 6.7
num_inference_steps = 45 # run prediction
response = predictor.predict(data={ "inputs": prompt, "input_img": encoded_input_image, "mask_img": encoded_mask_image, "num_images_per_prompt" : num_images_per_prompt, "image_length": 768 }
) # decode images
decoded_images = [decode_base64_image(image) for image in response["generated_images"]] # visualize generation
display_images(decoded_images, columns=num_images_per_prompt, width=100, height=100) # insert initial image in the list so we can compare side by side
image = PIL.Image.open(input_image_filename).convert("RGB")
decoded_images.insert(0, image) # Display inpainting images in grid
image_grid(decoded_images, 1, num_images_per_prompt + 1)

インペイントされた画像は、視覚的な比較のために元の画像と一緒に表示できます。さらに、インペインティングプロセスは、インペインティングプロセス中のガイダンスイメージの強度を制御する、guide_scale などのさまざまなパラメーターを使用して制限できます。これにより、ユーザーは出力画像を調整して、目的の結果を得ることができます。
推論出力

Amazon SageMaker ジャンプスタートは、テキストから画像への変換やアップスケーリングなど、さまざまなモデル向けの Stable Diffusion テンプレートを提供しています。詳細については、を参照してください。 SageMaker JumpStart が Stable Diffusion および Bloom モデルを提供するようになりました. 近い将来、追加のジャンプスタートテンプレートが利用可能になる予定です。

制限事項

CLIPSeg は通常、一般的なオブジェクトの認識には適していますが、画像内のオブジェクトの数を数えたり、ハンドバッグなどの最も近いオブジェクトが写真にどれだけ近いかを予測するなどのより複雑なタスクなど、より抽象的なタスクや体系的なタスクには苦労します。ゼロショット CLIPSeq は、XNUMX つのあいまいなデザイン、ドレスのバリエーション、またはスタイルの分類の違いを伝えるなど、非常に細かい分類のタスク固有のモデルと比較しても苦労します。 CLIPSeq は、事前トレーニングデータセットでカバーされていない画像への一般化も不十分です。最後に、CLIP のゼロショット分類子は言葉遣いや言い回しに敏感であり、うまく機能させるには試行錯誤の「迅速なエンジニアリング」が必要になる場合があることが観察されています。 CLIPSeq のバックボーンの別のセマンティックセグメンテーションモデルへの切り替え。 BEITADE62.8K データセットで 20% の mIOU を誇るは、結果を改善する可能性があります。

Stable Diffusion を使用して生成されたファッションデザインは、ファッションモデルのより広いコンテキストで予測可能に配置された衣服の一部に限定されていることがわかっています。事前トレーニング済みモデルのトレーニング中に使用されるハイパースケールデータセット。ジェネレーティブ AI の実際の限界は、モデルが最終的に完全に架空の、信頼性の低い出力を生成することです。したがって、AI によって生成されたファッションデザインは、人間のデザイナーによって作成されたものほど多様でなく、独自のものではない可能性があります。

まとめ

ジェネレーティブ AI は、より優れたユーザーエクスペリエンスと費用対効果の高いビジネス戦略を通じて、ファッションセクターの慣行を変革する機会を提供します。この投稿では、ジェネレーティブ AI を活用して、ファッションデザイナーと消費者が仮想モデリングを使用してパーソナライズされたファッションスタイルを作成できるようにする方法を紹介します。既存の Amazon SageMaker ジャンプスタートテンプレートと今後のテンプレートの支援により、ユーザーは高度な技術的専門知識を必要とせずに、これらの高度な手法をすぐに採用できると同時に、汎用性を維持し、費用を削減できます。

この革新的なテクノロジーは、さまざまな業界のコンテンツ生成に携わる企業や専門家に新たなチャンスをもたらします。 Generative AI は、コンテンツを強化および作成するための十分な機能を提供します。ジャンプスタートテンプレートに最近追加された機能をお試しください SageMaker スタジオ、テキストから画像への微調整やアップスケール機能など。

Li Zhang、Karl Albertsen、Kristine Pearce、Nikhil Velpanur、Aaron Sengstacken、James Wu、Neelam Koshiya のサポートと、この作業の改善に役立つ貴重な情報提供に感謝します。

著者について

Amazon SageMaker PlatoBlockchain Data Intelligence を使用した生成 AI による仮想ファッションスタイリング。垂直検索。あい。 アルフレッド・シェン AWS のシニア AI/ML スペシャリストです。彼はシリコンバレーで働いており、ヘルスケア、金融、ハイテクなどのさまざまな分野で技術職や管理職を歴任しています。彼は専任の応用 AI/ML 研究者であり、CV、NLP、およびマルチモダリティに重点を置いています。彼の作品は、EMNLP、ICLR、Public Health などの出版物で紹介されています。

ヴィヴェック・マダン博士 Amazon SageMaker JumpStart チームの応用科学者です。イリノイ大学アーバナシャンペーン校で博士号を取得し、ジョージア工科大学で博士研究員を務めました。彼は機械学習とアルゴリズム設計の活発な研究者であり、EMNLP、ICLR、COLT、FOCS、および SODA カンファレンスで論文を発表しています。

SEO を活用したコンテンツと PR 配信。今日増幅されます。
Platoblockchain。 Web3メタバースインテリジェンス。知識の増幅。こちらからアクセスしてください。
情報源： https://aws.amazon.com/blogs/machine-learning/virtual-fashion-styling-with-generative-ai-using-amazon-sagemaker/

タイムスタンプ： 2023 年 3 月 1 日

タイムスタンプ： 2023 年 8 月 3 日

プラトン再発行

Accenture は、AWS 生成 AI サービスを使用して規制文書オーサリングソリューションを作成 |アマゾンウェブサービス

安全なAmazonSageMakerStudioの事前署名されたURLパート2：JWT認証を使用したプライベートAPI

私たちに関しては

垂直検索とAi

プラットフォーム

フォロー