ファッション業界は、 利益率の高いビジネス世界銀行の報告によると、2.1 年までに 2025 兆ドルの価値があると推定されています。 この分野には、衣料品、靴、アクセサリーの作成、製造、流通、販売など、さまざまな分野があります。 業界は絶え間なく変化し、新しいスタイルやトレンドが頻繁に現れています。 したがって、ファッション企業は、関連性を維持し、市場で成功を収めるために、柔軟で適応できなければなりません。
生成型人工知能 (AI) は、学習した一連のパターンとデータに基づいて、画像、テキスト、オーディオ、ビデオなどの新しいコンテンツを生成するように設計された AI アルゴリズムを指します。 これを利用して、パーソナライズと費用対効果を向上させながら、新しく革新的なアパレル デザインを生み出すことができます。 AI 駆動のデザイン ツールは、テキスト プロンプトを通じて潜在的な顧客が指定した入力パラメーターまたはスタイルに基づいて、独自のアパレル デザインを作成できます。 さらに、AI を利用して、顧客の好みに合わせてデザインをパーソナライズすることもできます。 たとえば、顧客はさまざまな色、パターン、スタイルから選択でき、AI モデルはそれらの選択に基づいて独自のデザインを生成します。 現在、ファッション業界での AI の採用は、さまざまな技術的、実現可能性、およびコストの課題によって妨げられています。 ただし、これらの障害は、自然言語ベースの画像セマンティック セグメンテーションや仮想スタイリングの拡散などの高度な生成 AI 手法を利用することで軽減できるようになりました。
このブログ投稿では、テキスト プロンプトを使用したジェネレーティブ AI 支援ファッション オンライン スタイリングの実装について詳しく説明しています。 機械学習 (ML) エンジニアは、事前トレーニング済みの CLIPSeq と Stable Diffusion に基づいて、テキストからセマンティックへのセグメンテーション モデルとインペインティング モデルを微調整して展開できます。 アマゾンセージメーカー. これにより、ファッション デザイナーや消費者は、テキスト プロンプトに基づいて仮想モデリング イメージを作成し、好みのスタイルを選択できます。
ジェネレーティブ AI ソリューション
クリップセグ model は、単純なテキスト コマンドを使用して写真内のファッション アイテムを簡単に識別できるようにする新しいイメージ セマンティック セグメンテーション メソッドを導入しました。 テキスト プロンプトまたはイメージ エンコーダーを使用して、テキストおよび視覚情報をマルチモーダル埋め込み空間にエンコードし、プロンプトに基づいてターゲット オブジェクトを非常に正確にセグメンテーションできます。 このモデルは、ゼロショット転送、自然言語教師、マルチモーダル自己教師あり対照学習などの手法を使用して、膨大な量のデータでトレーニングされています。 これは、によって公開されている事前トレーニング済みのモデルを利用できることを意味します。 ティモ・リュデッケ など、カスタマイズの必要はありません。
CLIPSeg は、テキストと画像のエンコーダーを使用してテキストと視覚情報をマルチモーダル埋め込み空間にエンコードし、テキスト プロンプトに基づいてセマンティック セグメンテーションを実行するモデルです。 CLIPSeg のアーキテクチャは、テキスト エンコーダーと画像エンコーダーの XNUMX つの主要コンポーネントで構成されています。 テキスト エンコーダーはテキスト プロンプトを受け取り、それをテキスト埋め込みに変換しますが、イメージ エンコーダーは画像を受け取り、それを画像埋め込みに変換します。 次に、両方の埋め込みが連結され、完全に接続されたレイヤーを通過して、最終的なセグメンテーション マスクが生成されます。
データ フローに関しては、モデルは画像のデータセットと対応するテキスト プロンプトでトレーニングされます。テキスト プロンプトは、セグメント化されるターゲット オブジェクトを記述します。 トレーニング プロセス中に、テキスト エンコーダーとイメージ エンコーダーは、テキスト プロンプトとイメージ間のマッピングを学習して最終的なセグメンテーション マスクを生成するように最適化されます。 モデルがトレーニングされると、新しいテキスト プロンプトと画像を取り込み、プロンプトに記述されたオブジェクトのセグメンテーション マスクを生成できます。
Stable Diffusion は、ファッション デザイナーがテキストの説明だけに基づいて非常にリアルな画像を大量に生成できるようにする手法であり、長くて費用のかかるカスタマイズは必要ありません。 これは、流行のスタイルをすばやく作成したいデザイナーや、パーソナライズされた製品を低コストで作成したいメーカーにとって有益です.
次の図は、Stable Diffusion のアーキテクチャとデータ フローを示しています。
Stable Diffusion は、従来の GAN ベースの方法と比較して、元の画像の分布に一致する、より安定した写真のようにリアルな画像を生成できる生成 AI です。 このモデルは、テキストから画像への生成用のテキスト、レイアウトから画像への生成用のバウンディング ボックス、インペインティング用のマスクされた画像、超解像度用の低解像度画像など、幅広い目的で調整できます。 拡散モデルには幅広いビジネス アプリケーションがあり、その実用的な用途は進化し続けています。 これらのモデルは、ファッション、小売、e コマース、エンターテイメント、ソーシャル メディア、マーケティングなど、さまざまな業界に大きなメリットをもたらします。
CLIPSeg を使用してテキスト プロンプトからマスクを生成する
ヴォーグ オンライン スタイリングは、顧客がオンライン プラットフォームを通じて AI からファッションのアドバイスやレコメンドを受けることができるサービスです。 これは、顧客の外見を補完し、予算内に収まり、個人の好みに合った衣服やアクセサリーを選択することによって実現されます。 ジェネレーティブ AI を活用することで、タスクをより簡単に実行できるようになり、顧客満足度の向上と費用の削減につながります。
ソリューションは、 Amazon Elastic Compute Cloud(EC2) 3.2G メモリを搭載した単一の V100 GPU を備えた p16xlarge インスタンス。 パフォーマンスを向上させ、GPU メモリの使用量を削減するためにいくつかの手法が採用された結果、画像生成が高速化されました。 これらには、fp16 の使用と、アテンション ブロックの帯域幅を減らすためのメモリ効率的なアテンションの有効化が含まれます。
まず、ユーザーにファッション画像をアップロードしてもらい、続いて CLIPSeq から事前トレーニング済みのモデルをダウンロードして抽出しました。 次に、画像は正規化され、サイズ制限に準拠するようにサイズ変更されます。 Stable Diffusion V2 は最大 768×768 の画像解像度をサポートし、V1 は最大 512×512 をサポートします。 次のコードを参照してください。
from models.clipseg import CLIPDensePredT # The original image
image = download_image(img_url).resize((768, 768)) # Download pre-trained CLIPSeq model and unzip the pkg
! wget https://owncloud.gwdg.de/index.php/s/ioHbRzFx6th32hn/download -O weights.zip
! unzip -d weights -j weights.zip # Load CLIP model. Available models = ['RN50', 'RN101', 'RN50x4', # 'RN50x16', 'RN50x64', 'ViT-B/32', 'ViT-B/16', 'ViT-L/14', 'ViT-L/14@336px']
model = CLIPDensePredT(version='ViT-B/16', reduce_dim=64)
model.eval() # non-strict, because we only stored decoder weights (not CLIP weights)
model.load_state_dict(torch.load('weights/rd64-uni.pth', map_location=torch.device('cuda')), strict=False) # Image normalization and resizing
transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]), transforms.Resize((768, 768)),
])
img = transform(image).unsqueeze(0)
事前トレーニング済みの CLIPSeq モデルを使用すると、テキスト プロンプトを使用して画像からターゲット オブジェクトを抽出できます。 これは、テキスト プロンプトをテキスト エンコーダーに入力することによって行われます。テキスト エンコーダーはそれをテキスト埋め込みに変換します。 次に、画像は画像エンコーダーに入力され、画像の埋め込みに変換されます。 次に、両方の埋め込みが連結され、完全に接続されたレイヤーを通過して、最終的なセグメンテーション マスクが生成されます。これにより、テキスト プロンプトに記述されたターゲット オブジェクトが強調表示されます。 次のコードを参照してください。
# Text prompt
prompt = 'Get the dress only.' # predict
mask_image_filename = 'the_mask_image.png'
with torch.no_grad(): preds = model(img.repeat(4,1,1,1), prompt)[0] # save the mask image after computing the area under the standard # Gaussian probability density function and calculates the cumulative # distribution function of the normal distribution with ndtr. plt.imsave(mask_image_filename,torch.special.ndtr(preds[0][0]))
セマンティック セグメンテーションからの正確なマスク イメージを使用すると、コンテンツの置換にインペインティングを使用できます。 インペインティングは、トレーニング済みの生成モデルを使用して画像の欠けている部分を埋めるプロセスです。 マスク イメージを使用してターゲット オブジェクトを識別することにより、インペインティング手法を適用して、ターゲット オブジェクトを別の衣類やアクセサリーなどの別のものに置き換えることができます。 Stable Diffusion V2 モデルは、元の画像の分布に一致する高解像度で写真のようにリアルな画像を生成できるため、この目的に使用できます。
DreamBooth を使用した事前トレーニング済みモデルからの微調整
微調整は、少量のラベル付きデータを使用して、事前トレーニング済みのモデルを新しいタスクでさらにトレーニングする深層学習のプロセスです。 ゼロからトレーニングするのではなく、同様のタスクのために大規模なデータセットで既にトレーニングされているネットワークを使用し、新しいデータセットでさらにトレーニングして、その特定のタスクに特化したものにするという考え方です。
ファッション デザイナーは、主題主導型の微調整された Stable Diffusion インペインティング モデルを使用して、女性向けのカジュアルなロング スカートなど、特定のクラスのスタイルを生成することもできます。 これを行うための最初のステップは、次のような適切なテキスト ラベルを付けて、ターゲット ドメインのサンプル画像のセット (約 1 ダース) を提供し、それらをデザイン、スタイル、色、生地を参照する一意の識別子にバインドすることです。 . テキストのラベルは、微調整されたモデルの結果を決定する上で重要な役割を果たします。 効果的に微調整を強化するには、いくつかの方法があります。 迅速なエンジニアリング そしてここにいくつかの例があります。
Sample text prompts to descibe some of the most common design elements of casual long skirts for ladies: Design Style: A-line, wrap, maxi, mini, and pleated skirts are some of the most popular styles for casual wear. A-line skirts are fitted at the waist and flare out at the hem, creating a flattering silhouette. Wrap skirts have a wrap closure and can be tied at the waist for a customizable fit. Maxi skirts are long and flowy, while mini skirts are short and flirty. Pleated skirts have folds that add texture and movement to the garment.
Pattern: Casual skirts can feature a variety of patterns, including stripes, florals, polka dots, and solids. These patterns can range from bold and graphic to subtle and understated.
Colors: Casual skirts come in a range of colors, including neutral shades likeblack, white, and gray, as well as brighter hues like pink, red, and blue. Some skirts may also feature multiple colors in a single garment, such asa skirt with a bold pattern that incorporates several shades.
Fabrics: Common fabrics used in casual skirts include cotton, denim, linen, and rayon. These materials offer different levels of comfort and durability, making it easy to find a skirt that suits your personal style and needs.
小さな画像セットを使用して Stable Diffusion を微調整すると、モデルのオーバーフィッティングが発生する可能性があります。 DreamBooth[5] は、クラス固有の事前保存損失を使用してこれに対処します。 XNUMX つのステップで、一意の識別子をその特定のサブジェクトにバインドすることを学習します。 まず、一意の識別子と対象者が属するクラスの名前 (「skirt」など) を含むテキスト プロンプトとペアになった入力画像を使用して、低解像度モデルを微調整します。 実際には、これは、モデルに適合する画像と、微調整されていないクラスの視覚的事前分布からサンプリングされた画像を同時に持つことを意味します。 これらの事前保存画像は、「クラス名詞」プロンプトを使用してサンプリングおよびラベル付けされます。 次に、入力画像セットから低解像度画像と高解像度画像をペアリングすることにより、超高解像度コンポーネントを微調整します。これにより、微調整されたモデルの出力が細部まで忠実に維持されます。
UNet を使用して、解像度 512×512 の画像用に事前トレーニング済みのインペインティング テキスト エンコーダーを微調整するには、解像度 22×768 の場合、約 768GB 以上の VRAM が必要です。 理想的には、パフォーマンスの低下を避けるために、望ましい出力画像解像度に一致するようにサンプルのサイズを微調整する必要があります。 テキスト エンコーダーは、モデルの顔などのより正確な詳細を生成します。 2 つのオプションは、単一の AWS EC5.2 gXNUMXxlarge インスタンスで実行することです。 XNUMXつの地域 または、Hugging Face Accelerate を使用して、微調整されたコードを分散構成全体で実行します。 さらにメモリを節約するには、DreamBooth のトレーニング スクリプト train_dreambooth_inpaint.py を変更してパイプラインの enable_attention_slicing() 関数を追加するだけで、計算を一度にではなく段階的に実行するスライス バージョンのアテンションを選択できます。
Accelerate は、XNUMX つの微調整コードを任意の分散構成で実行できるようにするライブラリです。 ハグフェイスとAmazonが登場 ハグフェイスディープラーニングコンテナ(DLC) 複数の GPU とノードにわたって微調整タスクをスケーリングします。 単一の CLI コマンドで Amazon SageMaker の起動設定を構成できます。
# From your aws account, install the sagemaker sdk for Accelerate
pip install "accelerate[sagemaker]" --upgrade # Configure the launch configuration for Amazon SageMaker accelerate config # List and verify Accelerate configuration
accelerate env # Make necessary modification of the training script as the following to save # output on S3, if needed
# - torch.save('/opt/ml/model`)
# + accelerator.save('/opt/ml/model')
微調整ジョブを起動するには、次を使用して Accelerate の構成を確認します。 CLI 必要なトレーニング引数を指定してから、次のシェル スクリプトを使用します。
# Instance images — Custom images that represents the specific # concept for dreambooth training. You should collect # high #quality images based on your use cases.
# Class images — Regularization images for prior-preservation # loss to prevent overfitting. You should generate these # images directly from the base pre-trained model. # You can choose to generate them on your own or generate # them on the fly when running the training script.
# # You can access train_dreambooth_inpaint.py from huggingface/diffuser export MODEL_NAME="stabilityai/stable-diffusion-2-inpainting"
export INSTANCE_DIR="/data/fashion/gowns/highres/"
export CLASS_DIR="/opt/data/fashion/generated_gowns/imgs"
export OUTPUT_DIR="/opt/model/diffuser/outputs/inpainting/" accelerate launch train_dreambooth_inpaint.py --pretrained_model_name_or_path=$MODEL_NAME --train_text_encoder --instance_data_dir=$INSTANCE_DIR --class_data_dir=$CLASS_DIR --output_dir=$OUTPUT_DIR --with_prior_preservation --prior_loss_weight=1.0 --instance_prompt="A supermodel poses in long summer travel skirt, photorealistic" --class_prompt="A supermodel poses in skirt, photorealistic" --resolution=512 --train_batch_size=1 --use_8bit_adam --gradient_checkpointing --learning_rate=2e-6 --lr_scheduler="constant" --lr_warmup_steps=0 --num_class_images=200 --max_train_steps=800
微調整されたインペインティング モデルにより、テキスト プロンプトで記述されたファッション クラスにより具体的なイメージを生成できます。 高解像度の画像とテキストプロンプトのセットで微調整されているため、モデルはフォーマルなイブニングガウンなど、クラスにより合わせた画像を生成できます. クラスがより具体的であり、微調整に使用されるデータが多いほど、出力イメージがより正確でリアルになることに注意することが重要です。
%tree -d ./finetuned-stable-diffusion-v2-1-inpainting
finetuned-stable-diffusion-v2-1-inpainting
├── 512-inpainting-ema.ckpt
├── feature_extractor
├── code
│ └──inference.py
│ ├──requirements.txt
├── scheduler
├── text_encoder ├── tokenizer
├── unet
└── vae
推論のために SageMaker を使用して微調整されたインペインティング モデルをデプロイする
Amazon SageMaker を使用すると、リアルタイムの推論のために微調整された Stable Diffusion モデルをデプロイできます。 モデルをアップロードするには Amazon シンプルストレージサービス (S3) 展開のために、model.tar.gz アーカイブ tarball を作成する必要があります。 アーカイブには、すべてのファイルが含まれているフォルダーではなく、すべてのファイルが直接含まれていることを確認してください。 断続的なチェックポイントを削除すると、DreamBooth 微調整アーカイブ フォルダーは次のように表示されます。
推論ハンドラーを作成する最初のステップには、inference.py ファイルの作成が含まれます。 このファイルは、モデルをロードし、着信するすべての推論リクエストを処理するための中心的なハブとして機能します。 モデルがロードされた後、model_fn() 関数が実行されます。 推論を実行する必要が生じると、predict_fn() 関数が呼び出されます。 さらに、decode_base64() 関数を使用して、ペイロードに含まれる JSON 文字列を PIL 画像データ型に変換します。
%%writefile code/inference.py
import base64
import torch
from PIL import Image
from io import BytesIO
from diffusers import EulerDiscreteScheduler, StableDiffusionInpaintPipeline def decode_base64(base64_string): decoded_string = BytesIO(base64.b64decode(base64_string)) img = Image.open(decoded_string) return img def model_fn(model_dir): # Load stable diffusion and move it to the GPU scheduler = EulerDiscreteScheduler.from_pretrained(model_dir, subfolder="scheduler") pipe = StableDiffusionInpaintPipeline.from_pretrained(model_dir, scheduler=scheduler, revision="fp16", torch_dtype=torch.float16) pipe = pipe.to("cuda") pipe.enable_xformers_memory_efficient_attention() #pipe.enable_attention_slicing() return pipe def predict_fn(data, pipe): # get prompt & parameters prompt = data.pop("inputs", data) # Require json string input. Inference to convert imge to string. input_img = data.pop("input_img", data) mask_img = data.pop("mask_img", data) # set valid HP for stable diffusion num_inference_steps = data.pop("num_inference_steps", 25) guidance_scale = data.pop("guidance_scale", 6.5) num_images_per_prompt = data.pop("num_images_per_prompt", 2) image_length = data.pop("image_length", 512) # run generation with parameters generated_images = pipe( prompt, image = decode_base64(input_img), mask_image = decode_base64(mask_img), num_inference_steps=num_inference_steps, guidance_scale=guidance_scale, num_images_per_prompt=num_images_per_prompt, height=image_length, width=image_length, #)["images"] # for Stabel Diffusion v1.x ).images # create response encoded_images = [] for image in generated_images: buffered = BytesIO() image.save(buffered, format="JPEG") encoded_images.append(base64.b64encode(buffered.getvalue()).decode()) return {"generated_images": encoded_images}
モデルを Amazon S3 バケットにアップロードするには、最初に model.tar.gz アーカイブを作成する必要があります。 アーカイブは、ファイルを保持するフォルダーではなく、ファイルで直接構成する必要があることに注意することが重要です。 たとえば、ファイルは次のように表示されます。
import tarfile
import os # helper to create the model.tar.gz
def compress(tar_dir=None,output_file="model.tar.gz"): parent_dir=os.getcwd() os.chdir(tar_dir) with tarfile.open(os.path.join(parent_dir, output_file), "w:gz") as tar: for item in os.listdir('.'): print(item) tar.add(item, arcname=item) os.chdir(parent_dir) compress(str(model_tar)) # After we created the model.tar.gz archive we can upload it to Amazon S3. We will # use the sagemaker SDK to upload the model to our sagemaker session bucket.
from sagemaker.s3 import S3Uploader # upload model.tar.gz to s3
s3_model_uri=S3Uploader.upload(local_path="model.tar.gz", desired_s3_uri=f"s3://{sess.default_bucket()}/finetuned-stable-diffusion-v2-1-inpainting")
モデル アーカイブがアップロードされたら、リアルタイムの推論のために HuggingfaceModel を使用して Amazon SageMaker にデプロイできます。 4 GB の VRAM を備えた単一の NVIDIA Tesla T4 GPU を搭載した g16dn.xlarge インスタンスを使用して、エンドポイントをホストできます。 自動スケーリングを有効にして、さまざまなトラフィック需要を処理できます。 エンドポイントに自動スケーリングを組み込む方法については、次を参照してください。 本番稼働: Amazon SageMaker を使用したハグ顔トランスフォーマーの自動スケーリング.
from sagemaker.huggingface.model import HuggingFaceModel # create Hugging Face Model Class
huggingface_model = HuggingFaceModel( model_data=s3_model_uri, # path to your model and script role=role, # iam role with permissions to create an Endpoint transformers_version="4.17", # transformers version used pytorch_version="1.10", # pytorch version used py_version='py38', # python version used
) # deploy the endpoint endpoint
predictor = huggingface_model.deploy( initial_instance_count=1, instance_type="ml.g4dn.xlarge" )
huggingface_model.deploy() メソッドは、推論のリクエストに使用できる HuggingFacePredictor オブジェクトを返します。 エンドポイントには、入力キーを含む JSON が必要です。これは、モデルが画像を生成するための入力プロンプトを表します。 num_inference_steps、guide_scale、「num_images_per_prompt」などのパラメーターで生成を制御することもできます。 predictor.predict() 関数は、生成された 64 つの画像を base64 でエンコードされた文字列として保持する「 generated_images 」キーを含む JSON を返します。 64 つのヘルパー関数、decode_baseXNUMX_to_image と display_images を追加して、それぞれ応答をデコードし、画像を表示しました。 前者は baseXNUMX でエンコードされた文字列をデコードして PIL.Image オブジェクトを返し、後者は PIL.Image オブジェクトのリストを表示します。 次のコードを参照してください。
import PIL
from io import BytesIO
from IPython.display import display
import base64
import matplotlib.pyplot as plt
import json # Encoder to convert an image to json string
def encode_base64(file_name): with open(file_name, "rb") as image: image_string = base64.b64encode(bytearray(image.read())).decode() return image_string # Decode to to convert a json str to an image def decode_base64_image(base64_string): decoded_string = BytesIO(base64.b64decode(base64_string)) img = PIL.Image.open(decoded_string) return img # display PIL images as grid
def display_images(images=None,columns=3, width=100, height=100): plt.figure(figsize=(width, height)) for i, image in enumerate(images): plt.subplot(int(len(images) / columns + 1), columns, i + 1) plt.axis('off') plt.imshow(image) # Display images in a row/col grid
def image_grid(imgs, rows, cols): assert len(imgs) == rows*cols w, h = imgs[0].size grid = PIL.Image.new('RGB', size=(cols*w, rows*h)) grid_w, grid_h = grid.size for i, img in enumerate(imgs): grid.paste(img, box=(i%cols*w, i//cols*h)) return grid
インペインティングの作業を進めましょう。 入力画像と、前述のテキスト プロンプトで CLIPSeg を使用して作成されたマスクを考えると、15 つの画像を生成するのに約 XNUMX 秒かかると推定されています。 次のコードを参照してください。
num_images_per_prompt = 3
prompt = "A female super-model poses in a casual long vacation skirt, with full body length, bright colors, photorealistic, high quality, highly detailed, elegant, sharp focus" # Convert image to string
input_image_filename = "./imgs/skirt-model-2.jpg"
encoded_input_image = encode_base64(input_image_filename)
encoded_mask_image = encode_base64("./imgs/skirt-model-2-mask.jpg") # Set in-painint parameters
guidance_scale = 6.7
num_inference_steps = 45 # run prediction
response = predictor.predict(data={ "inputs": prompt, "input_img": encoded_input_image, "mask_img": encoded_mask_image, "num_images_per_prompt" : num_images_per_prompt, "image_length": 768 }
) # decode images
decoded_images = [decode_base64_image(image) for image in response["generated_images"]] # visualize generation
display_images(decoded_images, columns=num_images_per_prompt, width=100, height=100) # insert initial image in the list so we can compare side by side
image = PIL.Image.open(input_image_filename).convert("RGB")
decoded_images.insert(0, image) # Display inpainting images in grid
image_grid(decoded_images, 1, num_images_per_prompt + 1)
インペイントされた画像は、視覚的な比較のために元の画像と一緒に表示できます。 さらに、インペインティング プロセスは、インペインティング プロセス中のガイダンス イメージの強度を制御する、guide_scale などのさまざまなパラメーターを使用して制限できます。 これにより、ユーザーは出力画像を調整して、目的の結果を得ることができます。
Amazon SageMaker ジャンプスタート は、テキストから画像への変換やアップスケーリングなど、さまざまなモデル向けの Stable Diffusion テンプレートを提供しています。 詳細については、を参照してください。 SageMaker JumpStart が Stable Diffusion および Bloom モデルを提供するようになりました. 近い将来、追加のジャンプスタート テンプレートが利用可能になる予定です。
制限事項
CLIPSeg は通常、一般的なオブジェクトの認識には適していますが、画像内のオブジェクトの数を数えたり、ハンドバッグなどの最も近いオブジェクトが写真にどれだけ近いかを予測するなどのより複雑なタスクなど、より抽象的なタスクや体系的なタスクには苦労します。 ゼロ ショット CLIPSeq は、XNUMX つのあいまいなデザイン、ドレスのバリエーション、またはスタイルの分類の違いを伝えるなど、非常に細かい分類のタスク固有のモデルと比較しても苦労します。 CLIPSeq は、事前トレーニング データセットでカバーされていない画像への一般化も不十分です。 最後に、CLIP のゼロショット分類子は言葉遣いや言い回しに敏感であり、うまく機能させるには試行錯誤の「迅速なエンジニアリング」が必要になる場合があることが観察されています。 CLIPSeq のバックボーンの別のセマンティック セグメンテーション モデルへの切り替え。 BEITADE62.8K データセットで 20% の mIOU を誇る は、結果を改善する可能性があります。
Stable Diffusion を使用して生成されたファッション デザインは、ファッション モデルのより広いコンテキストで予測可能に配置された衣服の一部に限定されていることがわかっています。事前トレーニング済みモデルのトレーニング中に使用されるハイパースケール データセット。 ジェネレーティブ AI の実際の限界は、モデルが最終的に完全に架空の、信頼性の低い出力を生成することです。 したがって、AI によって生成されたファッション デザインは、人間のデザイナーによって作成されたものほど多様でなく、独自のものではない可能性があります。
まとめ
ジェネレーティブ AI は、より優れたユーザー エクスペリエンスと費用対効果の高いビジネス戦略を通じて、ファッション セクターの慣行を変革する機会を提供します。 この投稿では、ジェネレーティブ AI を活用して、ファッション デザイナーと消費者が仮想モデリングを使用してパーソナライズされたファッション スタイルを作成できるようにする方法を紹介します。 既存の Amazon SageMaker ジャンプスタート テンプレートと今後のテンプレートの支援により、ユーザーは高度な技術的専門知識を必要とせずに、これらの高度な手法をすぐに採用できると同時に、汎用性を維持し、費用を削減できます。
この革新的なテクノロジーは、さまざまな業界のコンテンツ生成に携わる企業や専門家に新たなチャンスをもたらします。 Generative AI は、コンテンツを強化および作成するための十分な機能を提供します。 ジャンプスタート テンプレートに最近追加された機能をお試しください SageMaker スタジオ、テキストから画像への微調整やアップスケール機能など。
Li Zhang、Karl Albertsen、Kristine Pearce、Nikhil Velpanur、Aaron Sengstacken、James Wu、Neelam Koshiya のサポートと、この作業の改善に役立つ貴重な情報提供に感謝します。
著者について
アルフレッド・シェン AWS のシニア AI/ML スペシャリストです。 彼はシリコン バレーで働いており、ヘルスケア、金融、ハイテクなどのさまざまな分野で技術職や管理職を歴任しています。 彼は専任の応用 AI/ML 研究者であり、CV、NLP、およびマルチモダリティに重点を置いています。 彼の作品は、EMNLP、ICLR、Public Health などの出版物で紹介されています。
ヴィヴェック・マダン博士 Amazon SageMaker JumpStart チームの応用科学者です。 イリノイ大学アーバナ シャンペーン校で博士号を取得し、ジョージア工科大学で博士研究員を務めました。 彼は機械学習とアルゴリズム設計の活発な研究者であり、EMNLP、ICLR、COLT、FOCS、および SODA カンファレンスで論文を発表しています。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 情報源: https://aws.amazon.com/blogs/machine-learning/virtual-fashion-styling-with-generative-ai-using-amazon-sagemaker/
- 1
- 10
- 100
- 7
- a
- アーロン・P・コーエン
- できる
- 私たちについて
- 抽象
- 加速する
- 加速器
- アクセス
- アクセサリー
- 熟達した
- 正確な
- 達成する
- 越えて
- アクティブ
- 適応する
- 追加されました
- NEW
- さらに
- 追加
- アドレス
- 養子縁組
- 高度な
- アドバイス
- 後
- AI
- AI / ML
- アルゴリズム
- アルゴリズム
- すべて
- 許可
- ことができます
- 既に
- Amazon
- アマゾンセージメーカー
- Amazon SageMaker ジャンプスタート
- 量
- および
- 衣服
- 現れる
- 適用された
- 申し込む
- 約
- 建築
- Archive
- AREA
- 引数
- 人工の
- 人工知能
- ASA
- 援助
- 注意
- オーディオ
- 「鑑定済み」のチェックマークが付きます。
- 利用できます
- AWS
- バックボーン
- 帯域幅
- 銀行
- ベース
- ベース
- なぜなら
- 始まった
- 有益な
- 恩恵
- より良いです
- の間に
- バインド
- 拘束
- ブロック
- ブログ
- ブルーム
- 青
- 誇る
- ボディ
- 大胆な
- ボックス
- 明るい
- より明るい
- 予算
- ビジネス
- ビジネスアプリケーション
- 計算する
- 呼ばれます
- 機能
- できる
- 例
- カジュアル
- 中央の
- 課題
- チャンス
- 変化する
- 選択する
- class
- 分類
- 閉じる
- 閉鎖
- アパレル
- クラウド
- コード
- 収集する
- カラー
- コラム
- 来ます
- 快適さ
- コマンドと
- 企業
- 比較します
- 比べ
- 比較
- 補体
- 複雑な
- コンポーネント
- 計算
- 計算
- コンピューティング
- コンセプト
- 交流
- 定数
- 消費者
- コンテナ
- 含まれています
- コンテンツ
- コンテンツ生成
- コンテキスト
- 続ける
- コントロール
- controls
- 変換
- 対応する
- 費用
- 可能性
- カバー
- 作ります
- 作成した
- 作成
- 創造
- 重大な
- 重大な
- 現在
- カスタム
- 顧客
- 顧客満足
- Customers
- カスタマイズ可能な
- カスタム化
- データ
- 減少
- 専用の
- 深いです
- 深い学習
- 需要
- デニム生地
- 展開します
- 展開
- 展開
- 説明する
- 記載された
- 設計
- 設計
- デザイナー
- デザイン
- 希望
- 詳細な
- 細部
- 決定
- 違い
- 異なります
- 直接に
- 議論する
- ディスプレイ
- ディスプレイ
- 配布
- ディストリビューション
- 異なる
- ドメイン
- ダウンロード
- 数十
- 耐久性
- 間に
- eコマース
- 簡単に
- 効果的な
- 効率的な
- 要素は
- 排除
- 受け入れる
- enable
- 可能
- 有効にする
- 包含する
- エンドポイント
- エンジニア
- 強化
- 確保
- エンターテインメント
- 装備
- エラー
- 推定
- 夕方
- 最終的に
- 進化
- 例
- 例
- 既存の
- 期待する
- 経費
- 高価な
- エクスペリエンス
- 専門知識
- export
- エキス
- ファブリック
- ファブリック
- 顔
- 顔
- ファッション
- 速いです
- 特徴
- 女性
- 少数の
- 忠実
- フィールド
- File
- 埋める
- ファイナル
- 最後に
- ファイナンス
- もう完成させ、ワークスペースに掲示しましたか?
- 終わり
- 名
- フィット
- フレア
- フレキシブル
- フロー
- フォーカス
- 続いて
- フォロー中
- 次
- フォーマル
- 前者
- フォワード
- 発見
- 頻繁に
- から
- フル
- 完全に
- function
- 機能
- さらに
- さらに
- 未来
- 服装
- 生成する
- 生成された
- 世代
- 生々しい
- 生成AI
- 取得する
- 与えられた
- GPU
- GPU
- グラフィック
- グレー
- 大きい
- 大いに
- グリッド
- ハンドル
- ハンドリング
- ハーネス
- 持って
- 健康
- ヘルスケア
- 高さ
- 助けました
- こちら
- ハイ
- ハイレベル
- 高解像度の
- より高い
- ハイライト
- 非常に
- 開催
- 保持している
- host
- 認定条件
- How To
- しかしながら
- HTML
- HTTPS
- ハブ
- 抱き合う顔
- 人間
- アイデア
- 識別子
- 識別する
- イリノイ州
- 画像
- 画像
- 虚数
- 実装
- import
- 重要
- 改善します
- 改善されました
- in
- 綿密な
- include
- 含ま
- 含めて
- 入ってくる
- 組み込む
- 増加した
- 産業
- 産業を変えます
- 情報
- 初期
- 革新的な
- install
- を取得する必要がある者
- インテリジェンス
- 導入
- 関係する
- IT
- リーディングシート
- ジョブ
- JSON
- キー
- ラベル
- ラベル
- 言語
- 大
- 起動する
- 層
- 主要な
- LEARN
- 学んだ
- 学習
- 長さ
- レベル
- Li
- 図書館
- LIMIT
- 限定的
- リスト
- 負荷
- ローディング
- 長い
- 損失
- 導入トータルコストの
- もうかる
- 機械
- 機械学習
- メイン
- 維持する
- 保守
- make
- 作成
- 経営者
- メーカー
- マッピング
- 市場
- マーケティング
- mask
- マスク
- 一致
- 材料
- matplotlib
- 手段
- メディア
- メモリ
- 方法
- メソッド
- 行方不明
- ML
- モデル
- 他には?
- 最も
- 運動
- の試合に
- 名
- ナチュラル
- 近く
- 必要
- 必要
- 必要
- ニーズ
- ネットワーク
- 普通
- 新作
- NLP
- ノード
- 通常の
- 小説
- 数
- Nvidia
- オブジェクト
- オブジェクト
- 障害
- 提供
- 提供すること
- オファー
- ONE
- 唯一無二
- オンライン
- 機会
- 最適化
- オプション
- 注文
- オリジナル
- OS
- 自分の
- 対になった
- ペアリング
- 論文
- パラメータ
- 特定の
- 部品
- 渡された
- path
- パターン
- パターン
- 実行する
- パフォーマンス
- 実行する
- パーミッション
- 個人的な
- 個人化
- 個人
- カスタマイズ
- 写実的
- ピクチャー
- パイプ
- パイプライン
- プラットフォーム
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- お願いします
- 貧しいです
- 人気
- ポーズ
- ポジション
- ポスト
- 潜在的な
- :
- 実用的
- 練習
- プラクティス
- 予測する
- 予測
- 予測
- Predictor
- プ
- 優先
- プレゼント
- 防ぐ
- 前に
- 事前の
- プロセス
- 作り出す
- 生産
- 製品
- 専門家
- 適切な
- 提供します
- は、大阪で
- 公共
- 公衆衛生
- 出版物
- 公然と
- 公表
- 純粋に
- 目的
- 目的
- Python
- パイトーチ
- 品質
- すぐに
- 範囲
- リアル
- への
- 現実的な
- 受け取ります
- 最近
- 提言
- レッド
- 減らします
- 電話代などの費用を削減
- リファレンス
- 指し
- 関連性
- 報告
- 表し
- 要求
- リクエスト
- 必要とする
- 必要
- 研究者
- 解像度
- 応答
- 結果
- 結果として
- 結果
- 小売
- return
- 収益
- RGB
- 職種
- 大体
- ラン
- ランニング
- セージメーカー
- セールス
- 満足
- Save
- 貯蓄
- 規模
- 科学者
- SDDK
- 二番
- 秒
- セクター
- セクター
- セグメンテーション
- セグメント
- 選択
- シニア
- 敏感な
- 仕える
- サービス
- セッション
- セッションに
- いくつかの
- シャープ
- シェル(Shell)
- ショート
- すべき
- ショーケース
- 側
- シリコン
- シリコンバレー
- 同様の
- 簡単な拡張で
- 単に
- 同時に
- サイズ
- 小さい
- So
- 社会
- ソーシャルメディア
- 溶液
- 一部
- 何か
- スペース
- 特別
- 専門家
- 専門の
- 特定の
- 指定の
- 安定した
- 標準
- 都道府県
- 手順
- ステップ
- まだ
- ストレージ利用料
- 保存され
- 作戦
- 力
- ストライプ
- 闘争
- テーマ
- 成功
- そのような
- 夏
- スーパーモデル
- 監督
- サポート
- テーラード
- 取る
- 取り
- ターゲット
- 仕事
- タスク
- チーム
- テク
- 技術的
- テクニック
- テクノロジー
- テンプレート
- 条件
- テスラ
- エリア
- 世界
- アプリ環境に合わせて
- したがって、
- 三
- 介して
- タイド
- 〜へ
- 豊富なツール群
- トーチ
- 完全に
- 伝統的な
- トラフィック
- トレーニング
- 訓練された
- トレーニング
- 転送
- 最適化の適用
- トランスフォーマー
- 旅行
- トレンド
- トライアル
- 1兆
- 下
- ユニーク
- 大学
- アップロード
- 使用法
- つかいます
- ユーザー
- users
- 通常
- 活用する
- 利用された
- 利用
- 活用
- 休暇
- 谷
- 貴重な
- 値
- 多様
- さまざまな
- 広大な
- 確認する
- バージョン
- ビデオ
- バーチャル
- W
- 方法
- which
- while
- 白
- 誰
- ワイド
- 広い範囲
- より広い
- 幅
- 意志
- 以内
- 無し
- 言い回し
- 仕事
- 働いていました
- 世界
- 世界銀行
- でしょう
- ラップ
- wu
- X
- You
- あなたの
- ゼファーネット
- 〒