تصميم الأزياء الافتراضية باستخدام الذكاء الاصطناعي التوليدي باستخدام Amazon SageMaker

أعاد نشره أفلاطون

المتابعون: 0

صناعة الأزياء هي تجارة مربحة للغاية، بقيمة تقدر بـ 2.1 تريليون دولار بحلول عام 2025 ، كما أفاد البنك الدولي. يشمل هذا المجال مجموعة متنوعة من القطاعات ، مثل إنشاء وتصنيع وتوزيع وبيع الملابس والأحذية والإكسسوارات. الصناعة في حالة تغير مستمر ، مع ظهور أنماط واتجاهات جديدة بشكل متكرر. لذلك ، يجب أن تكون شركات الأزياء مرنة وقادرة على التكيف من أجل الحفاظ على أهميتها وتحقيق النجاح في السوق.

يشير الذكاء الاصطناعي التوليدي (AI) إلى خوارزميات الذكاء الاصطناعي المصممة لإنشاء محتوى جديد ، مثل الصور أو النصوص أو الصوت أو الفيديو ، بناءً على مجموعة من الأنماط والبيانات المكتسبة. يمكن استخدامه لإنشاء تصميمات ملابس جديدة ومبتكرة مع توفير تخصيص محسن وفعالية من حيث التكلفة. يمكن لأدوات التصميم التي تعتمد على الذكاء الاصطناعي إنشاء تصميمات ملابس فريدة استنادًا إلى معلمات الإدخال أو الأنماط المحددة من قبل العملاء المحتملين من خلال المطالبات النصية. علاوة على ذلك ، يمكن استخدام الذكاء الاصطناعي لتخصيص التصميمات حسب تفضيلات العميل. على سبيل المثال ، يمكن للعميل الاختيار من بين مجموعة متنوعة من الألوان والأنماط والأنماط ، وستقوم نماذج الذكاء الاصطناعي بإنشاء تصميم فريد من نوعه بناءً على تلك الاختيارات. يتم حاليًا إعاقة اعتماد الذكاء الاصطناعي في صناعة الأزياء بسبب العديد من التحديات التقنية والجدوى والتكلفة. ومع ذلك ، يمكن الآن تخفيف هذه العقبات من خلال استخدام أساليب الذكاء الاصطناعي التوليدية المتقدمة مثل تجزئة الصورة الدلالي القائمة على اللغة الطبيعية ونشرها للتصميم الافتراضي.

يُفصِّل منشور المدونة هذا تنفيذ تصميم الأزياء عبر الإنترنت بمساعدة الذكاء الاصطناعي باستخدام المطالبات النصية. يمكن لمهندسي التعلم الآلي (ML) تحسين ونشر نماذج تجزئة النص إلى الدلالي والنماذج في اللوحة بناءً على CLIPSeq و Stable Diffusion التي تم تدريبها مسبقًا باستخدام الأمازون SageMaker. يتيح ذلك لمصممي الأزياء والمستهلكين إنشاء صور نمذجة افتراضية بناءً على مطالبات النص واختيار الأنماط المفضلة لديهم.

هندسة الحلول

حلول الذكاء الاصطناعي التوليدية

• كليبسيج قدم النموذج طريقة تجزئة دلالية للصورة تتيح لك التعرف بسهولة على عناصر الموضة في الصور باستخدام أوامر نصية بسيطة. يستخدم موجهًا نصيًا أو مشفرًا للصور لتشفير المعلومات النصية والمرئية في مساحة تضمين متعددة الوسائط ، مما يتيح تجزئة دقيقة للغاية للكائنات المستهدفة بناءً على الموجه. تم تدريب النموذج على كمية هائلة من البيانات باستخدام تقنيات مثل النقل بدون طلقة ، والإشراف على اللغة الطبيعية ، والتعلم التباين متعدد الوسائط تحت الإشراف الذاتي. هذا يعني أنه يمكنك استخدام نموذج مدرب مسبقًا ومتاح للجمهور بواسطة تيمو لودديك وآخرون دون الحاجة إلى التخصيص.

هندسة CLIPSeg

CLIPSeg هو نموذج يستخدم مشفر نص وصورة لتشفير المعلومات النصية والمرئية في مساحة تضمين متعددة الوسائط لإجراء تجزئة دلالية بناءً على موجه نص. تتكون بنية CLIPSeg من مكونين رئيسيين: مشفر نص ومشفّر للصور. يأخذ مشفر النص موجه النص ويحوله إلى دمج نصي ، بينما يأخذ مشفر الصورة الصورة ويحولها إلى دمج للصورة. يتم بعد ذلك تسلسل كلا الحفلتين وتمريرهما عبر طبقة متصلة بالكامل لإنتاج قناع التجزئة النهائي.

فيما يتعلق بتدفق البيانات ، يتم تدريب النموذج على مجموعة بيانات من الصور والمطالبات النصية المقابلة ، حيث تصف المطالبات النصية الكائن الهدف المراد تقسيمه. أثناء عملية التدريب ، تم تحسين مشفر النص ومشفّر الصور لمعرفة التعيين بين المطالبات النصية والصورة لإنتاج قناع التجزئة النهائي. بمجرد تدريب النموذج ، يمكن أن يأخذ موجهًا نصيًا جديدًا وصورة وينتج قناع تجزئة للكائن الموصوف في الموجه.

الانتشار المستقر هو تقنية تسمح لمصممي الأزياء بتوليد صور واقعية للغاية بكميات كبيرة تستند فقط إلى أوصاف نصية دون الحاجة إلى تخصيص طويل ومكلف. هذا مفيد للمصممين الذين يرغبون في إنشاء أنماط عصرية بسرعة ، وللمصنعين الذين يرغبون في إنتاج منتجات مخصصة بتكلفة أقل.

يوضح الرسم البياني التالي بنية الانتشار المستقر وتدفق البيانات.

هندسة الانتشار المستقرة

بالمقارنة مع الأساليب التقليدية المستندة إلى GAN ، فإن Stable Diffusion عبارة عن ذكاء اصطناعي توليدي قادر على إنتاج صور أكثر استقرارًا وواقعية للصور تتناسب مع توزيع الصورة الأصلية. يمكن تكييف النموذج على نطاق واسع من الأغراض ، مثل النص لتوليد النص إلى صورة ، والمربعات المحيطة لإنشاء التخطيط إلى الصورة ، والصور المقنعة للطلاء ، والصور ذات الدقة المنخفضة للحصول على دقة فائقة. تحتوي نماذج الانتشار على مجموعة واسعة من تطبيقات الأعمال ، وتستمر استخداماتها العملية في التطور. ستفيد هذه النماذج بشكل كبير في العديد من الصناعات مثل الأزياء وتجارة التجزئة والتجارة الإلكترونية والترفيه ووسائل التواصل الاجتماعي والتسويق وغير ذلك.

قم بإنشاء أقنعة من المطالبات النصية باستخدام CLIPSeg

تصميم Vogue عبر الإنترنت هو خدمة تمكّن العملاء من تلقي نصائح وتوصيات الموضة من منظمة العفو الدولية من خلال منصة عبر الإنترنت. يقوم بذلك عن طريق اختيار الملابس والإكسسوارات التي تكمل مظهر العميل وتتناسب مع ميزانيته وتتناسب مع تفضيلاته الشخصية. باستخدام الذكاء الاصطناعي التوليفي ، يمكن إنجاز المهام بسهولة أكبر ، مما يؤدي إلى زيادة رضا العملاء وتقليل النفقات.

يمكن نشر الحل على ملف Amazon Elastic Compute Cloud (EC2) مثيل p3.2xlarge ، والذي يحتوي على وحدة معالجة رسومات واحدة V100 مع ذاكرة 16G. تم استخدام العديد من التقنيات لتحسين الأداء وتقليل استخدام ذاكرة وحدة معالجة الرسومات ، مما أدى إلى إنشاء صورة أسرع. يتضمن ذلك استخدام fp16 وتمكين الانتباه الفعال للذاكرة لتقليل عرض النطاق الترددي في كتلة الانتباه.

بدأنا بجعل المستخدم يقوم بتحميل صورة أزياء ، متبوعًا بتنزيل واستخراج النموذج المدرب مسبقًا من CLIPSeq. ثم يتم تطبيع الصورة وتغيير حجمها لتتوافق مع حد الحجم. يدعم Stable Diffusion V2 دقة صورة تصل إلى 768 × 768 بينما يدعم V1 ما يصل إلى 512 × 512. انظر الكود التالي:

from models.clipseg import CLIPDensePredT # The original image
image = download_image(img_url).resize((768, 768)) # Download pre-trained CLIPSeq model and unzip the pkg
! wget https://owncloud.gwdg.de/index.php/s/ioHbRzFx6th32hn/download -O weights.zip
! unzip -d weights -j weights.zip # Load CLIP model. Available models = ['RN50', 'RN101', 'RN50x4', # 'RN50x16', 'RN50x64', 'ViT-B/32', 'ViT-B/16', 'ViT-L/14', 'ViT-L/14@336px']
model = CLIPDensePredT(version='ViT-B/16', reduce_dim=64)
model.eval() # non-strict, because we only stored decoder weights (not CLIP weights)
model.load_state_dict(torch.load('weights/rd64-uni.pth', map_location=torch.device('cuda')), strict=False) # Image normalization and resizing
transform = transforms.Compose([ transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]), transforms.Resize((768, 768)),
])
img = transform(image).unsqueeze(0)

باستخدام نموذج CLIPSeq المدرب مسبقًا ، يمكننا استخراج الكائن الهدف من صورة باستخدام موجه نص. يتم ذلك عن طريق إدخال موجه النص في برنامج تشفير النص ، والذي يحوله إلى دمج نص. يتم بعد ذلك إدخال الصورة في برنامج ترميز الصورة ، والذي يحولها إلى دمج للصورة. يتم بعد ذلك تسلسل كل من التضمينات وتمريرها عبر طبقة متصلة بالكامل لإنتاج قناع التجزئة النهائي ، والذي يبرز الكائن الهدف الموصوف في موجه النص. انظر الكود التالي:

# Text prompt
prompt = 'Get the dress only.' # predict
mask_image_filename = 'the_mask_image.png'
with torch.no_grad(): preds = model(img.repeat(4,1,1,1), prompt)[0] # save the mask image after computing the area under the standard # Gaussian probability density function and calculates the cumulative # distribution function of the normal distribution with ndtr. plt.imsave(mask_image_filename,torch.special.ndtr(preds[0][0]))

باستخدام صورة القناع الدقيقة من التجزئة الدلالية ، يمكننا استخدام الرسم لاستبدال المحتوى. إن عملية الرسم هي عملية استخدام نموذج توليدي مدرب لملء الأجزاء المفقودة من الصورة. باستخدام صورة القناع لتحديد الكائن الهدف ، يمكننا تطبيق تقنية الطلاء لاستبدال الكائن الهدف بشيء آخر ، مثل عنصر ملابس أو ملحق مختلف. يمكن استخدام نموذج Stable Diffusion V2 لهذا الغرض ، لأنه قادر على إنتاج صور عالية الدقة وواقعية تتطابق مع توزيع الصورة الأصلية.

صقل من النماذج المدربة مسبقًا باستخدام DreamBooth

الضبط الدقيق هو عملية في التعلم العميق حيث يتم تدريب نموذج مدرب مسبقًا على مهمة جديدة باستخدام كمية صغيرة من البيانات المصنفة. بدلاً من التدريب من البداية ، تكمن الفكرة في أخذ شبكة تم تدريبها بالفعل على مجموعة بيانات كبيرة لمهمة مماثلة وتدريبها على مجموعة بيانات جديدة لجعلها أكثر تخصصًا لهذه المهمة بالذات.

يمكن لمصممي الأزياء أيضًا استخدام نموذج Stable Diffusion في اللوحة مدفوعًا بالموضوع ومضبوط بدقة لإنشاء فئة معينة من الأناقة ، مثل التنانير الطويلة غير الرسمية للسيدات. للقيام بذلك ، تتمثل الخطوة الأولى في توفير مجموعة من عينات الصور في المجال المستهدف ، حوالي 1 عشرات ، مع تسميات نصية مناسبة مثل ما يلي وربطها بمعرف فريد يشير إلى التصميم والأسلوب واللون والنسيج . تلعب التسمية الموجودة على النص دورًا مهمًا في تحديد نتائج النموذج الدقيق. هناك عدة طرق لتحسين الضبط من خلال الفعالية الهندسة السريعة وإليك بعض الأمثلة.

Sample text prompts to descibe some of the most common design elements of casual long skirts for ladies: Design Style: A-line, wrap, maxi, mini, and pleated skirts are some of the most popular styles for casual wear. A-line skirts are fitted at the waist and flare out at the hem, creating a flattering silhouette. Wrap skirts have a wrap closure and can be tied at the waist for a customizable fit. Maxi skirts are long and flowy, while mini skirts are short and flirty. Pleated skirts have folds that add texture and movement to the garment.
Pattern: Casual skirts can feature a variety of patterns, including stripes, florals, polka dots, and solids. These patterns can range from bold and graphic to subtle and understated.
Colors: Casual skirts come in a range of colors, including neutral shades likeblack, white, and gray, as well as brighter hues like pink, red, and blue. Some skirts may also feature multiple colors in a single garment, such asa skirt with a bold pattern that incorporates several shades.
Fabrics: Common fabrics used in casual skirts include cotton, denim, linen, and rayon. These materials offer different levels of comfort and durability, making it easy to find a skirt that suits your personal style and needs.

قد يؤدي استخدام مجموعة صغيرة من الصور لضبط الانتشار المستقر إلى زيادة ملاءمة النموذج. يعالج DreamBooth [5] هذا باستخدام فقدان الحفظ المسبق الخاص بالفئة. يتعلم ربط معرف فريد بهذا الموضوع المحدد في خطوتين. أولاً ، تقوم بضبط النموذج منخفض الدقة مع صور الإدخال المقترنة بموجه نصي يحتوي على معرف فريد واسم الفئة التي ينتمي إليها الموضوع ، مثل "تنورة". في الممارسة العملية ، هذا يعني وجود صور مناسبة للنموذج والصور المأخوذة من الصورة المرئية السابقة للفئة غير المضبوطة في وقت واحد. يتم أخذ عينات من هذه الصور المحفوظة مسبقًا وتصنيفها باستخدام موجه "class noun". ثانيًا ، ستقوم بضبط المكونات فائقة الدقة عن طريق إقران الصور منخفضة الدقة وعالية الدقة من مجموعة صور الإدخال ، مما يسمح لمخرجات النموذج الدقيق بالحفاظ على الدقة مع التفاصيل الصغيرة.

تتطلب عملية الضبط الدقيق لبرنامج ترميز النص المُدرب مسبقًا باستخدام وحدة UNet للحصول على صور بدقة 512 × 512 ما يقرب من 22 جيجا بايت من VRAM أو أعلى للحصول على دقة 768 × 768. يجب تغيير حجم العينات المضبوطة بشكل مثالي لتتوافق مع دقة صورة الإخراج المرغوبة لتجنب تدهور الأداء. ينتج عن مشفر النص تفاصيل أكثر دقة مثل وجوه النموذج. أحد الخيارات هو التشغيل على مثيل AWS EC2 g5.2xlarge واحد ، وهو متوفر الآن بتنسيق ثماني مناطق أو استخدم Hugging Face Accelerate لتشغيل الشفرة الدقيقة عبر التكوين الموزع. لتوفير مساحة إضافية في الذاكرة ، يمكنك اختيار إصدار مقسم من الانتباه يقوم بإجراء الحساب في خطوات بدلاً من الكل مرة واحدة عن طريق تعديل البرنامج النصي التدريبي الخاص بـ DreamBooth train_dreambooth_inpaint.py لإضافة وظيفة خط الأنابيب enable_attention_slicing ().

التسريع عبارة عن مكتبة تتيح تشغيل كود ضبط دقيق واحد عبر أي تكوين موزع. قدم تعانق الوجه وأمازون حاويات التعلم العميق للوجه المعانقة (DLC) لتوسيع نطاق مهام الضبط عبر العديد من وحدات معالجة الرسومات والعقد. يمكنك تكوين تكوين التشغيل لـ Amazon SageMaker باستخدام أمر CLI واحد.

# From your aws account, install the sagemaker sdk for Accelerate
pip install "accelerate[sagemaker]" --upgrade # Configure the launch configuration for Amazon SageMaker accelerate config # List and verify Accelerate configuration
accelerate env # Make necessary modification of the training script as the following to save # output on S3, if needed
# - torch.save('/opt/ml/model`)
# + accelerator.save('/opt/ml/model')

لبدء مهمة الضبط الدقيق ، تحقق من تكوين Accelerate باستخدام CLI وقم بتوفير وسائط التدريب اللازمة ، ثم استخدم برنامج shell النصي التالي.

# Instance images — Custom images that represents the specific # concept for dreambooth training. You should collect # high #quality images based on your use cases.
# Class images — Regularization images for prior-preservation # loss to prevent overfitting. You should generate these # images directly from the base pre-trained model. # You can choose to generate them on your own or generate # them on the fly when running the training script.
# # You can access train_dreambooth_inpaint.py from huggingface/diffuser export MODEL_NAME="stabilityai/stable-diffusion-2-inpainting"
export INSTANCE_DIR="/data/fashion/gowns/highres/"
export CLASS_DIR="/opt/data/fashion/generated_gowns/imgs"
export OUTPUT_DIR="/opt/model/diffuser/outputs/inpainting/" accelerate launch train_dreambooth_inpaint.py --pretrained_model_name_or_path=$MODEL_NAME --train_text_encoder --instance_data_dir=$INSTANCE_DIR --class_data_dir=$CLASS_DIR --output_dir=$OUTPUT_DIR --with_prior_preservation --prior_loss_weight=1.0 --instance_prompt="A supermodel poses in long summer travel skirt, photorealistic" --class_prompt="A supermodel poses in skirt, photorealistic" --resolution=512 --train_batch_size=1 --use_8bit_adam --gradient_checkpointing --learning_rate=2e-6 --lr_scheduler="constant" --lr_warmup_steps=0 --num_class_images=200 --max_train_steps=800

يسمح النموذج الدقيق داخل اللوحة بتوليد صور أكثر تحديدًا لفئة الموضة الموصوفة في موجه النص. نظرًا لأنه تم ضبطه بدقة باستخدام مجموعة من الصور عالية الدقة والمطالبات النصية ، يمكن للنموذج إنشاء صور أكثر تفصيلاً للفصل ، مثل فساتين السهرة الرسمية. من المهم ملاحظة أنه كلما كان الفصل أكثر تحديدًا وزادت البيانات المستخدمة للضبط الدقيق ، زادت دقة وواقعية الصور الناتجة.

%tree -d ./finetuned-stable-diffusion-v2-1-inpainting
finetuned-stable-diffusion-v2-1-inpainting
├── 512-inpainting-ema.ckpt
├── feature_extractor
├── code
│ └──inference.py
│ ├──requirements.txt
├── scheduler
├── text_encoder ├── tokenizer
├── unet
└── vae

انشر نموذجًا دقيقًا في الطلاء باستخدام SageMaker للاستدلال

باستخدام Amazon SageMaker ، يمكنك نشر نماذج الانتشار المستقر المضبوطة بدقة للاستدلال في الوقت الفعلي. لتحميل النموذج إلى خدمة Amazon Simple Storage (S3) للنشر ، يجب إنشاء tarball أرشيف model.tar.gz. تأكد من أن الأرشيف يتضمن جميع الملفات مباشرة ، وليس مجلدًا يحتوي عليها. يجب أن يظهر مجلد أرشيف الضبط الدقيق لـ DreamBooth على النحو التالي بعد التخلص من نقاط التفتيش المتقطعة:

تتضمن الخطوة الأولى في إنشاء معالج الاستدلال إنشاء ملف inference.py. يعمل هذا الملف كمحور مركزي لتحميل النموذج ومعالجة جميع طلبات الاستدلال الواردة. بعد تحميل النموذج ، يتم تنفيذ وظيفة model_fn (). عندما تنشأ الحاجة لأداء الاستدلال ، يتم استدعاء وظيفة التنبؤ (). بالإضافة إلى ذلك ، تُستخدم وظيفة decode_base64 () لتحويل سلسلة JSON ، المضمنة في الحمولة ، إلى نوع بيانات صورة PIL.

%%writefile code/inference.py
import base64
import torch
from PIL import Image
from io import BytesIO
from diffusers import EulerDiscreteScheduler, StableDiffusionInpaintPipeline def decode_base64(base64_string): decoded_string = BytesIO(base64.b64decode(base64_string)) img = Image.open(decoded_string) return img def model_fn(model_dir): # Load stable diffusion and move it to the GPU scheduler = EulerDiscreteScheduler.from_pretrained(model_dir, subfolder="scheduler") pipe = StableDiffusionInpaintPipeline.from_pretrained(model_dir, scheduler=scheduler, revision="fp16", torch_dtype=torch.float16) pipe = pipe.to("cuda") pipe.enable_xformers_memory_efficient_attention() #pipe.enable_attention_slicing() return pipe def predict_fn(data, pipe): # get prompt & parameters prompt = data.pop("inputs", data) # Require json string input. Inference to convert imge to string. input_img = data.pop("input_img", data) mask_img = data.pop("mask_img", data) # set valid HP for stable diffusion num_inference_steps = data.pop("num_inference_steps", 25) guidance_scale = data.pop("guidance_scale", 6.5) num_images_per_prompt = data.pop("num_images_per_prompt", 2) image_length = data.pop("image_length", 512) # run generation with parameters generated_images = pipe( prompt, image = decode_base64(input_img), mask_image = decode_base64(mask_img), num_inference_steps=num_inference_steps, guidance_scale=guidance_scale, num_images_per_prompt=num_images_per_prompt, height=image_length, width=image_length, #)["images"] # for Stabel Diffusion v1.x ).images # create response encoded_images = [] for image in generated_images: buffered = BytesIO() image.save(buffered, format="JPEG") encoded_images.append(base64.b64encode(buffered.getvalue()).decode()) return {"generated_images": encoded_images}

لتحميل النموذج إلى حاوية Amazon S3 ، من الضروري أولاً إنشاء أرشيف model.tar.gz. من المهم ملاحظة أن الأرشيف يجب أن يتكون من الملفات مباشرة وليس مجلدًا يحتفظ بها. على سبيل المثال ، يجب أن يظهر الملف على النحو التالي:

import tarfile
import os # helper to create the model.tar.gz
def compress(tar_dir=None,output_file="model.tar.gz"): parent_dir=os.getcwd() os.chdir(tar_dir) with tarfile.open(os.path.join(parent_dir, output_file), "w:gz") as tar: for item in os.listdir('.'): print(item) tar.add(item, arcname=item) os.chdir(parent_dir) compress(str(model_tar)) # After we created the model.tar.gz archive we can upload it to Amazon S3. We will # use the sagemaker SDK to upload the model to our sagemaker session bucket.
from sagemaker.s3 import S3Uploader # upload model.tar.gz to s3
s3_model_uri=S3Uploader.upload(local_path="model.tar.gz", desired_s3_uri=f"s3://{sess.default_bucket()}/finetuned-stable-diffusion-v2-1-inpainting")

بعد تحميل أرشيف النموذج ، يمكننا نشره على Amazon SageMaker باستخدام HuggingfaceModel للاستدلال في الوقت الفعلي. يمكنك استضافة نقطة النهاية باستخدام مثيل g4dn.xlarge ، والذي تم تجهيزه بوحدة معالجة رسومات NVIDIA Tesla T4 بسعة 16 جيجابايت من VRAM. يمكن تنشيط القياس التلقائي للتعامل مع متطلبات حركة المرور المتغيرة. للحصول على معلومات حول دمج القياس التلقائي في نقطة النهاية الخاصة بك ، راجع جاري الإنتاج: التحجيم التلقائي لمحولات تعانق الوجه باستخدام Amazon SageMaker.

from sagemaker.huggingface.model import HuggingFaceModel # create Hugging Face Model Class
huggingface_model = HuggingFaceModel( model_data=s3_model_uri, # path to your model and script role=role, # iam role with permissions to create an Endpoint transformers_version="4.17", # transformers version used pytorch_version="1.10", # pytorch version used py_version='py38', # python version used
) # deploy the endpoint endpoint
predictor = huggingface_model.deploy( initial_instance_count=1, instance_type="ml.g4dn.xlarge" )

تقوم طريقة huggingface_model.deploy () بإرجاع كائن HuggingFacePredictor الذي يمكن استخدامه لطلب الاستدلال. تتطلب نقطة النهاية JSON مع مفتاح الإدخال ، والذي يمثل موجه الإدخال للنموذج لإنشاء صورة. يمكنك أيضًا التحكم في الإنشاء باستخدام معلمات مثل num_inference_steps ، و Guidance_scale ، و "num_images_per_prompt". ترجع وظيفة التنبؤ () JSON بمفتاح "created_images" ، والذي يحتفظ بالصور الأربعة التي تم إنشاؤها كسلاسل مشفرة base64. أضفنا وظيفتين مساعدتين ، decode_base64_to_image و display_images ، لفك تشفير الاستجابة وعرض الصور على التوالي. الأول يفك تشفير السلسلة المشفرة base64 ويعيد PIL. كائن صورة ، ويعرض الأخير قائمة بكائنات PIL. صورة. انظر الكود التالي:

import PIL
from io import BytesIO
from IPython.display import display
import base64
import matplotlib.pyplot as plt
import json # Encoder to convert an image to json string
def encode_base64(file_name): with open(file_name, "rb") as image: image_string = base64.b64encode(bytearray(image.read())).decode() return image_string # Decode to to convert a json str to an image def decode_base64_image(base64_string): decoded_string = BytesIO(base64.b64decode(base64_string)) img = PIL.Image.open(decoded_string) return img # display PIL images as grid
def display_images(images=None,columns=3, width=100, height=100): plt.figure(figsize=(width, height)) for i, image in enumerate(images): plt.subplot(int(len(images) / columns + 1), columns, i + 1) plt.axis('off') plt.imshow(image) # Display images in a row/col grid
def image_grid(imgs, rows, cols): assert len(imgs) == rows*cols w, h = imgs[0].size grid = PIL.Image.new('RGB', size=(cols*w, rows*h)) grid_w, grid_h = grid.size for i, img in enumerate(imgs): grid.paste(img, box=(i%cols*w, i//cols*h)) return grid

دعنا نمضي قدمًا في مهمة in-Painting. تم تقدير أن الأمر سيستغرق حوالي 15 ثانية لإنتاج ثلاث صور ، بالنظر إلى صورة الإدخال والقناع الذي تم إنشاؤه باستخدام CLIPSeg مع موجه النص الذي تمت مناقشته مسبقًا. انظر الكود التالي:

num_images_per_prompt = 3
prompt = "A female super-model poses in a casual long vacation skirt, with full body length, bright colors, photorealistic, high quality, highly detailed, elegant, sharp focus" # Convert image to string
input_image_filename = "./imgs/skirt-model-2.jpg"
encoded_input_image = encode_base64(input_image_filename)
encoded_mask_image = encode_base64("./imgs/skirt-model-2-mask.jpg") # Set in-painint parameters
guidance_scale = 6.7
num_inference_steps = 45 # run prediction
response = predictor.predict(data={ "inputs": prompt, "input_img": encoded_input_image, "mask_img": encoded_mask_image, "num_images_per_prompt" : num_images_per_prompt, "image_length": 768 }
) # decode images
decoded_images = [decode_base64_image(image) for image in response["generated_images"]] # visualize generation
display_images(decoded_images, columns=num_images_per_prompt, width=100, height=100) # insert initial image in the list so we can compare side by side
image = PIL.Image.open(input_image_filename).convert("RGB")
decoded_images.insert(0, image) # Display inpainting images in grid
image_grid(decoded_images, 1, num_images_per_prompt + 1)

يمكن عرض الصور المرسومة مع الصورة الأصلية للمقارنة المرئية. بالإضافة إلى ذلك ، يمكن تقييد عملية الطلاء باستخدام معلمات مختلفة مثل مقياس التوجيه ، الذي يتحكم في قوة صورة التوجيه أثناء عملية الطلاء. يتيح ذلك للمستخدم ضبط الصورة الناتجة وتحقيق النتائج المرجوة.
إخراج الاستدلال

أمازون سيج ميكر جومبستارت تقدم قوالب انتشار مستقرة لنماذج مختلفة ، بما في ذلك تحويل النص إلى صورة والترقية. لمزيد من المعلومات ، يرجى الرجوع إلى يوفر برنامج SageMaker JumpStart الآن نماذج Stable Diffusion و Bloom. ستتوفر قوالب Jumpstart الإضافية في المستقبل القريب.

القيود

على الرغم من أن CLIPSeg عادةً ما تؤدي أداءً جيدًا في التعرف على الأشياء الشائعة ، إلا أنها تكافح في مهام أكثر تجريدًا أو منهجية مثل حساب عدد الكائنات في الصورة والمهام الأكثر تعقيدًا مثل التنبؤ بمدى قرب أقرب كائن مثل حقيبة اليد في الصورة. يكافح Zero-shot CLIPSeq أيضًا مقارنة بالنماذج الخاصة بالمهمة على تصنيف دقيق للغاية ، مثل معرفة الفرق بين تصميمين غامضين أو متغيرات من الملابس أو تصنيف النمط. لا يزال CLIPSeq أيضًا لديه تعميم ضعيف للصور التي لم تتم تغطيتها في مجموعة بيانات ما قبل التدريب. أخيرًا ، لوحظ أن المصنفات الصفرية في CLIP يمكن أن تكون حساسة للصياغة أو الصياغة وتتطلب أحيانًا "هندسة سريعة" للتجربة والخطأ لأداء جيد. التبديل إلى نموذج تجزئة دلالي مختلف للعمود الفقري لـ CLIPSeq ، مثل بيت، التي تفتخر بـ 62.8٪ mIOU على مجموعة بيانات ADE20K ، يمكن أن تحسن النتائج.

تم العثور على تصميمات الأزياء التي تم إنشاؤها باستخدام Stable Diffusion لتكون مقصورة على أجزاء من الملابس التي يتم وضعها على الأقل كما هو متوقع في السياق الأوسع لعارضات الأزياء ، والتي تتوافق مع حفلات الزفاف عالية المستوى التي يمكن أن تتوقعها بشكل معقول في مجموعة بيانات فائقة التدرج تُستخدم أثناء تدريب النموذج المدرَّب مسبقًا. يتمثل الحد الحقيقي للذكاء الاصطناعي التوليدي في أن النموذج سينتج في النهاية مخرجات خيالية تمامًا وأقل موثوقية. لذلك ، قد لا تكون تصميمات الأزياء التي تم إنشاؤها بواسطة الذكاء الاصطناعي متنوعة أو فريدة من نوعها مثل تلك التي أنشأها المصممون البشريون.

وفي الختام

يوفر الذكاء الاصطناعي التوليدي لقطاع الموضة فرصة لتحويل ممارساته من خلال تجارب مستخدم أفضل واستراتيجيات أعمال فعالة من حيث التكلفة. في هذا المنشور ، نعرض كيفية تسخير الذكاء الاصطناعي التوليدي لتمكين مصممي الأزياء والمستهلكين من إنشاء أنماط أزياء مخصصة باستخدام النمذجة الافتراضية. بمساعدة قوالب Amazon SageMaker Jumpstart الحالية وتلك القادمة ، يمكن للمستخدمين تبني هذه التقنيات المتقدمة بسرعة دون الحاجة إلى خبرة تقنية متعمقة ، كل ذلك مع الحفاظ على تعدد الاستخدامات وخفض النفقات.

تقدم هذه التكنولوجيا المبتكرة فرصًا جديدة للشركات والمهنيين المشاركين في إنشاء المحتوى عبر مختلف الصناعات. يوفر الذكاء الاصطناعي التوليدي إمكانات وافرة لتحسين وإنشاء المحتوى. جرب الإضافات الأخيرة إلى قوالب Jumpstart في ملف استوديو SageMaker، مثل الضبط الدقيق لإمكانيات تحويل النص إلى صورة ورفع مستوى الإمكانات.

نود أن نشكر Li Zhang ، Karl Albertsen ، Kristine Pearce ، Nikhil Velpanur ، Aaron Sengstacken ، James Wu و Neelam Koshiya على دعمهم ومدخلاتهم القيمة التي ساعدت في تحسين هذا العمل.

حول المؤلف

تصميم أزياء افتراضي باستخدام الذكاء الاصطناعي التوليدي باستخدام Amazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. ألفريد شين هو أخصائي أول في الذكاء الاصطناعي / تعلم الآلة في AWS. عمل في وادي السيليكون ، حيث شغل مناصب فنية وإدارية في قطاعات متنوعة بما في ذلك الرعاية الصحية والتمويل والتكنولوجيا الفائقة. وهو باحث تطبيقي متخصص في الذكاء الاصطناعي والتعلم الآلي ، مع التركيز على السيرة الذاتية ومعالجة اللغة الطبيعية والوسائط المتعددة. تم عرض أعماله في منشورات مثل EMNLP و ICLR و Public Health.

الدكتور فيفيك مادان هو عالم تطبيقي مع فريق Amazon SageMaker JumpStart. حصل على درجة الدكتوراه من جامعة إلينوي في Urbana-Champaign وكان باحثًا بعد الدكتوراه في Georgia Tech. وهو باحث نشط في التعلم الآلي وتصميم الخوارزمية وقد نشر أوراقًا علمية في مؤتمرات EMNLP و ICLR و COLT و FOCS و SODA