صور راقية ذات انتشار مستقر في Amazon SageMaker JumpStart

أعاد نشره أفلاطون

المتابعون: 0

في نوفمبر 2022 ، نحن أعلن يمكن لعملاء AWS إنشاء صور من نص باستخدام انتشار مستقر نماذج في أمازون سيج ميكر جومب ستارت. اليوم ، أعلنا عن ميزة جديدة تسمح لك بترقية الصور (تغيير حجم الصور دون فقدان الجودة) باستخدام نماذج Stable Diffusion في JumpStart. يمكن تحويل الصورة ذات الدقة المنخفضة والضبابية والمقطوعة إلى صورة عالية الدقة تبدو أكثر سلاسة ووضوحًا وتفصيلاً. هذه العملية ، ودعا رفع مستوى، يمكن تطبيقها على كل من الصور الحقيقية والصور التي تم إنشاؤها بواسطة نماذج إنتشار مستقرة من نص إلى صورة. يمكن استخدام هذا لتحسين جودة الصورة في مختلف الصناعات مثل التجارة الإلكترونية والعقارات ، وكذلك للفنانين والمصورين. بالإضافة إلى ذلك ، يمكن للترقية تحسين الجودة المرئية للصور منخفضة الدقة عند عرضها على شاشات عالية الدقة.

يستخدم Stable Diffusion خوارزمية AI لترقية الصور ، مما يلغي الحاجة إلى العمل اليدوي الذي قد يتطلب ملء الفجوات يدويًا في الصورة. تم تدريبه على ملايين الصور ويمكنه التنبؤ بدقة بالصور عالية الدقة ، مما يؤدي إلى زيادة كبيرة في التفاصيل مقارنةً بمعدلات ترقية الصور التقليدية. بالإضافة إلى ذلك ، على عكس تقنيات التعلم غير العميق مثل الجار الأقرب ، يأخذ Stable Diffusion في الاعتبار سياق الصورة ، باستخدام موجه نصي لتوجيه عملية الترقية.

في هذا المنشور ، نقدم نظرة عامة حول كيفية نشر وتشغيل الاستدلال باستخدام نموذج ترقية Stable Diffusion upscaler بطريقتين: عبر واجهة مستخدم JumpStart (UI) في أمازون ساجميكر ستوديو، وبرمجيًا من خلال واجهات برمجة تطبيقات JumpStart متوفر في SageMaker بيثون SDK.

حل نظرة عامة

تعرض الصور التالية أمثلة للترقية التي قام بها النموذج. على اليسار يتم تكبير الصورة الأصلية منخفضة الدقة لتتناسب مع حجم الصورة التي تم إنشاؤها بواسطة النموذج. على اليمين الصورة التي تم إنشاؤها بواسطة النموذج.

الصورة الأولى التي تم إنشاؤها هي نتيجة صورة قطة منخفضة الدقة والمطالبة "قطة بيضاء".

صور راقية باستخدام Stable Diffusion في Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

الصورة الثانية التي تم إنشاؤها هي نتيجة لصورة الفراشة ذات الدقة المنخفضة والمطالبة "فراشة على ورقة خضراء".

صور راقية باستخدام Stable Diffusion في Amazon SageMaker JumpStart PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

يتطلب تشغيل نماذج كبيرة مثل Stable Diffusion نصوص استدلال مخصصة. يجب عليك إجراء اختبارات شاملة للتأكد من أن البرنامج النصي والنموذج والمثيل المطلوب يعملان معًا بكفاءة. يبسط JumpStart هذه العملية من خلال توفير البرامج النصية الجاهزة للاستخدام التي تم اختبارها بقوة. يمكنك الوصول إلى هذه البرامج النصية بنقرة واحدة من خلال Studio UI أو بأسطر قليلة جدًا من التعليمات البرمجية من خلال ملف واجهات برمجة تطبيقات JumpStart.

توفر الأقسام التالية نظرة عامة حول كيفية نشر النموذج وتشغيل الاستدلال باستخدام واجهة مستخدم Studio أو واجهات برمجة تطبيقات JumpStart.

لاحظ أنه باستخدام هذا النموذج ، فإنك توافق على CreativeML Open RAIL ++ - ترخيص M..

قم بالوصول إلى JumpStart من خلال Studio UI

في هذا القسم ، نوضح كيفية تدريب نماذج JumpStart ونشرها من خلال Studio UI. يوضح مقطع الفيديو التالي كيفية العثور على نموذج منتشر Stable Diffusion الذي تم تدريبه مسبقًا على JumpStart ونشره. تحتوي صفحة النموذج على معلومات قيمة حول النموذج وكيفية استخدامه. للاستدلال ، نستخدم نوع المثيل ml.p3.2xlarge لأنه يوفر تسريع GPU اللازم لوقت استجابة الاستدلال المنخفض عند نقطة سعر منخفضة. بعد تكوين مثيل استضافة SageMaker ، اختر نشر. سيستغرق الأمر من 5 إلى 10 دقائق حتى يتم تشغيل نقطة النهاية وجاهزة للاستجابة لطلبات الاستدلال.

لتسريع وقت الاستدلال ، يوفر JumpStart نموذج دفتر ملاحظات يوضح كيفية تشغيل الاستدلال على نقطة النهاية المنشأة حديثًا. للوصول إلى دفتر الملاحظات في Studio ، اختر افتح المفكرة في ال استخدم نقطة النهاية من الاستوديو قسم من صفحة نقطة نهاية النموذج.

استخدم JumpStart برمجيًا مع SageMaker SDK

يمكنك استخدام JumpStart UI لنشر نموذج مدرب مسبقًا بشكل تفاعلي ببضع نقرات. ومع ذلك ، يمكنك أيضًا استخدام نماذج JumpStart برمجيًا باستخدام واجهات برمجة التطبيقات المدمجة في SageMaker Python SDK.

في هذا القسم ، نختار نموذجًا مناسبًا تم تدريبه مسبقًا في JumpStart ، وننشر هذا النموذج في نقطة نهاية SageMaker ، ونقوم بتشغيل الاستدلال على نقطة النهاية المنشورة ، وكل ذلك باستخدام SageMaker Python SDK. تحتوي الأمثلة التالية على مقتطفات التعليمات البرمجية. للحصول على الكود الكامل مع جميع الخطوات في هذا العرض التوضيحي ، راجع ملف مقدمة إلى JumpStart - تحسين جودة الصورة وفقًا للموجه مثال مفكرة.

انشر النموذج المدرب مسبقًا

يستخدم SageMaker حاويات Docker لمختلف مهام الإنشاء ووقت التشغيل. يستخدم JumpStart ملف حاويات التعلم العميق من SageMaker (DLC) الخاصة بإطار العمل. نقوم أولاً بإحضار أي حزم إضافية ، بالإضافة إلى البرامج النصية للتعامل مع التدريب والاستدلال على المهمة المحددة. ثم يتم جلب القطع الأثرية للنموذج المدربة مسبقًا بشكل منفصل model_uris، مما يوفر المرونة للنظام الأساسي. يسمح ذلك باستخدام عدة نماذج مُدربة مسبقًا مع نص استدلال واحد. يوضح الكود التالي هذه العملية:

model_id, model_version = "model-upscaling-stabilityai-stable-diffusion-x4-upscaler-fp16", "*"
# Retrieve the inference docker container uri
deploy_image_uri = image_uris.retrieve( region=None, framework=None, # automatically inferred from model_id image_scope="inference", model_id=model_id, model_version=model_version, instance_type=inference_instance_type,
)
# Retrieve the inference script uri
deploy_source_uri = script_uris.retrieve(model_id=model_id, model_version=model_version, script_scope="inference") base_model_uri = model_uris.retrieve(model_id=model_id, model_version=model_version, model_scope="inference")

بعد ذلك ، نقدم هذه الموارد في ملف نموذج SageMaker مثيل ونشر نقطة نهاية:

# Create the SageMaker model instance
model = Model( image_uri=deploy_image_uri, source_dir=deploy_source_uri, model_data=base_model_uri, entry_point="inference.py", # entry point file in source_dir and present in deploy_source_uri role=aws_role, predictor_cls=Predictor, name=endpoint_name,
) # deploy the Model - note that we need to pass the Predictor class when we deploy the model through the Model class,
# in order to run inference through the SageMaker API
base_model_predictor = model.deploy( initial_instance_count=1, instance_type=inference_instance_type, predictor_cls=Predictor, endpoint_name=endpoint_name,
)

بعد نشر نموذجنا ، يمكننا الحصول على تنبؤات منه في الوقت الفعلي!

تنسيق المدخلات

تقبل نقطة النهاية صورة منخفضة الدقة كقيم RGB خام أو صورة مشفرة base64. يقوم معالج الاستدلال بفك تشفير الصورة بناءً على content_type:

في حالة content_type = “application/json”، يجب أن تكون حمولة الإدخال عبارة عن قاموس JSON مع قيم RGB الأولية وموجه نصي ومعلمات اختيارية أخرى
في حالة content_type = “application/json;jpeg”، يجب أن تكون حمولة الإدخال عبارة عن قاموس JSON مع صورة مشفرة base64 وموجه نصي ومعلمات اختيارية أخرى

تنسيق الإخراج

تمنحك أمثلة التعليمات البرمجية التالية لمحة عن الشكل الذي تبدو عليه المخرجات. على غرار تنسيق الإدخال ، يمكن أن تستجيب نقطة النهاية مع قيم RGB الأولية للصورة أو الصورة المشفرة base64. يمكن تحديد ذلك عن طريق الإعداد accept لإحدى القيمتين:

في حالة accept = “application/json”، تقوم نقطة النهاية بإرجاع قاموس JSON بقيم RGB للصورة
في حالة accept = “application/json;jpeg”، تقوم نقطة النهاية بإرجاع قاموس JSON مع صورة JPEG على هيئة بايت مشفر باستخدام تشفير base64.b64

لاحظ أن إرسال أو استقبال الحمولة بقيم RGB الخام قد يصل إلى الحدود الافتراضية لحمولة الإدخال وحجم الاستجابة. لذلك ، نوصي باستخدام الصورة المشفرة base64 عن طريق الإعداد content_type = “application/json;jpeg” و accept = “application/json;jpeg”.

الكود التالي هو مثال لطلب الاستدلال:

content_type = “application/json;jpeg” # We recommend rescaling the image of low_resolution_image such that both height and width are powers of 2.
# This can be achieved by original_image = Image.open('low_res_image.jpg'); rescaled_image = original_image.rescale((128,128)); rescaled_image.save('rescaled_image.jpg')
with open(low_res_img_file_name,'rb') as f: low_res_image_bytes = f.read() encoded_image = base64.b64encode(bytearray(low_res_image_bytes)).decode() payload = { "prompt": "a cat", "image": encoded_image, "num_inference_steps":50, "guidance_scale":7.5} accept = "application/json;jpeg" def query(model_predictor, payload, content_type, accept): """Query the model predictor.""" query_response = model_predictor.predict( payload, { "ContentType": content_type, "Accept": accept, }, ) return query_response

استجابة نقطة النهاية هي كائن JSON يحتوي على الصور التي تم إنشاؤها والموجه:

def parse_response(query_response): """Parse response and return the generated images and prompt.""" response_dict = json.loads(query_response) return response_dict["generated_images"], response_dict["prompt"] query_response = query(model_predictor, json.dumps(payload).encode('utf-8'), content_type, accept)
generated_images, prompt = parse_response(query_response)

المعلمات المدعومة

تدعم نماذج الارتقاء بالانتشار المستقر العديد من المعلمات لإنشاء الصور:

صورة - صورة منخفضة الدقة.
موجه - موجه لتوجيه توليد الصور. يمكن أن تكون سلسلة أو قائمة سلاسل.
num_inference_steps (اختياري) - عدد خطوات تقليل التشويش أثناء إنشاء الصورة. تؤدي المزيد من الخطوات إلى الحصول على صورة ذات جودة أعلى. إذا تم تحديده ، يجب أن يكون عددًا صحيحًا موجبًا. لاحظ أن المزيد من خطوات الاستدلال ستؤدي إلى وقت استجابة أطول.
مقياس التوجيه (اختياري) - ينتج عن مقياس التوجيه الأعلى صورة أكثر ارتباطًا بالموجه ، على حساب جودة الصورة. إذا تم تحديده ، يجب أن يكون عددًا عشريًا. guidance_scale<=1 تم تجاهله.
موجه_نفي (اختياري) - هذا يوجه إنشاء الصورة ضد هذا الموجه. إذا تم تحديدها ، يجب أن تكون سلسلة أو قائمة سلاسل ويتم استخدامها مع guidance_scale. إذا guidance_scale تم تعطيل هذا أيضًا. علاوة على ذلك ، إذا كان الموجه عبارة عن قائمة من السلاسل ، فيجب أن يكون الأمر negative_prompt أيضًا قائمة سلاسل.
البذور (اختياري) - هذا يصلح الحالة العشوائية للتكاثر. إذا تم تحديده ، يجب أن يكون عددًا صحيحًا. عندما تستخدم نفس المطالبة مع نفس البذرة ، ستكون الصورة الناتجة هي نفسها دائمًا.
Noise_level (اختياري) - يضيف هذا ضوضاء إلى النواقل الكامنة قبل الارتقاء بالمستوى. إذا تم تحديده ، يجب أن يكون عددًا صحيحًا.

يمكنك رفع مستوى الصورة بشكل متكرر عن طريق استدعاء نقطة النهاية بشكل متكرر للحصول على صور بجودة أعلى وأعلى.

حجم الصورة وأنواع المثيل

يمكن أن يصل حجم الصور التي تم إنشاؤها بواسطة النموذج إلى أربعة أضعاف حجم الصورة الأصلية منخفضة الدقة. علاوة على ذلك ، فإن متطلبات ذاكرة النموذج (ذاكرة GPU) تنمو مع حجم الصورة التي تم إنشاؤها. لذلك ، إذا كنت تقوم بترقية صورة عالية الدقة بالفعل أو تقوم بترقية الصور بشكل متكرر ، فحدد نوع مثيل بذاكرة GPU كبيرة. على سبيل المثال ، يحتوي ml.g5.2xlarge على ذاكرة GPU أكبر من نوع مثيل ml.p3.2xlarge الذي استخدمناه سابقًا. لمزيد من المعلومات حول أنواع المثيل المختلفة ، راجع أنواع مثيلات Amazon EC2.

رفع مستوى الصور قطعة قطعة

لتقليل متطلبات الذاكرة عند رفع مستوى الصور الكبيرة ، يمكنك تقسيم الصورة إلى أقسام أصغر ، تُعرف باسم البلاطوترقية كل بلاطة على حدة. بعد أن تتم ترقية البلاط ، يمكن مزجهما معًا لإنشاء الصورة النهائية. تتطلب هذه الطريقة تكييف موجه الأوامر لكل بلاطة حتى يتمكن النموذج من فهم محتوى البلاط وتجنب إنشاء صور غريبة. يجب أن يظل جزء النمط في المطالبة متسقًا لجميع البلاط لتسهيل عملية المزج. عند استخدام إعدادات تقليل التشويش الأعلى ، من المهم أن تكون أكثر تحديدًا في الموجه لأن النموذج يتمتع بمزيد من الحرية لتكييف الصورة. قد يكون هذا أمرًا صعبًا عندما تحتوي اللوحة على خلفية فقط أو عندما لا تكون مرتبطة بشكل مباشر بالمحتوى الرئيسي للصورة.

القيود والتحيز

على الرغم من أن للانتشار المستقر أداء مثير للإعجاب في الارتقاء بالمستوى ، إلا أنه يعاني من العديد من القيود والتحيزات. وتشمل هذه على سبيل المثال لا الحصر:

قد لا يولد النموذج وجوهًا أو أطرافًا دقيقة لأن بيانات التدريب لا تتضمن صورًا كافية بهذه الميزات
تم تدريب النموذج على مجموعة بيانات LAION-5Bالتي تحتوي على محتوى للبالغين وقد لا تكون مناسبة لاستخدام المنتج دون مزيد من الاعتبارات
قد لا يعمل النموذج بشكل جيد مع اللغات غير الإنجليزية لأن النموذج تم تدريبه على نص باللغة الإنجليزية
لا يمكن للنموذج إنشاء نص جيد داخل الصور

لمزيد من المعلومات حول القيود والتحيز ، راجع بطاقة نموذج منتشر مستقر.

تنظيف

بعد الانتهاء من تشغيل دفتر الملاحظات ، تأكد من حذف جميع الموارد التي تم إنشاؤها في العملية لضمان إيقاف الفواتير. يتوفر رمز تنظيف نقطة النهاية في الملف المرتبط مفكرة.

وفي الختام

في هذا المنشور ، أوضحنا كيفية نشر نموذج منتشر مستقر تم تدريبه مسبقًا باستخدام JumpStart. عرضنا مقتطفات التعليمات البرمجية في هذا المنشور — الشفرة الكاملة مع جميع الخطوات في هذا العرض التوضيحي متاحة في مقدمة إلى JumpStart - تحسين جودة الصورة وفقًا للموجه مثال مفكرة. جرب الحل بنفسك وأرسل لنا تعليقاتك.

لمعرفة المزيد حول النموذج وكيفية عمله ، راجع الموارد التالية:

لمعرفة المزيد حول JumpStart ، تحقق من منشورات المدونة التالية:

حول المؤلف

الدكتور فيفيك مادان هو عالم تطبيقي مع فريق Amazon SageMaker JumpStart. حصل على الدكتوراه من جامعة إلينوي في Urbana-Champaign وكان باحثًا بعد الدكتوراه في Georgia Tech. وهو باحث نشط في التعلم الآلي وتصميم الخوارزمية وقد نشر أوراقًا علمية في مؤتمرات EMNLP و ICLR و COLT و FOCS و SODA.

هيكو هوتز هو مهندس حلول أول للذكاء الاصطناعي والتعلم الآلي مع التركيز بشكل خاص على معالجة اللغات الطبيعية (NLP) ونماذج اللغات الكبيرة (LLMs) والذكاء الاصطناعي التوليدي. قبل هذا المنصب ، كان رئيسًا لعلوم البيانات لخدمة عملاء Amazon في الاتحاد الأوروبي. تساعد Heiko عملاءنا على تحقيق النجاح في رحلة الذكاء الاصطناعي / التعلم الآلي الخاصة بهم على AWS وعملت مع مؤسسات في العديد من الصناعات ، بما في ذلك التأمين والخدمات المالية والإعلام والترفيه والرعاية الصحية والمرافق والتصنيع. يسافر هيكو قدر الإمكان في أوقات فراغه.

محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. الوصول هنا.
المصدر https://aws.amazon.com/blogs/machine-learning/upscale-images-with-stable-diffusion-in-amazon-sagemaker-jumpstart/

الطابع الزمني: ٣ فبراير ٢٠٢٤

الطابع الزمني: مارس 13 ،2023

أعاد نشره أفلاطون

تسريع استدلال Amazon SageMaker باستخدام مثيلات Amazon EC6 المستندة إلى C2i Intel

تدعم AWS Panorama الآن NVIDIA JetPack SDK 4.6.2

تسريع دورة حياة تطوير روبوت الدردشة Amazon Lex باستخدام Test Workbench | خدمات أمازون ويب

تحسين المنطق متعدد القفزات في LLM من خلال التعلم من ردود الفعل البشرية الغنية

ترجمة مستندات لغة مصدر متعددة إلى لغات مستهدفة متعددة باستخدام Amazon Translate

كيف أنشأت VMware خط أنابيب MLOps من البداية باستخدام GitLab و Amazon MWAA و Amazon SageMaker

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي