قم بتحسين مطالبات الانتشار المستقر باستخدام الجيل المعزز للاسترجاع | خدمات الويب الأمازون

قم بتحسين مطالبات الانتشار المستقر باستخدام الجيل المعزز للاسترجاع | خدمات الويب الأمازون

يعد إنشاء تحويل النص إلى صورة مجالًا سريع النمو للذكاء الاصطناعي مع تطبيقات في مجموعة متنوعة من المجالات، مثل الوسائط والترفيه والألعاب وتصور منتجات التجارة الإلكترونية والإعلان والتسويق والتصميم المعماري والتصور والإبداعات الفنية والتصوير الطبي.

انتشار مستقر هو نموذج تحويل النص إلى صورة يمكّنك من إنشاء صور عالية الجودة في غضون ثوانٍ. في نوفمبر 2022، نحن أعلن يمكن لعملاء AWS إنشاء صور من نص باستخدام انتشار مستقر نماذج في أمازون سيج ميكر جومب ستارت، وهو مركز للتعلم الآلي (ML) يقدم النماذج والخوارزميات والحلول. استمر التطور في أبريل 2023 مع تقديم أمازون بيدروك، وهي خدمة مُدارة بالكامل تتيح الوصول إلى نماذج الأساس المتطورة، بما في ذلك Stable Diffusion، من خلال واجهة برمجة التطبيقات (API) الملائمة.

مع بدء عدد متزايد من العملاء في مساعيهم لتحويل النص إلى صورة، تظهر عقبة مشتركة - وهي كيفية صياغة المطالبات التي تتمتع بالقدرة على إنتاج صور عالية الجودة وموجهة نحو الهدف. غالبًا ما يتطلب هذا التحدي وقتًا وموارد كبيرة حيث يشرع المستخدمون في رحلة تجريبية متكررة لاكتشاف المطالبات التي تتوافق مع رؤيتهم.

يعد إنشاء الاسترجاع المعزز (RAG) عملية يقوم فيها نموذج اللغة باسترداد المستندات السياقية من مصدر بيانات خارجي ويستخدم هذه المعلومات لإنشاء نص أكثر دقة وإفادة. هذه التقنية مفيدة بشكل خاص لمهام معالجة اللغة الطبيعية كثيفة المعرفة (NLP). نقوم الآن بتوسيع لمستها التحويلية إلى عالم إنشاء تحويل النص إلى صورة. في هذا المنشور، نوضح كيفية تسخير قوة RAG لتحسين المطالبات المرسلة إلى نماذج Stable Diffusion الخاصة بك. يمكنك إنشاء مساعد الذكاء الاصطناعي الخاص بك للإنشاء الفوري في دقائق معدودة باستخدام نماذج اللغات الكبيرة (LLMs) على Amazon Bedrock، وكذلك على SageMaker JumpStart.

طرق صياغة مطالبات تحويل النص إلى صورة

قد يبدو إنشاء مطالبة لنموذج تحويل النص إلى صورة أمرًا سهلاً للوهلة الأولى، ولكنها مهمة معقدة بشكل خادع. إنه أكثر من مجرد كتابة بضع كلمات وتوقع أن يستحضر النموذج صورة تتوافق مع صورتك الذهنية. يجب أن توفر المطالبات الفعالة تعليمات واضحة مع ترك مجال للإبداع. ويجب أن توازن بين الخصوصية والغموض، ويجب أن تكون مصممة خصيصًا للنموذج المعين المستخدم. ولمواجهة التحدي المتمثل في الهندسة السريعة، استكشفت الصناعة أساليب مختلفة:

  • المكتبات السريعة - تقوم بعض الشركات بتنظيم مكتبات للمطالبات المكتوبة مسبقًا والتي يمكنك الوصول إليها وتخصيصها. تحتوي هذه المكتبات على نطاق واسع من المطالبات المصممة خصيصًا لحالات الاستخدام المختلفة، مما يسمح لك باختيار أو تكييف المطالبات التي تتوافق مع احتياجاتك الخاصة.
  • قوالب وإرشادات سريعة – تزود العديد من الشركات والمؤسسات المستخدمين بمجموعة من النماذج والإرشادات التوجيهية المحددة مسبقًا. توفر هذه القوالب تنسيقات منظمة لكتابة المطالبات، مما يجعل من السهل صياغة تعليمات فعالة.
  • مساهمات المجتمع والمستخدمين - غالبًا ما تلعب منصات التعهيد الجماعي ومجتمعات المستخدمين دورًا مهمًا في تحسين المطالبات. يمكن للمستخدمين مشاركة نماذجهم المضبوطة والمطالبات الناجحة والنصائح وأفضل الممارسات مع المجتمع، مما يساعد الآخرين على تعلم مهارات الكتابة الفورية وتحسينها.
  • ضبط النموذج – قد تقوم الشركات بضبط نماذج تحويل النص إلى صورة الخاصة بها لفهم أنواع محددة من المطالبات والاستجابة لها بشكل أفضل. يمكن أن يؤدي الضبط الدقيق إلى تحسين أداء النموذج لمجالات أو حالات استخدام معينة.

تهدف هذه الأساليب الصناعية بشكل جماعي إلى جعل عملية صياغة مطالبات تحويل النص إلى صورة فعالة أكثر سهولة وسهولة في الاستخدام وكفاءة، مما يؤدي في النهاية إلى تعزيز سهولة الاستخدام وتعدد استخدامات نماذج إنشاء تحويل النص إلى صورة لمجموعة واسعة من التطبيقات.

استخدام RAG للتصميم الفوري

في هذا القسم، نتعمق في كيفية استخدام تقنيات RAG كبديل لقواعد اللعبة في الهندسة السريعة، والعمل في انسجام مع هذه الأساليب الحالية. ومن خلال دمج RAG بسلاسة في العملية، يمكننا تبسيط وتعزيز كفاءة التصميم الفوري.

البحث الدلالي في قاعدة بيانات سريعة

تخيل شركة قامت بتجميع مستودع كبير من المطالبات في مكتبتها للمطالبات أو قامت بإنشاء عدد كبير من قوالب المطالبات، كل منها مصمم لحالات استخدام وأهداف محددة. تقليديًا، كان المستخدمون الذين يبحثون عن الإلهام لمطالبات تحويل النص إلى صورة يتصفحون هذه المكتبات يدويًا، وغالبًا ما يقومون بغربلة قوائم واسعة من الخيارات. يمكن أن تستغرق هذه العملية وقتًا طويلاً وغير فعالة. من خلال تضمين المطالبات من مكتبة المطالبات باستخدام نماذج تضمين النص، يمكن للشركات إنشاء محرك بحث دلالي. وإليك كيف يعمل:

  • مطالبات التضمين – تستخدم الشركة التضمين النصي لتحويل كل موجه في مكتبتها إلى تمثيل رقمي. تلتقط هذه التضمينات المعنى الدلالي وسياق المطالبات.
  • استعلام المستخدم - عندما يقدم المستخدمون مطالباتهم الخاصة أو يصفون الصورة المطلوبة، يمكن للنظام تحليل مدخلاتهم وتضمينها أيضًا.
  • البحث الدلالي – باستخدام التضمينات، يقوم النظام بإجراء بحث دلالي. يقوم باسترداد المطالبات الأكثر صلة من المكتبة بناءً على استعلام المستخدم، مع الأخذ في الاعتبار كلاً من مدخلات المستخدم والبيانات التاريخية في مكتبة المطالبات.

من خلال تنفيذ البحث الدلالي في مكتباتها السريعة، تمكن الشركات موظفيها من الوصول إلى مخزون كبير من المطالبات دون عناء. لا يؤدي هذا الأسلوب إلى تسريع الإنشاء الفوري فحسب، بل يشجع أيضًا الإبداع والاتساق في إنشاء تحويل النص إلى صورة

قم بتحسين مطالبات الانتشار المستقر باستخدام الجيل المعزز للاسترجاع | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

الجيل الفوري من البحث الدلالي

على الرغم من أن البحث الدلالي يبسط عملية العثور على المطالبات ذات الصلة، إلا أن RAG يأخذها خطوة أخرى إلى الأمام باستخدام نتائج البحث هذه لإنشاء مطالبات محسنة. وإليك كيف يعمل:

  • نتائج البحث الدلالي - بعد استرجاع المطالبات الأكثر صلة من المكتبة، يقدم النظام هذه المطالبات للمستخدم، إلى جانب المدخلات الأصلية للمستخدم.
  • نموذج توليد النص - يمكن للمستخدم تحديد مطالبة من نتائج البحث أو توفير سياق إضافي لتفضيلاته. يقوم النظام بتغذية كل من الموجه المحدد ومدخلات المستخدم في LLM.
  • موجه الأمثل - تقوم LLM، من خلال فهمها للفروق الدقيقة في اللغة، بصياغة موجه محسّن يجمع بين عناصر من الموجه المحدد ومدخلات المستخدم. تم تصميم هذه المطالبة الجديدة وفقًا لمتطلبات المستخدم وهي مصممة للحصول على مخرجات الصورة المطلوبة.

لا يؤدي الجمع بين البحث الدلالي وتوليد المطالبات إلى تبسيط عملية العثور على المطالبات فحسب، بل يضمن أيضًا أن تكون المطالبات التي تم إنشاؤها وثيقة الصلة وفعالة للغاية. فهو يمكّنك من ضبط المطالبات وتخصيصها، مما يؤدي في النهاية إلى تحسين نتائج تحويل النص إلى صورة. فيما يلي أمثلة للصور التي تم إنشاؤها من Stable Diffusion XL باستخدام المطالبات من البحث الدلالي وإنشاء المطالبات.

موجه أصلي مطالبات من البحث الدلالي موجه الأمثل من LLM

رسم كاريكاتوري لكلب صغير

قم بتحسين مطالبات الانتشار المستقر باستخدام الجيل المعزز للاسترجاع | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

  • رسم كاريكاتوري لطيف لكلب يتناول شطيرة على مائدة العشاء
  • رسم كاريكاتوري توضيحي لكلب فاسق، أسلوب الأنمي، خلفية بيضاء
  • رسم كاريكاتوري لصبي وكلبه يسيران في ممر الغابة

قم بتحسين مطالبات الانتشار المستقر باستخدام الجيل المعزز للاسترجاع | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

مشهد كرتوني لصبي يمشي بسعادة يدا بيد في ممر الغابة مع كلبه الأليف اللطيف، بأسلوب الرسوم المتحركة.

قم بتحسين مطالبات الانتشار المستقر باستخدام الجيل المعزز للاسترجاع | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

تطبيقات التصميم الفوري المستندة إلى RAG عبر الصناعات المتنوعة

قبل أن نستكشف تطبيق بنية RAG المقترحة، فلنبدأ بالصناعة التي يكون فيها نموذج توليد الصور هو الأكثر قابلية للتطبيق. في AdTech، تعد السرعة والإبداع أمرًا بالغ الأهمية. يمكن أن يضيف إنشاء المطالبة المستند إلى RAG قيمة فورية عن طريق إنشاء اقتراحات سريعة لإنشاء العديد من الصور بسرعة لحملة إعلانية. يمكن لصناع القرار من البشر الاطلاع على الصور التي تم إنشاؤها تلقائيًا لتحديد الصورة المرشحة للحملة. يمكن أن تكون هذه الميزة تطبيقًا مستقلاً أو مضمنة في أدوات البرامج والأنظمة الأساسية المتوفرة حاليًا.

الصناعة الأخرى التي يمكن لنموذج الانتشار المستقر أن يعزز الإنتاجية هي الوسائط والترفيه. يمكن أن تساعد بنية RAG في حالات استخدام إنشاء الصورة الرمزية، على سبيل المثال. بدءًا من مطالبة بسيطة، يمكن لـ RAG إضافة المزيد من الألوان والخصائص إلى أفكار الصور الرمزية. يمكن أن يولد العديد من المطالبات المرشحة ويقدم المزيد من الأفكار الإبداعية. ومن خلال هذه الصور التي تم إنشاؤها، يمكنك العثور على التطبيق المثالي المناسب للتطبيق المحدد. فهو يزيد من الإنتاجية عن طريق إنشاء العديد من الاقتراحات السريعة تلقائيًا. إن الاختلاف الذي يمكن أن يأتي به هو الفائدة المباشرة للحل.

حل نظرة عامة

يعد تمكين العملاء من إنشاء مساعد الذكاء الاصطناعي الخاص بهم القائم على RAG للتصميم السريع على AWS بمثابة شهادة على تعدد استخدامات التكنولوجيا الحديثة. توفر AWS عددًا كبيرًا من الخيارات والخدمات لتسهيل هذا المسعى. يوضح الرسم التخطيطي للبنية المرجعية التالية تطبيق RAG للتصميم الفوري على AWS.

قم بتحسين مطالبات الانتشار المستقر باستخدام الجيل المعزز للاسترجاع | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

عندما يتعلق الأمر باختيار ماجستير إدارة الأعمال (LLM) المناسب لمساعد الذكاء الاصطناعي الخاص بك، فإن AWS تقدم مجموعة من الاختيارات لتلبية متطلباتك المحددة.

أولاً، يمكنك اختيار LLMs المتاحة من خلال SageMaker JumpStart، باستخدام المثيلات المخصصة. تدعم هذه المثيلات مجموعة متنوعة من النماذج، بما في ذلك Falcon وLlama 2 وBloom Z وFlan-T5، أو يمكنك استكشاف النماذج الخاصة مثل Cohere's Command وMultilingual Embedding أو Jurassic-2 من AI21 Labs.

إذا كنت تفضل نهجًا أكثر بساطة، فإن AWS تقدم LLMs أمازون بيدروك، ويضم نماذج مثل أمازون تيتان والأنثروبي كلود. يمكن الوصول إلى هذه النماذج بسهولة من خلال استدعاءات API المباشرة، مما يسمح لك بتسخير قوتها دون عناء. تضمن المرونة وتنوع الخيارات أن لديك الحرية في اختيار LLM الذي يتوافق بشكل أفضل مع أهداف التصميم السريعة الخاصة بك، سواء كنت تبحث عن ابتكار باستخدام حاويات مفتوحة أو قدرات قوية للنماذج الخاصة.

عندما يتعلق الأمر ببناء قاعدة بيانات المتجهات الأساسية، توفر AWS العديد من الخيارات من خلال خدماتها الأصلية. يمكنك اختيار خدمة Amazon OpenSearch, أمازون أوروراالطرق أو Amazon Relational Database Service (Amazon RDS) لـ PostgreSQL، يقدم كل منها ميزات قوية لتناسب احتياجاتك الخاصة. وبدلاً من ذلك، يمكنك استكشاف المنتجات من شركاء AWS مثل Pinecone أو Weaviate أو Elastic أو Milvus أو Chroma، والتي توفر حلولًا متخصصة لتخزين واسترجاع المتجهات بكفاءة.

لمساعدتك على البدء في إنشاء مساعد الذكاء الاصطناعي المستند إلى RAG للتصميم السريع، قمنا بتجميع عرض توضيحي شامل في موقعنا GitHub جيثب: مخزن. يستخدم هذا العرض التوضيحي الموارد التالية:

  • توليد الصور: Stable Diffusion XL على Amazon Bedrock
  • تضمين النص: Amazon Titan على Amazon Bedrock
  • توليد النص: كلود 2 على أمازون بيدروك
  • قاعدة بيانات المتجهات: FAISS، مكتبة مفتوحة المصدر للبحث الفعال عن التشابه
  • المكتبة السريعة: أمثلة سريعة من DiffusionDB، أول مجموعة بيانات معرض موجه واسعة النطاق للنماذج التوليدية لتحويل النص إلى صورة

بالإضافة إلى ذلك، قمنا بدمج LangChain لتطبيق LLM وStreamit لمكون تطبيق الويب، مما يوفر تجربة سلسة وسهلة الاستخدام.

المتطلبات الأساسية المسبقة

يجب أن يكون لديك ما يلي لتشغيل هذا التطبيق التجريبي:

قم بتشغيل التطبيق التجريبي

يمكنك تنزيل كافة التعليمات البرمجية اللازمة مع التعليمات من GitHub جيثب: الريبو. بعد نشر التطبيق، ستظهر لك صفحة مثل لقطة الشاشة التالية.

قم بتحسين مطالبات الانتشار المستقر باستخدام الجيل المعزز للاسترجاع | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

من خلال هذا العرض التوضيحي، نهدف إلى جعل عملية التنفيذ سهلة الوصول ومفهومة، مما يوفر لك تجربة عملية لبدء رحلتك إلى عالم RAG والتصميم الفوري على AWS.

تنظيف

بعد تجربة التطبيق، قم بتنظيف مواردك عن طريق إيقاف التطبيق.

وفي الختام

لقد برز RAG كنموذج يغير قواعد اللعبة في عالم التصميم الفوري، مما يؤدي إلى تنشيط إمكانات Stable Diffusion لتحويل النص إلى صورة. من خلال مواءمة تقنيات RAG مع الأساليب الحالية واستخدام الموارد القوية لـ AWS، اكتشفنا طريقًا للإبداع المبسط والتعلم السريع.

للحصول على موارد إضافية، قم بزيارة ما يلي:


عن المؤلفين

قم بتحسين مطالبات الانتشار المستقر باستخدام الجيل المعزز للاسترجاع | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.جيمس يي هو كبير مهندسي حلول AI / ML Partner في فريق التقنيات الناشئة في Amazon Web Services. إنه متحمس للعمل مع عملاء المؤسسات والشركاء لتصميم ونشر وتوسيع نطاق تطبيقات AI / ML لاشتقاق قيم أعمالهم. خارج العمل ، يستمتع بلعب كرة القدم والسفر وقضاء الوقت مع أسرته.

قم بتحسين مطالبات الانتشار المستقر باستخدام الجيل المعزز للاسترجاع | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.رومي أولسن هو مهندس حلول في برنامج شركاء AWS. وهي متخصصة في حلول التعلم الآلي والتعلم بدون خادم في دورها الحالي ، ولديها خلفية في تقنيات معالجة اللغة الطبيعية. تقضي معظم أوقات فراغها مع ابنتها في استكشاف طبيعة شمال غرب المحيط الهادئ.

الطابع الزمني:

اكثر من التعلم الآلي من AWS