Improve Your Stable Diffusion Prompts With Retrieval Augmented Generation

بازنشر افلاطون

دنبال: 0

تولید متن به تصویر زمینه‌ای از هوش مصنوعی است که به سرعت در حال رشد است و کاربردهایی در زمینه‌های مختلف مانند رسانه و سرگرمی، بازی، تجسم محصولات تجارت الکترونیک، تبلیغات و بازاریابی، طراحی و تجسم معماری، خلاقیت‌های هنری و تصویربرداری پزشکی دارد.

انتشار پایدار یک مدل متن به تصویر است که به شما این امکان را می دهد تا در عرض چند ثانیه تصاویری با کیفیت بالا ایجاد کنید. در نوامبر 2022، ما اعلام کرد که مشتریان AWS می توانند با آن تصاویری از متن تولید کنند انتشار پایدار مدل در Amazon SageMaker JumpStartیک مرکز یادگیری ماشینی (ML) که مدل‌ها، الگوریتم‌ها و راه‌حل‌ها را ارائه می‌دهد. این تکامل در آوریل 2023 با معرفی ادامه یافت بستر آمازون، یک سرویس کاملاً مدیریت شده که از طریق یک API مناسب، به مدل‌های فونداسیون پیشرفته، از جمله Stable Diffusion دسترسی دارد.

از آنجایی که تعداد روزافزونی از مشتریان تلاش‌های متن به تصویر خود را آغاز می‌کنند، یک مانع رایج به وجود می‌آید: چگونگی ایجاد اعلان‌هایی که از قدرت تولید تصاویر با کیفیت بالا و هدفمند استفاده می‌کنند. این چالش اغلب به زمان و منابع قابل توجهی نیاز دارد زیرا کاربران سفری تکراری از آزمایش را آغاز می‌کنند تا اعلان‌هایی را که با دیدگاه‌های آن‌ها همسو هستند را کشف کنند.

Retrieval Augmented Generation (RAG) فرآیندی است که در آن یک مدل زبان اسناد متنی را از یک منبع داده خارجی بازیابی می‌کند و از این اطلاعات برای تولید متن دقیق‌تر و آموزنده‌تر استفاده می‌کند. این تکنیک به ویژه برای وظایف پردازش زبان طبیعی (NLP) با دانش فشرده مفید است. اکنون لمس تحول‌آفرین آن را به دنیای تولید متن به تصویر گسترش می‌دهیم. در این پست، ما نشان می‌دهیم که چگونه می‌توان از قدرت RAG برای تقویت اعلان‌های ارسال شده به مدل‌های Stable Diffusion استفاده کرد. می‌توانید با مدل‌های زبان بزرگ (LLM) در Amazon Bedrock، و همچنین در SageMaker JumpStart، دستیار هوش مصنوعی خود را برای تولید سریع در چند دقیقه ایجاد کنید.

رویکردهایی برای ایجاد دستورات متن به تصویر

ایجاد یک درخواست برای یک مدل متن به تصویر ممکن است در نگاه اول ساده به نظر برسد، اما این یک کار فریبنده پیچیده است. این چیزی فراتر از تایپ چند کلمه و انتظار از مدل برای ایجاد تصویری است که با تصویر ذهنی شما هماهنگ باشد. اعلان‌های مؤثر باید دستورالعمل‌های روشنی ارائه دهند و در عین حال فضایی برای خلاقیت باقی بگذارند. آنها باید ویژگی و ابهام را متعادل کنند، و باید متناسب با مدل خاصی که استفاده می شود، تنظیم شوند. برای مقابله با چالش مهندسی سریع، صنعت رویکردهای مختلفی را مورد بررسی قرار داده است:

کتابخانه های سریع – برخی از شرکت‌ها کتابخانه‌هایی از دستورات از پیش نوشته شده را تنظیم می‌کنند که می‌توانید به آنها دسترسی داشته باشید و سفارشی کنید. این کتابخانه ها شامل طیف گسترده ای از دستورات متناسب با موارد استفاده مختلف است که به شما امکان می دهد اعلان هایی را انتخاب کنید که با نیازهای خاص شما هماهنگ باشد.
الگوها و دستورالعمل های فوری - بسیاری از شرکت ها و سازمان ها مجموعه ای از الگوها و دستورالعمل های از پیش تعریف شده را در اختیار کاربران قرار می دهند. این الگوها فرمت‌های ساختاریافته‌ای را برای نوشتن اعلان‌ها ارائه می‌کنند، که ساختن دستورالعمل‌های مؤثر را آسان می‌کند.
مشارکت و مشارکت کاربران - پلتفرم‌های جمع‌سپاری و جوامع کاربر اغلب نقش مهمی در بهبود درخواست‌ها دارند. کاربران می‌توانند مدل‌های تنظیم‌شده، پیام‌های موفق، نکات و بهترین شیوه‌های خود را با جامعه به اشتراک بگذارند و به دیگران کمک کنند تا مهارت‌های سریع‌نویسی خود را بیاموزند و اصلاح کنند.
تنظیم دقیق مدل - شرکت‌ها ممکن است مدل‌های متن به تصویر خود را برای درک بهتر و پاسخگویی به انواع خاصی از درخواست‌ها تنظیم کنند. تنظیم دقیق می تواند عملکرد مدل را برای دامنه های خاص یا موارد استفاده بهبود بخشد.

هدف این رویکردهای صنعتی در مجموع این است که فرآیند ایجاد پیام‌های متن به تصویر مؤثر را در دسترس‌تر، کاربرپسندتر و کارآمدتر کند و در نهایت قابلیت استفاده و تطبیق‌پذیری مدل‌های تولید متن به تصویر را برای طیف وسیعی از کاربردها افزایش دهد.

استفاده از RAG برای طراحی سریع

در این بخش، به این می پردازیم که چگونه تکنیک های RAG می توانند به عنوان یک تغییر دهنده بازی در مهندسی سریع عمل کنند، و در هماهنگی با این رویکردهای موجود کار کنند. با ادغام یکپارچه RAG در فرآیند، می‌توانیم کارایی طراحی سریع را ساده کرده و افزایش دهیم.

جستجوی معنایی در یک پایگاه داده سریع

شرکتی را تصور کنید که مخزن وسیعی از دستورات را در کتابخانه سریع خود جمع آوری کرده است یا تعداد زیادی الگوی سریع ایجاد کرده است که هر کدام برای موارد و اهداف خاص طراحی شده اند. به طور سنتی، کاربرانی که به دنبال الهام گرفتن برای درخواست های متن به تصویر خود هستند، به صورت دستی در میان این کتابخانه ها مرور می کنند، و اغلب لیست های گسترده ای از گزینه ها را غربال می کنند. این فرآیند می تواند زمان بر و ناکارآمد باشد. با تعبیه اعلانات از کتابخانه سریع با استفاده از مدل های جاسازی متن، شرکت ها می توانند یک موتور جستجوی معنایی بسازند. در اینجا نحوه کار آن آمده است:

درخواست های جاسازی - این شرکت از تعبیه‌های متنی برای تبدیل هر فرمان موجود در کتابخانه خود به یک نمایش عددی استفاده می‌کند. این تعبیه‌ها معنای معنایی و بافت اعلان‌ها را در بر می‌گیرد.
پرس و جو کاربر - هنگامی که کاربران درخواست های خود را ارائه می دهند یا تصویر مورد نظر خود را توصیف می کنند، سیستم می تواند ورودی آنها را تجزیه و تحلیل و جاسازی کند.
جستجوی معنایی – با استفاده از تعبیه‌ها، سیستم جستجوی معنایی را انجام می‌دهد. مرتبط ترین درخواست ها را از کتابخانه بر اساس پرس و جوی کاربر، با در نظر گرفتن داده های ورودی و تاریخی کاربر در کتابخانه سریع، بازیابی می کند.

شرکت‌ها با اجرای جستجوی معنایی در کتابخانه‌های سریع خود، کارمندان خود را قادر می‌سازند تا بدون زحمت به مخزن وسیعی از دستورات دسترسی پیدا کنند. این رویکرد نه تنها ایجاد سریع را تسریع می کند، بلکه خلاقیت و ثبات را در تولید متن به تصویر تشویق می کند.y

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

تولید سریع از جستجوی معنایی

اگرچه جستجوی معنایی فرآیند یافتن اعلان‌های مربوطه را ساده می‌کند، RAG با استفاده از این نتایج جستجو برای تولید اعلان‌های بهینه‌شده، آن را یک گام جلوتر می‌برد. در اینجا نحوه کار آن آمده است:

نتایج جستجوی معنایی – پس از بازیابی مرتبط ترین درخواست ها از کتابخانه، سیستم این دستورات را به همراه ورودی اصلی کاربر به کاربر ارائه می دهد.
مدل تولید متن - کاربر می تواند یک درخواست را از نتایج جستجو انتخاب کند یا زمینه بیشتری را در مورد ترجیحات خود ارائه دهد. سیستم هم اعلان انتخاب شده و هم ورودی کاربر را به یک LLM تغذیه می کند.
درخواست بهینه شده - LLM با درک خود از تفاوت های ظریف زبان، یک درخواست بهینه سازی شده ایجاد می کند که عناصر درخواست انتخاب شده و ورودی کاربر را ترکیب می کند. این اعلان جدید مطابق با نیازهای کاربر طراحی شده است و به گونه ای طراحی شده است که خروجی تصویر مورد نظر را ارائه دهد.

ترکیب جستجوی معنایی و تولید سریع نه تنها فرآیند یافتن اعلان‌ها را ساده می‌کند، بلکه تضمین می‌کند که درخواست‌های تولید شده بسیار مرتبط و مؤثر هستند. این به شما این امکان را می‌دهد که اعلان‌های خود را دقیق تنظیم و سفارشی کنید، که در نهایت منجر به بهبود نتایج تولید متن به تصویر می‌شود. در زیر نمونه هایی از تصاویر تولید شده از Stable Diffusion XL با استفاده از اعلان های جستجوی معنایی و تولید اعلان ارائه شده است.

درخواست اصلی

درخواست های جستجوی معنایی

درخواست بهینه شده توسط LLM

کارتون یک سگ کوچولو

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

کارتون زیبای سگی که سر میز شام ساندویچ دارد
یک تصویر کارتونی از یک سگ پانک، سبک انیمه، پس زمینه سفید
کارتون یک پسر و سگش در حال راه رفتن در یک مسیر جنگلی

صحنه کارتونی پسری که با خوشحالی دست در دست هم با سگ خانگی نازش در یک مسیر جنگلی قدم می‌زند، به سبک انیمیشن.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

برنامه های کاربردی طراحی سریع مبتنی بر RAG در صنایع مختلف

قبل از اینکه کاربرد معماری RAG پیشنهادی خود را بررسی کنیم، بیایید با صنعتی شروع کنیم که در آن مدل تولید تصویر بیشترین کاربرد را دارد. در AdTech، سرعت و خلاقیت بسیار مهم است. تولید اعلان مبتنی بر RAG می‌تواند با ایجاد پیشنهادهای فوری برای ایجاد سریع تصاویر بسیاری برای یک کمپین تبلیغاتی، ارزش فوری بیافزاید. تصمیم گیرندگان انسانی می توانند تصاویر تولید شده به صورت خودکار را برای انتخاب تصویر نامزد برای کمپین بررسی کنند. این ویژگی می‌تواند یک برنامه مستقل باشد یا در ابزارها و پلتفرم‌های نرم‌افزاری رایج موجود در حال حاضر تعبیه شده باشد.

صنعت دیگری که در آن مدل Stable Diffusion می تواند بهره وری را افزایش دهد، رسانه و سرگرمی است. به عنوان مثال، معماری RAG می تواند در موارد استفاده از ایجاد آواتار کمک کند. با شروع از یک دستور ساده، RAG می تواند رنگ و ویژگی های بسیار بیشتری را به ایده های آواتار اضافه کند. می تواند بسیاری از درخواست های نامزد ایجاد کند و ایده های خلاقانه تری ارائه دهد. از بین این تصاویر تولید شده، می توانید مناسب ترین مناسب برای برنامه داده شده را پیدا کنید. با ایجاد خودکار بسیاری از پیشنهادات سریع، بهره وری را افزایش می دهد. تنوعی که می تواند ایجاد کند، فواید راه حل است.

بررسی اجمالی راه حل

توانمندسازی مشتریان برای ساخت دستیار هوش مصنوعی مبتنی بر RAG برای طراحی سریع در AWS گواهی بر تطبیق پذیری فناوری مدرن است. AWS گزینه ها و خدمات زیادی را برای تسهیل این تلاش ارائه می دهد. نمودار معماری مرجع زیر یک برنامه RAG را برای طراحی سریع در AWS نشان می دهد.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

وقتی نوبت به انتخاب LLM های مناسب برای دستیار هوش مصنوعی می رسد، AWS طیفی از انتخاب ها را برای برآوردن نیازهای خاص شما ارائه می دهد.

در مرحله اول، می توانید LLM های موجود از طریق SageMaker JumpStart را انتخاب کنید و از نمونه های اختصاصی استفاده کنید. این نمونه‌ها از مدل‌های مختلفی از جمله Falcon، Llama 2، Bloom Z و Flan-T5 پشتیبانی می‌کنند، یا می‌توانید مدل‌های اختصاصی مانند Cohere's Command و Multilingual Embedding یا Jurassic-2 را از آزمایشگاه‌های AI21 کاوش کنید.

اگر رویکرد ساده‌تری را ترجیح می‌دهید، AWS LLMs را ارائه می‌دهد بستر آمازون، دارای مدل هایی مانند آمازون تایتان و آنتروپیک کلود. این مدل‌ها از طریق تماس‌های ساده API به راحتی قابل دسترسی هستند و به شما این امکان را می‌دهند که بدون زحمت از قدرت آنها استفاده کنید. انعطاف‌پذیری و تنوع گزینه‌ها تضمین می‌کند که شما آزادی انتخاب LLM را دارید که با اهداف طراحی سریع شما مطابقت دارد، چه به دنبال نوآوری با ظروف باز یا قابلیت‌های قوی مدل‌های اختصاصی باشید.

وقتی صحبت از ساخت پایگاه داده برداری ضروری می شود، AWS گزینه های زیادی را از طریق سرویس های بومی خود ارائه می دهد. می توانید انتخاب کنید سرویس جستجوی باز آمازون, آمازون شفق قطبی، یا سرویس پایگاه داده رابطه ای آمازون (آمازون RDS) برای PostgreSQL، هر کدام ویژگی های قوی را متناسب با نیازهای خاص شما ارائه می دهد. از طرف دیگر، می‌توانید محصولات شرکای AWS مانند Pinecone، Weaviate، Elastic، Milvus یا Chroma را که راه‌حل‌های تخصصی برای ذخیره‌سازی و بازیابی وکتور کارآمد ارائه می‌دهند، کاوش کنید.

برای کمک به شما در شروع ساخت یک دستیار هوش مصنوعی مبتنی بر RAG برای طراحی سریع، ما یک نمایش جامع را در GitHub مخزن این نمایش از منابع زیر استفاده می کند:

تولید تصویر: Stable Diffusion XL در Amazon Bedrock
جاسازی متن: Amazon Titan در Amazon Bedrock
تولید متن: Claude 2 در Amazon Bedrock
پایگاه داده برداری: FAISS، یک کتابخانه منبع باز برای جستجوی شباهت کارآمد
Prompt library: نمونه های درخواستی از DiffusionDB، اولین مجموعه داده گالری فوری در مقیاس بزرگ برای مدل های تولیدی متن به تصویر

علاوه بر این، ما LangChain را برای اجرای LLM و Streamit را برای مؤلفه برنامه وب گنجانده‌ایم که تجربه یکپارچه و کاربرپسند را ارائه می‌دهد.

پیش نیازها

برای اجرای این برنامه آزمایشی باید موارد زیر را داشته باشید:

یک حساب AWS
درک اولیه از نحوه پیمایش Amazon SageMaker Studio
درک اولیه نحوه دانلود مخزن از GitHub
دانش اولیه اجرای دستور در ترمینال

برنامه دمو را اجرا کنید

شما می توانید تمام کدهای لازم را با دستورالعمل از سایت دانلود کنید GitHub مخزن. پس از استقرار برنامه، صفحه ای مانند تصویر زیر را مشاهده خواهید کرد.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

با این نمایش، هدف ما این است که فرآیند پیاده‌سازی را در دسترس و قابل درک کنیم و تجربه‌ای عملی برای شروع سفر خود به دنیای RAG و طراحی سریع در AWS در اختیار شما قرار دهیم.

پاک کردن

پس از امتحان کردن برنامه، منابع خود را با توقف برنامه پاکسازی کنید.

نتیجه

RAG به عنوان یک پارادایم تغییر دهنده بازی در دنیای طراحی سریع ظهور کرده است و قابلیت های Stable Diffusion را برای تبدیل متن به تصویر احیا می کند. با هماهنگ کردن تکنیک‌های RAG با رویکردهای موجود و استفاده از منابع قوی AWS، ما مسیری را برای خلاقیت ساده و یادگیری تسریع یافته‌ایم.

برای منابع بیشتر، به آدرس زیر مراجعه کنید:

درباره نویسندگان

جیمز یی یک معمار ارشد راه حل های شریک هوش مصنوعی / ML در تیم فناوری های نوظهور در خدمات وب آمازون است. او مشتاق کار با مشتریان و شرکای سازمانی برای طراحی، استقرار و مقیاس‌بندی برنامه‌های AI/ML برای استخراج ارزش‌های تجاری آنها است. خارج از محل کار، او از بازی فوتبال، مسافرت و گذراندن وقت با خانواده لذت می برد.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. رومی اولسن یک معمار راه حل در برنامه شریک AWS است. او در نقش فعلی خود در راه حل های بدون سرور و یادگیری ماشین تخصص دارد و سابقه ای در فناوری های پردازش زبان طبیعی دارد. او بیشتر اوقات فراغت خود را با دخترش به کاوش در طبیعت شمال غربی اقیانوس آرام می گذراند.

محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
منبع: https://aws.amazon.com/blogs/machine-learning/improve-your-stable-diffusion-prompts-with-retrieval-augmented-generation/

تمبر زمان: دسامبر 14، 2023

تمبر زمان: آوریل 22، 2024

بازنشر افلاطون

اعلام سازنده گفتگوی بصری برای آمازون لکس

بهترین شیوه‌های استقرار MLOps برای مدل استنتاج بلادرنگ که به نقاط پایانی ارائه می‌دهد با Amazon SageMaker

بهترین روش ها برای آموزش شتاب دهی TensorFlow 1.x در Amazon SageMaker

بینایی کامپیوتر با استفاده از مجموعه داده های مصنوعی با برچسب های سفارشی شناسایی آمازون و Dassault Systèmes 3DEXCITE

مجموعه ابزار سنجش استنتاج بدون سرور Amazon SageMaker را معرفی می کنیم

محتوای Alfresco خود را با استفاده از رابط جدید Amazon Kendra Alfresco فهرست کنید | خدمات وب آمازون

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب