Improve Your Stable Diffusion Prompts With Retrieval Augmented Generation

הועלה מחדש על ידי אפלטון

עוקב: 0

יצירת טקסט לתמונה הוא תחום צומח במהירות של בינה מלאכותית עם יישומים במגוון תחומים, כגון מדיה ובידור, גיימינג, הדמיית מוצרי מסחר אלקטרוני, פרסום ושיווק, עיצוב והדמיה אדריכלית, יצירות אמנותיות והדמיה רפואית.

דיפוזיה יציבה הוא מודל טקסט לתמונה המאפשר לך ליצור תמונות באיכות גבוהה תוך שניות. בנובמבר 2022, אנחנו הודיע שלקוחות AWS יכולים ליצור איתם תמונות מטקסט דיפוזיה יציבה מודלים אמזון SageMaker JumpStart, מרכז למידת מכונה (ML) המציע מודלים, אלגוריתמים ופתרונות. האבולוציה נמשכה באפריל 2023 עם הצגת סלע אמזון, שירות מנוהל במלואו המציע גישה למודלים מתקדמים של בסיס, כולל דיפוזיה יציבה, באמצעות API נוח.

ככל שמספר הולך וגדל של לקוחות מתחילים במאמצי הטקסט לתמונה שלהם, נוצרת מכשול משותף - כיצד ליצור הנחיות המחזיקים בכוח להניב תמונות איכותיות וממוקדות מטרה. אתגר זה דורש פעמים רבות זמן ומשאבים רבים כאשר משתמשים יוצאים למסע איטרטיבי של ניסויים כדי לגלות את ההנחיות המתאימות לחזון שלהם.

Retrieval Augmented Generation (RAG) הוא תהליך שבו מודל שפה מאחזר מסמכים הקשריים ממקור נתונים חיצוני ומשתמש במידע זה כדי ליצור טקסט מדויק ואינפורמטיבי יותר. טכניקה זו שימושית במיוחד עבור משימות עיבוד שפה טבעית עתירת ידע (NLP). כעת אנו מרחיבים את המגע הטרנספורמטיבי שלו לעולם של יצירת טקסט לתמונה. בפוסט זה, אנו מדגימים כיצד לרתום את הכוח של RAG כדי לשפר את ההנחיות הנשלחות לדגמי ה-Stable Diffusion שלך. אתה יכול ליצור עוזר בינה מלאכותית משלך ליצירה מהירה תוך דקות עם מודלים של שפה גדולים (LLMs) ב- Amazon Bedrock, כמו גם ב- SageMaker JumpStart.

גישות ליצירת הנחיות מטקסט לתמונה

יצירת הנחיה למודל טקסט לתמונה עשויה להיראות פשוטה במבט ראשון, אבל זו משימה מורכבת בצורה מטעה. זה יותר מסתם להקליד כמה מילים ולצפות מהדוגמנית להעלות תמונה שמתיישרת עם הדימוי המנטלי שלך. הנחיות יעילות צריכות לספק הנחיות ברורות תוך השארת מקום ליצירתיות. הם חייבים לאזן בין ספציפיות לעמימות, והם צריכים להיות מותאמים למודל המסוים שבו נעשה שימוש. כדי להתמודד עם האתגר של הנדסה מהירה, התעשייה בחנה גישות שונות:

ספריות בקשות - חברות מסוימות אוצרות ספריות של הנחיות כתובות מראש שאתה יכול לגשת ולהתאים אישית. ספריות אלו מכילות מגוון רחב של הנחיות המותאמות למקרי שימוש שונים, ומאפשרות לך לבחור או להתאים הנחיות המתאימות לצרכים הספציפיים שלך.
תבניות והנחיות מהירה – חברות וארגונים רבים מספקים למשתמשים קבוצה של תבניות והנחיות מוגדרות מראש. תבניות אלו מציעות פורמטים מובנים לכתיבת הנחיות, מה שמקל על יצירת הוראות יעילות.
תרומות לקהילה ולמשתמשים – פלטפורמות מיקור המונים וקהילות משתמשים ממלאות לעתים קרובות תפקיד משמעותי בשיפור ההנחיות. משתמשים יכולים לשתף את המודלים המכוונים שלהם, ההנחיות המוצלחות, הטיפים והשיטות המומלצות שלהם עם הקהילה, לעזור לאחרים ללמוד ולשכלל את כישורי הכתיבה המהירה שלהם.
כוונון עדין של הדגם - חברות עשויות לכוונן את המודלים של טקסט לתמונה כדי להבין טוב יותר ולהגיב לסוגים ספציפיים של הנחיות. כוונון עדין יכול לשפר את ביצועי המודל עבור תחומים או מקרי שימוש מסוימים.

גישות תעשייתיות אלו שואפות יחד להפוך את תהליך היצירה של הודעות טקסט לתמונה אפקטיביות לנגישות, ידידותיות ויעיל יותר למשתמש, ובסופו של דבר לשפר את השימושיות והרבגוניות של מודלים ליצירת טקסט לתמונה עבור מגוון רחב של יישומים.

שימוש ב- RAG לתכנון מהיר

בחלק זה, אנו מתעמקים כיצד טכניקות RAG יכולות לשמש כמחליף משחק בהנדסה מהירה, תוך עבודה בהרמוניה עם הגישות הקיימות הללו. על ידי שילוב חלק של RAG בתהליך, נוכל לייעל ולשפר את היעילות של תכנון מהיר.

חיפוש סמנטי במסד נתונים מהיר

תארו לעצמכם חברה שצברה מאגר עצום של הנחיות בספריית ההנחיות שלה או שיצרה מספר רב של תבניות הנחיות, שכל אחת מהן מיועדת למקרי שימוש ויעדים ספציפיים. באופן מסורתי, משתמשים המחפשים השראה להנחיות הטקסט לתמונה שלהם היו גולשים ידנית בספריות הללו, ולעיתים קרובות מנפים רשימות נרחבות של אפשרויות. תהליך זה עלול לקחת זמן ולא יעיל. על ידי הטמעת הנחיות מספריית ההנחיות באמצעות מודלים של הטבעת טקסט, חברות יכולות לבנות מנוע חיפוש סמנטי. ככה זה עובד:

הטמעת הנחיות – החברה משתמשת בהטמעות טקסט כדי להמיר כל הנחיה בספרייה שלה לייצוג מספרי. הטמעות אלו לוכדות את המשמעות הסמנטית וההקשר של ההנחיות.
שאילתת משתמש - כאשר משתמשים מספקים הנחיות משלהם או מתארים את התמונה הרצויה להם, המערכת יכולה לנתח ולהטמיע גם את הקלט שלהם.
חיפוש סמנטי – באמצעות ההטמעות המערכת מבצעת חיפוש סמנטי. הוא מאחזר את ההנחיות הרלוונטיות ביותר מהספרייה בהתבסס על השאילתה של המשתמש, תוך התחשבות הן בקלט של המשתמש והן בנתונים ההיסטוריים בספריית ההנחיות.

על ידי יישום חיפוש סמנטי בספריות ההנחיות שלהן, חברות מעצימות את עובדיהן לגשת למאגר עצום של הנחיות ללא מאמץ. גישה זו לא רק מאיצה יצירה מהירה אלא גם מעודדת יצירתיות ועקביות ביצירת טקסט לתמונה.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

יצירה מהירה מחיפוש סמנטי

למרות שחיפוש סמנטי מייעל את תהליך מציאת ההנחיות הרלוונטיות, RAG לוקח את זה צעד קדימה על ידי שימוש בתוצאות החיפוש הללו כדי ליצור הנחיות אופטימליות. ככה זה עובד:

תוצאות חיפוש סמנטיות – לאחר שליפת ההנחיות הרלוונטיות ביותר מהספרייה, המערכת מציגה הנחיות אלו למשתמש, לצד הקלט המקורי של המשתמש.
מודל יצירת טקסט - המשתמש יכול לבחור הנחיה מתוצאות החיפוש או לספק הקשר נוסף על ההעדפות שלו. המערכת מזינה הן את ההנחיה שנבחרה והן את הקלט של המשתמש לתוך LLM.
הנחיה מותאמת – ה-LLM, עם ההבנה שלו בניואנסים של השפה, יוצר הנחיה מותאמת המשלבת אלמנטים מההנחיה שנבחרה והקלט של המשתמש. הנחיה חדשה זו מותאמת לדרישות המשתמש ונועדה להניב את פלט התמונה הרצוי.

השילוב של חיפוש סמנטי ויצירת הנחיות לא רק מפשט את תהליך מציאת ההנחיות אלא גם מבטיח שההנחיות שנוצרות הן רלוונטיות ויעילות ביותר. זה מאפשר לך לכוונן ולהתאים אישית את ההנחיות שלך, מה שמוביל בסופו של דבר לתוצאות משופרות של יצירת טקסט לתמונה. להלן דוגמאות לתמונות שנוצרו מ-Stable Diffusion XL באמצעות ההנחיות מהחיפוש הסמנטי ויצירת ההנחיות.

הנחיה מקורית

הנחיות מחיפוש סמנטי

הנחיה אופטימלית על ידי LLM

קריקטורה של כלב קטן

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

קריקטורה חמודה של כלב שיש לו כריך ליד שולחן האוכל
איור מצויר של כלב פאנק, בסגנון אנימה, רקע לבן
קריקטורה של ילד וכלב שלו הולכים בנתיב יער

סצנה מצוירת של ילד צועד בשמחה יד ביד במורד שביל יער עם כלב המחמד החמוד שלו, בסגנון אנימציה.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

יישומי עיצוב מהירים מבוססי RAG בתעשיות מגוונות

לפני שנחקור את היישום של ארכיטקטורת ה-RAG המוצעת שלנו, בואו נתחיל בתעשייה שבה מודל יצירת תמונה ישים ביותר. ב-AdTech, מהירות ויצירתיות הם קריטיים. יצירת הנחיות מבוססת RAG יכולה להוסיף ערך מיידי על ידי יצירת הצעות מיידיות ליצירת תמונות רבות במהירות עבור מסע פרסום. מקבלי החלטות אנושיים יכולים לעבור על התמונות שנוצרו אוטומטית כדי לבחור את תמונת המועמדת לקמפיין. תכונה זו יכולה להיות אפליקציה עצמאית או מוטמעת בכלי תוכנה ופלטפורמות פופולריות הזמינות כעת.

תעשייה נוספת שבה מודל ה-Stable Diffusion יכול לשפר את הפרודוקטיביות היא מדיה ובידור. ארכיטקטורת RAG יכולה לסייע במקרים שימוש של יצירת אווטאר, למשל. החל מהנחיה פשוטה, RAG יכול להוסיף הרבה יותר צבע ומאפיינים לרעיונות האווטאר. זה יכול ליצור הנחיות רבות למועמדים ולספק רעיונות יצירתיים יותר. מהתמונות שנוצרו, אתה יכול למצוא את ההתאמה המושלמת ליישום הנתון. זה מגדיל את הפרודוקטיביות על ידי יצירת הצעות רבות באופן אוטומטי. הווריאציה שהיא יכולה להמציא היא היתרון המיידי של הפתרון.

סקירת פתרונות

העצמת לקוחות לבנות עוזר בינה מלאכותית מבוסס RAG משלהם לתכנון מהיר ב-AWS היא עדות לרבגוניות של הטכנולוגיה המודרנית. AWS מספקת שפע של אפשרויות ושירותים כדי להקל על המאמץ הזה. דיאגרמת ארכיטקטורת ההתייחסות הבאה ממחישה יישום RAG לתכנון מהיר ב-AWS.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

כשזה מגיע לבחירת ה-LLMs הנכונים עבור עוזר הבינה המלאכותית שלך, AWS מציעה קשת של אפשרויות כדי לספק את הדרישות הספציפיות שלך.

ראשית, אתה יכול לבחור ב-LLMs הזמינים דרך SageMaker JumpStart, תוך שימוש במופעים ייעודיים. מופעים אלה תומכים במגוון דגמים, כולל Falcon, Llama 2, Bloom Z ו-Flan-T5, או שאתה יכול לחקור מודלים קנייניים כגון Cohere's Command and Multilingual Embedding, או Jurassic-2 מ-AI21 Labs.

אם אתה מעדיף גישה פשוטה יותר, AWS מציעה לימודי LLM סלע אמזון, שמציג דגמים כמו אמזון טיטאן וקלוד האנתרופי. דגמים אלה נגישים בקלות באמצעות קריאות API פשוטות, המאפשרות לך לרתום את הכוח שלהם ללא מאמץ. הגמישות והמגוון של האפשרויות מבטיחים שיש לך את החופש לבחור את ה-LLM המתאים ביותר למטרות התכנון המיידיות שלך, בין אם אתה מחפש חדשנות עם מיכלים פתוחים או את היכולות החזקות של דגמים קנייניים.

כשמדובר בבניית מסד הנתונים הווקטוריים החיוניים, AWS מספקת שפע של אפשרויות באמצעות השירותים המקוריים שלהם. אתה יכול לבחור שירות חיפוש פתוח של אמזון, אמזון אורורה, או שירות מסדי נתונים יחסיים של אמזון (Amazon RDS) עבור PostgreSQL, כל אחד מציע תכונות חזקות שיתאימו לצרכים הספציפיים שלך. לחלופין, אתה יכול לחקור מוצרים משותפי AWS כמו Pinecone, Weaviate, Elastic, Milvus או Chroma, המספקים פתרונות מיוחדים לאחסון ואחזור וקטורים יעילים.

כדי לעזור לך להתחיל לבנות עוזר AI מבוסס RAG לתכנון מהיר, ריכזנו הדגמה מקיפה ב- GitHub מאגר. הדגמה זו משתמשת במשאבים הבאים:

יצירת תמונה: Stable Diffusion XL על Amazon Bedrock
הטמעת טקסט: Amazon Titan על אמזון יסוד
יצירת טקסט: קלוד 2 ב- Amazon Bedrock
מסד נתונים וקטורי: FAISS, ספריית קוד פתוח לחיפוש דמיון יעיל
ספריית הנחיות: דוגמאות בקש מ DiffusionDB, מערך הנתונים הראשון של גלריית ההנחיות בקנה מידה גדול עבור מודלים של יצירת טקסט לתמונה

בנוסף, שילבנו את LangChain להטמעת LLM ואת Streamit עבור רכיב אפליקציית האינטרנט, מה שמספק חוויה חלקה וידידותית למשתמש.

תנאים מוקדמים

אתה צריך את הדברים הבאים כדי להפעיל את יישום ההדגמה הזה:

חשבון AWS
הבנה בסיסית כיצד לנווט סטודיו SageMaker של אמזון
הבנה בסיסית כיצד להוריד מאגר ריפו GitHub
ידע בסיסי בהפעלת פקודה בטרמינל

הפעל את אפליקציית ההדגמה

אתה יכול להוריד את כל הקוד הדרוש עם הוראות מה- GitHub ריפו. לאחר פריסת האפליקציה, תראה עמוד כמו צילום המסך הבא.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

עם הדגמה זו, אנו שואפים להפוך את תהליך ההטמעה לנגיש ומובן, לספק לך חוויה מעשית כדי להתחיל את המסע שלך לתוך עולם RAG ועיצוב מהיר ב-AWS.

לנקות את

לאחר שתנסה את האפליקציה, נקה את המשאבים שלך על ידי עצירת היישום.

סיכום

RAG התגלה כפרדיגמה משנה משחק בעולם העיצוב המהיר, המחייה את יכולות הטקסט לתמונה של Stable Diffusion. על ידי הרמוניה של טכניקות RAG עם גישות קיימות ושימוש במשאבים החזקים של AWS, חשפנו מסלול לייעול יצירתיות ולמידה מואצת.

למשאבים נוספים, בקר באתר הבא:

על המחברים

ג'יימס יי הוא ארכיטקט פתרונות AI/ML בכיר בצוות Emerging Technologies בשירותי האינטרנט של אמזון. הוא נלהב לעבוד עם לקוחות ארגוניים ושותפים לתכנון, פריסה והרחבה של יישומי AI/ML כדי להפיק את הערכים העסקיים שלהם. מחוץ לעבודה, הוא נהנה לשחק כדורגל, לטייל ולבלות עם משפחתו.

Improve your Stable Diffusion prompts with Retrieval Augmented Generation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. רומי אולסן הוא אדריכל פתרונות בתוכנית השותפים של AWS. היא מתמחה בפתרונות ללא שרת ולמידת מכונה בתפקידה הנוכחי, ויש לה רקע בטכנולוגיות עיבוד שפה טבעית. היא מבלה את רוב זמנה הפנוי עם בתה בחקירת הטבע של צפון מערב האוקיינוס השקט.

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
מקור: https://aws.amazon.com/blogs/machine-learning/improve-your-stable-diffusion-prompts-with-retrieval-augmented-generation/

בול זמן: דצמבר 14, 2023

בול זמן: אפריל 22, 2024

הועלה מחדש על ידי אפלטון

הכרזה על Visual Conversation Builder עבור אמזון לקס

שיטות עבודה מומלצות לפריסת MLOps עבור מודל הסקת מסקנות בזמן אמת המשרת נקודות קצה עם Amazon SageMaker

שיטות עבודה מומלצות לאימון האצה של TensorFlow 1.x ב-Amazon SageMaker

ראייה ממוחשבת באמצעות מערכי נתונים סינתטיים עם התוויות מותאמות אישית של Amazon Rekognition ו-Dassault Systems 3DEXCITE

היכרות עם ערכת הכלים של Amazon SageMaker Serverless Inference Benchmarking

אינדקס את התוכן Alfresco שלך באמצעות מחבר אמזון Kendra Alfresco החדש | שירותי האינטרנט של אמזון

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן