מודלים של טקסט לתמונה לומדים ביעילות רבה יותר עם נתונים מזויפים

מודלים של טקסט לתמונה לומדים ביעילות רבה יותר עם נתונים מזויפים

מודלים של טקסט לתמונה לומדים ביעילות רבה יותר עם נתונים מזויפים של PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

תמונות סינתטיות יכולות לעזור למודלים של AI ללמוד ייצוגים חזותיים בצורה מדויקת יותר בהשוואה לתמונות אמיתיות, על פי מדעני מחשבים ב-MIT ובגוגל. התוצאה היא רשתות עצביות שטובות יותר ביצירת תמונות מהתיאורים הכתובים שלך.

בלב כל המודלים של טקסט לתמונה עומדת היכולת שלהם למפות אובייקטים למילים. בהינתן הנחיה של טקסט קלט - כגון "ילד מחזיק בלון אדום ביום שמש", למשל - הם צריכים להחזיר תמונה המקורבת לתיאור. כדי לעשות זאת, הם צריכים ללמוד את הייצוגים החזותיים של איך ילד, בלון אדום ויום שמש עשויים להיראות. 

צוות MIT-Google מאמין שרשתות עצביות יכולות ליצור תמונות מדויקות יותר מהנחיות לאחר הכשרה על תמונות מתוצרת בינה מלאכותית, בניגוד לשימוש בצילומים אמיתיים. כדי להדגים זאת, הקבוצה התפתחה StableRep, שלומד כיצד להפוך כיתובים כתובים תיאוריים לתמונות מתאימות מתאימות מתמונות שנוצרו על ידי מודל הטקסט לתמונה הפופולרי Stable Diffusion.

במילים אחרות: שימוש במודל AI מבוסס ומאומן כדי ללמד מודלים אחרים.

כמאמר טרום-דפוס של המדענים, שפורסם באמצעות arXiv בסוף החודש שעבר, מנסח זאת: "עם תמונות סינתטיות בלבד, הייצוגים שנלמד על ידי StableRep עולים על הביצועים של ייצוגים שנלמדו על ידי SimCLR ו-CLIP תוך שימוש באותה קבוצה של הנחיות טקסט ותמונות אמיתיות מתאימות, על מערכי נתונים בקנה מידה גדול." SimCLR ו-CLIP הם אלגוריתמים ללימוד מכונה שניתן להשתמש בהם כדי ליצור תמונות מהנחיות טקסט.

"כשאנחנו מוסיפים עוד פיקוח שפה, StableRep מאומן עם 20 מיליון תמונות סינתטיות משיג דיוק טוב יותר מאשר CLIP מאומן עם 50 מיליון תמונות אמיתיות", ממשיך העיתון.

אלגוריתמים של למידת מכונה לוכדים את היחסים בין תכונות של אובייקטים ומשמעויות של מילים כמערך של מספרים. באמצעות StableRep, החוקרים יכולים לשלוט בתהליך זה בזהירות רבה יותר - אימון מודל על מספר תמונות שנוצרו על ידי Stable Diffusion באותה הנחיה. זה אומר שהמודל יכול ללמוד ייצוגים חזותיים מגוונים יותר, ויכול לראות אילו תמונות תואמות את ההנחיות יותר מאחרות. 

אני חושב שתהיה לנו מערכת אקולוגית של כמה מודלים מאומנים על נתונים אמיתיים, חלק על סינתטיים

"אנחנו מלמדים את המודל ללמוד יותר על מושגים ברמה גבוהה דרך הקשר ושונות, לא רק להזין אותו בנתונים", ליג'י פאן, חוקרת ראשית של המחקר ודוקטורנטית להנדסת חשמל ב-MIT, מוסבר השבוע. "כשמשתמשים בתמונות מרובות, כולן נוצרות מאותו טקסט, מטופלות כולן כאל תיאורים של אותו הדבר הבסיסי, המודל צולל עמוק יותר לתוך המושגים מאחורי התמונות - נגיד האובייקט - לא רק הפיקסלים שלהן."

כפי שצוין לעיל, גישה זו פירושה גם שאתה יכול להשתמש בפחות תמונות סינתטיות כדי לאמן את הרשת העצבית שלך מאשר תמונות אמיתיות, ולהשיג תוצאות טובות יותר - וזה win-win עבור מפתחי AI.

שיטות כמו StableRep אומרות שמודלים של טקסט לתמונה עשויים להיות מאומנים יום אחד על נתונים סינתטיים. זה יאפשר למפתחים להסתמך פחות על תמונות אמיתיות, וייתכן שיהיה צורך אם מנועי AI ממצות משאבים מקוונים זמינים.

"אני חושב ש[אימון מודלים של AI על תמונות סינתטיות] יהיה נפוץ יותר ויותר", אמר פיליפ איזולה, מחבר המאמר ופרופסור חבר לראייה ממוחשבת ב-MIT. הקופה. "אני חושב שתהיה לנו מערכת אקולוגית של כמה מודלים מאומנים על נתונים אמיתיים, חלקם על סינתטיים, ואולי רוב הדגמים יוכשרו על שניהם."

קשה להסתמך רק על תמונות שנוצרו על ידי בינה מלאכותית מכיוון שהאיכות והרזולוציה שלהן לרוב גרועות יותר מתמונות אמיתיות. המודלים של טקסט לתמונה שיוצרים אותם מוגבלים גם בדרכים אחרות. דיפוזיה יציבה לא תמיד מייצרת תמונות נאמנות להנחיות טקסט.

איזולה הזהירה כי השימוש בתמונות סינתטיות אינו עוקף גם את הנושא הפוטנציאלי של הפרת זכויות יוצרים, מכיוון שהדגמים שייצרו אותן אומנו ככל הנראה על חומרים מוגנים.

"הנתונים הסינתטיים יכולים לכלול עותקים מדויקים של נתוני זכויות יוצרים. עם זאת, נתונים סינתטיים מספקים גם הזדמנויות חדשות לעקוף בעיות של IP ופרטיות, מכיוון שאנו יכולים להתערב בהם, על ידי עריכת המודל הגנרטיבי כדי להסיר תכונות רגישות", הסביר.

הצוות גם הזהיר שמערכות הדרכה על תמונות שנוצרו בינה מלאכותית עלולות להחמיר את ההטיות שנלמדו על ידי מודל הטקסט לתמונה הבסיסי שלהן. ®

בול זמן:

עוד מ הקופה