חוקרים ב-IIIT Allahabad מציעים T2CI GAN: מודל למידה עמוקה שיוצר תמונות דחוסות מטקסט

הועלה מחדש על ידי אפלטון

עוקב: 0

בשנים האחרונות, יצירת תיאורים טקסטואליים לנתונים חזותיים הפכה לסוגיית מחקר מרתקת. עם זאת, הצהרת הבעיה בהפקת נתונים חזותיים מתיאורים כתובים היא עדיין הרבה יותר קשה מכיוון שהיא דורשת שילוב של טכניקות עיבוד שפה טבעית וראייה ממוחשבת. הטכניקות הזמינות יוצרות תמונות לא דחוסות מתיאורים טקסטואליים באמצעות רשתות יריבות (GANs Generative Adversarial). רשתות יריבות גנרטיביות הן סוג של מסגרת למידת מכונה שיכולה לייצר טקסטים, תמונות, סרטונים והקלטות קול. בעבר, GANs שימשו בהצלחה להפקת מערכי נתונים עבור אלגוריתמי למידה עמוקה אחרים לאימון, להפקת סרטים או אנימציות למטרות מסוימות, ולהפקת כיתובים מתאימים לתמונות.

במציאות, רוב הקלט החזותי מעובד ומשודר בצורה דחוסה. על מנת להשיג יעילות אחסון וחישוב, העבודה המוצעת עושה מאמץ לייצר נתונים חזותיים באופן ישיר בצורת ייצוג דחוס תוך שימוש ב-Deep Convolutional GANs (DCGANs). מודל חדש מבוסס GAN, T2CI-GAN, נוצר לאחרונה על ידי חוקרים ממעבדת ראיית המחשב והביומטריה של IIIT Allahabad ואוניברסיטת Vignan בהודו שיכולים להפיק תמונות דחוסות מתיאורים מבוססי טקסט. גישה זו עשויה לשמש נקודת מוצא לבחינת מספר אפשרויות לאחסון תמונות ושיתוף תוכן בין מכשירים חכמים שונים.

בעבודה קודמת, החוקרים השתמשו ב-GAN ובמודלים של למידה עמוקה אחרים כדי לטפל במשימות שונות, כגון חילוץ תכונות מנתונים, פילוח נתוני טקסט ותמונה, זיהוי מילים בתמציות טקסט ממושכות ויצירת תמונות JPEG דחוסות. מודל חדשני זה מרחיב את היוזמות הקודמות הללו להתמודדות עם סוגיה חישובית שעד כה זכתה לתשומת לב מועטה בספרות. רק כמה טכניקות מבוססות למידה עמוקה המשמשות צוותי מחקר אחרים ליצירת תמונות מתיאורי טקסט מייצרות תמונות דחוסות. בנוסף, רוב המערכות הקיימות להפקה ודחיסת תמונות ניגשים לבעיה של לעשות זאת באופן עצמאי, מה שמגדיל את עומס העבודה של זמן המחשוב והעיבוד.

ה-T2CI-GAN המוצע הוא מודל מבוסס למידה עמוקה שמוציא תמונות חזותיות דחוסות מתיאורי טקסט כקלט שלו. זוהי חריגה משמעותית מהגישות המסורתיות היוצרות ייצוגים ויזואליים מתיאורי טקסט ודוחסות עוד יותר את התמונות הללו. תכונת המכירה העיקרית של הדגם היא היכולת שלו למפות תיאורי טקסט וליצור תמונות דחוסות ישירות.

צוות המחקר יצר שני מודלים מבוססי GAN להפקת תמונות דחוסות מתיאורי טקסט. נעשה שימוש במערך נתונים של תמונות JPEG DCT (טרנספורמציה של קוסינוס בדיד) דחוסים כדי לאמן את הראשון מבין המודלים הללו. לאחר אימון, מודל זה יכול לייצר תמונות דחוסות מתיאורי טקסט. מאידך, קבוצה של תמונות RGB שימשה להכשרת המודל השני של החוקרים מבוסס GAN. מודל זה פיתח את היכולת לייצר ייצוגי DCT דחוסים ב-JPEG של תמונות, המבטאים במפורש סדרה של נקודות נתונים כמשוואה. המודלים המוצעים הוערכו באמצעות הגירסאות הדחוסות של RGB ו-JPEG של מערך הנתונים הידוע של קוד פתוח בנצ'מרק Oxford-102 Flower pictures. בתחום הדחוס של JPEG, המודל השיג ביצועים עדכניים מעודדים ביותר.

כאשר התמונות המסופקות מיועדות לשיתוף בקלות עם סמארטפונים או מכשירים חכמים אחרים, ניתן להשתמש במודל T2CI-GAN כדי לשפר מערכות אוטומטיות לאחזור תמונות. בנוסף, זה יכול להיות כלי רב ערך עבור מומחי מדיה ותקשורת, המאפשר להם למצוא גרסאות קלות יותר של תמונות מסוימות לפרסום באינטרנט.

בשל ההתקדמות הטכנולוגית האחרונה, העולם שלנו הולך לקראת חיבורי מכונה למכונה ואדם למכונה. T2CI-GAN יהיה מכריע במצב זה מכיוון שמכונות זקוקות לעובדות בצורה דחוסה כדי לקרוא או להבין אותן. המודל יוצר כיום רק תמונות בצורת JPEG דחוסה. לפיכך המטרה ארוכת הטווח של החוקרים היא להרחיב אותו כדי לייצר תמונות בכל צורה דחוסה ללא הגבלה על אלגוריתם הדחיסה. לאחר פרסום מאמר המחקר של הצוות, קוד המקור של המודל יהפוך לזמין גם לקהל הרחב.

מאמר זה נכתב כמאמר סיכום מחקר על ידי צוות Marktechpost המבוסס על עבודת המחקר 'T2CI-GAN: יצירת טקסט לתמונה דחוסה באמצעות Generative Adversarial Network'. כל הקרדיט על מחקר זה מגיע לחוקרים בפרויקט זה. בדוק את מאמר ו מאמר הפניה.

נא לא לשכוח להצטרף ML Subreddit שלנו

Khushboo Gupta הוא מתמחה בייעוץ ב-MarktechPost. כעת היא עוסקת בלימודי B.Tech מהמכון הטכנולוגי ההודי (IIT), גואה. היא נלהבת מהתחומים של למידת מכונה, עיבוד שפה טבעית ופיתוח אתרים. היא נהנית ללמוד יותר על התחום הטכני על ידי השתתפות בכמה אתגרים.

<!–

בול זמן: אוקטובר 29, 2022אוקטובר 31, 2022