Vision Mamba: פרדיגמה חדשה בחזון AI עם מודלים דו-כיווניים של חלל

Vision Mamba: פרדיגמה חדשה בחזון AI עם מודלים דו-כיווניים של חלל

Vision Mamba: פרדיגמה חדשה בחזון AI עם מודלים דו-כיווניים של מרחב מצבי PlatoBlockchain Intelligence Data. חיפוש אנכי. איי.

תחום הבינה המלאכותית (AI) ולמידת מכונה ממשיך להתפתח, כאשר Vision Mamba (Vim) מתגלה כפרויקט פורץ דרך בתחום חזון הבינה המלאכותית. לאחרונה, האקדמיה מאמר "Vision Mamba- למידה יעילה של ייצוג חזותי עם דו-כיווני" מציגה גישה זו בתחום למידת מכונה. פותח באמצעות מודלים של מרחב מדינה (SSM) עם עיצובים יעילים המודעים לחומרה, Vim מייצג קפיצת מדרגה משמעותית בלמידת ייצוג חזותי.

Vim מטפל באתגר הקריטי של ייצוג יעיל של נתונים חזותיים, משימה שהייתה תלויה באופן מסורתי במנגנוני תשומת לב עצמית בתוך Vision Transformers (ViTs). ViTs, למרות הצלחתם, מתמודדים עם מגבלות בעיבוד תמונות ברזולוציה גבוהה עקב מגבלות מהירות ושימוש בזיכרון. Vim, לעומת זאת, משתמשת בלוקי Mamba דו-כיווניים שלא רק מספקים הקשר חזותי גלובלי תלוי נתונים אלא גם משלבים הטמעות מיקום להבנה ויזואלית בעלת ניואנסים יותר, מודעת למיקום. גישה זו מאפשרת ל-Vim להשיג ביצועים גבוהים יותר במשימות מפתח כגון סיווג ImageNet, זיהוי אובייקטים של COCO ופילוח סמנטי ADE20K, בהשוואה לשנאי ראייה מבוססים כמו DeiT.

הניסויים שנערכו עם Vim במערך הנתונים ImageNet-1K, המכיל 1.28 מיליון תמונות אימון על פני 1000 קטגוריות, מוכיחים את עליונותו במונחים של יעילות חישובית וזיכרון. באופן ספציפי, דווח כי Vim מהיר פי 2.8 מ-DeiT, וחוסך עד 86.8% זיכרון GPU במהלך הסקת אצווה לתמונות ברזולוציה גבוהה. במשימות פילוח סמנטי במערך הנתונים של ADE20K, Vim מתגבר באופן עקבי על DeiT על פני סולמות שונים, ומשיג ביצועים דומים ל-ResNet-101 עם כמעט מחצית מהפרמטרים.

יתרה מזאת, במשימות זיהוי אובייקטים ופילוח מופעים במערך הנתונים של COCO 2017, Vim עולה על DeiT עם שוליים משמעותיים, מה שמוכיח את יכולת למידה ההקשר ארוכת הטווח הטובה יותר שלה. ביצועים אלה בולטים במיוחד מכיוון ש-Vim פועלת באופן טהור של מידול רצף, ללא צורך בקודים דו-ממדיים בעמוד השדרה שלו, שהיא דרישה נפוצה בגישות מסורתיות מבוססות שנאים.

דוגמנות שטח המצב הדו-כיוונית של Vim והעיצוב המודע לחומרה לא רק משפרים את היעילות החישובית שלו אלא גם פותחים אפשרויות חדשות ליישום שלה במשימות ראייה שונות ברזולוציה גבוהה. הסיכויים העתידיים של Vim כוללים את היישום שלו במשימות ללא פיקוח כמו אימון מקדים של דוגמנות מסכות, משימות מולטי-מודאליות כמו אימון מקדים בסגנון CLIP וניתוח של תמונות רפואיות ברזולוציה גבוהה, תמונות חישה מרחוק וסרטונים ארוכים.

לסיכום, הגישה החדשנית של Vision Mamba מסמנת התקדמות מרכזית בטכנולוגיית ראיית AI. על ידי התגברות על המגבלות של שנאי ראייה מסורתיים, Vim עומדת להיות עמוד השדרה של הדור הבא עבור מגוון רחב של יישומי AI מבוססי חזון.

מקור תמונה: Shutterstock

בול זמן:

עוד מ חדשות