Vision Mamba: פרדיגמה חדשה בחזון AI עם מודלים דו-כיווניים של חלל

הועלה מחדש על ידי אפלטון

עוקב: 0

Vision Mamba: פרדיגמה חדשה בחזון AI עם מודלים דו-כיווניים של מרחב מצבי PlatoBlockchain Intelligence Data. חיפוש אנכי. איי.

תחום הבינה המלאכותית (AI) ולמידת מכונה ממשיך להתפתח, כאשר Vision Mamba (Vim) מתגלה כפרויקט פורץ דרך בתחום חזון הבינה המלאכותית. לאחרונה, האקדמיה מאמר "Vision Mamba- למידה יעילה של ייצוג חזותי עם דו-כיווני" מציגה גישה זו בתחום למידת מכונה. פותח באמצעות מודלים של מרחב מדינה (SSM) עם עיצובים יעילים המודעים לחומרה, Vim מייצג קפיצת מדרגה משמעותית בלמידת ייצוג חזותי.

Vim מטפל באתגר הקריטי של ייצוג יעיל של נתונים חזותיים, משימה שהייתה תלויה באופן מסורתי במנגנוני תשומת לב עצמית בתוך Vision Transformers (ViTs). ViTs, למרות הצלחתם, מתמודדים עם מגבלות בעיבוד תמונות ברזולוציה גבוהה עקב מגבלות מהירות ושימוש בזיכרון. Vim, לעומת זאת, משתמשת בלוקי Mamba דו-כיווניים שלא רק מספקים הקשר חזותי גלובלי תלוי נתונים אלא גם משלבים הטמעות מיקום להבנה ויזואלית בעלת ניואנסים יותר, מודעת למיקום. גישה זו מאפשרת ל-Vim להשיג ביצועים גבוהים יותר במשימות מפתח כגון סיווג ImageNet, זיהוי אובייקטים של COCO ופילוח סמנטי ADE20K, בהשוואה לשנאי ראייה מבוססים כמו DeiT.

הניסויים שנערכו עם Vim במערך הנתונים ImageNet-1K, המכיל 1.28 מיליון תמונות אימון על פני 1000 קטגוריות, מוכיחים את עליונותו במונחים של יעילות חישובית וזיכרון. באופן ספציפי, דווח כי Vim מהיר פי 2.8 מ-DeiT, וחוסך עד 86.8% זיכרון GPU במהלך הסקת אצווה לתמונות ברזולוציה גבוהה. במשימות פילוח סמנטי במערך הנתונים של ADE20K, Vim מתגבר באופן עקבי על DeiT על פני סולמות שונים, ומשיג ביצועים דומים ל-ResNet-101 עם כמעט מחצית מהפרמטרים.

יתרה מזאת, במשימות זיהוי אובייקטים ופילוח מופעים במערך הנתונים של COCO 2017, Vim עולה על DeiT עם שוליים משמעותיים, מה שמוכיח את יכולת למידה ההקשר ארוכת הטווח הטובה יותר שלה. ביצועים אלה בולטים במיוחד מכיוון ש-Vim פועלת באופן טהור של מידול רצף, ללא צורך בקודים דו-ממדיים בעמוד השדרה שלו, שהיא דרישה נפוצה בגישות מסורתיות מבוססות שנאים.

דוגמנות שטח המצב הדו-כיוונית של Vim והעיצוב המודע לחומרה לא רק משפרים את היעילות החישובית שלו אלא גם פותחים אפשרויות חדשות ליישום שלה במשימות ראייה שונות ברזולוציה גבוהה. הסיכויים העתידיים של Vim כוללים את היישום שלו במשימות ללא פיקוח כמו אימון מקדים של דוגמנות מסכות, משימות מולטי-מודאליות כמו אימון מקדים בסגנון CLIP וניתוח של תמונות רפואיות ברזולוציה גבוהה, תמונות חישה מרחוק וסרטונים ארוכים.

לסיכום, הגישה החדשנית של Vision Mamba מסמנת התקדמות מרכזית בטכנולוגיית ראיית AI. על ידי התגברות על המגבלות של שנאי ראייה מסורתיים, Vim עומדת להיות עמוד השדרה של הדור הבא עבור מגוון רחב של יישומי AI מבוססי חזון.

מקור תמונה: Shutterstock

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
מקור: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

בול זמן: ינואר 19, 2024

בול זמן: יאן 20, 2022

Vision Mamba: פרדיגמה חדשה בחזון AI עם מודלים דו-כיווניים של חלל

הועלה מחדש על ידי אפלטון

עוד מ חדשות

ביטקוין הגיע לשפל של 42 אלף דולר, בעקבות חיסול של 2.2 מיליארד דולר תוך 12 שעות

ביטקוין מתהפך שוב ויזה

Citizens Trust Bank מחזיק 65 מיליון דולר ברזרבות מטבעות בדולר ארה"ב

Binance מגבילה 281 משתמשים ניגרים ביחס לחוקי הלבנת הון

תבנית תחתית כפולה פועלת בשוק הביטקוין, האם 50 אלף דולר באופק?

אינך יכול להשקיע במניות בארה"ב שאתה שורי בהן? DeFi יכול לעזור

Binance Pool מציג עמלות אפס עבור כריית Nervos Network (CKB).

NYSE Arca מקבץ הצעה לשינוי כלל עבור רישום תעודות סל של Bitwise Ethereum

תביעה נגד Ooki DAO מקבלת טוויסט חדש כאשר נציב ה-CFTC מתנגד לפסיקה

Playful Studios משיק את חטיבת המשחקים Web3, מגייס 46 מיליון דולר במימון סדרה A

פלטפורמת NFT Autograph מגייסת 170 מיליון דולר במימון סדרה B, בהובלת משותפת על ידי a16z וקליינר פרקינס

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן