Vision Mamba: نموذج جديد في رؤية الذكاء الاصطناعي مع نماذج الفضاء ثنائية الاتجاه

أعاد نشره أفلاطون

المتابعون: 0

Vision Mamba: نموذج جديد في رؤية الذكاء الاصطناعي مع نماذج فضاء الحالة ثنائية الاتجاه وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

يستمر مجال الذكاء الاصطناعي (AI) والتعلم الآلي في التطور، مع ظهور Vision Mamba (Vim) كمشروع رائد في مجال رؤية الذكاء الاصطناعي. في الآونة الأخيرة الأكاديمية ورقة تقدم "Vision Mamba- التعلم التمثيلي البصري الفعال باستخدام ثنائي الاتجاه" هذا النهج في مجال التعلم الآلي. تم تطوير Vim باستخدام نماذج مساحة الحالة (SSMs) مع تصميمات فعالة تراعي الأجهزة، ويمثل Vim قفزة كبيرة في تعلم التمثيل المرئي.

يعالج Vim التحدي الحاسم المتمثل في تمثيل البيانات المرئية بكفاءة، وهي مهمة كانت تعتمد تقليديًا على آليات الاهتمام الذاتي داخل محولات الرؤية (ViTs). تواجه ViTs، على الرغم من نجاحها، قيودًا في معالجة الصور عالية الدقة بسبب قيود السرعة واستخدام الذاكرة. في المقابل، تستخدم Vim كتل Mamba ثنائية الاتجاه التي لا توفر سياقًا مرئيًا عالميًا يعتمد على البيانات فحسب، بل تتضمن أيضًا تضمينات للموضع من أجل فهم بصري أكثر دقة وإدراكًا للموقع. يمكّن هذا النهج Vim من تحقيق أداء أعلى في المهام الرئيسية مثل تصنيف ImageNet، واكتشاف كائنات COCO، والتجزئة الدلالية ADE20K، مقارنة بمحولات الرؤية المثبتة مثل DeiT.

تثبت التجارب التي أجريت مع Vim على مجموعة بيانات ImageNet-1K، التي تحتوي على 1.28 مليون صورة تدريبية عبر 1000 فئة، تفوقها من حيث الكفاءة الحسابية والذاكرة. على وجه التحديد، تم الإبلاغ عن أن Vim أسرع بمقدار 2.8 مرة من DeiT، مما يوفر ما يصل إلى 86.8% من ذاكرة وحدة معالجة الرسومات أثناء الاستدلال الدفعي للصور عالية الدقة. في مهام التجزئة الدلالية في مجموعة بيانات ADE20K، يتفوق Vim باستمرار على DeiT عبر مقاييس مختلفة، ويحقق أداءً مشابهًا للعمود الفقري ResNet-101 مع ما يقرب من نصف المعلمات.

علاوة على ذلك، في مهام الكشف عن الكائنات وتجزئة المثيلات في مجموعة بيانات COCO 2017، تتفوق Vim على DeiT بهوامش كبيرة، مما يدل على قدرتها الأفضل على تعلم السياق طويل المدى. هذا الأداء ملحوظ بشكل خاص حيث يعمل Vim بطريقة نمذجة التسلسل النقي، دون الحاجة إلى بادئات ثنائية الأبعاد في عموده الفقري، وهو مطلب شائع في الأساليب التقليدية القائمة على المحولات.

لا تعمل نمذجة مساحة الحالة ثنائية الاتجاه من Vim والتصميم المدرك للأجهزة على تعزيز كفاءتها الحسابية فحسب، بل تفتح أيضًا إمكانيات جديدة لتطبيقها في العديد من مهام الرؤية عالية الدقة. تشمل الآفاق المستقبلية لـ Vim تطبيقه في المهام غير الخاضعة للرقابة مثل التدريب المسبق على نمذجة صورة القناع، والمهام متعددة الوسائط مثل التدريب المسبق على نمط CLIP، وتحليل الصور الطبية عالية الدقة، وصور الاستشعار عن بعد، ومقاطع الفيديو الطويلة.

وفي الختام، يمثل النهج المبتكر لشركة Vision Mamba تقدمًا محوريًا في تكنولوجيا الرؤية بالذكاء الاصطناعي. ومن خلال التغلب على القيود المفروضة على محولات الرؤية التقليدية، فإن Vim على أهبة الاستعداد لتصبح العمود الفقري للجيل التالي لمجموعة واسعة من تطبيقات الذكاء الاصطناعي القائمة على الرؤية.

مصدر الصورة: Shutterstock

محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
المصدر https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

الطابع الزمني: ٣ فبراير ٢٠٢٤

الطابع الزمني: يناير 20، 2022

Vision Mamba: نموذج جديد في رؤية الذكاء الاصطناعي مع نماذج الفضاء ثنائية الاتجاه

أعاد نشره أفلاطون

اكثر من بلوكشين الأخبار

وصلت عملة البيتكوين إلى أدنى مستوياتها عند 42 ألف دولار ، بعد تصفية 2.2 مليار دولار في 12 ساعة

Bitcoin يقلب التأشيرة مرة أخرى

يمتلك بنك Citizens Trust Bank 65 مليون دولار من احتياطيات العملة بالدولار الأمريكي

Binance يقيد 281 مستخدمًا نيجيريًا فيما يتعلق بقوانين غسيل الأموال

نمط القاع المزدوج يظهر في سوق البيتكوين ، هل يلوح في الأفق 50 ألف دولار؟

لا يمكنك الاستثمار في الأسهم الأمريكية التي تتفوق عليها؟ يمكن أن يساعد DeFi

يقدم Binance Pool رسومًا صفرية للتعدين على شبكة Nervos Network (CKB).

NYSE Arca تقدم تغييرًا مقترحًا في القواعد لإدراج Bitwise Ethereum ETF

تتخذ الدعوى القضائية ضد Ooki DAO تطورًا جديدًا بصفته مفوض لجنة تداول السلع الآجلة يعارض الحكم

أطلقت شركة Playful Studios قسم Web3 Game ، وجمعت 46 مليون دولار في تمويل السلسلة أ

منصة NFT Autograph ترفع 170 مليون دولار في تمويل السلسلة B ، بقيادة a16z و Kleiner Perkins

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي