Vision Mamba: نموذج جديد في رؤية الذكاء الاصطناعي مع نماذج الفضاء ثنائية الاتجاه

Vision Mamba: نموذج جديد في رؤية الذكاء الاصطناعي مع نماذج الفضاء ثنائية الاتجاه

Vision Mamba: نموذج جديد في رؤية الذكاء الاصطناعي مع نماذج فضاء الحالة ثنائية الاتجاه وذكاء بيانات PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

يستمر مجال الذكاء الاصطناعي (AI) والتعلم الآلي في التطور، مع ظهور Vision Mamba (Vim) كمشروع رائد في مجال رؤية الذكاء الاصطناعي. في الآونة الأخيرة الأكاديمية ورقة تقدم "Vision Mamba- التعلم التمثيلي البصري الفعال باستخدام ثنائي الاتجاه" هذا النهج في مجال التعلم الآلي. تم تطوير Vim باستخدام نماذج مساحة الحالة (SSMs) مع تصميمات فعالة تراعي الأجهزة، ويمثل Vim قفزة كبيرة في تعلم التمثيل المرئي.

يعالج Vim التحدي الحاسم المتمثل في تمثيل البيانات المرئية بكفاءة، وهي مهمة كانت تعتمد تقليديًا على آليات الاهتمام الذاتي داخل محولات الرؤية (ViTs). تواجه ViTs، على الرغم من نجاحها، قيودًا في معالجة الصور عالية الدقة بسبب قيود السرعة واستخدام الذاكرة. في المقابل، تستخدم Vim كتل Mamba ثنائية الاتجاه التي لا توفر سياقًا مرئيًا عالميًا يعتمد على البيانات فحسب، بل تتضمن أيضًا تضمينات للموضع من أجل فهم بصري أكثر دقة وإدراكًا للموقع. يمكّن هذا النهج Vim من تحقيق أداء أعلى في المهام الرئيسية مثل تصنيف ImageNet، واكتشاف كائنات COCO، والتجزئة الدلالية ADE20K، مقارنة بمحولات الرؤية المثبتة مثل DeiT.

تثبت التجارب التي أجريت مع Vim على مجموعة بيانات ImageNet-1K، التي تحتوي على 1.28 مليون صورة تدريبية عبر 1000 فئة، تفوقها من حيث الكفاءة الحسابية والذاكرة. على وجه التحديد، تم الإبلاغ عن أن Vim أسرع بمقدار 2.8 مرة من DeiT، مما يوفر ما يصل إلى 86.8% من ذاكرة وحدة معالجة الرسومات أثناء الاستدلال الدفعي للصور عالية الدقة. في مهام التجزئة الدلالية في مجموعة بيانات ADE20K، يتفوق Vim باستمرار على DeiT عبر مقاييس مختلفة، ويحقق أداءً مشابهًا للعمود الفقري ResNet-101 مع ما يقرب من نصف المعلمات.

علاوة على ذلك، في مهام الكشف عن الكائنات وتجزئة المثيلات في مجموعة بيانات COCO 2017، تتفوق Vim على DeiT بهوامش كبيرة، مما يدل على قدرتها الأفضل على تعلم السياق طويل المدى. هذا الأداء ملحوظ بشكل خاص حيث يعمل Vim بطريقة نمذجة التسلسل النقي، دون الحاجة إلى بادئات ثنائية الأبعاد في عموده الفقري، وهو مطلب شائع في الأساليب التقليدية القائمة على المحولات.

لا تعمل نمذجة مساحة الحالة ثنائية الاتجاه من Vim والتصميم المدرك للأجهزة على تعزيز كفاءتها الحسابية فحسب، بل تفتح أيضًا إمكانيات جديدة لتطبيقها في العديد من مهام الرؤية عالية الدقة. تشمل الآفاق المستقبلية لـ Vim تطبيقه في المهام غير الخاضعة للرقابة مثل التدريب المسبق على نمذجة صورة القناع، والمهام متعددة الوسائط مثل التدريب المسبق على نمط CLIP، وتحليل الصور الطبية عالية الدقة، وصور الاستشعار عن بعد، ومقاطع الفيديو الطويلة.

وفي الختام، يمثل النهج المبتكر لشركة Vision Mamba تقدمًا محوريًا في تكنولوجيا الرؤية بالذكاء الاصطناعي. ومن خلال التغلب على القيود المفروضة على محولات الرؤية التقليدية، فإن Vim على أهبة الاستعداد لتصبح العمود الفقري للجيل التالي لمجموعة واسعة من تطبيقات الذكاء الاصطناعي القائمة على الرؤية.

مصدر الصورة: Shutterstock

الطابع الزمني:

اكثر من بلوكشين الأخبار