विजन माम्बा: द्विदिशात्मक राज्य अंतरिक्ष मॉडल के साथ एआई विजन में एक नया प्रतिमान

विजन माम्बा: द्विदिशात्मक राज्य अंतरिक्ष मॉडल के साथ एआई विजन में एक नया प्रतिमान

विज़न माम्बा: द्विदिशात्मक राज्य अंतरिक्ष मॉडल प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ एआई विज़न में एक नया प्रतिमान। लंबवत खोज. ऐ.

कृत्रिम बुद्धिमत्ता (एआई) और मशीन लर्निंग का क्षेत्र लगातार विकसित हो रहा है, विज़न माम्बा (विम) एआई विज़न के क्षेत्र में एक अभूतपूर्व परियोजना के रूप में उभर रहा है। हाल ही में, अकादमिक काग़ज़ "विज़न माम्बा- द्विदिशात्मक के साथ कुशल दृश्य प्रतिनिधित्व सीखना" मशीन लर्निंग के क्षेत्र में इस दृष्टिकोण का परिचय देता है। कुशल हार्डवेयर-जागरूक डिज़ाइन के साथ राज्य अंतरिक्ष मॉडल (एसएसएम) का उपयोग करके विकसित, विम दृश्य प्रतिनिधित्व सीखने में एक महत्वपूर्ण छलांग का प्रतिनिधित्व करता है।

विम विज़ुअल डेटा को कुशलतापूर्वक प्रस्तुत करने की महत्वपूर्ण चुनौती को संबोधित करता है, एक ऐसा कार्य जो परंपरागत रूप से विज़न ट्रांसफॉर्मर (वीआईटी) के भीतर आत्म-ध्यान तंत्र पर निर्भर रहा है। वीआईटी को, अपनी सफलता के बावजूद, गति और मेमोरी उपयोग की बाधाओं के कारण उच्च-रिज़ॉल्यूशन छवियों को संसाधित करने में सीमाओं का सामना करना पड़ता है। इसके विपरीत, विम द्विदिश माम्बा ब्लॉकों को नियोजित करता है जो न केवल डेटा-निर्भर वैश्विक दृश्य संदर्भ प्रदान करता है बल्कि अधिक सूक्ष्म, स्थान-जागरूक दृश्य समझ के लिए स्थिति एम्बेडिंग भी शामिल करता है। यह दृष्टिकोण विम को DeiT जैसे स्थापित विज़न ट्रांसफार्मर की तुलना में इमेजनेट वर्गीकरण, COCO ऑब्जेक्ट डिटेक्शन और ADE20K सिमेंटिक सेगमेंटेशन जैसे प्रमुख कार्यों पर उच्च प्रदर्शन प्राप्त करने में सक्षम बनाता है।

इमेजनेट-1K डेटासेट पर विम के साथ किए गए प्रयोग, जिसमें 1.28 श्रेणियों में 1000 मिलियन प्रशिक्षण छवियां शामिल हैं, कम्प्यूटेशनल और मेमोरी दक्षता के मामले में इसकी श्रेष्ठता प्रदर्शित करती हैं। विशेष रूप से, विम को डीईआईटी की तुलना में 2.8 गुना तेज बताया गया है, जो उच्च-रिज़ॉल्यूशन छवियों के लिए बैच अनुमान के दौरान 86.8% जीपीयू मेमोरी की बचत करता है। ADE20K डेटासेट पर सिमेंटिक सेगमेंटेशन कार्यों में, विम लगातार विभिन्न पैमानों पर DeiT से बेहतर प्रदर्शन करता है, लगभग आधे मापदंडों के साथ ResNet-101 बैकबोन के समान प्रदर्शन प्राप्त करता है।

इसके अलावा, COCO 2017 डेटासेट पर ऑब्जेक्ट डिटेक्शन और इंस्टेंस सेगमेंटेशन कार्यों में, विम ने अपनी बेहतर लंबी दूरी की संदर्भ सीखने की क्षमता का प्रदर्शन करते हुए, महत्वपूर्ण मार्जिन के साथ DeiT को पीछे छोड़ दिया। यह प्रदर्शन विशेष रूप से उल्लेखनीय है क्योंकि विम शुद्ध अनुक्रम मॉडलिंग तरीके से काम करता है, इसकी रीढ़ में 2डी पुअर्स की आवश्यकता के बिना, जो पारंपरिक ट्रांसफार्मर-आधारित दृष्टिकोण में एक सामान्य आवश्यकता है।

विम का द्विदिशात्मक राज्य अंतरिक्ष मॉडलिंग और हार्डवेयर-जागरूक डिज़ाइन न केवल इसकी कम्प्यूटेशनल दक्षता को बढ़ाता है बल्कि विभिन्न उच्च-रिज़ॉल्यूशन दृष्टि कार्यों में इसके अनुप्रयोग के लिए नई संभावनाएं भी खोलता है। विम के लिए भविष्य की संभावनाओं में मास्क इमेज मॉडलिंग प्रीट्रेनिंग, सीएलआईपी-स्टाइल प्रीट्रेनिंग जैसे मल्टीमॉडल कार्यों और उच्च-रिज़ॉल्यूशन मेडिकल छवियों, रिमोट सेंसिंग छवियों और लंबे वीडियो के विश्लेषण जैसे गैर-पर्यवेक्षित कार्यों में इसका अनुप्रयोग शामिल है।

अंत में, विज़न माम्बा का अभिनव दृष्टिकोण एआई विज़न प्रौद्योगिकी में एक महत्वपूर्ण प्रगति का प्रतीक है। पारंपरिक दृष्टि ट्रांसफार्मर की सीमाओं पर काबू पाकर, विम दृष्टि-आधारित एआई अनुप्रयोगों की एक विस्तृत श्रृंखला के लिए अगली पीढ़ी की रीढ़ बनने की ओर अग्रसर है।

छवि स्रोत: शटरस्टॉक

समय टिकट:

से अधिक ब्लॉकचैन न्यूज