मेटा का नया AI छवि में किसी भी वस्तु को चुन और काट सकता है—यहां तक कि ऐसी वस्तु को भी जो पहले कभी नहीं देखी गई हो

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

मेटा का नया एआई छवि में किसी भी वस्तु को चुन और काट सकता है—यहां तक कि ऐसी वस्तु को भी जो प्लेटोब्लॉकचेन डेटा इंटेलिजेंस से पहले कभी नहीं देखी गई हो। लंबवत खोज. ऐ.

एक दृश्य दृश्य में अलग-अलग वस्तुओं को चुनना हमें सहज लगता है, लेकिन मशीनें इस कार्य के साथ संघर्ष करती हैं। अब मेटा के एक नए एआई मॉडल ने एक वस्तु क्या है, इसका एक व्यापक विचार विकसित किया है, जिससे यह वस्तुओं को अलग करने की अनुमति देता है, भले ही उसने उन्हें पहले कभी नहीं देखा हो।

यह एक काफी नीरस कंप्यूटर दृष्टि कार्य की तरह प्रतीत हो सकता है, लेकिन एक छवि को पार्स करने में सक्षम होना और एक वस्तु समाप्त होती है और दूसरी शुरू होती है, यह एक बहुत ही मौलिक कौशल है, जिसके बिना अधिक जटिल कार्यों का एक मेजबान असंभव होगा।

"ऑब्जेक्ट सेगमेंटेशन" कोई नई बात नहीं है; एआई के शोधकर्ताओं ने इस पर सालों तक काम किया है। लेकिन आम तौर पर, इन मॉडलों का निर्माण एक समय लेने वाली प्रक्रिया रही है जिसमें बहुत से मानव एनोटेशन की छवियों और काफी कंप्यूटिंग संसाधनों की आवश्यकता होती है। और आमतौर पर परिणामी मॉडल विशेष उपयोग के मामलों के लिए अत्यधिक विशिष्ट थे।

अब हालांकि, मेटा के शोधकर्ताओं ने सेगमेंट एनीथिंग मॉडल (एसएएम) का अनावरण किया है, जो किसी भी दृश्य में किसी भी वस्तु को काटने में सक्षम है, भले ही उसने पहले ऐसा कुछ देखा हो। मॉडल टेक्स्ट विवरण से लेकर माउस क्लिक या यहां तक कि आई-ट्रैकिंग डेटा तक विभिन्न प्रकार के विभिन्न संकेतों के जवाब में भी ऐसा कर सकता है।

"एसएएम ने एक सामान्य धारणा सीखी है कि वस्तुएं क्या हैं, और यह किसी भी छवि या किसी भी वीडियो में किसी भी वस्तु के लिए मास्क उत्पन्न कर सकती है," शोधकर्ताओं ने लिखा एक ब्लॉग पद. "हम मानते हैं कि संभावनाएं व्यापक हैं, और हम कई संभावित उपयोग के मामलों से उत्साहित हैं जिनकी हमने अभी तक कल्पना भी नहीं की है।"

मॉडल के विकास की कुंजी 1.1 बिलियन सेगमेंटेशन मास्क का एक विशाल नया डेटासेट था, जो एक छवि के क्षेत्रों को संदर्भित करता है जिसे अलग किया गया है और यह दर्शाने के लिए एनोटेट किया गया है कि उनमें एक विशेष वस्तु है। यह छवियों और स्वचालित प्रक्रियाओं के मैनुअल मानव एनोटेशन के संयोजन के माध्यम से बनाया गया था, और इस प्रकार का अब तक का सबसे बड़ा संग्रह है।

इतने बड़े डेटासेट पर प्रशिक्षण देकर, मेटा के शोधकर्ताओं का कहना है कि इसने एक सामान्य अवधारणा विकसित की है कि एक वस्तु क्या है, जो इसे उन चीजों को खंडित करने की अनुमति देती है जिन्हें उसने पहले भी नहीं देखा है। सामान्यीकृत करने की इस क्षमता ने शोधकर्ताओं को एसएएम को "फाउंडेशन मॉडल" कहने के लिए प्रेरित किया विवादास्पद शब्द अन्य बड़े पैमाने पर पूर्व-प्रशिक्षित मॉडलों का वर्णन करने के लिए उपयोग किया जाता है जैसे ओपनएआई का जीपीटी श्रृंखला, जिनकी क्षमताएं इतनी सामान्य मानी जाती हैं कि उन्हें कई अनुप्रयोगों के लिए नींव के रूप में उपयोग किया जा सकता है।

कंप्यूटर दृष्टि कार्यों की एक विस्तृत श्रृंखला में छवि विभाजन निश्चित रूप से एक महत्वपूर्ण घटक है। यदि आप किसी दृश्य के विभिन्न घटकों को अलग नहीं कर सकते हैं, तो इसके साथ कुछ अधिक जटिल करना कठिन है। अपने ब्लॉग में, शोधकर्ताओं का कहना है कि यह वीडियो और छवि संपादन में अमूल्य साबित हो सकता है, या वैज्ञानिक इमेजरी के विश्लेषण में मदद कर सकता है।

शायद अधिक प्रासंगिक रूप से कंपनी की मेटावर्स महत्वाकांक्षाओं के लिए, वे एक डेमो प्रदान करते हैं कि उपयोगकर्ता के टकटकी के आधार पर विशिष्ट वस्तुओं का चयन करने के लिए वर्चुअल रियलिटी हेडसेट के संयोजन के साथ इसका उपयोग कैसे किया जा सकता है। वे यह भी कहते हैं कि वेब पेज की दृश्य और पाठ्य सामग्री दोनों को समझने में सक्षम मल्टी-मोडल सिस्टम बनाने के लिए संभावित रूप से इसे एक बड़े भाषा मॉडल के साथ जोड़ा जा सकता है।

संकेतों की एक विस्तृत श्रृंखला से निपटने की क्षमता प्रणाली को विशेष रूप से लचीला बनाती है। में एक वेब पेज नए मॉडल को प्रदर्शित करते हुए, कंपनी दिखाती है कि एक छवि का विश्लेषण करने के बाद इसे केवल माउस कर्सर के साथ उन पर क्लिक करके विशिष्ट वस्तुओं को अलग करने के लिए प्रेरित किया जा सकता है, जिसे आप खंडित करना चाहते हैं, या बस पूरी छवि को तोड़कर अलग कर सकते हैं। अलग वस्तुएँ।

और सबसे महत्वपूर्ण बात यह है कि कंपनी अनुसंधान उद्देश्यों के लिए मॉडल और डेटासेट दोनों को ओपन-सोर्स कर रही है ताकि अन्य लोग अपने काम पर निर्माण कर सकें। यह वही दृष्टिकोण है जिसे कंपनी ने अपने LLaMA बड़े-भाषा मॉडल के साथ अपनाया, जिसके कारण यह तेजी से अस्तित्व में आया लीक ऑनलाइन और स्परिंग ए प्रयोग की लहर शौकीनों और हैकरों द्वारा।

एसएएम के साथ भी ऐसा ही होगा या नहीं, यह देखा जाना बाकी है, लेकिन किसी भी तरह से यह एआई अनुसंधान समुदाय के लिए एक उपहार है जो कई महत्वपूर्ण कंप्यूटर दृष्टि समस्याओं पर प्रगति को गति दे सकता है।

छवि क्रेडिट: मेटा एआई