एक दृश्य दृश्य में अलग-अलग वस्तुओं को चुनना हमें सहज लगता है, लेकिन मशीनें इस कार्य के साथ संघर्ष करती हैं। अब मेटा के एक नए एआई मॉडल ने एक वस्तु क्या है, इसका एक व्यापक विचार विकसित किया है, जिससे यह वस्तुओं को अलग करने की अनुमति देता है, भले ही उसने उन्हें पहले कभी नहीं देखा हो।
यह एक काफी नीरस कंप्यूटर दृष्टि कार्य की तरह प्रतीत हो सकता है, लेकिन एक छवि को पार्स करने में सक्षम होना और एक वस्तु समाप्त होती है और दूसरी शुरू होती है, यह एक बहुत ही मौलिक कौशल है, जिसके बिना अधिक जटिल कार्यों का एक मेजबान असंभव होगा।
"ऑब्जेक्ट सेगमेंटेशन" कोई नई बात नहीं है; एआई के शोधकर्ताओं ने इस पर सालों तक काम किया है। लेकिन आम तौर पर, इन मॉडलों का निर्माण एक समय लेने वाली प्रक्रिया रही है जिसमें बहुत से मानव एनोटेशन की छवियों और काफी कंप्यूटिंग संसाधनों की आवश्यकता होती है। और आमतौर पर परिणामी मॉडल विशेष उपयोग के मामलों के लिए अत्यधिक विशिष्ट थे।
अब हालांकि, मेटा के शोधकर्ताओं ने सेगमेंट एनीथिंग मॉडल (एसएएम) का अनावरण किया है, जो किसी भी दृश्य में किसी भी वस्तु को काटने में सक्षम है, भले ही उसने पहले ऐसा कुछ देखा हो। मॉडल टेक्स्ट विवरण से लेकर माउस क्लिक या यहां तक कि आई-ट्रैकिंग डेटा तक विभिन्न प्रकार के विभिन्न संकेतों के जवाब में भी ऐसा कर सकता है।
"एसएएम ने एक सामान्य धारणा सीखी है कि वस्तुएं क्या हैं, और यह किसी भी छवि या किसी भी वीडियो में किसी भी वस्तु के लिए मास्क उत्पन्न कर सकती है," शोधकर्ताओं ने लिखा एक ब्लॉग पद. "हम मानते हैं कि संभावनाएं व्यापक हैं, और हम कई संभावित उपयोग के मामलों से उत्साहित हैं जिनकी हमने अभी तक कल्पना भी नहीं की है।"
मॉडल के विकास की कुंजी 1.1 बिलियन सेगमेंटेशन मास्क का एक विशाल नया डेटासेट था, जो एक छवि के क्षेत्रों को संदर्भित करता है जिसे अलग किया गया है और यह दर्शाने के लिए एनोटेट किया गया है कि उनमें एक विशेष वस्तु है। यह छवियों और स्वचालित प्रक्रियाओं के मैनुअल मानव एनोटेशन के संयोजन के माध्यम से बनाया गया था, और इस प्रकार का अब तक का सबसे बड़ा संग्रह है।
इतने बड़े डेटासेट पर प्रशिक्षण देकर, मेटा के शोधकर्ताओं का कहना है कि इसने एक सामान्य अवधारणा विकसित की है कि एक वस्तु क्या है, जो इसे उन चीजों को खंडित करने की अनुमति देती है जिन्हें उसने पहले भी नहीं देखा है। सामान्यीकृत करने की इस क्षमता ने शोधकर्ताओं को एसएएम को "फाउंडेशन मॉडल" कहने के लिए प्रेरित किया विवादास्पद शब्द अन्य बड़े पैमाने पर पूर्व-प्रशिक्षित मॉडलों का वर्णन करने के लिए उपयोग किया जाता है जैसे ओपनएआई का जीपीटी श्रृंखला, जिनकी क्षमताएं इतनी सामान्य मानी जाती हैं कि उन्हें कई अनुप्रयोगों के लिए नींव के रूप में उपयोग किया जा सकता है।
कंप्यूटर दृष्टि कार्यों की एक विस्तृत श्रृंखला में छवि विभाजन निश्चित रूप से एक महत्वपूर्ण घटक है। यदि आप किसी दृश्य के विभिन्न घटकों को अलग नहीं कर सकते हैं, तो इसके साथ कुछ अधिक जटिल करना कठिन है। अपने ब्लॉग में, शोधकर्ताओं का कहना है कि यह वीडियो और छवि संपादन में अमूल्य साबित हो सकता है, या वैज्ञानिक इमेजरी के विश्लेषण में मदद कर सकता है।
शायद अधिक प्रासंगिक रूप से कंपनी की मेटावर्स महत्वाकांक्षाओं के लिए, वे एक डेमो प्रदान करते हैं कि उपयोगकर्ता के टकटकी के आधार पर विशिष्ट वस्तुओं का चयन करने के लिए वर्चुअल रियलिटी हेडसेट के संयोजन के साथ इसका उपयोग कैसे किया जा सकता है। वे यह भी कहते हैं कि वेब पेज की दृश्य और पाठ्य सामग्री दोनों को समझने में सक्षम मल्टी-मोडल सिस्टम बनाने के लिए संभावित रूप से इसे एक बड़े भाषा मॉडल के साथ जोड़ा जा सकता है।
संकेतों की एक विस्तृत श्रृंखला से निपटने की क्षमता प्रणाली को विशेष रूप से लचीला बनाती है। में एक वेब पेज नए मॉडल को प्रदर्शित करते हुए, कंपनी दिखाती है कि एक छवि का विश्लेषण करने के बाद इसे केवल माउस कर्सर के साथ उन पर क्लिक करके विशिष्ट वस्तुओं को अलग करने के लिए प्रेरित किया जा सकता है, जिसे आप खंडित करना चाहते हैं, या बस पूरी छवि को तोड़कर अलग कर सकते हैं। अलग वस्तुएँ।
और सबसे महत्वपूर्ण बात यह है कि कंपनी अनुसंधान उद्देश्यों के लिए मॉडल और डेटासेट दोनों को ओपन-सोर्स कर रही है ताकि अन्य लोग अपने काम पर निर्माण कर सकें। यह वही दृष्टिकोण है जिसे कंपनी ने अपने LLaMA बड़े-भाषा मॉडल के साथ अपनाया, जिसके कारण यह तेजी से अस्तित्व में आया लीक ऑनलाइन और स्परिंग ए प्रयोग की लहर शौकीनों और हैकरों द्वारा।
एसएएम के साथ भी ऐसा ही होगा या नहीं, यह देखा जाना बाकी है, लेकिन किसी भी तरह से यह एआई अनुसंधान समुदाय के लिए एक उपहार है जो कई महत्वपूर्ण कंप्यूटर दृष्टि समस्याओं पर प्रगति को गति दे सकता है।
छवि क्रेडिट: मेटा एआई
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- स्रोत: https://singularityhub.com/2023/04/10/metas-new-ai-can-identify-and-remove-objects-in-images/
- :है
- $यूपी
- 1
- a
- क्षमता
- योग्य
- में तेजी लाने के
- बाद
- AI
- ai शोध
- की अनुमति दे
- की अनुमति देता है
- महत्वाकांक्षा
- विश्लेषण
- का विश्लेषण
- और
- अन्य
- अनुप्रयोगों
- दृष्टिकोण
- हैं
- AS
- इकट्ठे
- At
- स्वचालित
- आधारित
- BE
- से पहले
- जा रहा है
- मानना
- बिलियन
- ब्लॉग
- तोड़कर
- विस्तृत
- निर्माण
- इमारत
- by
- कर सकते हैं
- क्षमताओं
- मामलों
- संग्रह
- संयोजन
- समुदाय
- कंपनी
- कंपनी का है
- जटिल
- घटकों
- कंप्यूटर
- Computer Vision
- कंप्यूटिंग
- संकल्पना
- काफी
- शामिल
- सामग्री
- सका
- बनाना
- बनाया
- श्रेय
- कट गया
- तिथि
- तारीख
- सौदा
- निश्चित रूप से
- वर्णन
- विवरण
- विकसित
- विकास
- विभिन्न
- भी
- समाप्त होता है
- संपूर्ण
- और भी
- उत्तेजित
- फेसबुक
- काफी
- लचीला
- के लिए
- नींव
- से
- मौलिक
- सामान्य जानकारी
- उत्पन्न
- उपहार
- हैकर्स
- होना
- कठिन
- है
- हेडसेट
- मदद
- अत्यधिक
- मेजबान
- कैसे
- HTTPS
- मानव
- विचार
- की छवि
- छवियों
- महत्वपूर्ण
- in
- सहज ज्ञान युक्त
- अमूल्य
- पृथक
- IT
- आईटी इस
- कुंजी
- भाषा
- बड़ा
- सबसे बड़ा
- सीखा
- नेतृत्व
- पसंद
- लामा
- मशीनें
- बनाता है
- गाइड
- बहुत
- मास्क
- विशाल
- मेटा
- मेटावर्स
- हो सकता है
- आदर्श
- मॉडल
- अधिक
- अधिकांश
- नया
- धारणा
- वस्तु
- वस्तुओं
- of
- on
- ONE
- अन्य
- अन्य
- पृष्ठ
- बनती
- विशेष
- विशेष रूप से
- चुनना
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- संभावनाओं
- संभावित
- संभावित
- सुंदर
- समस्याओं
- प्रक्रिया
- प्रक्रियाओं
- प्रगति
- साबित करना
- प्रदान करना
- प्रयोजनों
- रेंज
- तेजी
- वास्तविकता
- संदर्भित करता है
- भले ही
- क्षेत्रों
- बाकी है
- अनुसंधान
- शोधकर्ताओं
- उपयुक्त संसाधन चुनें
- प्रतिक्रिया
- जिसके परिणामस्वरूप
- सैम
- वही
- दृश्य
- वैज्ञानिक
- लगता है
- खंड
- विभाजन
- अलग
- कई
- दिखाता है
- केवल
- कौशल
- So
- विशेषीकृत
- विशिष्ट
- संघर्ष
- ऐसा
- प्रणाली
- कार्य
- कार्य
- कि
- RSI
- लेकिन हाल ही
- उन
- इन
- चीज़ें
- यहाँ
- बहुत समय लगेगा
- सेवा मेरे
- प्रशिक्षण
- आम तौर पर
- समझना
- अनावरण किया
- us
- उपयोग
- विविधता
- वीडियो
- वास्तविक
- आभासी वास्तविकता
- दृष्टि
- मार्ग..
- वेब
- क्या
- या
- कौन कौन से
- चौड़ा
- विस्तृत श्रृंखला
- मर्जी
- साथ में
- बिना
- काम
- व्यायाम
- काम किया
- होगा
- साल
- आप
- जेफिरनेट