एआई उपकरण छवियाँ बेहतर बनाते हैं | क्वांटा पत्रिका

एआई उपकरण छवियाँ बेहतर बनाते हैं | क्वांटा पत्रिका

एआई उपकरण छवियाँ बेहतर बनाते हैं | क्वांटा पत्रिका प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

परिचय

यह अपराध और विज्ञान कथाओं में सबसे बड़ी घिसी-पिटी कहानियों में से एक है: एक अन्वेषक कंप्यूटर स्क्रीन पर एक धुंधली तस्वीर खींचता है और उसे बेहतर बनाने के लिए कहता है, और जैसे ही छवि फोकस में आती है, कुछ आवश्यक सुराग सामने आते हैं। यह कहानी कहने की एक अद्भुत सुविधा है, लेकिन यह दशकों से एक निराशाजनक कल्पना रही है - एक छवि को बहुत अधिक उड़ा दें, और यह स्पष्ट रूप से पिक्सेलित हो जाती है। और अधिक करने के लिए पर्याप्त डेटा नहीं है.

“यदि आप बस भोलेपन से किसी छवि को बढ़ा देते हैं, तो वह धुंधली हो जाएगी। इसमें बहुत सारा विवरण होने वाला है, लेकिन यह गलत होने वाला है,'' ने कहा ब्रायन कैटानज़ारोएनवीडिया में एप्लाइड डीप लर्निंग रिसर्च के उपाध्यक्ष।

हाल ही में, शोधकर्ताओं और पेशेवरों ने अपने छवि-बढ़ाने वाले उपकरणों में कृत्रिम बुद्धिमत्ता एल्गोरिदम को शामिल करना शुरू कर दिया है, जिससे प्रक्रिया आसान और अधिक शक्तिशाली हो गई है, लेकिन किसी भी छवि से कितना डेटा पुनर्प्राप्त किया जा सकता है, इसकी अभी भी सीमाएं हैं। सौभाग्य से, जैसे-जैसे शोधकर्ता एन्हांसमेंट एल्गोरिदम को आगे बढ़ा रहे हैं, वे उन सीमाओं से निपटने के लिए नए तरीके ढूंढ रहे हैं - यहां तक ​​​​कि, कभी-कभी, उन्हें दूर करने के तरीके भी ढूंढ रहे हैं।

पिछले दशक में, शोधकर्ताओं ने एक नए प्रकार के एआई मॉडल के साथ छवियों को बढ़ाना शुरू किया, जिसे जेनेरेटिव एडवरसैरियल नेटवर्क या जीएएन कहा जाता है, जो विस्तृत, प्रभावशाली दिखने वाली तस्वीरें तैयार कर सकता है। "छवियां अचानक बहुत बेहतर दिखने लगीं," उन्होंने कहा तोमर माइकली, इज़राइल में टेक्नियन में एक इलेक्ट्रिकल इंजीनियर। लेकिन उन्हें आश्चर्य हुआ कि जीएएन द्वारा बनाई गई छवियों में उच्च स्तर की विकृति दिखाई दी, जो मापती है कि एक उन्नत छवि जो दिखाती है उसकी अंतर्निहित वास्तविकता के कितनी करीब है। GANs ने ऐसी छवियां बनाईं जो सुंदर और प्राकृतिक दिखती थीं, लेकिन वे वास्तव में बनावटी या "भ्रम पैदा करने वाली" थीं, जो सटीक नहीं थीं, जो उच्च स्तर की विकृति के रूप में दर्ज की गईं।

माइकली ने फोटो पुनर्स्थापना के क्षेत्र को दो अलग-अलग उप-समुदायों में विभाजित होते देखा। “एक ने अच्छी तस्वीरें दिखाईं, जिनमें से कई जीएएन द्वारा बनाई गई थीं। दूसरे ने डेटा दिखाया, लेकिन उन्होंने कई छवियां नहीं दिखाईं, क्योंकि वे अच्छी नहीं लग रही थीं,'' उन्होंने कहा।

2017 में, माइकली और उनके स्नातक छात्र योचाई ब्लाउ ने इस द्वंद्व को अधिक औपचारिक रूप से देखा। उन्होंने अवधारणात्मक गुणवत्ता के लिए एक ज्ञात माप का उपयोग करके विरूपण बनाम अवधारणात्मक गुणवत्ता के ग्राफ पर विभिन्न छवि-वृद्धि एल्गोरिदम के प्रदर्शन की साजिश रची, जो मनुष्यों के व्यक्तिपरक निर्णय के साथ अच्छी तरह से संबंधित है। जैसा कि माइकली को उम्मीद थी, कुछ एल्गोरिदम के परिणामस्वरूप दृश्य गुणवत्ता बहुत अधिक थी, जबकि अन्य कम विरूपण के साथ बहुत सटीक थे। लेकिन किसी को भी दोनों फायदे नहीं थे; आपको एक या दूसरे को चुनना होगा। शोधकर्ताओं ने इसे डब किया धारणा-विरूपण व्यापार-बंद.

माइकली भी अन्य शोधकर्ताओं को चुनौती दी ऐसे एल्गोरिदम के साथ आने के लिए जो विरूपण के किसी दिए गए स्तर के लिए सर्वोत्तम छवि गुणवत्ता उत्पन्न कर सके, ताकि सुंदर-चित्र वाले एल्गोरिदम और अच्छे-आँकड़े वाले एल्गोरिदम के बीच निष्पक्ष तुलना की अनुमति मिल सके। तब से, सैकड़ों एआई शोधकर्ताओं ने अपने एल्गोरिदम के विरूपण और धारणा गुणों पर रिपोर्ट दी है, माइकली और ब्लाउ पेपर का हवाला देते हुए जिसमें व्यापार-बंद का वर्णन किया गया है।

कभी-कभी, धारणा-विरूपण व्यापार-बंद के निहितार्थ गंभीर नहीं होते हैं। उदाहरण के लिए, एनवीडिया ने पाया कि हाई-डेफिनिशन स्क्रीन कुछ कम-डेफिनिशन दृश्य सामग्री को अच्छी तरह से प्रस्तुत नहीं कर रही थी, इसलिए फरवरी में उसने एक टूल जारी किया जो वीडियो स्ट्रीमिंग को बेहतर बनाने के लिए गहन शिक्षण का उपयोग करता है। इस मामले में, एनवीडिया के इंजीनियरों ने सटीकता के बजाय अवधारणात्मक गुणवत्ता को चुना, इस तथ्य को स्वीकार करते हुए कि जब एल्गोरिदम वीडियो को बढ़ाता है, तो यह कुछ दृश्य विवरण बनाएगा जो मूल वीडियो में नहीं हैं। “मॉडल मतिभ्रम करने वाला है। कैटनज़ारो ने कहा, यह सब एक अनुमान है। "ज्यादातर समय सुपर-रिज़ॉल्यूशन मॉडल के लिए गलत अनुमान लगाना ठीक है, जब तक कि यह सुसंगत है।"

परिचय

अनुसंधान और चिकित्सा में अनुप्रयोग निश्चित रूप से कहीं अधिक सटीकता की मांग करते हैं। एआई तकनीक ने इमेजिंग में बड़ी प्रगति की है, लेकिन यह "कभी-कभी अवांछित दुष्प्रभावों के साथ आता है, जैसे ओवरफिटिंग या नकली सुविधाओं को जोड़ना, और इस प्रकार अत्यधिक देखभाल की आवश्यकता होती है," उन्होंने कहा। जुन्जी याओ, ड्यूक यूनिवर्सिटी में बायोमेडिकल इंजीनियर। पिछले साल, उन्होंने सह-लेखन किया था काग़ज़ यह वर्णन करते हुए कि एआई उपकरण मस्तिष्क में रक्त प्रवाह और चयापचय को मापने के मौजूदा तरीकों को कैसे सुधार सकते हैं - धारणा-विरूपण व्यापार-बंद के सटीक पक्ष पर सुरक्षित रहते हुए।

किसी छवि से कितना डेटा निकाला जा सकता है, इसकी सीमा से बचने का एक तरीका बस अधिक छवियों से डेटा शामिल करना है - हालांकि यह अक्सर इतना आसान नहीं होता है। उपग्रह इमेजरी के माध्यम से पर्यावरण का अध्ययन करने वाले शोधकर्ताओं ने दृश्य डेटा के विभिन्न स्रोतों के संयोजन में प्रगति की है। 2021 में, चीन और यूके में शोधकर्ताओं का एक समूह फ़्यूज्ड डेटा दुनिया के दूसरे सबसे बड़े उष्णकटिबंधीय वर्षावन और जैव विविधता के सबसे बड़े भंडारों में से एक, कांगो बेसिन में वनों की कटाई का बेहतर दृश्य प्राप्त करने के लिए दो अलग-अलग प्रकार के उपग्रहों से। शोधकर्ताओं ने दो लैंडसैट उपग्रहों से डेटा लिया, जिन्होंने दशकों से वनों की कटाई को मापा है, और 30 मीटर से 10 मीटर तक छवियों के रिज़ॉल्यूशन को परिष्कृत करने के लिए गहन शिक्षण तकनीकों का उपयोग किया है। फिर उन्होंने उस छवि सेट को दो सेंटिनल-2 उपग्रहों के डेटा के साथ जोड़ दिया, जिनमें डिटेक्टरों की थोड़ी अलग श्रृंखला होती है। उन्होंने लिखा, "संयुक्त इमेजरी ने अकेले सेंटिनल-11 या लैंडसैट-21/2 छवियों का उपयोग करने की तुलना में 7% से 8% अधिक अशांत क्षेत्रों का पता लगाने की अनुमति दी।"

माइकेलि सूचना की पहुंच पर कठोर सीमाओं से नहीं, तो बचने का एक और तरीका सुझाते हैं। निम्न-गुणवत्ता वाली छवि को कैसे बेहतर बनाया जाए, इसके लिए एक ठोस उत्तर पर समझौता करने के बजाय, मॉडल मूल छवि की कई अलग-अलग व्याख्याएँ दिखा सकते हैं। शीर्षक वाले एक पेपर मेंअन्वेषण योग्य सुपर रेजोल्यूशन, “उन्होंने यह प्रदर्शित करने में मदद की कि कैसे छवि-वृद्धि उपकरण उपयोगकर्ता को कई सुझाव दे सकते हैं। भूरे रंग की शर्ट पहने एक व्यक्ति की धुंधली, कम-रिज़ॉल्यूशन वाली छवि को उच्च-रिज़ॉल्यूशन वाली छवि में पुनर्निर्मित किया जा सकता है, जिसमें शर्ट पर काली और सफेद खड़ी धारियाँ, क्षैतिज धारियाँ या चेक हैं, जो सभी समान रूप से प्रशंसनीय हैं .

एक अन्य उदाहरण में, माइकली ने एक लाइसेंस प्लेट की निम्न-गुणवत्ता वाली तस्वीर ली और इसे एक प्रमुख एआई छवि बढ़ाने वाले के माध्यम से चलाया, जिससे पता चला कि लाइसेंस प्लेट पर 1 एक शून्य जैसा दिखता था। लेकिन जब छवि को माइकली द्वारा डिज़ाइन किए गए एक अलग, अधिक ओपन-एंडेड एल्गोरिदम द्वारा संसाधित किया गया था, तो अंक शून्य, 1 या 8 होने की समान संभावना थी। यह दृष्टिकोण गलती से यह निष्कर्ष निकाले बिना कि अंक शून्य था, अन्य अंकों को खारिज करने में मदद कर सकता है।

चूँकि अलग-अलग विषय अपने-अपने तरीकों से धारणा-विकृति व्यापार से जूझ रहे हैं, यह सवाल केंद्रीय बना हुआ है कि हम एआई इमेजरी से कितना निकाल सकते हैं और हम उन छवियों पर कितना भरोसा कर सकते हैं। माइकली ने कहा, "हमें यह ध्यान रखना चाहिए कि इन अच्छी छवियों को आउटपुट करने के लिए एल्गोरिदम केवल विवरण बनाते हैं।" हम उन मतिभ्रमों को कम कर सकते हैं, लेकिन सर्व-शक्तिशाली, अपराध-समाधान "बढ़ाने" बटन एक सपना ही रहेगा।

समय टिकट:

से अधिक क्वांटमगाज़ी