IIIT इलाहाबाद के शोधकर्ताओं ने T2CI GAN का प्रस्ताव रखा: एक गहन शिक्षण मॉडल जो पाठ से संपीड़ित छवियां उत्पन्न करता है

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

पिछले कुछ वर्षों में, दृश्य डेटा के लिए पाठ्य विवरण का निर्माण एक सम्मोहक शोध मुद्दा बन गया है। हालाँकि, लिखित विवरणों से दृश्य डेटा तैयार करने के लिए समस्या कथन अभी भी अधिक कठिन है क्योंकि इसमें प्राकृतिक भाषा प्रसंस्करण और कंप्यूटर विज़न तकनीकों के संलयन की आवश्यकता होती है। उपलब्ध तकनीकें जेनरेटिव एडवरसैरियल नेटवर्क्स (जीएएन) का उपयोग करके पाठ्य विवरणों से असम्पीडित छवियां बनाती हैं। जेनरेटिव एडवरसैरियल नेटवर्क एक प्रकार का मशीन-लर्निंग फ्रेमवर्क है जो टेक्स्ट, फोटो, वीडियो और वॉयस रिकॉर्डिंग तैयार कर सकता है। पहले, GAN का उपयोग अन्य गहन शिक्षण एल्गोरिदम को प्रशिक्षित करने, विशेष उद्देश्यों के लिए फिल्में या एनिमेशन बनाने और तस्वीरों के लिए उपयुक्त कैप्शन तैयार करने के लिए छवि डेटासेट तैयार करने के लिए सफलतापूर्वक किया गया है।

वास्तव में, अधिकांश दृश्य इनपुट को संपीड़ित रूप में संसाधित और प्रसारित किया जाता है। भंडारण और कम्प्यूटेशनल दक्षता प्राप्त करने के लिए, सुझाए गए कार्य डीप कन्वोल्यूशनल जीएएन (डीसीजीएएन) का उपयोग करके संपीड़ित प्रतिनिधित्व रूप में सीधे दृश्य डेटा का उत्पादन करने का प्रयास करते हैं। एक नया GAN-आधारित मॉडल, T2CI-GAN, हाल ही में भारत में IIIT इलाहाबाद और विग्नान विश्वविद्यालय के कंप्यूटर विज़न और बायोमेट्रिक्स लैब के शोधकर्ताओं द्वारा बनाया गया है जो पाठ-आधारित विवरणों से संपीड़ित छवियों का उत्पादन कर सकता है। यह दृष्टिकोण विभिन्न स्मार्ट उपकरणों के बीच छवि भंडारण और सामग्री साझा करने के लिए कई विकल्पों की जांच के लिए शुरुआती बिंदु के रूप में काम कर सकता है।

पहले के काम में, शोधकर्ताओं ने विभिन्न कार्यों को संभालने के लिए GAN और अन्य गहन शिक्षण मॉडल का उपयोग किया, जैसे डेटा से फीचर निष्कर्षण, पाठ और छवि डेटा विभाजन, लंबे पाठ अर्क में शब्द का पता लगाना और संपीड़ित JPEG छवियां बनाना। यह नया मॉडल एक कम्प्यूटेशनल मुद्दे से निपटने के लिए इन पहले की पहलों का विस्तार करता है जिस पर अब तक साहित्य में बहुत कम ध्यान दिया गया है। पाठ विवरण से छवियां बनाने के लिए अन्य शोध टीमों द्वारा उपयोग की जाने वाली केवल कुछ गहन शिक्षण-आधारित तकनीकें संपीड़ित छवियां उत्पन्न करती हैं। इसके अतिरिक्त, छवियों को बनाने और संपीड़ित करने के लिए अधिकांश मौजूदा सिस्टम स्वतंत्र रूप से ऐसा करने की समस्या का सामना करते हैं, जिससे कंप्यूटिंग और प्रसंस्करण समय का कार्यभार बढ़ जाता है।

सुझाया गया T2CI-GAN एक गहन शिक्षण-आधारित मॉडल है जो पाठ विवरण से संपीड़ित दृश्य छवियों को इसके इनपुट के रूप में आउटपुट करता है। यह पारंपरिक दृष्टिकोण से एक महत्वपूर्ण विचलन है जो पाठ विवरण से दृश्य प्रतिनिधित्व उत्पन्न करता है और उन छवियों को और संपीड़ित करता है। मॉडल की प्राथमिक बिक्री विशेषता पाठ विवरण को मैप करने और सीधे संपीड़ित छवियां उत्पन्न करने की क्षमता है।

अनुसंधान टीम ने पाठ विवरण से संपीड़ित छवियां बनाने के लिए दो GAN-आधारित मॉडल बनाए। इनमें से पहले मॉडल को प्रशिक्षित करने के लिए संपीड़ित JPEG DCT (असतत कोसाइन ट्रांसफॉर्म) छवियों का एक डेटासेट का उपयोग किया गया था। प्रशिक्षण के बाद, यह मॉडल पाठ विवरण से संपीड़ित छवियां तैयार कर सकता है। दूसरी ओर, शोधकर्ताओं के दूसरे GAN-आधारित मॉडल को प्रशिक्षित करने के लिए RGB फ़ोटो के एक सेट का उपयोग किया गया था। इस मॉडल ने छवियों के जेपीईजी-संपीड़ित डीसीटी प्रतिनिधित्व का उत्पादन करने की क्षमता विकसित की, जो स्पष्ट रूप से एक समीकरण के रूप में डेटा बिंदुओं की एक श्रृंखला को व्यक्त करता है। सुझाए गए मॉडल का मूल्यांकन प्रसिद्ध ओपन-सोर्स बेंचमार्क डेटासेट ऑक्सफोर्ड-102 फ्लावर पिक्चर्स के आरजीबी और जेपीईजी दोनों संपीड़ित संस्करणों का उपयोग करके किया गया था। जेपीईजी-संपीड़ित डोमेन में, मॉडल ने अत्यधिक उत्साहजनक अत्याधुनिक प्रदर्शन हासिल किया।

जब आपूर्ति की गई तस्वीरें स्मार्टफोन या अन्य स्मार्ट उपकरणों के साथ आसानी से साझा करने का इरादा रखती हैं, तो T2CI-GAN मॉडल का उपयोग स्वचालित छवि पुनर्प्राप्ति प्रणालियों को बढ़ाने के लिए किया जा सकता है। इसके अतिरिक्त, यह मीडिया और संचार विशेषज्ञों के लिए एक मूल्यवान उपकरण हो सकता है, जो उन्हें ऑनलाइन पोस्ट करने के लिए विशेष तस्वीरों के हल्के संस्करण ढूंढने में सक्षम बनाता है।

हाल की तकनीकी प्रगति के कारण, हमारी दुनिया मशीन-टू-मशीन और मानव-टू-मशीन कनेक्शन की ओर बढ़ रही है। इस स्थिति में T2CI-GAN महत्वपूर्ण होगा क्योंकि मशीनों को तथ्यों को पढ़ने या समझने के लिए संपीड़ित रूप में तथ्यों की आवश्यकता होती है। मॉडल वर्तमान में केवल JPEG संपीड़ित रूप में फ़ोटो बनाता है। इस प्रकार शोधकर्ताओं का दीर्घकालिक लक्ष्य संपीड़न एल्गोरिदम पर प्रतिबंध के बिना किसी भी संपीड़ित रूप में छवियों का उत्पादन करने के लिए इसका विस्तार करना है। टीम का शोध लेख प्रकाशित होने के बाद, मॉडल का स्रोत कोड आम जनता के लिए भी उपलब्ध कराया जाएगा।

यह लेख शोध पत्र के आधार पर मार्कटेकपोस्ट स्टाफ द्वारा एक शोध सारांश लेख के रूप में लिखा गया है।T2CI-GAN: जेनरेटिव एडवरसैरियल नेटवर्क का उपयोग करके टेक्स्ट टू कंप्रेस्ड इमेज जेनरेशन'। इस शोध का सारा श्रेय इस परियोजना के शोधकर्ताओं को जाता है। इसकी जाँच पड़ताल करो काग़ज़ और संदर्भ आलेख.

कृपया शामिल होना न भूलें हमारा एमएल सब्रेडिट

खुशबू गुप्ता मार्कटेकपोस्ट में कंसल्टिंग इंटर्न हैं। वह वर्तमान में भारतीय प्रौद्योगिकी संस्थान (आईआईटी), गोवा से बी.टेक कर रही है। वह मशीन लर्निंग, नेचुरल लैंग्वेज प्रोसेसिंग और वेब डेवलपमेंट के क्षेत्र में भावुक हैं। वह कई चुनौतियों में भाग लेकर तकनीकी क्षेत्र के बारे में अधिक जानने का आनंद लेती है।

<!–

समय टिकट: अक्टूबर 29अक्टूबर 31