टेक्स्ट-टू-इमेज मॉडल नकली डेटा के साथ अधिक कुशलता से सीखते हैं

टेक्स्ट-टू-इमेज मॉडल नकली डेटा के साथ अधिक कुशलता से सीखते हैं

टेक्स्ट-टू-इमेज मॉडल नकली डेटा प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ अधिक कुशलता से सीखते हैं। लंबवत खोज. ऐ.

एमआईटी और गूगल के कंप्यूटर वैज्ञानिकों के अनुसार, सिंथेटिक छवियां एआई मॉडल को वास्तविक स्नैप की तुलना में दृश्य प्रतिनिधित्व को अधिक सटीक रूप से सीखने में मदद कर सकती हैं। परिणाम तंत्रिका नेटवर्क है जो आपके लिखित विवरण से चित्र बनाने में बेहतर है।

सभी टेक्स्ट-टू-इमेज मॉडल के केंद्र में वस्तुओं को शब्दों में मैप करने की उनकी क्षमता है। एक इनपुट टेक्स्ट प्रॉम्प्ट दिया गया है - जैसे कि "धूप वाले दिन में एक बच्चा लाल गुब्बारा पकड़े हुए है," उदाहरण के लिए - उन्हें विवरण का अनुमान लगाते हुए एक छवि लौटानी चाहिए। ऐसा करने के लिए, उन्हें यह सीखने की ज़रूरत है कि एक बच्चा, लाल गुब्बारा और धूप वाला दिन कैसा दिख सकता है। 

एमआईटी-गूगल टीम का मानना ​​है कि तंत्रिका नेटवर्क वास्तविक स्नैप का उपयोग करने के विपरीत एआई-निर्मित चित्रों पर प्रशिक्षित होने के बाद संकेतों से अधिक सटीक छवियां उत्पन्न कर सकते हैं। इसे प्रदर्शित करने के लिए, समूह विकसित हुआ स्थिरप्रतिनिधि, जो सीखता है कि लोकप्रिय ओपन सोर्स टेक्स्ट-टू-इमेज मॉडल स्टेबल डिफ्यूजन द्वारा उत्पन्न चित्रों से वर्णनात्मक लिखित कैप्शन को सही संबंधित छवियों में कैसे बदलना है।

दूसरे शब्दों में: अन्य मॉडलों को सिखाने के लिए एक स्थापित, प्रशिक्षित एआई मॉडल का उपयोग करना।

वैज्ञानिकों के प्री-प्रिंट पेपर के माध्यम से जारी किया गया arXiv पिछले महीने के अंत में, यह कहता है: "केवल सिंथेटिक छवियों के साथ, StableRep द्वारा सीखे गए अभ्यावेदन, बड़े पैमाने पर डेटासेट पर टेक्स्ट प्रॉम्प्ट और संबंधित वास्तविक छवियों के समान सेट का उपयोग करके SimCLR और CLIP द्वारा सीखे गए अभ्यावेदन के प्रदर्शन को पार करते हैं।" SimCLR और CLIP मशीन-लर्निंग एल्गोरिदम हैं जिनका उपयोग टेक्स्ट प्रॉम्प्ट से चित्र बनाने के लिए किया जा सकता है।

पेपर जारी है, "जब हम भाषा पर्यवेक्षण को आगे जोड़ते हैं, तो 20 मिलियन सिंथेटिक छवियों के साथ प्रशिक्षित स्टेबलरेप 50 मिलियन वास्तविक छवियों के साथ प्रशिक्षित सीएलआईपी की तुलना में बेहतर सटीकता प्राप्त करता है।"

मशीन-लर्निंग एल्गोरिदम संख्याओं की एक श्रृंखला के रूप में वस्तुओं की विशेषताओं और शब्दों के अर्थों के बीच संबंधों को पकड़ते हैं। StableRep का उपयोग करके, शोधकर्ता इस प्रक्रिया को अधिक सावधानी से नियंत्रित कर सकते हैं - एक ही प्रॉम्प्ट पर स्टेबल डिफ्यूजन द्वारा उत्पन्न कई छवियों पर एक मॉडल को प्रशिक्षित करना। इसका मतलब है कि मॉडल अधिक विविध दृश्य प्रतिनिधित्व सीख सकता है, और देख सकता है कि कौन सी छवियां दूसरों की तुलना में संकेतों से अधिक निकटता से मेल खाती हैं। 

मुझे लगता है कि हमारे पास वास्तविक डेटा पर प्रशिक्षित कुछ मॉडलों का एक पारिस्थितिकी तंत्र होगा, कुछ सिंथेटिक पर

अध्ययन के प्रमुख शोधकर्ता और एमआईटी में इलेक्ट्रिकल इंजीनियरिंग में पीएचडी छात्र लिजी फैन ने कहा, "हम मॉडल को संदर्भ और भिन्नता के माध्यम से उच्च-स्तरीय अवधारणाओं के बारे में अधिक जानने के लिए सिखा रहे हैं, न कि केवल डेटा फीड करने के लिए।" समझाया इस सप्ताह। "एक से अधिक छवियों का उपयोग करते समय, सभी एक ही पाठ से उत्पन्न होती हैं, सभी को एक ही अंतर्निहित चीज़ के चित्रण के रूप में माना जाता है, मॉडल छवियों के पीछे की अवधारणाओं में गहराई से गोता लगाता है - वस्तु कहें - न कि केवल उनके पिक्सेल।"

जैसा कि ऊपर उल्लेख किया गया है, इस दृष्टिकोण का यह भी अर्थ है कि आप अपने तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए वास्तविक छवियों की तुलना में कम सिंथेटिक छवियों का उपयोग कर सकते हैं, और बेहतर परिणाम प्राप्त कर सकते हैं - जो एआई डेवलपर्स के लिए फायदे का सौदा है।

StableRep जैसी विधियों का मतलब है कि टेक्स्ट-टू-इमेज मॉडल को एक दिन सिंथेटिक डेटा पर प्रशिक्षित किया जा सकता है। यह डेवलपर्स को वास्तविक छवियों पर कम भरोसा करने की अनुमति देगा, और यदि एआई इंजन उपलब्ध ऑनलाइन संसाधनों को समाप्त कर देते हैं तो यह आवश्यक हो सकता है।

"मुझे लगता है कि [सिंथेटिक छवियों पर एआई मॉडल का प्रशिक्षण] तेजी से आम हो जाएगा," पेपर के सह-लेखक और एमआईटी में कंप्यूटर विज़न के एसोसिएट प्रोफेसर फिलिप इसोला ने बताया रजिस्टर. "मुझे लगता है कि हमारे पास वास्तविक डेटा पर प्रशिक्षित कुछ मॉडलों का एक पारिस्थितिकी तंत्र होगा, कुछ सिंथेटिक पर, और शायद अधिकांश मॉडल दोनों पर प्रशिक्षित होंगे।"

केवल एआई-जनरेटेड छवियों पर भरोसा करना मुश्किल है क्योंकि उनकी गुणवत्ता और रिज़ॉल्यूशन अक्सर वास्तविक तस्वीरों से भी बदतर होती है। उन्हें उत्पन्न करने वाले टेक्स्ट-टू-इमेज मॉडल अन्य तरीकों से भी सीमित हैं। स्थिर प्रसार हमेशा ऐसी छवियां उत्पन्न नहीं करता है जो पाठ संकेतों के प्रति वफादार हों।

इसोला ने चेतावनी दी कि सिंथेटिक छवियों का उपयोग कॉपीराइट उल्लंघन के संभावित मुद्दे को नहीं रोकता है, क्योंकि उन्हें उत्पन्न करने वाले मॉडल संभवतः संरक्षित सामग्रियों पर प्रशिक्षित किए गए थे।

“सिंथेटिक डेटा में कॉपीराइट डेटा की सटीक प्रतियां शामिल हो सकती हैं। हालाँकि, सिंथेटिक डेटा आईपी और गोपनीयता के मुद्दों से निपटने के लिए नए अवसर भी प्रदान करता है, क्योंकि हम संवेदनशील विशेषताओं को हटाने के लिए जेनरेटिव मॉडल को संपादित करके संभावित रूप से इसमें हस्तक्षेप कर सकते हैं, ”उन्होंने समझाया।

टीम ने यह भी चेतावनी दी कि एआई-जनरेटेड छवियों पर प्रशिक्षण प्रणालियाँ संभावित रूप से उनके अंतर्निहित टेक्स्ट-टू-इमेज मॉडल द्वारा सीखे गए पूर्वाग्रहों को बढ़ा सकती हैं। ®

समय टिकट:

से अधिक रजिस्टर