OpenAI: शीर्ष स्तरीय AI को प्रशिक्षित करना और कॉपीराइट से बचना असंभव है

OpenAI: शीर्ष स्तरीय AI को प्रशिक्षित करना और कॉपीराइट से बचना असंभव है

ओपनएआई: शीर्ष स्तरीय एआई को प्रशिक्षित करना और कॉपीराइट प्लेटोब्लॉकचेन डेटा इंटेलिजेंस से बचना असंभव है। लंबवत खोज. ऐ.

ओपनएआई ने कहा है कि लोगों के कॉपीराइट किए गए काम का उपयोग किए बिना आज की जरूरतों को पूरा करने वाले शीर्ष स्तरीय तंत्रिका नेटवर्क बनाना "असंभव" होगा। माइक्रोसॉफ्ट समर्थित लैब, जिसका मानना ​​है कि वह अपने मॉडलों को प्रशिक्षित करने के लिए उक्त सामग्री को कानूनी रूप से एकत्रित कर रही है, ने कहा कि कॉपीराइट से बाहर सार्वजनिक डोमेन सामग्री का उपयोग करने से घटिया एआई सॉफ्टवेयर का परिणाम होगा।

यह दावा ऐसे समय में आया है जब मशीन-लर्निंग दुनिया कॉपीराइट कानून की ईंट की दीवार पर तेजी से आगे बढ़ रही है। इसी सप्ताह आईईईई की एक रिपोर्ट में निष्कर्ष निकाला गया कि मिडजर्नी और ओपनएआई की DALL-E 3, टेक्स्ट संकेतों को छवियों में बदलने वाली दो प्रमुख एआई सेवाएं, अपने प्रशिक्षण डेटा के आधार पर फिल्मों और वीडियो गेम से कॉपीराइट किए गए दृश्यों को फिर से बना सकती हैं।

RSI अध्ययनएआई विशेषज्ञ और आलोचक गैरी मार्कस और एक डिजिटल चित्रकार रीड साउथेन द्वारा सह-लेखक, "साहित्यिक चोरी आउटपुट" के कई उदाहरणों का दस्तावेजीकरण करता है जिसमें ओपनएआई और डीएएलएल-ई 3 फिल्मों के दृश्यों, प्रसिद्ध चित्रों के काफी समान संस्करण प्रस्तुत करते हैं। अभिनेता, और वीडियो गेम सामग्री।

मार्कस और साउथेन का कहना है कि यह लगभग निश्चित है कि मिडजॉर्नी और ओपनएआई ने अपने संबंधित एआई इमेज-जेनरेशन मॉडल को कॉपीराइट सामग्री पर प्रशिक्षित किया है।

क्या यह कानूनी है, और क्या एआई विक्रेताओं या उनके ग्राहकों को उत्तरदायी ठहराए जाने का जोखिम है, यह विवादास्पद प्रश्न बना हुआ है। हालाँकि, रिपोर्ट के निष्कर्ष कॉपीराइट उल्लंघन के लिए मिडजर्नी और DALL-E निर्माता OpenAI पर मुकदमा करने वालों को बल दे सकते हैं।

जब वे कोई छवि बनाते हैं तो उपयोगकर्ताओं को यह पता नहीं चल पाता है कि वे उल्लंघनकारी हैं या नहीं

उन्होंने लिखा, "ओपनएआई और मिडजर्नी दोनों ऐसी सामग्री तैयार करने में पूरी तरह सक्षम हैं जो कॉपीराइट और ट्रेडमार्क का उल्लंघन करती प्रतीत होती हैं।" “ये सिस्टम उपयोगकर्ताओं को ऐसा करने पर सूचित नहीं करते हैं। वे अपने द्वारा निर्मित छवियों की उत्पत्ति के बारे में कोई जानकारी नहीं देते हैं। उपयोगकर्ता यह नहीं जान सकते कि जब वे कोई छवि बनाते हैं, तो क्या वे उल्लंघनकारी हैं।"

किसी भी बिज़ ने अपने एआई मॉडल बनाने के लिए उपयोग किए गए प्रशिक्षण डेटा का पूरी तरह से खुलासा नहीं किया है।

यह ठीक नहीं है डिजिटल कलाकार एआई कंपनियों को चुनौती दे रहे हैं। हाल ही में न्यूयॉर्क टाइम्स ओपनएआई पर मुकदमा दायर किया क्योंकि इसका चैटजीपीटी टेक्स्ट मॉडल अखबार के भुगतान किए गए लेखों की लगभग शब्दशः प्रतियां उगल देगा। पुस्तक लेखक जैसे ही दावे दायर किए हैं सॉफ्टवेयर डेवलपर्स.

पूर्व अनुसंधान ने संकेत दिया है कि OpenAI के ChatGPT को प्रशिक्षण पाठ को पुन: प्रस्तुत करने के लिए राजी किया जा सकता है। और माइक्रोसॉफ्ट और गिटहब पर मुकदमा करने वालों का तर्क है कि कोपायलट कोडिंग सहायक मॉडल कमोबेश शब्दशः कोड को पुन: पेश करेगा।

साउथेन ने देखा कि मिडजॉर्नी उन ग्राहकों से शुल्क ले रहा है जो उल्लंघनकारी सामग्री बना रहे हैं और सदस्यता राजस्व के माध्यम से मुनाफा कमा रहे हैं। "एमजे [मिडजॉर्नी] उपयोगकर्ताओं को संभावित रूप से होने वाले कॉपीराइट उल्लंघन के लिए छवियों को बेचने की ज़रूरत नहीं है, एमजे पहले से ही इसके निर्माण से लाभ कमाता है," उन्होंने कहा मत था, आईईईई रिपोर्ट में दिए गए तर्क की प्रतिध्वनि।

OpenAI सदस्यता शुल्क भी लेता है और इस प्रकार उसी तरह मुनाफा कमाता है। ओपनएआई और मिडजॉर्नी ने भी टिप्पणी के अनुरोधों का जवाब नहीं दिया।

हालाँकि, OpenAI ने सोमवार को एक प्रकाशित किया ब्लॉग पोस्ट न्यूयॉर्क टाइम्स के मुकदमे को संबोधित करते हुए, एआई विक्रेता ने कहा कि इसमें योग्यता की कमी है। आश्चर्यजनक रूप से, लैब ने कहा कि यदि उसके तंत्रिका नेटवर्क ने उल्लंघनकारी सामग्री उत्पन्न की, तो यह एक "बग" था।

कुल मिलाकर, अपस्टार्ट ने आज तर्क दिया कि: यह समाचार संगठनों के साथ सक्रिय रूप से सहयोग करता है; कॉपीराइट डेटा पर प्रशिक्षण कॉपीराइट कानून के तहत उचित उपयोग की रक्षा के लिए योग्य है; "'रिगर्जिटेशन' एक दुर्लभ बग है जिसे हम शून्य पर लाने के लिए काम कर रहे हैं"; और न्यूयॉर्क टाइम्स के पास पाठ पुनरुत्पादन के चुनिंदा उदाहरण हैं जो विशिष्ट व्यवहार का प्रतिनिधित्व नहीं करते हैं।

कानून फैसला करेगा

कैलिफोर्निया के सांता क्लारा विश्वविद्यालय में कानून विभाग के प्रोफेसर टायलर ओचोआ ने बताया रजिस्टर जबकि आईईईई रिपोर्ट के निष्कर्षों से कॉपीराइट दावों वाले वादियों को मदद मिलने की संभावना है, उन्हें ऐसा नहीं करना चाहिए - क्योंकि लेख के लेखकों ने, उनके विचार में, जो हो रहा है उसे गलत तरीके से प्रस्तुत किया है।

"वे लिखते हैं: 'क्या छवि-निर्माण मॉडल को कॉपीराइट सामग्री के आधार पर साहित्यिक चोरी के आउटपुट तैयार करने के लिए प्रेरित किया जा सकता है? ...[डब्ल्यू]ई ने पाया कि उत्तर स्पष्ट रूप से हां है, यहां तक ​​कि सीधे तौर पर साहित्यिक चोरी के आउटपुट की मांग किए बिना भी।''

ओचोआ ने उस निष्कर्ष पर सवाल उठाते हुए तर्क दिया कि रिपोर्ट के लेखकों ने जो संकेत दिए हैं, वे दर्शाते हैं कि वे वास्तव में सीधे तौर पर साहित्यिक चोरी के निष्कर्षों की मांग कर रहे हैं। प्रत्येक संकेत में एक विशिष्ट फिल्म के शीर्षक का उल्लेख होता है, पहलू अनुपात निर्दिष्ट होता है, और एक मामले को छोड़कर सभी में, 'मूवी' और 'स्क्रीनशॉट' या 'स्क्रीनकैप' शब्द होते हैं। (एक अपवाद उस छवि का वर्णन करता है जिसे वे दोहराना चाहते थे। )"

कानून प्रोफेसर ने कहा कि कॉपीराइट कानून का मुद्दा यह निर्धारित करना है कि इन साहित्यिक चोरी के आउटपुट के लिए कौन जिम्मेदार है: एआई मॉडल के निर्माता या वे लोग जिन्होंने एआई मॉडल से एक लोकप्रिय दृश्य को पुन: पेश करने के लिए कहा।

ओचोआ ने बताया, "जेनरेटिव एआई मॉडल मूल आउटपुट उत्पन्न करने में सक्षम है, और यह उन दृश्यों को पुन: प्रस्तुत करने में भी सक्षम है जो संकेत दिए जाने पर कॉपीराइट इनपुट के दृश्यों से मिलते जुलते हैं।" "इसका विश्लेषण अंशदायी उल्लंघन के मामले के रूप में किया जाना चाहिए: जिस व्यक्ति ने मॉडल को प्रेरित किया वह प्राथमिक उल्लंघनकर्ता है, और मॉडल के निर्माता केवल तभी उत्तरदायी हैं यदि उन्हें प्राथमिक उल्लंघन के बारे में अवगत कराया गया था और उन्होंने रोकने के लिए उचित कदम नहीं उठाए। यह।"

ओचोआ ने कहा कि जेनरेटिव एआई मॉडल विशिष्ट छवियों को पुन: पेश करने की अधिक संभावना रखते हैं जब उनके प्रशिक्षण डेटा सेट में उन छवियों के कई उदाहरण होते हैं।

“इस मामले में, यह अत्यधिक संभावना नहीं है कि प्रशिक्षण डेटा में संपूर्ण फिल्में शामिल हों; यह कहीं अधिक संभावना है कि प्रशिक्षण डेटा में उन फिल्मों के स्थिर चित्र शामिल थे जिन्हें फिल्म के प्रचार चित्र के रूप में वितरित किया गया था, ”उन्होंने कहा। “उन छवियों को प्रशिक्षण डेटा में कई बार पुन: प्रस्तुत किया गया क्योंकि मीडिया आउटलेट्स को उन छवियों को प्रचार उद्देश्यों के लिए वितरित करने के लिए प्रोत्साहित किया गया था और उन्होंने ऐसा किया।

"कॉपीराइट स्वामी के लिए यह मौलिक रूप से अनुचित होगा कि वह प्रचार उद्देश्यों के लिए स्थिर छवियों के व्यापक प्रसार को प्रोत्साहित करे और फिर शिकायत करे कि उन छवियों की एआई द्वारा नकल की जा रही है क्योंकि प्रशिक्षण डेटा में उन्हीं छवियों की कई प्रतियां शामिल थीं।"

ओचोआ ने कहा कि एआई मॉडल से इस तरह के व्यवहार को सीमित करने के लिए कदम हैं। "सवाल यह है कि क्या उन्हें ऐसा करना चाहिए, जब प्रॉम्प्ट में प्रवेश करने वाला व्यक्ति स्पष्ट रूप से एआई को एक पहचानने योग्य छवि को पुन: पेश करना चाहता था, और मूल स्थिर छवियों का उत्पादन करने वाले फिल्म स्टूडियो स्पष्ट रूप से उन स्थिर छवियों को व्यापक रूप से वितरित करना चाहते थे ," उसने कहा।

“एक बेहतर सवाल यह होगा: ऐसा कितनी बार होता है जब संकेत किसी विशिष्ट फिल्म का उल्लेख नहीं करता है या किसी विशिष्ट चरित्र या दृश्य का वर्णन नहीं करता है? मुझे लगता है कि एक निष्पक्ष शोधकर्ता शायद यह पाएगा कि इसका उत्तर शायद ही कभी (शायद लगभग कभी नहीं) होगा।''

फिर भी, कॉपीराइट सामग्री इन मॉडलों को अच्छी तरह से काम करने के लिए आवश्यक ईंधन प्रतीत होती है।

ओपनएआई ने लॉर्ड्स में अपना बचाव किया

के जवाब में एक पूछताछ यूके की हाउस ऑफ लॉर्ड्स कम्युनिकेशंस एंड डिजिटल कमेटी द्वारा एआई मॉडल के जोखिमों और अवसरों पर ओपनएआई ने एक प्रस्तुत किया प्रस्तुत [पीडीएफ] चेतावनी देता है कि इसके मॉडल कॉपीराइट सामग्री पर प्रशिक्षित हुए बिना काम नहीं करेंगे।

सुपर लैब ने कहा, "क्योंकि कॉपीराइट आज लगभग हर तरह की मानवीय अभिव्यक्ति को कवर करता है - जिसमें ब्लॉग पोस्ट, तस्वीरें, फोरम पोस्ट, सॉफ्टवेयर कोड के स्क्रैप और सरकारी दस्तावेज़ शामिल हैं - कॉपीराइट सामग्री का उपयोग किए बिना आज के अग्रणी एआई मॉडल को प्रशिक्षित करना असंभव होगा।" .

"प्रशिक्षण डेटा को एक सदी से भी पहले बनाई गई सार्वजनिक डोमेन पुस्तकों और चित्रों तक सीमित करने से एक दिलचस्प प्रयोग हो सकता है, लेकिन यह एआई सिस्टम प्रदान नहीं करेगा जो आज के नागरिकों की जरूरतों को पूरा करता है।"

एआई बिज़ ने कहा कि उसका मानना ​​है कि वह कॉपीराइट कानून का अनुपालन करता है और कॉपीराइट सामग्री पर प्रशिक्षण वैध है, हालांकि यह अनुमति देता है कि "निर्माताओं को समर्थन और सशक्त बनाने के लिए अभी भी काम किया जाना बाकी है।"

वह भावना, जो कॉपीराइट कार्य के तर्कसंगत उचित उपयोग के लिए मुआवजे के बारे में नैतिक चिंताओं की कूटनीतिक मान्यता की तरह लगती है, को आईईईई रिपोर्ट के दावे के साथ माना जाना चाहिए कि, "हमने सबूत खोजे हैं कि मिडजर्नी के एक वरिष्ठ सॉफ्टवेयर इंजीनियर ने भाग लिया था।" बातचीत फरवरी 2022 में 'एक बेहतर ट्यून किए गए कोडेक्स के माध्यम से' डेटा को 'लॉन्ड्रिंग' करके कॉपीराइट कानून से कैसे बचा जाए, इसके बारे में।''

आईईईई रिपोर्ट के सह-लेखक मार्कस ने यूके में अपनी वर्तमान व्यावसायिक प्रथाओं के लिए नियामक हरी बत्ती प्राप्त करने के ओपनएआई के प्रयास पर संदेह व्यक्त किया।

"असभ्य अनुवाद: यदि आप हमें चोरी नहीं करने देंगे तो हम बहुत अमीर नहीं बन पाएंगे, इसलिए कृपया चोरी को अपराध न बनाएं!" उन्होंने एक सोशल मीडिया में लिखा पद. “हमें भुगतान मत करवाओ लाइसेंस देना फीस, या तो! निश्चित रूप से नेटफ्लिक्स लाइसेंस शुल्क के रूप में प्रति वर्ष अरबों डॉलर का भुगतान कर सकता है, लेकिन we नहीं करना चाहिए! हमारे लिए और पैसा, मोअर!”

OpenAI ने एंटरप्राइज ChatGPT और API ग्राहकों को क्षतिपूर्ति देने की पेशकश की है कॉपीराइट दावों के विरुद्ध, हालाँकि तब नहीं जब ग्राहक या ग्राहक के अंतिम उपयोगकर्ता "जानते थे या जानना चाहिए था कि आउटपुट उल्लंघनकारी है या उल्लंघन होने की संभावना है" या यदि ग्राहक ने सुरक्षा सुविधाओं को दरकिनार कर दिया है, अन्य सीमाओं के बीच. इस प्रकार, DALL-E 3 को एक प्रसिद्ध फिल्म दृश्य को फिर से बनाने के लिए कहना - जिसके बारे में उपयोगकर्ताओं को पता होना चाहिए कि संभवतः कॉपीराइट द्वारा कवर किया गया है - क्षतिपूर्ति के लिए योग्य नहीं होगा।

मिडजॉर्नी ने विपरीत दृष्टिकोण अपनाया है, संबंधित दावों से उत्पन्न होने वाली कानूनी लागतों की वसूली के लिए उल्लंघन में शामिल ग्राहकों की तलाश करने और उन पर मुकदमा करने का वादा किया है।

"यदि आप जानबूझकर किसी और की बौद्धिक संपदा का उल्लंघन करते हैं, और इसके लिए हमें पैसे खर्च करने पड़ते हैं, तो हम आपको ढूंढने आएंगे और आपसे वह पैसा वसूल करेंगे," मिडजॉर्नीज़ सेवा की शर्तें राज्य। “हम अन्य चीजें भी कर सकते हैं, जैसे कि आपको हमारी कानूनी फीस का भुगतान करने के लिए अदालत बुलाने का प्रयास करना। ऐसा मत करो।” ®

समय टिकट:

से अधिक रजिस्टर