अमेज़ॅन मैकेनिकल तुर्क जैसी क्राउडसोर्स सेवाओं के माध्यम से काम पर रखे गए कर्मचारी अपने कार्यों को पूरा करने के लिए बड़े भाषा मॉडल का उपयोग कर रहे हैं - जिसका भविष्य में एआई मॉडल पर नकारात्मक प्रभाव पड़ सकता है।
एआई के लिए डेटा महत्वपूर्ण है। डेवलपर्स को सटीक और विश्वसनीय मशीन लर्निंग सिस्टम बनाने के लिए स्वच्छ, उच्च गुणवत्ता वाले डेटासेट की आवश्यकता होती है। हालाँकि, मूल्यवान, शीर्ष स्तर का डेटा संकलित करना कठिन हो सकता है। कंपनियां अक्सर सस्ते कर्मचारियों के समूह को दोहराए जाने वाले कार्यों को करने का निर्देश देने के लिए अमेज़ॅन मैकेनिकल तुर्क जैसे तीसरे पक्ष के प्लेटफार्मों की ओर रुख करती हैं - जैसे कि वस्तुओं को लेबल करना, स्थितियों का वर्णन करना, अंशों को ट्रांसक्रिप्ट करना और पाठ को एनोटेट करना।
उनके आउटपुट को साफ किया जा सकता है और एक मॉडल में डाला जा सकता है ताकि उस काम को बहुत बड़े, स्वचालित पैमाने पर पुन: पेश करने के लिए प्रशिक्षित किया जा सके।
एआई मॉडल इस प्रकार मानव श्रम के आधार पर बनाए जाते हैं: लोग कड़ी मेहनत करते हैं, एआई सिस्टम के लिए प्रशिक्षण के उदाहरण प्रदान करते हैं जिनका उपयोग निगम अरबों डॉलर बनाने के लिए कर सकते हैं।
लेकिन स्विट्जरलैंड में इकोले पॉलिटेक्निक फ़ेडेरेल डी लॉज़ेन (ईपीएफएल) के शोधकर्ताओं द्वारा किए गए एक प्रयोग से यह निष्कर्ष निकला है कि ये क्राउडसोर्स कर्मचारी एआई सिस्टम का उपयोग कर रहे हैं - जैसे कि ओपनएआई के चैटबॉट चैटजीपीटी - ऑनलाइन अजीब काम करने के लिए।
किसी मॉडल को उसके स्वयं के आउटपुट पर प्रशिक्षित करने की अनुशंसा नहीं की जाती है। हम देख सकते हैं कि एआई मॉडल को लोगों द्वारा नहीं, बल्कि अन्य एआई मॉडल द्वारा उत्पन्न डेटा पर प्रशिक्षित किया जा रहा है - शायद वही मॉडल भी। इससे विनाशकारी आउटपुट गुणवत्ता, अधिक पूर्वाग्रह और अन्य अवांछित प्रभाव हो सकते हैं।
प्रयोग
शिक्षाविदों ने 44 मेडिकल शोध पत्रों के सार को सारांशित करने के लिए 16 मैकेनिकल तुर्क सर्फ़ों की भर्ती की, और अनुमान लगाया कि श्रमिकों द्वारा प्रस्तुत पाठ के 33 से 46 प्रतिशत अंश बड़े भाषा मॉडल का उपयोग करके तैयार किए गए थे। भीड़ में काम करने वालों को अक्सर कम वेतन दिया जाता है - स्वचालित रूप से प्रतिक्रियाएं उत्पन्न करने के लिए एआई का उपयोग करने से उन्हें तेजी से काम करने और वेतन बढ़ाने के लिए अधिक नौकरियां लेने की अनुमति मिलती है।
स्विस टीम ने यह अनुमान लगाने के लिए एक क्लासिफायरियर को प्रशिक्षित किया कि क्या तुर्कर्स की प्रस्तुतियाँ मानव-या एआई-जनित थीं। शिक्षाविदों ने यह पता लगाने के लिए अपने कार्यकर्ताओं के कीस्ट्रोक्स को भी लॉग किया कि क्या सर्फ़ों ने प्लेटफ़ॉर्म पर पाठ की प्रतिलिपि बनाई और चिपकाया, या अपनी प्रविष्टियाँ स्वयं टाइप कीं। इस बात की संभावना हमेशा बनी रहती है कि कोई व्यक्ति चैटबॉट का उपयोग करता है और फिर मैन्युअल रूप से आउटपुट टाइप करता है - लेकिन हमारा मानना है कि यह संभव नहीं है।
"हमने एक बहुत ही विशिष्ट पद्धति विकसित की है जो हमारे परिदृश्य में सिंथेटिक पाठ का पता लगाने के लिए बहुत अच्छी तरह से काम करती है," मनोएल रिबेरो, सह-लेखक अध्ययन और ईपीएफएल में एक पीएचडी छात्र ने बताया रजिस्टर इस सप्ताह.
"जबकि पारंपरिक तरीके 'किसी भी संदर्भ में' सिंथेटिक पाठ का पता लगाने की कोशिश करते हैं, हमारा दृष्टिकोण हमारे विशिष्ट परिदृश्य में सिंथेटिक पाठ का पता लगाने पर केंद्रित है।"
क्लासिफायर यह पहचानने में सही नहीं है कि किसी ने एआई प्रणाली का उपयोग किया है या अपना काम स्वयं तैयार किया है। शिक्षाविदों ने अपने क्लासिफायरियर के आउटपुट को कीस्ट्रोक डेटा के साथ जोड़ दिया ताकि यह अधिक निश्चित हो सके कि जब कोई बॉट से कॉपी-पेस्ट करता है या अपनी खुद की सामग्री तैयार करता है।
मानव डेटा स्वर्ण मानक है, क्योंकि हम इंसानों की ही परवाह करते हैं
रिबेरो ने हमें बताया, "हम एमतुर्क से एकत्र किए गए कीस्ट्रोक डेटा का उपयोग करके अपने परिणामों को सत्यापित करने में कामयाब रहे।" "उदाहरण के लिए, हमने पाया कि सभी पाठ जो कॉपी-पेस्ट नहीं किए गए थे, उन्हें हमारे द्वारा 'वास्तविक' के रूप में वर्गीकृत किया गया था, जो बताता है कि कुछ गलत सकारात्मक बातें हैं।"
परीक्षण चलाने के लिए उपयोग किया गया कोड और डेटा यहां पाया जा सकता है, GitHub पर।
एक और कारण है कि यह प्रयोग पूरी तरह से निष्पक्ष प्रतिनिधित्व करने की संभावना नहीं है कि कितने कर्मचारी वास्तव में क्राउडसोर्स कार्यों को स्वचालित करने के लिए एआई का उपयोग कर रहे हैं। लेखक ध्यान देते हैं कि पाठ सारांशीकरण कार्य अन्य प्रकार की नौकरियों की तुलना में बड़े भाषा मॉडल के लिए उपयुक्त है - जिसका अर्थ है कि उनके परिणाम चैटजीपीटी जैसे टूल का उपयोग करने वाले अधिक संख्या में श्रमिकों की ओर अधिक झुके हो सकते हैं।
46 श्रमिकों की 44 प्रतिक्रियाओं का उनका डेटासेट भी छोटा है। श्रमिकों को प्रत्येक पाठ सारांश के लिए $1 का भुगतान किया गया था, जो फिर से केवल एआई के उपयोग को प्रोत्साहित कर सकता है।
शोधकर्ताओं ने तर्क दिया कि बड़े भाषा मॉडल खराब हो जाएंगे यदि उन्हें क्राउडसोर्स प्लेटफार्मों से एकत्रित एआई द्वारा उत्पन्न नकली सामग्री पर तेजी से प्रशिक्षित किया जाएगा। ओपनएआई जैसे संगठन इस बात को बिल्कुल गुप्त रखते हैं कि वे अपने नवीनतम मॉडलों को कैसे प्रशिक्षित करते हैं, और हो सकता है कि वे मैकेनिकल तुर्क जैसी चीजों पर बहुत अधिक निर्भर न हों। जैसा कि कहा गया है, कई अन्य मॉडल मानव श्रमिकों पर निर्भर हो सकते हैं, जो बदले में प्रशिक्षण डेटा उत्पन्न करने के लिए बॉट्स का उपयोग कर सकते हैं, जो एक समस्या है।
उदाहरण के लिए, मैकेनिकल तुर्क को "पावर मशीन लर्निंग मॉडल के लिए डेटा लेबलिंग समाधान" के प्रदाता के रूप में विपणन किया जाता है।
रिबेरियो ने कहा, "मानव डेटा स्वर्ण मानक है, क्योंकि हम इंसानों की परवाह करते हैं, बड़े भाषा मॉडल की नहीं।" उदाहरण के तौर पर उन्होंने कहा, "मैं ऐसी दवा नहीं लूंगा जिसका परीक्षण केवल ड्रोसोफिला जैविक मॉडल में किया गया हो।"
शोधकर्ताओं ने तर्क दिया कि आज के एआई मॉडल द्वारा उत्पन्न प्रतिक्रियाएं आमतौर पर काफी नीरस या तुच्छ होती हैं, और मानव रचनात्मकता की जटिलता और विविधता को पकड़ नहीं पाती हैं।
पेपर के सह-लेखक और ईपीएफएल के कंप्यूटर और संचार विज्ञान स्कूल में सहायक प्रोफेसर रॉबर्ट वेस्ट ने हमें बताया, "कभी-कभी हम क्राउडसोर्स किए गए डेटा के साथ जो अध्ययन करना चाहते हैं वह ठीक उसी तरह से होता है जिसमें मनुष्य अपूर्ण होते हैं।"
जैसे-जैसे एआई में सुधार जारी रहेगा, संभावना है कि क्राउडसोर्स्ड कार्य बदल जाएगा। रिबेरियो ने अनुमान लगाया कि बड़े भाषा मॉडल विशिष्ट कार्यों में कुछ श्रमिकों की जगह ले सकते हैं। "हालांकि, विरोधाभासी रूप से, मानव डेटा पहले से कहीं अधिक कीमती हो सकता है और इस प्रकार यह हो सकता है कि ये प्लेटफ़ॉर्म बड़े भाषा मॉडल के उपयोग को रोकने के तरीकों को लागू करने में सक्षम होंगे और यह सुनिश्चित करेंगे कि यह मानव डेटा का स्रोत बना रहे।"
उन्होंने आगे कहा, कौन जानता है - शायद इंसान प्रतिक्रियाएं उत्पन्न करने के लिए बड़े भाषा मॉडल के साथ सहयोग भी कर सकता है। ®
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- ईवीएम वित्त। विकेंद्रीकृत वित्त के लिए एकीकृत इंटरफ़ेस। यहां पहुंचें।
- क्वांटम मीडिया समूह। आईआर/पीआर प्रवर्धित। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 डेटा इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- स्रोत: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/
- :हैस
- :है
- :नहीं
- $यूपी
- 16
- 7
- a
- योग्य
- About
- एब्सट्रैक्ट
- शिक्षाविदों
- सही
- जोड़ा
- फिर
- AI
- सब
- की अनुमति देता है
- भी
- हमेशा
- वीरांगना
- an
- और
- अन्य
- कोई
- दृष्टिकोण
- हैं
- तर्क दिया
- कृत्रिम
- कृत्रिम बुद्धिमत्ता
- AS
- सहायक
- At
- लेखकों
- को स्वचालित रूप से
- स्वचालित
- स्वतः
- दूर
- BE
- क्योंकि
- जा रहा है
- पूर्वाग्रह
- अरबों
- नरम
- बीओटी
- बॉट
- निर्माण
- बनाया गया
- लेकिन
- by
- कर सकते हैं
- कब्जा
- कौन
- कुछ
- संयोग
- परिवर्तन
- chatbot
- ChatGPT
- सस्ता
- वर्गीकृत
- समापन
- CO
- सह-लेखक
- कोड
- सहयोग
- संयुक्त
- संचार
- कंपनियों
- तुलना
- पूरा
- पूरी तरह से
- जटिलता
- कंप्यूटर
- निष्कर्ष निकाला
- संचालित
- सामग्री
- प्रसंग
- जारी
- निगमों
- सका
- रचनात्मकता
- महत्वपूर्ण
- भीड़
- तिथि
- डेटासेट
- विकसित
- डेवलपर्स
- विनाशकारी
- विविधता
- do
- डॉलर
- से प्रत्येक
- प्रभाव
- प्रोत्साहित करना
- समाप्त
- सुनिश्चित
- अनुमानित
- और भी
- कभी
- ठीक ठीक
- उदाहरण
- उदाहरण
- प्रयोग
- निष्पक्ष
- उल्लू बनाना
- असत्य
- और तेज
- फेड
- कुछ
- ध्यान केंद्रित
- के लिए
- पाया
- से
- भविष्य
- उत्पन्न
- उत्पन्न
- मिल
- GitHub
- सोना
- सोने के मानक
- है
- he
- भारी
- उच्च गुणवत्ता
- उच्चतर
- कैसे
- तथापि
- HTTPS
- मानव
- मनुष्य
- i
- पहचान
- if
- लागू करने के
- में सुधार
- in
- बढ़ना
- तेजी
- बुद्धि
- में
- प्रतिसाद नहीं
- IT
- आईटी इस
- नौकरियां
- जेपीजी
- रखना
- लेबलिंग
- श्रम
- भाषा
- बड़ा
- बड़ा
- ताज़ा
- नेतृत्व
- सीख रहा हूँ
- पसंद
- संभावित
- लॉग इन
- निम्न
- मशीन
- यंत्र अधिगम
- बनाना
- कामयाब
- मैन्युअल
- बहुत
- सामग्री
- मई..
- अर्थ
- यांत्रिक
- मेडिकल
- चिकित्सा अनुसंधान
- दवा
- क्रियाविधि
- तरीकों
- हो सकता है
- आदर्श
- मॉडल
- अधिक
- बहुत
- आवश्यकता
- नकारात्मक
- संख्या
- वस्तुओं
- of
- अक्सर
- on
- ONE
- ऑनलाइन
- केवल
- OpenAI
- or
- अन्य
- हमारी
- उत्पादन
- अपना
- प्रदत्त
- काग़ज़
- कागजात
- पार्टी
- वेतन
- स्टाफ़
- प्रतिशत
- उत्तम
- निष्पादन
- शायद
- मंच
- प्लेटफार्म
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- बहुत सारे
- ताल
- बिजली
- कीमती
- ठीक - ठीक
- भविष्यवाणी करना
- को रोकने के
- मुसीबत
- प्रस्तुत
- प्रोफेसर
- प्रदाता
- प्रदान कर
- गुणवत्ता
- वास्तविक
- वास्तव में
- कारण
- की सिफारिश की
- विश्वसनीय
- भरोसा करना
- बाकी है
- बार - बार आने वाला
- की जगह
- प्रतिनिधित्व
- अनुसंधान
- शोधकर्ताओं
- प्रतिक्रियाएं
- परिणाम
- रॉबर्ट
- रन
- s
- कहा
- वही
- स्केल
- परिदृश्य
- स्कूल के साथ
- विज्ञान
- गुप्त
- देखना
- सेवाएँ
- स्थितियों
- छोटा
- समाधान ढूंढे
- कुछ
- कोई
- स्रोत
- विशिष्ट
- मानक
- छात्र
- अध्ययन
- प्रस्तुतियाँ
- प्रस्तुत
- ऐसा
- पता चलता है
- संक्षेप में प्रस्तुत करना
- सारांश
- स्विस
- स्विजरलैंड
- कृत्रिम
- प्रणाली
- सिस्टम
- लेना
- कार्य
- कार्य
- टीम
- परीक्षण
- परीक्षण किया
- से
- कि
- RSI
- भविष्य
- लेकिन हाल ही
- उन
- अपने
- फिर
- वहाँ।
- इन
- वे
- चीज़ें
- तीसरा
- इसका
- इस सप्ताह
- सेवा मेरे
- आज
- भी
- उपकरण
- की ओर
- परंपरागत
- रेलगाड़ी
- प्रशिक्षित
- प्रशिक्षण
- कोशिश
- मोड़
- प्रकार
- संभावना नहीं
- अवांछित
- us
- प्रयोग
- उपयोग
- प्रयुक्त
- का उपयोग करता है
- का उपयोग
- आमतौर पर
- सत्यापित करें
- मूल्यवान
- बहुत
- के माध्यम से
- मजदूरी
- करना चाहते हैं
- था
- तरीके
- we
- सप्ताह
- कुंआ
- थे
- पश्चिम
- क्या
- कब
- या
- कौन कौन से
- जब
- मर्जी
- साथ में
- काम
- काम किया
- श्रमिकों
- बदतर
- जेफिरनेट