आज का AI आर्टिफिशियल आर्टिफिशियल इंटेलिजेंस है

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

आज का AI कृत्रिम आर्टिफिशियल इंटेलिजेंस प्लेटोब्लॉकचेन डेटा इंटेलिजेंस है। लंबवत खोज. ऐ.

अमेज़ॅन मैकेनिकल तुर्क जैसी क्राउडसोर्स सेवाओं के माध्यम से काम पर रखे गए कर्मचारी अपने कार्यों को पूरा करने के लिए बड़े भाषा मॉडल का उपयोग कर रहे हैं - जिसका भविष्य में एआई मॉडल पर नकारात्मक प्रभाव पड़ सकता है।

एआई के लिए डेटा महत्वपूर्ण है। डेवलपर्स को सटीक और विश्वसनीय मशीन लर्निंग सिस्टम बनाने के लिए स्वच्छ, उच्च गुणवत्ता वाले डेटासेट की आवश्यकता होती है। हालाँकि, मूल्यवान, शीर्ष स्तर का डेटा संकलित करना कठिन हो सकता है। कंपनियां अक्सर सस्ते कर्मचारियों के समूह को दोहराए जाने वाले कार्यों को करने का निर्देश देने के लिए अमेज़ॅन मैकेनिकल तुर्क जैसे तीसरे पक्ष के प्लेटफार्मों की ओर रुख करती हैं - जैसे कि वस्तुओं को लेबल करना, स्थितियों का वर्णन करना, अंशों को ट्रांसक्रिप्ट करना और पाठ को एनोटेट करना।

उनके आउटपुट को साफ किया जा सकता है और एक मॉडल में डाला जा सकता है ताकि उस काम को बहुत बड़े, स्वचालित पैमाने पर पुन: पेश करने के लिए प्रशिक्षित किया जा सके।

एआई मॉडल इस प्रकार मानव श्रम के आधार पर बनाए जाते हैं: लोग कड़ी मेहनत करते हैं, एआई सिस्टम के लिए प्रशिक्षण के उदाहरण प्रदान करते हैं जिनका उपयोग निगम अरबों डॉलर बनाने के लिए कर सकते हैं।

लेकिन स्विट्जरलैंड में इकोले पॉलिटेक्निक फ़ेडेरेल डी लॉज़ेन (ईपीएफएल) के शोधकर्ताओं द्वारा किए गए एक प्रयोग से यह निष्कर्ष निकला है कि ये क्राउडसोर्स कर्मचारी एआई सिस्टम का उपयोग कर रहे हैं - जैसे कि ओपनएआई के चैटबॉट चैटजीपीटी - ऑनलाइन अजीब काम करने के लिए।

किसी मॉडल को उसके स्वयं के आउटपुट पर प्रशिक्षित करने की अनुशंसा नहीं की जाती है। हम देख सकते हैं कि एआई मॉडल को लोगों द्वारा नहीं, बल्कि अन्य एआई मॉडल द्वारा उत्पन्न डेटा पर प्रशिक्षित किया जा रहा है - शायद वही मॉडल भी। इससे विनाशकारी आउटपुट गुणवत्ता, अधिक पूर्वाग्रह और अन्य अवांछित प्रभाव हो सकते हैं।

प्रयोग

शिक्षाविदों ने 44 मेडिकल शोध पत्रों के सार को सारांशित करने के लिए 16 मैकेनिकल तुर्क सर्फ़ों की भर्ती की, और अनुमान लगाया कि श्रमिकों द्वारा प्रस्तुत पाठ के 33 से 46 प्रतिशत अंश बड़े भाषा मॉडल का उपयोग करके तैयार किए गए थे। भीड़ में काम करने वालों को अक्सर कम वेतन दिया जाता है - स्वचालित रूप से प्रतिक्रियाएं उत्पन्न करने के लिए एआई का उपयोग करने से उन्हें तेजी से काम करने और वेतन बढ़ाने के लिए अधिक नौकरियां लेने की अनुमति मिलती है।

स्विस टीम ने यह अनुमान लगाने के लिए एक क्लासिफायरियर को प्रशिक्षित किया कि क्या तुर्कर्स की प्रस्तुतियाँ मानव-या एआई-जनित थीं। शिक्षाविदों ने यह पता लगाने के लिए अपने कार्यकर्ताओं के कीस्ट्रोक्स को भी लॉग किया कि क्या सर्फ़ों ने प्लेटफ़ॉर्म पर पाठ की प्रतिलिपि बनाई और चिपकाया, या अपनी प्रविष्टियाँ स्वयं टाइप कीं। इस बात की संभावना हमेशा बनी रहती है कि कोई व्यक्ति चैटबॉट का उपयोग करता है और फिर मैन्युअल रूप से आउटपुट टाइप करता है - लेकिन हमारा मानना है कि यह संभव नहीं है।

"हमने एक बहुत ही विशिष्ट पद्धति विकसित की है जो हमारे परिदृश्य में सिंथेटिक पाठ का पता लगाने के लिए बहुत अच्छी तरह से काम करती है," मनोएल रिबेरो, सह-लेखक अध्ययन और ईपीएफएल में एक पीएचडी छात्र ने बताया रजिस्टर इस सप्ताह.

"जबकि पारंपरिक तरीके 'किसी भी संदर्भ में' सिंथेटिक पाठ का पता लगाने की कोशिश करते हैं, हमारा दृष्टिकोण हमारे विशिष्ट परिदृश्य में सिंथेटिक पाठ का पता लगाने पर केंद्रित है।"

क्लासिफायर यह पहचानने में सही नहीं है कि किसी ने एआई प्रणाली का उपयोग किया है या अपना काम स्वयं तैयार किया है। शिक्षाविदों ने अपने क्लासिफायरियर के आउटपुट को कीस्ट्रोक डेटा के साथ जोड़ दिया ताकि यह अधिक निश्चित हो सके कि जब कोई बॉट से कॉपी-पेस्ट करता है या अपनी खुद की सामग्री तैयार करता है।

मानव डेटा स्वर्ण मानक है, क्योंकि हम इंसानों की ही परवाह करते हैं

रिबेरो ने हमें बताया, "हम एमतुर्क से एकत्र किए गए कीस्ट्रोक डेटा का उपयोग करके अपने परिणामों को सत्यापित करने में कामयाब रहे।" "उदाहरण के लिए, हमने पाया कि सभी पाठ जो कॉपी-पेस्ट नहीं किए गए थे, उन्हें हमारे द्वारा 'वास्तविक' के रूप में वर्गीकृत किया गया था, जो बताता है कि कुछ गलत सकारात्मक बातें हैं।"

परीक्षण चलाने के लिए उपयोग किया गया कोड और डेटा यहां पाया जा सकता है, GitHub पर।

एक और कारण है कि यह प्रयोग पूरी तरह से निष्पक्ष प्रतिनिधित्व करने की संभावना नहीं है कि कितने कर्मचारी वास्तव में क्राउडसोर्स कार्यों को स्वचालित करने के लिए एआई का उपयोग कर रहे हैं। लेखक ध्यान देते हैं कि पाठ सारांशीकरण कार्य अन्य प्रकार की नौकरियों की तुलना में बड़े भाषा मॉडल के लिए उपयुक्त है - जिसका अर्थ है कि उनके परिणाम चैटजीपीटी जैसे टूल का उपयोग करने वाले अधिक संख्या में श्रमिकों की ओर अधिक झुके हो सकते हैं।

46 श्रमिकों की 44 प्रतिक्रियाओं का उनका डेटासेट भी छोटा है। श्रमिकों को प्रत्येक पाठ सारांश के लिए $1 का भुगतान किया गया था, जो फिर से केवल एआई के उपयोग को प्रोत्साहित कर सकता है।

शोधकर्ताओं ने तर्क दिया कि बड़े भाषा मॉडल खराब हो जाएंगे यदि उन्हें क्राउडसोर्स प्लेटफार्मों से एकत्रित एआई द्वारा उत्पन्न नकली सामग्री पर तेजी से प्रशिक्षित किया जाएगा। ओपनएआई जैसे संगठन इस बात को बिल्कुल गुप्त रखते हैं कि वे अपने नवीनतम मॉडलों को कैसे प्रशिक्षित करते हैं, और हो सकता है कि वे मैकेनिकल तुर्क जैसी चीजों पर बहुत अधिक निर्भर न हों। जैसा कि कहा गया है, कई अन्य मॉडल मानव श्रमिकों पर निर्भर हो सकते हैं, जो बदले में प्रशिक्षण डेटा उत्पन्न करने के लिए बॉट्स का उपयोग कर सकते हैं, जो एक समस्या है।

उदाहरण के लिए, मैकेनिकल तुर्क को "पावर मशीन लर्निंग मॉडल के लिए डेटा लेबलिंग समाधान" के प्रदाता के रूप में विपणन किया जाता है।

रिबेरियो ने कहा, "मानव डेटा स्वर्ण मानक है, क्योंकि हम इंसानों की परवाह करते हैं, बड़े भाषा मॉडल की नहीं।" उदाहरण के तौर पर उन्होंने कहा, "मैं ऐसी दवा नहीं लूंगा जिसका परीक्षण केवल ड्रोसोफिला जैविक मॉडल में किया गया हो।"

शोधकर्ताओं ने तर्क दिया कि आज के एआई मॉडल द्वारा उत्पन्न प्रतिक्रियाएं आमतौर पर काफी नीरस या तुच्छ होती हैं, और मानव रचनात्मकता की जटिलता और विविधता को पकड़ नहीं पाती हैं।

पेपर के सह-लेखक और ईपीएफएल के कंप्यूटर और संचार विज्ञान स्कूल में सहायक प्रोफेसर रॉबर्ट वेस्ट ने हमें बताया, "कभी-कभी हम क्राउडसोर्स किए गए डेटा के साथ जो अध्ययन करना चाहते हैं वह ठीक उसी तरह से होता है जिसमें मनुष्य अपूर्ण होते हैं।"

जैसे-जैसे एआई में सुधार जारी रहेगा, संभावना है कि क्राउडसोर्स्ड कार्य बदल जाएगा। रिबेरियो ने अनुमान लगाया कि बड़े भाषा मॉडल विशिष्ट कार्यों में कुछ श्रमिकों की जगह ले सकते हैं। "हालांकि, विरोधाभासी रूप से, मानव डेटा पहले से कहीं अधिक कीमती हो सकता है और इस प्रकार यह हो सकता है कि ये प्लेटफ़ॉर्म बड़े भाषा मॉडल के उपयोग को रोकने के तरीकों को लागू करने में सक्षम होंगे और यह सुनिश्चित करेंगे कि यह मानव डेटा का स्रोत बना रहे।"

उन्होंने आगे कहा, कौन जानता है - शायद इंसान प्रतिक्रियाएं उत्पन्न करने के लिए बड़े भाषा मॉडल के साथ सहयोग भी कर सकता है। ®

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
ईवीएम वित्त। विकेंद्रीकृत वित्त के लिए एकीकृत इंटरफ़ेस। यहां पहुंचें।
क्वांटम मीडिया समूह। आईआर/पीआर प्रवर्धित। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 डेटा इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
स्रोत: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/

समय टिकट: 16 जून 2023

समय टिकट: 18 मई 2023

आज का एआई कृत्रिम कृत्रिम कृत्रिम बुद्धि है

प्लेटो द्वारा पुनर्प्रकाशित

प्रयोग

से अधिक रजिस्टर

परिवर्तन की प्रकृति

Google, Apple जेमिनी को iDevices में लाने के लिए डील पर काम कर रहे हैं

सिंगापुर धूम्रपान करने वालों का पता लगाने के लिए उपयोग की जाने वाली एआई में सुधार करता है

संयुक्त राष्ट्र ने अमेरिका प्रायोजित, और गैर-बाध्यकारी, एआई संकल्प को अपनाया

Spotify अब पॉडकास्टर की आवाज़ को स्पैनिश में क्लोन करने के लिए AI का उपयोग कर रहा है

'प्रमुख' समाचार: Microsoft ने बिंग चैटबॉट शॉर्टकट को विंडोज 11 में खिसका दिया

क्या एआई आपकी नौकरी के लिए आ रहा है? ठीक है, हो सकता है, लेकिन यह निर्भर करता है

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा