Colossal Clean Crawled Corpus (C4), प्रमुख तकनीकी कंपनियों द्वारा उपयोग किया जाने वाला एक AI डेटासेट है, जिसमें विभिन्न क्रिप्टो-संबंधित वेबसाइटों के डेटा शामिल हैं।
C4 डेटासेट क्रिप्टो साइटों से प्राप्त होता है
वाशिंगटन पोस्ट और एआई के लिए एलन संस्थान हाल ही में विश्लेषण किया C4 डेटासेट, प्रत्येक स्रोत से लिए गए "टोकन" या टेक्स्ट स्निपेट्स की संख्या के आधार पर वेबसाइटों की रैंकिंग।
यूएस सिक्योरिटीज एंड एक्सचेंज कमीशन - जिसमें क्रिप्टोक्यूरेंसी विनियमन पर सामग्री शामिल है - डेटासेट के सबसे बड़े स्रोतों में से एक था। इसकी वेबसाइट (sec.gov) #39 पर रैंक की गई और C36 के टोकन के 0.02 मिलियन या 4% के लिए जिम्मेदार है।
Bitcointalk.org, द्वारा बनाया गया एक ब्लॉकचेन चर्चा बोर्ड है सातोशी Nakamoto, #780 पर रैंक किया गया। यह C6.1 के टोकन का 0.004 मिलियन या 4% है।
क्रिप्टोक्यूरेंसी समाचार और एकत्रीकरण साइटों जैसे कॉइनटेग्राफ और कॉइनमार्केटकैप.कॉम का भी प्रतिनिधित्व किया गया। आठ ऐसी साइटें सामूहिक रूप से C0.008 के टोकन के कम से कम 4% के लिए जिम्मेदार हैं, हालांकि अन्य साइटों की वास्तविक कुल वृद्धि की संभावना है।
विशिष्ट क्रिप्टोकरेंसी और एक्सचेंजों से संबंधित वेबसाइटों को भी डेटासेट में दर्शाया गया था, लेकिन टोकन की नगण्य राशि के लिए जिम्मेदार था।
दो क्रिप्टो-आसन्न साइटों को भी उच्च स्थान दिया गया। IPFS (ipfs.io) #16 स्थान पर रहा जबकि Steemit (steemit.com) #594 पर रैंक किया गया। पहली साइट ब्लॉकचैन फर्म प्रोटोकॉल लैब्स से एक वितरित नेटवर्क है, जबकि दूसरी ब्लॉकचैन का प्रत्यक्ष उपयोग करती है। हालाँकि, इन साइटों में क्रिप्टोक्यूरेंसी से संबंधित सामग्री होना आवश्यक नहीं है।
मुख्यधारा की साइटें सूची में सबसे ऊपर हैं
C4 डेटासेट का उपयोग प्रमुख तकनीकी कंपनियों सहित AI भाषा मॉडल में किया जाता है गूगल की T5 और फेसबुक के LLaMA, वाशिंगटन पोस्ट के अनुसार।
हालांकि उपरोक्त साइटें C4 की सबसे महत्वपूर्ण क्रिप्टो-संबंधित वेबसाइटों में से हैं, वे मुख्यधारा की वेबसाइटों और समाचार स्रोतों से पीछे हैं, जो अक्सर क्रिप्टोक्यूरेंसी विषयों को कवर करती हैं और संभवतः सभी क्रिप्टो-संबंधित डेटा के लिए प्राथमिक स्रोत हैं।
अभद्र भाषा और पायरेटेड डेटा रखने के लिए C4 की भी आलोचना की गई है। हालांकि डेटासेट के नाम से पता चलता है कि इसे "साफ़" कर दिया गया है, इसके असेंबलरों ने विशिष्ट सामग्री को सेंसर करने के लिए केवल 400 शब्दों की एक सूची का उपयोग किया, जिसका अर्थ है कि विवादास्पद सामग्री बरकरार है।
क्रिप्टो साइटों की उपस्थिति, साथ ही विवादास्पद डेटा की उपस्थिति, एआई चैटबॉट्स द्वारा निर्मित सामग्री में देखे गए पूर्वाग्रह के स्तर को प्रभावित कर सकती है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- मिंटिंग द फ्यूचर डब्ल्यू एड्रिएन एशले। यहां पहुंचें।
- स्रोत: https://cryptoslate.com/top-ai-dataset-pulls-data-from-bitcointalk-steemit-and-u-s-sec/
- :हैस
- :है
- :नहीं
- 1
- 500
- a
- ऊपर
- अनुसार
- को प्रभावित
- एकत्रीकरण
- AI
- सब
- भी
- के बीच में
- राशि
- an
- और
- हैं
- AS
- At
- किया गया
- पूर्वाग्रह
- Bitcointalk
- blockchain
- ब्लॉकचेन फर्म
- मंडल
- लेकिन
- by
- वर्ग
- chatbots
- Coindesk
- CoinMarketCap
- CoinTelegraph
- सामूहिक रूप से
- COM
- आयोग
- कंपनियों
- आम राय
- शामिल
- शामिल हैं
- सामग्री
- विवादास्पद
- सका
- आवरण
- बनाया
- क्रिप्टो
- cryptocurrencies
- cryptocurrency
- क्रिप्टोक्यूरेंसी विनियमन
- क्रिप्टोकरंसीज
- तिथि
- प्रत्यक्ष
- चर्चा
- वितरित
- वितरित नेटवर्क
- से प्रत्येक
- एक्सचेंज
- एक्सचेंजों
- फर्म
- प्रथम
- के लिए
- से
- gif
- अत्यधिक
- तथापि
- HTTPS
- in
- सहित
- बढ़ना
- संस्थान
- IPFS
- IT
- आईटी इस
- लैब्स
- भाषा
- सबसे बड़ा
- स्तर
- संभावित
- limewire
- सूची
- लामा
- मुख्य धारा
- प्रमुख
- बनाता है
- अर्थ
- दस लाख
- मॉडल
- अधिकांश
- नाम
- अनिवार्य रूप से
- नेटवर्क
- समाचार
- संख्या
- of
- on
- केवल
- or
- अन्य
- भाग
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- पद
- उपस्थिति
- प्राथमिक
- प्रस्तुत
- प्रोटोकॉल
- प्रोटोकॉल लैब्स
- खींचती
- वें स्थान पर
- रैंकिंग
- विनियमन
- सम्बंधित
- बाकी है
- प्रतिनिधित्व
- s
- एसईसी
- दूसरा
- प्रतिभूतियां
- प्रतिभूति और विनिमय आयोग
- महत्वपूर्ण
- साइट
- साइटें
- स्रोत
- सूत्रों का कहना है
- विशिष्ट
- भाषण
- प्रायोजित
- ऐसा
- पता चलता है
- टैग
- तकनीक
- तकनीकी कंपनियों
- कि
- RSI
- वाशिंगटन पोस्ट
- इन
- वे
- सेवा मेरे
- टोकन
- टोकन
- ऊपर का
- विषय
- सबसे ऊपर
- कुल
- <strong>उद्देश्य</strong>
- हमें
- यूएस एसईसी
- अमेरिकी प्रतिभूति
- अमेरिका के प्रतिभूति और विनिमय आयोग
- उपयोग
- प्रयुक्त
- विभिन्न
- था
- वाशिंगटन
- वाशिंगटन पोस्ट
- वेबसाइट
- वेबसाइटों
- कुंआ
- थे
- कौन कौन से
- जब
- शब्द
- जेफिरनेट