शीर्ष AI डेटासेट BitcoinTalk, Steemit, और US SEC से डेटा प्राप्त करता है

शीर्ष AI डेटासेट BitcoinTalk, Steemit, और US SEC से डेटा प्राप्त करता है

Ad

कॉइनडेस्क की सहमतिकॉइनडेस्क की सहमति

Colossal Clean Crawled Corpus (C4), प्रमुख तकनीकी कंपनियों द्वारा उपयोग किया जाने वाला एक AI डेटासेट है, जिसमें विभिन्न क्रिप्टो-संबंधित वेबसाइटों के डेटा शामिल हैं।

C4 डेटासेट क्रिप्टो साइटों से प्राप्त होता है

वाशिंगटन पोस्ट और एआई के लिए एलन संस्थान हाल ही में विश्लेषण किया C4 डेटासेट, प्रत्येक स्रोत से लिए गए "टोकन" या टेक्स्ट स्निपेट्स की संख्या के आधार पर वेबसाइटों की रैंकिंग।

यूएस सिक्योरिटीज एंड एक्सचेंज कमीशन - जिसमें क्रिप्टोक्यूरेंसी विनियमन पर सामग्री शामिल है - डेटासेट के सबसे बड़े स्रोतों में से एक था। इसकी वेबसाइट (sec.gov) #39 पर रैंक की गई और C36 के टोकन के 0.02 मिलियन या 4% के लिए जिम्मेदार है।

Bitcointalk.org, द्वारा बनाया गया एक ब्लॉकचेन चर्चा बोर्ड है सातोशी Nakamoto, #780 पर रैंक किया गया। यह C6.1 के टोकन का 0.004 मिलियन या 4% है।

क्रिप्टोक्यूरेंसी समाचार और एकत्रीकरण साइटों जैसे कॉइनटेग्राफ और कॉइनमार्केटकैप.कॉम का भी प्रतिनिधित्व किया गया। आठ ऐसी साइटें सामूहिक रूप से C0.008 के टोकन के कम से कम 4% के लिए जिम्मेदार हैं, हालांकि अन्य साइटों की वास्तविक कुल वृद्धि की संभावना है।

विशिष्ट क्रिप्टोकरेंसी और एक्सचेंजों से संबंधित वेबसाइटों को भी डेटासेट में दर्शाया गया था, लेकिन टोकन की नगण्य राशि के लिए जिम्मेदार था।

दो क्रिप्टो-आसन्न साइटों को भी उच्च स्थान दिया गया। IPFS (ipfs.io) #16 स्थान पर रहा जबकि Steemit (steemit.com) #594 पर रैंक किया गया। पहली साइट ब्लॉकचैन फर्म प्रोटोकॉल लैब्स से एक वितरित नेटवर्क है, जबकि दूसरी ब्लॉकचैन का प्रत्यक्ष उपयोग करती है। हालाँकि, इन साइटों में क्रिप्टोक्यूरेंसी से संबंधित सामग्री होना आवश्यक नहीं है।

मुख्यधारा की साइटें सूची में सबसे ऊपर हैं

C4 डेटासेट का उपयोग प्रमुख तकनीकी कंपनियों सहित AI भाषा मॉडल में किया जाता है गूगल की T5 और फेसबुक के LLaMA, वाशिंगटन पोस्ट के अनुसार।

हालांकि उपरोक्त साइटें C4 की सबसे महत्वपूर्ण क्रिप्टो-संबंधित वेबसाइटों में से हैं, वे मुख्यधारा की वेबसाइटों और समाचार स्रोतों से पीछे हैं, जो अक्सर क्रिप्टोक्यूरेंसी विषयों को कवर करती हैं और संभवतः सभी क्रिप्टो-संबंधित डेटा के लिए प्राथमिक स्रोत हैं।

अभद्र भाषा और पायरेटेड डेटा रखने के लिए C4 की भी आलोचना की गई है। हालांकि डेटासेट के नाम से पता चलता है कि इसे "साफ़" कर दिया गया है, इसके असेंबलरों ने विशिष्ट सामग्री को सेंसर करने के लिए केवल 400 शब्दों की एक सूची का उपयोग किया, जिसका अर्थ है कि विवादास्पद सामग्री बरकरार है।

क्रिप्टो साइटों की उपस्थिति, साथ ही विवादास्पद डेटा की उपस्थिति, एआई चैटबॉट्स द्वारा निर्मित सामग्री में देखे गए पूर्वाग्रह के स्तर को प्रभावित कर सकती है।

प्रकाशित किया गया था: AI

समय टिकट:

से अधिक क्रिप्टोकरंसीज