शीर्ष AI डेटासेट अपने डेटाफ़ीड में क्रिप्टोक्यूरेंसी वेबसाइटों को प्रदर्शित करता है

शीर्ष AI डेटासेट अपने डेटाफ़ीड में क्रिप्टोक्यूरेंसी वेबसाइटों को प्रदर्शित करता है

शीर्ष एआई डेटासेट अपने डेटाफीड प्लेटोब्लॉकचेन डेटा इंटेलिजेंस में क्रिप्टोकरेंसी वेबसाइटों की सुविधा देता है। लंबवत खोज. ऐ.
  • Colossal Clean Crawled Corpus डेटा के लिए कई क्रिप्टो प्लेटफॉर्म पर निर्भर करता है।
  • विश्लेषण से पता चलता है कि C4 के टेक्स्ट स्निपेट्स का हिस्सा क्रिप्टो-आधारित वेबसाइटों से निकाला गया है।
  • C4 के डेटासेट में क्रिप्टो साइटों की उपस्थिति इसके पूर्वाग्रह के स्तर को प्रभावित कर सकती है।

शीर्ष एआई उपकरण, कोलोसल क्लीन क्रॉल्ड कॉर्पस (C4), अपने डेटा के एक महत्वपूर्ण हिस्से के लिए कई क्रिप्टो प्लेटफॉर्म पर निर्भर करता है। एक विश्लेषण से पता चलता है कि C4 क्रिप्टो-आधारित वेबसाइटों या वेब प्लेटफ़ॉर्म से लाखों टेक्स्ट स्निपेट निकालता है जो इससे निकटता से संबंधित हैं cryptocurrency.

रिपोर्टों के मुताबिक, यूएस सिक्योरिटीज एंड एक्सचेंज कमीशन (एसईसी), जिसमें अब क्रिप्टो-संबंधित जानकारी का एक महत्वपूर्ण हिस्सा है, 36 मिलियन सी 4 टोकन के लिए खाता है, जो प्लेटफॉर्म के डेटासेट के 0.02% का प्रतिनिधित्व करता है। SEC की वेबसाइट (sec.gov), जिससे C4 डेटा प्राप्त करता है, C39 द्वारा संलग्न वेबसाइटों में 4वें स्थान पर है।

Satoshi Nakamoto के Bitcointalk.org में 6.1 मिलियन C4 टोकन हैं, जो कुल टोकन के 0.004% के बराबर है। यह प्लेटफॉर्म द्वारा संलग्न 780वीं वेबसाइट के रूप में रैंक किया गया।

डेटा अधिग्रहण के लिए C4 द्वारा लगे अन्य क्रिप्टो प्लेटफॉर्म में क्रिप्टो न्यूज वेबसाइट, कॉइनटेग्राफ और टोकन एग्रीगेशन प्लेटफॉर्म, कॉइनमार्केटकैप शामिल हैं। ये और छह और संबंधित वेबसाइटें सभी C0.008 टोकन के 4% के लिए जिम्मेदार हैं, जबकि विशिष्ट क्रिप्टोकरेंसी से संबंधित अन्य वेबसाइटों ने प्रतिनिधित्व का एक नगण्य हिस्सा बनाया है।

IPFS (ipfs.io) और स्टीमेट (steemit.com) C4 के डेटासेट में महत्वपूर्ण रूप से प्रदर्शित हुए। IPFS 16वें स्थान पर है, जबकि स्टीमेट 594वें स्थान पर है। ये दोनों साइटें सीधे क्रिप्टो में शामिल नहीं हैं, लेकिन क्रिप्टो उद्योग की ओर महत्वपूर्ण झुकाव है।

C4's में क्रिप्टो-संबंधित प्लेटफॉर्म की भागीदारी एआई प्रशिक्षण प्रक्रिया क्रिप्टोक्यूरेंसी के अतिक्रमण को मुख्यधारा में उजागर करती है। क्रिप्टो वेबसाइटों के प्रतिनिधित्व की सीमा C4 के परिणाम को प्रभावित करने के लिए काफी महत्वपूर्ण है, भले ही Google और फेसबुक जैसी मुख्यधारा की वेबसाइटें उन्हें महत्वपूर्ण रूप से पछाड़ दें।

डेटासेट के "क्लीन" होने की रिपोर्ट के बावजूद, C4 को पायरेटेड डेटा और अभद्र भाषा पर आलोचना का सामना करना पड़ा है। विशिष्ट सामग्री को सेंसर करने के लिए इसकी सूची में केवल 400 शब्दों के साथ, यह सुझाव देता है कि C4 के भीतर अभी भी विवादास्पद सामग्री हो सकती है। इसके डेटासेट में क्रिप्टो साइटों की उपस्थिति इसके पूर्वाग्रह के स्तर को भी प्रभावित कर सकती है।

पोस्ट दृश्य: 125

समय टिकट:

से अधिक सिक्का संस्करण