Topul setului de date AI include site-uri web de criptomonede în fluxul de date

Topul setului de date AI include site-uri web de criptomonede în fluxul de date

Top AI Dataset Features Cryptocurrency Websites in its Datafeed PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  • Colossal Clean Crawled Corpus depinde de mai multe platforme cripto pentru date.
  • Analiza arată că o parte din fragmentele de text ale lui C4 sunt extrase de pe site-uri web bazate pe cripto.
  • Prezența site-urilor cripto în setul de date C4 ar putea afecta nivelul său de părtinire.

The top AI tool, Colosal Clean Crawled Corpus (C4), depends on multiple crypto platforms for a significant portion of its data. An analysis shows that C4 extracts millions of text snippets from crypto-based websites or web platforms closely related to cryptocurrency.

Potrivit rapoartelor, Comisia pentru Valori Mobiliare și Schimb (SEC) din SUA, care conține acum o cantitate semnificativă de informații legate de cripto, reprezintă 36 de milioane de jetoane C4, reprezentând 0.02% din setul de date al platformei. Site-ul SEC (sec.gov), de pe care C4 preia datele, s-a clasat pe locul 39 printre site-urile web angajate de C4.

Bitcointalk.org de la Satoshi Nakamoto a reprezentat 6.1 milioane de jetoane C4, echivalentul a 0.004% din totalul de jetoane. S-a clasat ca al 780-lea site web angajat de platformă.

Alte platforme cripto angajate de C4 pentru achiziția de date includ site-ul de știri cripto, Cointelegraph, și platforma de agregare a jetoanelor, CoinmarketCap. Acestea și alte șase site-uri web conexe au reprezentat 0.008% din toate jetoanele C4, în timp ce alte site-uri web legate de anumite criptomonede au format o parte neglijabilă a reprezentării.

IPFS (ipfs.io) și Steemit (steemit.com) au apărut în mod semnificativ în setul de date C4. IPFS s-a clasat pe locul 16, în timp ce Steemit s-a clasat pe locul 594. Ambele site-uri nu sunt direct implicate în cripto, dar au înclinații semnificative către industria cripto.

The involvement of crypto-related platforms in C4’s Instruire AI process exposes cryptocurrency’s encroachment into the mainstream. Crypto websites’ extent of representation is significant enough to influence the outcome of C4, even though mainstream websites like Google and Facebook outrank them significantly.

C4 s-a confruntat cu critici din cauza datelor piratate și a discursului instigator la ură, în ciuda rapoartelor că setul de date a fost „curățat”. Cu doar 400 de cuvinte în lista sa pentru cenzurarea conținutului specific, sugerează că ar putea exista încă conținut controversat în C4. Prezența site-urilor cripto în setul de date ar putea afecta, de asemenea, nivelul de părtinire.

Mesaje: 125

Timestamp-ul:

Mai mult de la Ediția de monede