Il principale set di dati AI estrae i dati da BitcoinTalk, Steemit e US SEC

Il principale set di dati AI estrae i dati da BitcoinTalk, Steemit e US SEC

Ad

Consenso CoinDeskConsenso CoinDesk

Colossal Clean Crawled Corpus (C4), un set di dati AI utilizzato dalle principali aziende tecnologiche, contiene dati provenienti da vari siti Web correlati alle criptovalute.

Il set di dati C4 attinge da siti crittografici

Il Washington Post e l'Allen Institute for AI recentemente analizzato il set di dati C4, classificando i siti Web in base al numero di "token" o frammenti di testo presi da ciascuna fonte.

La Securities and Exchange Commission degli Stati Uniti, che in parte contiene contenuti sulla regolamentazione delle criptovalute, è stata tra le maggiori fonti del set di dati. Il suo sito web (sec.gov) si è classificato al 39° posto e rappresentava 36 milioni, o lo 0.02%, dei token di C4.

Bitcointalk.org, un forum di discussione sulla blockchain creato da Satoshi Nakamoto, classificato al #780. Rappresentava 6.1 milioni, o lo 0.004%, dei token di C4.

Erano rappresentati anche siti di notizie e aggregazione di criptovalute come Cointelegraph e Coinmarketcap.com. Otto di questi siti rappresentavano collettivamente almeno lo 0.008% dei token di C4, sebbene altri siti probabilmente aumentino il totale reale.

Anche i siti Web relativi a criptovalute e scambi specifici erano rappresentati nel set di dati, ma rappresentavano una quantità trascurabile di token.

Anche due siti crittografici adiacenti si sono classificati molto bene. IPFS (ipfs.io) si è classificato al 16° posto mentre Steemit (steemit.com) al numero 594. Il primo sito è una rete distribuita della società blockchain Protocol Labs, mentre il secondo fa uso diretto della blockchain. Tuttavia, questi siti non contengono necessariamente contenuti relativi alla criptovaluta.

I siti mainstream sono in cima alla lista

Il set di dati C4 viene utilizzato nei modelli di linguaggio AI delle principali aziende tecnologiche, tra cui Google T5 e Facebook LLaMA, secondo il Washington Post.

Sebbene i siti di cui sopra siano tra i siti Web più significativi relativi alle criptovalute di C4, sono superati dai principali siti Web e fonti di notizie, che spesso trattano argomenti di criptovaluta e sono probabilmente la fonte principale di tutti i dati relativi alle criptovalute.

C4 è stato anche criticato per aver contenuto incitamento all'odio e dati piratati. Sebbene il nome del set di dati suggerisca che è stato "ripulito", i suoi assemblatori hanno utilizzato solo un elenco di 400 parole per censurare contenuti specifici, il che significa che i contenuti controversi rimangono intatti.

La presenza di siti crittografici, così come la presenza di dati controversi, potrebbe influenzare il livello di bias visto nei contenuti prodotti dai chatbot AI.

Pubblicato in: AI

Timestamp:

Di più da CryptoSlate