Setul de date de top AI extrage date de la BitcoinTalk, Steemit și US SEC

Setul de date de top AI extrage date de la BitcoinTalk, Steemit și US SEC

Ad

Consens CoinDeskConsens CoinDesk

Colossal Clean Crawled Corpus (C4), un set de date AI utilizat de marile companii de tehnologie, conține date de pe diferite site-uri web legate de cripto.

Setul de date C4 extrage de pe site-uri cripto

The Washington Post și Institutul Allen pentru IA analizat recent setul de date C4, clasificând site-urile web după numărul de „jetoane” sau fragmente de text preluate din fiecare sursă.

Comisia pentru Valori Mobiliare și Schimb din SUA – care conține parțial conținut privind reglementarea criptomonedei – a fost printre cele mai mari surse ale setului de date. Site-ul său web (sec.gov) s-a clasat pe locul 39 și a reprezentat 36 de milioane, sau 0.02%, din jetoanele C4.

Bitcointalk.org, un forum de discuții blockchain creat de Satoshi Nakamoto, clasat pe locul 780. A reprezentat 6.1 milioane, sau 0.004%, din jetoanele C4.

Au fost reprezentate, de asemenea, site-uri de știri și agregare despre criptomonede precum Cointelegraph și Coinmarketcap.com. Opt astfel de site-uri au reprezentat, în mod colectiv, cel puțin 0.008% din token-urile C4, deși alte site-uri probabil cresc totalul real.

Site-urile web legate de anumite criptomonede și schimburi au fost, de asemenea, reprezentate în setul de date, dar au reprezentat o cantitate neglijabilă de jetoane.

Două site-uri cripto-adiacente s-au clasat, de asemenea, foarte bine. IPFS (ipfs.io) s-a clasat pe locul 16 în timp ce Steemit (steemit.com) clasat pe locul 594. Primul site este o rețea distribuită de la firma de blockchain Protocol Labs, în timp ce al doilea folosește direct blockchain. Cu toate acestea, aceste site-uri nu conțin neapărat conținut legat de criptomoneda.

Site-urile principale au ocupat primul loc pe listă

Setul de date C4 este utilizat în modelele de limbaj AI de la marile companii de tehnologie, inclusiv Google T5 și Facebook LLaMA, potrivit Washington Post.

Deși site-urile de mai sus sunt printre cele mai importante site-uri C4 legate de criptomonede, ele sunt depășite de site-urile web și sursele de știri principale, care acoperă adesea subiecte legate de criptomonede și sunt probabil sursa principală pentru toate datele legate de criptomonede.

C4 a fost, de asemenea, criticat pentru că conține discurs instigator la ură și date piratate. Deși numele setului de date sugerează că a fost „curățat”, asamblatorii săi au folosit doar o listă de 400 de cuvinte pentru a cenzura conținut specific, ceea ce înseamnă că conținutul controversat rămâne intact.

Prezența site-urilor cripto, precum și prezența datelor controversate, ar putea afecta nivelul de părtinire observat în conținutul produs de chatboții AI.

Postat în: AI

Timestamp-ul:

Mai mult de la CryptoSlate