Parim AI-andmekogum tõmbab andmeid BitcoinTalki, Steemiti ja US SEC-i kaudu

Parim AI-andmekogum tõmbab andmeid BitcoinTalki, Steemiti ja US SEC-i kaudu

Ad

CoinDeski konsensusCoinDeski konsensus

Colossal Clean Crawled Corpus (C4), tehisintellekti andmestik, mida kasutavad suuremad tehnoloogiaettevõtted, sisaldab andmeid erinevatelt krüptoga seotud veebisaitidelt.

C4 andmestik ammutab krüptosaitidelt

Washington Post ja Alleni AI instituut hiljuti analüüsitud C4 andmestik, järjestades veebisaidid igast allikast võetud märkide või tekstijuppide arvu järgi.

USA väärtpaberi- ja börsikomisjon, mis osaliselt sisaldab sisu krüptovaluutade reguleerimise kohta, oli üks andmekogu suurimaid allikaid. Selle veebisait (sec.gov) oli 39. kohal ja moodustas 36 miljonit ehk 0.02% C4 žetoonidest.

Bitcointalk.org, plokiahela arutelulaud, mille on loonud Satoshi Nakamoto, edetabelis #780. See moodustas 6.1 miljonit ehk 0.004% C4 žetoonidest.

Esindatud olid ka krüptovaluuta uudiste ja koondamissaidid nagu Cointelegraph ja Coinmarketcap.com. Kaheksa sellist saiti moodustasid kokku vähemalt 0.008% C4 žetoonidest, kuigi tõenäoliselt suurendavad teised saidid tegelikku kogusummat.

Andmekogus olid esindatud ka konkreetsete krüptovaluutade ja börsidega seotud veebisaidid, kuid nende arvele jäi tühine hulk žetoone.

Kaks krüptoga külgnevat saiti said samuti kõrge asetuse. IPFS (ipfs.io) oli samal ajal 16. kohal Steemit (steemit.com) edetabelis #594. Esimene sait on plokiahela ettevõtte Protocol Labs hajutatud võrk, teine ​​​​kasutab aga otseselt plokiahelat. Need saidid ei pruugi aga sisaldada krüptovaluutaga seotud sisu.

Peavoolu saidid olid nimekirja esikohal

C4 andmestikku kasutatakse suurte tehnoloogiaettevõtete, sealhulgas tehisintellekti keelemudelites Google T5 ja Facebook LLaMA, vahendab Washington Post.

Ehkki ülaltoodud saidid kuuluvad C4 kõige olulisemate krüptoga seotud veebisaitide hulka, on neist paremad peamised veebisaidid ja uudisteallikad, mis sageli hõlmavad krüptovaluutateemasid ja on tõenäoliselt kõigi krüptoga seotud andmete peamine allikas.

C4-d on kritiseeritud ka vihakõne ja piraatandmete sisaldamise eest. Kuigi andmestiku nimi viitab sellele, et see on "puhastatud", kasutasid selle koostajad konkreetse sisu tsenseerimiseks ainult 400 sõnast koosnevat loendit, mis tähendab, et vastuoluline sisu jääb puutumata.

Krüptosaitide olemasolu, aga ka vastuoluliste andmete olemasolu, võivad mõjutada tehisintellekti vestlusrobotite toodetud sisu kallutatuse taset.

Postitatud: AI

Ajatempel:

Veel alates Krüptoslaat