Suosituin tekoälytietojoukko hakee tiedot BitcoinTalkista, Steemitistä ja US SEC:stä

Suosituin tekoälytietojoukko hakee tiedot BitcoinTalkista, Steemitistä ja US SEC:stä

Ad

CoinDeskin konsensusCoinDeskin konsensus

Colossal Clean Crawled Corpus (C4), suurten teknologiayritysten käyttämä tekoälytietojoukko, sisältää tietoja useilta krypto-sivustoilta.

C4-tietojoukko ammentaa kryptosivustoilta

Washington Post ja Allen Institute for AI äskettäin analysoitu C4-tietojoukko, joka asettaa sivustot paremmuusjärjestykseen kustakin lähteestä otettujen "tunnusten" tai tekstikatkelmien lukumäärän mukaan.

US Securities and Exchange Commission – joka sisältää osittain kryptovaluuttojen sääntelyä koskevaa sisältöä – oli yksi tietojoukon suurimmista lähteistä. Sen verkkosivusto (sec.gov) sijoittui sijalle 39, ja sen osuus C36:n rahakkeista oli 0.02 miljoonaa eli 4 prosenttia.

Bitcointalk.org, lohkoketjun keskustelupalsta, jonka on luonut Satoshi Nakamoto, sijalla 780. Sen osuus C6.1:n rahakkeista oli 0.004 miljoonaa eli 4 prosenttia.

Edustettuina olivat myös kryptovaluuttauutiset ja -koontisivustot, kuten Cointelegraph ja Coinmarketcap.com. Kahdeksan tällaista sivustoa yhdessä vastasi vähintään 0.008 % C4:n tokeneista, vaikka muut sivustot todennäköisesti lisäävät todellista kokonaismäärää.

Tiettyihin kryptovaluuttoihin ja pörsseihin liittyvät verkkosivustot olivat myös edustettuina tietojoukossa, mutta niiden osuus tokeneista oli mitätön.

Kaksi krypton viereistä sivustoa sijoittui myös korkealle. IPFS (ipfs.io) sijalla 16 Steemit (steemit.com) sijalla 594. Ensimmäinen sivusto on lohkoketjuyrityksen Protocol Labsin hajautettu verkko, kun taas toinen käyttää suoraan lohkoketjua. Nämä sivustot eivät kuitenkaan välttämättä sisällä kryptovaluuttaan liittyvää sisältöä.

Mainstream-sivustot olivat listan kärjessä

C4-tietojoukkoa käytetään suurten teknologiayritysten tekoälyn kielimalleissa, mukaan lukien Googlen T5 ja Facebook LLaMA Washington Postin mukaan.

Vaikka yllä olevat sivustot kuuluvat C4:n merkittävimpiin krypto-sivustoihin, ne ovat etusijalla valtavirran verkkosivuilla ja uutislähteissä, jotka usein käsittelevät kryptovaluutta-aiheita ja ovat todennäköisesti kaiken kryptovaluuttaan liittyvän tiedon ensisijainen lähde.

C4:ää on myös kritisoitu vihapuheen ja piraattidatan sisältämisestä. Vaikka tietojoukon nimi viittaa siihen, että se on "puhdistettu", sen kokoajat käyttivät vain 400 sanan luetteloa tietyn sisällön sensurointiin, mikä tarkoittaa, että kiistanalainen sisältö pysyy ennallaan.

Salaussivustojen ja kiistanalaisten tietojen läsnäolo saattaa vaikuttaa tekoäly-chatbottien tuottaman sisällön harhaan.

Lähetetty: AI

Aikaleima:

Lisää aiheesta CryptoSlate