Suosituimmat AI-tietojoukot sisältävät kryptovaluuttaverkkosivustoja tietosyötteessään

Suosituimmat AI-tietojoukot sisältävät kryptovaluuttaverkkosivustoja tietosyötteessään

Suosituimmat AI-tietojoukot sisältävät kryptovaluuttaverkkosivustoja Datafeed PlatoBlockchain Data Intelligence -tietosyötteessä. Pystysuuntainen haku. Ai.
  • Colossal Clean Crawled Corpus riippuu useista datan salausalustoista.
  • Analyysi osoittaa, että osa C4:n tekstikatkelmista on poimittu kryptopohjaisilta verkkosivustoilta.
  • Salaussivustojen läsnäolo C4:n tietojoukossa voi vaikuttaa sen harhatasoon.

Suosituin tekoälytyökalu, Valtava puhdas ryömi Corpus (C4), riippuu useista salausalustoista huomattavan osan tiedoistaan. Analyysi osoittaa, että C4 poimii miljoonia tekstikatkelmia kryptopohjaisilta verkkosivustoilta tai verkkoalustoilta, jotka liittyvät läheisesti kryptovaluutta.

Raporttien mukaan Yhdysvaltain arvopaperi- ja pörssikomitea (SEC), joka sisältää nyt huomattavan määrän kryptoon liittyvää tietoa, vastaa 36 miljoonasta C4-tokenista, mikä on 0.02 % alustan tietojoukosta. SEC:n verkkosivusto (sec.gov), jolta C4 hakee tiedot, sijoittui 39. sijalle C4:n käyttämien verkkosivustojen joukossa.

Satoshi Nakamoton Bitcointalk.org-sivustolla oli 6.1 miljoonaa C4-tokenia, mikä vastaa 0.004 prosenttia kaikista rahakkeista. Se oli 780. alustan käyttämä verkkosivusto.

Muita C4:n tiedonhankintaan käyttämiä kryptoalustoja ovat kryptouutissivusto Cointelegraph ja tokenien yhdistämisalusta CoinmarketCap. Nämä ja kuusi muuta asiaan liittyvää verkkosivustoa muodostivat 0.008 % kaikista C4-tokeneista, kun taas muut tiettyihin kryptovaluuttoihin liittyvät verkkosivustot muodostivat merkityksettömän osan edustuksesta.

IPFS (ipfs.io) ja Steemit (steemit.com) esiintyivät merkittävästi C4:n tietojoukossa. IPFS sijoittui 16. sijalle ja Steemit sijalle 594. Molemmat sivustot eivät ole suoraan mukana kryptotuksessa, mutta niillä on merkittäviä taipumusta kryptoteollisuuteen.

Salaukseen liittyvien alustojen osallistuminen C4:ään AI-koulutus prosessi paljastaa kryptovaluutan tunkeutumisen valtavirtaan. Kryptosivustojen edustusaste on riittävän merkittävä vaikuttamaan C4:n lopputulokseen, vaikka valtavirran verkkosivustot, kuten Google ja Facebook, ylittävät ne merkittävästi.

C4 on joutunut kritisoimaan piraattidataa ja vihapuhetta, vaikka tietojoukon "puhdistuksesta" on raportoitu. Koska sen luettelossa on vain 400 sanaa tietyn sisällön sensurointia varten, se viittaa siihen, että C4:ssä voi silti olla kiistanalaista sisältöä. Salaussivustojen läsnäolo sen tietojoukossa voi myös vaikuttaa sen harhaan.

Viesti katselua: 125

Aikaleima:

Lisää aiheesta Coin Edition