Top AI-datasæt indeholder Cryptocurrency-websteder i sit datafeed

Top AI-datasæt indeholder Cryptocurrency-websteder i sit datafeed

Top AI Dataset Features Cryptocurrency Websites in its Datafeed PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  • Colossal Clean Crawled Corpus afhænger af flere kryptoplatforme til data.
  • Analyse viser, at en del af C4's tekstuddrag er udvundet fra kryptobaserede websteder.
  • Tilstedeværelsen af ​​kryptosites i C4's datasæt kan påvirke dets niveau af bias.

Det bedste AI-værktøj, Colossal Clean Crawled Corpus (C4), afhænger af flere kryptoplatforme for en betydelig del af dens data. En analyse viser, at C4 udtrækker millioner af tekstuddrag fra kryptobaserede websteder eller webplatforme, der er tæt relateret til cryptocurrency.

Ifølge rapporter tegner US Securities and Exchange Commission (SEC), som nu indeholder en betydelig mængde krypto-relateret information, sig for 36 millioner C4-tokens, der repræsenterer 0.02% af platformens datasæt. SEC's hjemmeside (sec.gov), hvorfra C4 henter dataene, rangerede som nummer 39 blandt de websteder, som C4 engagerer.

Satoshi Nakamotos Bitcointalk.org tegnede sig for 6.1 millioner C4-tokens, svarende til 0.004% af de samlede tokens. Det rangeres som det 780. websted, som platformen engagerer sig i.

Andre kryptoplatforme engageret af C4 til dataindsamling inkluderer kryptonyhedswebstedet, Cointelegraph, og tokens-aggregationsplatformen, CoinmarketCap. Disse og seks andre relaterede websteder tegnede sig for 0.008% af alle C4-tokens, mens andre websteder relateret til specifikke kryptovalutaer udgjorde en ubetydelig del af repræsentationen.

IPFS (ipfs.io) og Steemit (steemit.com) var markant med i C4's datasæt. IPFS var på 16. pladsen, mens Steemit var på 594. plads. Begge disse websteder er ikke direkte involveret i krypto, men har betydelige tilbøjeligheder til kryptoindustrien.

Inddragelsen af ​​krypto-relaterede platforme i C4'er AI -træning processen afslører cryptocurrency's indgreb i mainstream. Krypto-websteders repræsentationsgrad er betydelig nok til at påvirke resultatet af C4, selvom mainstream-websteder som Google og Facebook udkonkurrerer dem betydeligt.

C4 har været udsat for kritik over piratkopierede data og hadefulde ytringer, på trods af rapporter om, at datasættet er blevet "renset". Med kun 400 ord på sin liste til censurering af specifikt indhold, tyder det på, at der stadig kan være kontroversielt indhold i C4. Tilstedeværelsen af ​​kryptowebsteder i dets datasæt kan også påvirke dets niveau af bias.

Indlæg Visninger: 125

Tidsstempel:

Mere fra Møntudgave