Top AI-datasæt henter data fra BitcoinTalk, Steemit og US SEC

Top AI-datasæt henter data fra BitcoinTalk, Steemit og US SEC

Ad

CoinDesk-konsensusCoinDesk-konsensus

Colossal Clean Crawled Corpus (C4), et AI-datasæt, der bruges af store teknologivirksomheder, indeholder data fra forskellige krypto-relaterede websteder.

C4-datasættet trækker fra kryptowebsteder

Washington Post og Allen Institute for AI for nylig analyseret C4-datasættet, rangerer websteder efter antallet af "tokens" eller tekstuddrag taget fra hver kilde.

US Securities and Exchange Commission – som til dels indeholder indhold om regulering af kryptovaluta – var blandt datasættets største kilder. Dens hjemmeside (sec.gov) blev rangeret som #39 og tegnede sig for 36 millioner, eller 0.02%, af C4's tokens.

Bitcointalk.org, et blockchain diskussionsforum skabt af Satoshi Nakamoto, rangeret som #780. Det tegnede sig for 6.1 millioner, eller 0.004%, af C4's tokens.

Cryptocurrency nyheder og aggregeringssider såsom Cointelegraph og Coinmarketcap.com var også repræsenteret. Otte sådanne websteder tegnede sig tilsammen for mindst 0.008 % af C4's tokens, selvom andre websteder sandsynligvis øger den sande total.

Websteder relateret til specifikke kryptovalutaer og udvekslinger var også repræsenteret i datasættet, men tegnede sig for en ubetydelig mængde tokens.

To krypto-tilstødende websteder rangerede også højt. IPFS (ipfs.io) rangeret som #16 mens Steemit (steemit.com) rangeret som #594. Det første site er et distribueret netværk fra blockchain-firmaet Protocol Labs, mens det andet gør direkte brug af blockchain. Disse websteder indeholder dog ikke nødvendigvis indhold relateret til cryptocurrency.

Mainstream-websteder toppede listen

C4-datasættet bruges i AI-sprogmodeller fra store teknologivirksomheder, herunder Googles T5 og Facebooks LLaMA ifølge Washington Post.

Selvom ovenstående websteder er blandt C4s mest betydningsfulde krypto-relaterede websteder, er de udkonkurreret af almindelige websteder og nyhedskilder, som ofte dækker emner om cryptocurrency og sandsynligvis er den primære kilde til alle krypto-relaterede data.

C4 er også blevet kritiseret for at indeholde hadefulde ytringer og piratkopierede data. Selvom datasættets navn antyder, at det er blevet "renset", brugte dets samlere kun en liste på 400 ord til at censurere specifikt indhold, hvilket betyder, at kontroversielt indhold forbliver intakt.

Tilstedeværelsen af ​​kryptowebsteder, såvel som tilstedeværelsen af ​​kontroversielle data, kan påvirke niveauet af bias set i indhold produceret af AI-chatbots.

Indsendt i: AI

Tidsstempel:

Mere fra CryptoSlate