Top AI-dataset haalt gegevens uit BitcoinTalk, Steemit en US SEC

Top AI-dataset haalt gegevens uit BitcoinTalk, Steemit en US SEC

Ad

CoinDesk-consensusCoinDesk-consensus

Colossal Clean Crawled Corpus (C4), een AI-dataset die wordt gebruikt door grote technologiebedrijven, bevat gegevens van verschillende crypto-gerelateerde websites.

C4-dataset is afkomstig van crypto-sites

De Washington Post en het Allen Institute for AI recent geanalyseerd de C4-dataset, waarbij websites worden gerangschikt op basis van het aantal "tokens" of tekstfragmenten uit elke bron.

De Amerikaanse Securities and Exchange Commission – die gedeeltelijk inhoud bevat over cryptocurrency-regulering – was een van de grootste bronnen van de dataset. De website (sec.gov) stond op nummer 39 en was goed voor 36 miljoen, of 0.02%, van de tokens van C4.

Bitcointalk.org, een blockchain-discussieforum gemaakt door Satoshi Nakamoto, gerangschikt op #780. Het was goed voor 6.1 miljoen, of 0.004%, van de tokens van C4.

Cryptocurrency-nieuws en verzamelsites zoals Cointelegraph en Coinmarketcap.com waren ook vertegenwoordigd. Acht van dergelijke sites waren samen goed voor ten minste 0.008% van de tokens van C4, hoewel andere sites waarschijnlijk het werkelijke totaal verhogen.

Websites gerelateerd aan specifieke cryptocurrencies en uitwisselingen waren ook vertegenwoordigd in de dataset, maar waren goed voor een verwaarloosbaar aantal tokens.

Twee crypto-aangrenzende sites scoorden ook hoog. IPFs (ipfs.io) gerangschikt op #16 terwijl Steemit (steemit.com) gerangschikt op #594. De eerste site is een gedistribueerd netwerk van het blockchain-bedrijf Protocol Labs, terwijl de tweede direct gebruik maakt van blockchain. Deze sites bevatten echter niet noodzakelijkerwijs inhoud met betrekking tot cryptocurrency.

Mainstream-sites stonden bovenaan de lijst

De C4-dataset wordt gebruikt in AI-taalmodellen van grote technologiebedrijven, waaronder Google T5 en Facebook's LLaMA, volgens de Washington Post.

Hoewel de bovenstaande sites tot de belangrijkste crypto-gerelateerde websites van C4 behoren, worden ze overtroffen door reguliere websites en nieuwsbronnen, die vaak over cryptocurrency-onderwerpen gaan en waarschijnlijk de primaire bron zijn voor alle crypto-gerelateerde gegevens.

C4 is ook bekritiseerd omdat het haatzaaiende uitlatingen en illegale gegevens bevat. Hoewel de naam van de dataset suggereert dat deze is 'opgeschoond', gebruikten de samenstellers slechts een lijst van 400 woorden om specifieke inhoud te censureren, wat betekent dat controversiële inhoud intact blijft.

De aanwezigheid van crypto-sites, evenals de aanwezigheid van controversiële gegevens, kan van invloed zijn op de mate van vooringenomenheid die wordt waargenomen in inhoud die wordt geproduceerd door AI-chatbots.

Geplaatst in: AI

Tijdstempel:

Meer van cryptoslat naar