Top AI Dataset innehåller kryptovalutawebbplatser i sitt dataflöde

Top AI Dataset innehåller kryptovalutawebbplatser i sitt dataflöde

Top AI-dataset innehåller kryptovalutawebbplatser i sin Datafeed PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
  • Colossal Clean Crawled Corpus är beroende av flera kryptoplattformar för data.
  • Analys visar att en del av C4:s textutdrag extraheras från kryptobaserade webbplatser.
  • Närvaron av kryptosajter i C4:s datauppsättning kan påverka dess nivå av partiskhet.

Det bästa AI-verktyget, Colossal Clean Crawled Corpus (C4), beror på flera kryptoplattformar för en betydande del av dess data. En analys visar att C4 extraherar miljontals textutdrag från kryptobaserade webbplatser eller webbplattformar som är nära relaterade till kryptovaluta.

Enligt rapporter står US Securities and Exchange Commission (SEC), som nu innehåller en betydande mängd kryptorelaterad information, för 36 miljoner C4-tokens, vilket motsvarar 0.02 % av plattformens datauppsättning. SEC:s webbplats (sec.gov), från vilken C4 hämtar data, rankades på 39:e plats bland de webbplatser som C4 anlitar.

Satoshi Nakamotos Bitcointalk.org stod för 6.1 miljoner C4-tokens, motsvarande 0.004% av de totala tokens. Den rankades som den 780:e webbplatsen som engagerades av plattformen.

Andra kryptoplattformar som anlitas av C4 för datainsamling inkluderar kryptonyhetswebbplatsen Cointelegraph och tokenaggregationsplattformen CoinmarketCap. Dessa och ytterligare sex relaterade webbplatser stod för 0.008 % av alla C4-tokens, medan andra webbplatser relaterade till specifika kryptovalutor utgjorde en försumbar del av representationen.

IPFS (ipfs.io) och Steemit (steemit.com) var betydande i C4:s datauppsättning. IPFS rankades 16:e, medan Steemit rankades på 594:e plats. Båda dessa webbplatser är inte direkt involverade i krypto men har betydande böjelser mot kryptoindustrin.

Inblandning av kryptorelaterade plattformar i C4:s AI-utbildning processen avslöjar kryptovalutans intrång i mainstream. Kryptowebbplatsers omfattning av representation är tillräckligt stor för att påverka resultatet av C4, även om vanliga webbplatser som Google och Facebook överträffar dem betydligt.

C4 har mött kritik för piratkopierad data och hatretorik, trots rapporter om att datamängden "rensats". Med bara 400 ord på sin lista för att censurera specifikt innehåll, tyder det på att det fortfarande kan finnas kontroversiellt innehåll inom C4. Närvaron av kryptosajter i dess datauppsättning kan också påverka dess nivå av partiskhet.

Inlägg Visningar: 125

Tidsstämpel:

Mer från Myntupplaga