Top AI dataset hämtar data från BitcoinTalk, Steemit och US SEC

Top AI dataset hämtar data från BitcoinTalk, Steemit och US SEC

Ad

CoinDesk ConsensusCoinDesk Consensus

Colossal Clean Crawled Corpus (C4), en AI-datauppsättning som används av stora teknikföretag, innehåller data från olika kryptorelaterade webbplatser.

C4-datauppsättningen hämtar från kryptosajter

Washington Post och Allen Institute for AI nyligen analyserat C4-datauppsättningen, rangordnar webbplatser efter antalet "tokens" eller textavsnitt tagna från varje källa.

US Securities and Exchange Commission – som delvis innehåller innehåll om reglering av kryptovaluta – var bland datasetets största källor. Dess webbplats (sec.gov) rankades som #39 och stod för 36 miljoner, eller 0.02 %, av C4:s tokens.

Bitcointalk.org, en blockchain diskussionsforum skapad av Satoshi Nakamoto, rankad som #780. Den stod för 6.1 miljoner, eller 0.004 %, av C4:s tokens.

Nyheter och aggregeringssajter för kryptovaluta som Cointelegraph och Coinmarketcap.com var också representerade. Åtta sådana sajter stod tillsammans för minst 0.008 % av C4:s tokens, även om andra sajter sannolikt ökar den verkliga summan.

Webbplatser relaterade till specifika kryptovalutor och utbyten fanns också representerade i datasetet men stod för en försumbar mängd tokens.

Två krypto-angränsande webbplatser rankades också högt. ipfs (ipfs.io) rankad som #16 medan Steemit (steemit.com) rankad som #594. Den första sajten är ett distribuerat nätverk från blockkedjeföretaget Protocol Labs, medan den andra direkt använder sig av blockchain. Dessa sajter innehåller dock inte nödvändigtvis innehåll relaterat till kryptovaluta.

Mainstream-sajter toppade listan

C4-datauppsättningen används i AI-språkmodeller från stora teknikföretag inklusive Googles T5 och Facebooks LLaMA, enligt Washington Post.

Även om ovanstående webbplatser är bland C4:s mest betydande kryptorelaterade webbplatser, rankas de ut av vanliga webbplatser och nyhetskällor, som ofta täcker kryptovalutaämnen och sannolikt är den primära källan för all kryptorelaterade data.

C4 har också kritiserats för att innehålla hatretorik och piratkopierad data. Även om datauppsättningens namn antyder att den har "rensats", använde dess sammanställare bara en lista på 400 ord för att censurera specifikt innehåll, vilket betyder att kontroversiellt innehåll förblir intakt.

Förekomsten av kryptosajter, såväl som närvaron av kontroversiell data, kan påverka nivån av partiskhet som ses i innehåll som produceras av AI-chatbots.

Inlagd i: AI

Tidsstämpel:

Mer från CryptoSlate