A legnépszerűbb mesterséges intelligencia adatkészlet a BitcoinTalk, a Steemit és a US SEC adatait gyűjti össze

A legnépszerűbb mesterséges intelligencia adatkészlet a BitcoinTalk, a Steemit és a US SEC adatait gyűjti össze

Ad

CoinDesk konszenzusCoinDesk konszenzus

A Colossal Clean Crawled Corpus (C4), a nagy technológiai vállalatok által használt mesterséges intelligencia adatkészlet, amely különféle kriptográfiai vonatkozású webhelyekről tartalmaz adatokat.

A C4 adatkészlet titkosítási webhelyekről merít

A Washington Post és az Allen Institute for AI nemrég elemezték a C4 adatkészlet, a webhelyek rangsorolása az egyes forrásokból vett „tokenek” vagy szövegrészletek száma alapján.

Az Egyesült Államok Értékpapír- és Tőzsdefelügyelete – amely részben a kriptovaluta szabályozására vonatkozó tartalmat tartalmaz – az adatkészlet legnagyobb forrásai közé tartozott. Weboldala (sec.gov) a 39. helyen végzett, és 36 milliót, azaz a C0.02 tokenek 4%-át tette ki.

Bitcointalk.org, egy blokklánc vitafórum, amelyet a Satoshi Nakamoto, a 780. helyen áll. Ez 6.1 milliót, azaz 0.004%-ot tett ki a C4 tokenekből.

A kriptovalutákkal kapcsolatos hír- és összesítő oldalak, például a Cointelegraph és a Coinmarketcap.com is képviseltették magukat. Nyolc ilyen oldal együttesen a C0.008 tokenek legalább 4%-át tette ki, bár más oldalak valószínűleg növelik a valódi összértéket.

Bizonyos kriptovalutákhoz és tőzsdékhez kapcsolódó webhelyek is szerepeltek az adathalmazban, de elhanyagolható mennyiségű tokenből állt.

Két kriptográfiai szomszédos webhely is előkelő helyen végzett. IPFS (ipfs.io) a 16. helyen végzett míg Steemit (steemit.com) az 594. helyen áll. Az első webhely a Protocol Labs blokklánccég elosztott hálózata, míg a második közvetlenül a blokkláncot használja. Ezek az oldalak azonban nem feltétlenül tartalmaznak kriptovalutával kapcsolatos tartalmat.

A lista élén a mainstream oldalak álltak

A C4 adatkészletet a nagy technológiai cégek AI nyelvi modelljeiben használják, beleértve Google T5 és Facebook LLaMA a Washington Post szerint.

Bár a fenti oldalak a C4 legjelentősebb kriptográfiai vonatkozású webhelyei közé tartoznak, megelőzik őket a mainstream webhelyek és hírforrások, amelyek gyakran kriptovalutákkal foglalkoznak, és valószínűleg az összes kriptovalutával kapcsolatos adat elsődleges forrásai.

A C4-et azért is kritizálták, mert gyűlöletbeszédet és kalóz adatokat tartalmaz. Bár az adatkészlet neve azt sugallja, hogy „megtisztították”, összeállítói csak egy 400 szóból álló listát használtak az adott tartalom cenzúrázására, ami azt jelenti, hogy a vitatott tartalom érintetlen marad.

A kriptooldalak jelenléte, valamint az ellentmondásos adatok jelenléte befolyásolhatja az AI chatbotok által előállított tartalom torzításának szintjét.

Kirakott: AI

Időbélyeg:

Még több CryptoSlate