顶级 AI 数据集从 BitcoinTalk、Steemit 和美国证券交易委员会提取数据

顶级 AI 数据集从 BitcoinTalk、Steemit 和美国证券交易委员会提取数据

Ad

CoinDesk 共识CoinDesk 共识

Colossal Clean Crawled Corpus (C4) 是主要科技公司使用的人工智能数据集,包含来自各种加密相关网站的数据。

C4 数据集来自加密站点

华盛顿邮报和艾伦人工智能研究所 最近分析 C4 数据集,根据从每个来源获取的“标记”或文本片段的数量对网站进行排名。

美国证券交易委员会——其中部分包含有关加密货币监管的内容——是该数据集的最大来源之一。 其网站 (sec.gov) 排名第 39,占 C36 代币的 0.02 万,即 4%。

Bitcointalk.org,一个由 中本聪,排名#780。 它占 C6.1 代币的 0.004 万,即 4%。

Cointelegraph 和 Coinmarketcap.com 等加密货币新闻和聚合网站也派代表出席。 八个这样的网站总共占 C0.008 代币的至少 4%,尽管其他网站可能会增加真实总数。

与特定加密货币和交易所相关的网站也出现在数据集中,但只占微不足道的代币数量。

两个与加密货币相邻的站点也排名很高。 IPFS (ipfs.io) 排名第 16,而 Steemit (steemit.com) 排名第 594 位。 第一个站点是区块链公司 Protocol Labs 的分布式网络,而第二个站点直接使用区块链。 但是,这些站点不一定包含与加密货币相关的内容。

主流网站位居榜首

C4 数据集用于来自主要科技公司的 AI 语言模型,包括 谷歌的 T5 和 Facebook的 LLaMA,据《华盛顿邮报》报道。

尽管上述网站是 C4 最重要的加密相关网站之一,但它们的排名不及主流网站和新闻来源,这些网站和新闻来源通常涵盖加密货币主题,并且可能是所有加密相关数据的主要来源。

C4 还因包含仇恨言论和盗版数据而受到批评。 尽管该数据集的名称表明它已被“清理”,但其汇编程序仅使用 400 个单词的列表来审查特定内容,这意味着有争议的内容仍然完好无损。

加密网站的存在以及有争议的数据的存在,可能会影响人工智能聊天机器人生成的内容中的偏见程度。

发表于: AI

时间戳记:

更多来自 CryptoSlate