顶级 AI 数据集在其数据源中包含加密货币网站

顶级 AI 数据集在其数据源中包含加密货币网站

顶级 AI 数据集在其数据源 PlatoBlockchain 数据智能中包含加密货币网站。垂直搜索。人工智能。
  • Colossal Clean Crawled Corpus 依赖于多个加密平台来获取数据。
  • 分析表明,C4 的部分文本片段是从基于加密的网站中提取的。
  • C4 数据集中加密站点的存在可能会影响其偏差程度。

顶级AI工具, 巨大的清洁爬行语料库(C4),其很大一部分数据依赖于多个加密平台。 一项分析表明,C4 从基于加密的网站或网络平台中提取了数百万个文本片段 cryptocurrency.

据报道,美国证券交易委员会(SEC)现在包含大量与加密相关的信息,占 36 万个 C4 代币,占该平台数据集的 0.02%。 C4 从中获取数据的 SEC 网站 (sec.gov) 在 C39 使用的网站中排名第 4 位。

中本聪的 Bitcointalk.org 持有 6.1 万个 C4 代币,相当于总代币的 0.004%。 成为该平台接入的第780个网站。

C4 用于数据获取的其他加密平台包括加密新闻网站 Cointelegraph 和代币聚合平台 CoinmarketCap。 这些网站和另外六个相关网站占所有 C0.008 代币的 4%,而与特定加密货币相关的其他网站所占比例可以忽略不计。

IPFS (ipfs.io) 和 Steemit (steemit.com) 在 C4 的数据集中占有重要地位。 IPFS 排名第 16 位,而 Steemit 排名第 594 位。 这两个站点都不直接涉及加密,但对加密行业有很大的倾向。

加密相关平台参与 C4 人工智能培训 过程暴露了加密货币对主流的侵蚀。 加密网站的代表性程度足以影响 C4 的结果,尽管像谷歌和 Facebook 这样的主流网站在排名上远远超过它们。

尽管有报道称数据集已被“清理”,但 C4 仍面临盗版数据和仇恨言论的批评。 由于其审查特定内容的列表中只有 400 个单词,这表明 C4 中可能仍然存在有争议的内容。 其数据集中加密站点的存在也可能影响其偏见程度。

发布视图: 125

时间戳记:

更多来自 硬币版