Colossal Clean Crawled Corpus (C4) 是主要科技公司使用的人工智能数据集,包含来自各种加密相关网站的数据。
C4 数据集来自加密站点
华盛顿邮报和艾伦人工智能研究所 最近分析 C4 数据集,根据从每个来源获取的“标记”或文本片段的数量对网站进行排名。
美国证券交易委员会——其中部分包含有关加密货币监管的内容——是该数据集的最大来源之一。 其网站 (sec.gov) 排名第 39,占 C36 代币的 0.02 万,即 4%。
Bitcointalk.org,一个由 中本聪,排名#780。 它占 C6.1 代币的 0.004 万,即 4%。
Cointelegraph 和 Coinmarketcap.com 等加密货币新闻和聚合网站也派代表出席。 八个这样的网站总共占 C0.008 代币的至少 4%,尽管其他网站可能会增加真实总数。
与特定加密货币和交易所相关的网站也出现在数据集中,但只占微不足道的代币数量。
两个与加密货币相邻的站点也排名很高。 IPFS (ipfs.io) 排名第 16,而 Steemit (steemit.com) 排名第 594 位。 第一个站点是区块链公司 Protocol Labs 的分布式网络,而第二个站点直接使用区块链。 但是,这些站点不一定包含与加密货币相关的内容。
主流网站位居榜首
C4 数据集用于来自主要科技公司的 AI 语言模型,包括 谷歌的 T5 和 Facebook的 LLaMA,据《华盛顿邮报》报道。
尽管上述网站是 C4 最重要的加密相关网站之一,但它们的排名不及主流网站和新闻来源,这些网站和新闻来源通常涵盖加密货币主题,并且可能是所有加密相关数据的主要来源。
C4 还因包含仇恨言论和盗版数据而受到批评。 尽管该数据集的名称表明它已被“清理”,但其汇编程序仅使用 400 个单词的列表来审查特定内容,这意味着有争议的内容仍然完好无损。
加密网站的存在以及有争议的数据的存在,可能会影响人工智能聊天机器人生成的内容中的偏见程度。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- 与 Adryenn Ashley 一起铸造未来。 访问这里。
- Sumber: https://cryptoslate.com/top-ai-dataset-pulls-data-from-bitcointalk-steemit-and-u-s-sec/
- :具有
- :是
- :不是
- 1
- 500
- a
- 以上
- 根据
- 影响
- 聚合
- AI
- 所有类型
- 还
- 其中
- 量
- an
- 和
- 保健
- AS
- At
- 很
- 偏见
- Bitcointalk
- blockchain
- 区块链公司
- 板
- 但是
- by
- 产品类别
- 聊天机器人
- Coindesk
- CoinMarketCap
- Cointelegraph
- 统
- COM的
- 佣金
- 公司
- 共识
- 包含
- 包含
- 内容
- 争议
- 可以
- 外壳
- 创建
- 加密
- cryptocurrencies
- cryptocurrency
- 加密货币监管
- CryptoSlate
- data
- 直接
- 讨论
- 分布
- 分布式网络
- 每
- 交换
- 换货
- 公司
- 姓氏:
- 针对
- 止
- GIF
- 高度
- 但是
- HTTPS
- in
- 包含
- 增加
- 研究所
- IPFS
- IT
- 它的
- 实验室
- 语言
- 最大
- Level
- 容易
- LimeWire的
- 清单
- 骆驼
- 主流
- 主要
- 制作
- 意
- 百万
- 模型
- 最先进的
- 姓名
- 一定
- 网络
- 消息
- 数
- of
- on
- 仅由
- or
- 其他名称
- 部分
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 帖子
- 存在
- 小学
- 生成
- 协议
- 协议实验室
- 拉
- 排名
- 排行
- 税法法规
- 有关
- 遗迹
- 代表
- s
- 证券交易委员会
- 其次
- 证券
- 美国证券交易委员会
- 显著
- 网站
- 网站
- 来源
- 来源
- 具体的
- 言语
- 赞助商
- 这样
- 提示
- 行李牌
- 科技
- 高科技公司
- 这
- “华盛顿邮报”
- 博曼
- 他们
- 至
- 象征
- 令牌
- 最佳
- Topics
- 突破
- 合计
- true
- 我们
- 美国SEC
- 美国证券
- 美国证券交易委员会
- 使用
- 用过的
- 各个
- 是
- 华盛顿
- 华盛顿邮报
- 您的网站
- 网站
- 井
- 为
- 这
- 而
- 话
- 和风网