大手テクノロジー企業が使用する AI データセットである Colossal Clean Crawled Corpus (C4) には、さまざまな暗号関連の Web サイトからのデータが含まれています。
C4 データセットは暗号サイトから取得されます
ワシントン・ポストとアレン人工知能研究所 最近分析した 各ソースから取得した「トークン」またはテキスト スニペットの数で Web サイトをランク付けする C4 データセット。
米国証券取引委員会 (一部には暗号通貨規制に関するコンテンツが含まれています) は、データセットの最大の情報源の 39 つです。 そのウェブサイト (sec.gov) は 36 位にランクされ、C0.02 のトークンの 4 万、または XNUMX% を占めました。
Bitcointalk.org、によって作成されたブロックチェーン ディスカッション ボード 聡中本、780位にランクイン。 C6.1のトークンの0.004万、つまり4%を占めています。
Cointelegraph や Coinmarketcap.com などの暗号通貨のニュースおよび集約サイトも代表されました。 そのような 0.008 つのサイトが集合的に C4 のトークンの少なくとも XNUMX% を占めましたが、他のサイトは実際の合計を増やしている可能性があります。
特定の暗号通貨や取引所に関連する Web サイトもデータセットに含まれていましたが、トークンの量はごくわずかでした。
暗号に隣接する XNUMX つのサイトも上位にランクされました。 IPFS (ipfs.io) が 16 位にランクイン Steemit (steemit.com) は 594 位にランクされました。 最初のサイトはブロックチェーン企業の Protocol Labs の分散型ネットワークで、XNUMX 番目のサイトはブロックチェーンを直接利用しています。 ただし、これらのサイトには必ずしも暗号通貨に関連するコンテンツが含まれているとは限りません。
主流のサイトがリストのトップに
C4 データセットは、主要なテクノロジー企業の AI 言語モデルで使用されています。 Googleの T5と Facebookの ワシントン・ポストによると、LLaMA.
上記のサイトは C4 の最も重要な暗号関連の Web サイトの XNUMX つですが、暗号通貨のトピックをカバーすることが多く、すべての暗号関連データの主要な情報源である可能性が高い主流の Web サイトやニュース ソースよりも上位にランクされています。
C4 は、ヘイトスピーチや海賊版データが含まれていることでも批判されています。 データセットの名前は、それが「クリーンアップ」されたことを示唆していますが、アセンブラは特定のコンテンツを検閲するために 400 語のリストのみを使用しました。つまり、物議を醸すコンテンツはそのまま残っています。
物議を醸すデータの存在と同様に、仮想通貨サイトの存在は、AI チャットボットによって生成されたコンテンツに見られるバイアスのレベルに影響を与える可能性があります。
- SEO を活用したコンテンツと PR 配信。 今日増幅されます。
- Platoblockchain。 Web3メタバースインテリジェンス。 知識の増幅。 こちらからアクセスしてください。
- 未来を鋳造する w エイドリエン・アシュリー。 こちらからアクセスしてください。
- 情報源: https://cryptoslate.com/top-ai-dataset-pulls-data-from-bitcointalk-steemit-and-u-s-sec/
- :持っている
- :は
- :not
- 1
- 500
- a
- 上記の.
- 従った
- 影響を及ぼす
- 凝集
- AI
- すべて
- また
- 間で
- 量
- an
- および
- です
- AS
- At
- き
- バイアス
- Bitcointalk
- ブロックチェーン
- ブロックチェーン会社
- ボード
- 焙煎が極度に未発達や過発達のコーヒーにて、クロロゲン酸の味わいへの影響は強くなり、金属を思わせる味わいと乾いたマウスフィールを感じさせます。
- by
- カテゴリー
- チャットボット
- Coindesk
- CoinMarketCap
- 合同グラフ
- 集合的に
- COM
- 委員会
- 企業
- コンセンサス
- 含む
- 含まれています
- コンテンツ
- 物議を醸す
- 可能性
- カバー
- 作成した
- クリプト
- 暗号通貨
- cryptocurrency
- 暗号侵害規制
- CryptoSlate
- データ
- 直接
- 議論
- 配布
- 分散型ネットワーク
- 各
- 交換
- 交換について
- 会社
- 名
- から
- GIF
- 非常に
- しかしながら
- HTTPS
- in
- 含めて
- 増える
- 機関
- IPFS
- IT
- ITS
- ラボ
- 言語
- 最大の
- レベル
- 可能性が高い
- Limewire
- リスト
- ラマ
- 主流
- 主要な
- 作る
- 意味
- 百万
- モデル
- 最も
- 名
- 必ずしも
- ネットワーク
- ニュース
- 数
- of
- on
- の
- or
- その他
- 部
- プラトン
- プラトンデータインテリジェンス
- プラトデータ
- ポスト
- プレゼンス
- 主要な
- 生産された
- プロトコルラボ
- 引っ張る
- ランク
- ランキング
- 規制
- 関連する
- 残っている
- で表さ
- s
- SEC
- 二番
- 有価証券
- 証券取引委員会
- 重要
- ウェブサイト
- サイト
- ソース
- ソース
- 特定の
- スピーチ
- スポンサー
- そのような
- 提案する
- TAG
- テク
- ハイテク企業
- それ
- ワシントン・ポスト
- ボーマン
- 彼ら
- 〜へ
- トークン
- トークン
- top
- トピック
- 一位
- トータル
- true
- 私達
- US SEC
- 米国証券取引委員会
- 米国証券取引委員会
- つかいます
- 中古
- さまざまな
- ました
- ワシントン
- ワシントンポスト
- ウェブサイト
- ウェブサイト
- WELL
- した
- which
- while
- 言葉
- ゼファーネット