上位の AI データセットは、BitcoinTalk、Steemit、US SEC からデータを引き出します

上位の AI データセットは、BitcoinTalk、Steemit、US SEC からデータを引き出します

Ad

CoinDesk コンセンサスCoinDesk コンセンサス

大手テクノロジー企業が使用する AI データセットである Colossal Clean Crawled Corpus (C4) には、さまざまな暗号関連の Web サイトからのデータが含まれています。

C4 データセットは暗号サイトから取得されます

ワシントン・ポストとアレン人工知能研究所 最近分析した 各ソースから取得した「トークン」またはテキスト スニペットの数で Web サイトをランク付けする C4 データセット。

米国証券取引委員会 (一部には暗号通貨規制に関するコンテンツが含まれています) は、データセットの最大の情報源の 39 つです。 そのウェブサイト (sec.gov) は 36 位にランクされ、C0.02 のトークンの 4 万、または XNUMX% を占めました。

Bitcointalk.org、によって作成されたブロックチェーン ディスカッション ボード 聡中本、780位にランクイン。 C6.1のトークンの0.004万、つまり4%を占めています。

Cointelegraph や Coinmarketcap.com などの暗号通貨のニュースおよび集約サイトも代表されました。 そのような 0.008 つのサイトが集合的に C4 のトークンの少なくとも XNUMX% を占めましたが、他のサイトは実際の合計を増やしている可能性があります。

特定の暗号通貨や取引所に関連する Web サイトもデータセットに含まれていましたが、トークンの量はごくわずかでした。

暗号に隣接する XNUMX つのサイトも上位にランクされました。 IPFS (ipfs.io) が 16 位にランクイン Steemit (steemit.com) は 594 位にランクされました。 最初のサイトはブロックチェーン企業の Protocol Labs の分散型ネットワークで、XNUMX 番目のサイトはブロックチェーンを直接利用しています。 ただし、これらのサイトには必ずしも暗号通貨に関連するコンテンツが含まれているとは限りません。

主流のサイトがリストのトップに

C4 データセットは、主要なテクノロジー企業の AI 言語モデルで使用されています。 Googleの T5と Facebookの ワシントン・ポストによると、LLaMA.

上記のサイトは C4 の最も重要な暗号関連の Web サイトの XNUMX つですが、暗号通貨のトピックをカバーすることが多く、すべての暗号関連データの主要な情報源である可能性が高い主流の Web サイトやニュース ソースよりも上位にランクされています。

C4 は、ヘイトスピーチや海賊版データが含まれていることでも批判されています。 データセットの名前は、それが「クリーンアップ」されたことを示唆していますが、アセンブラは特定のコンテンツを検閲するために 400 語のリストのみを使用しました。つまり、物議を醸すコンテンツはそのまま残っています。

物議を醸すデータの存在と同様に、仮想通貨サイトの存在は、AI チャットボットによって生成されたコンテンツに見られるバイアスのレベルに影響を与える可能性があります。

で掲示されます: AI

タイムスタンプ:

より多くの CryptoSlate