Le meilleur ensemble de données AI extrait les données de BitcoinTalk, Steemit et US SEC

Le meilleur ensemble de données AI extrait les données de BitcoinTalk, Steemit et US SEC

Ad

Consensus CoinDeskConsensus CoinDesk

Colossal Clean Crawled Corpus (C4), un ensemble de données d'IA utilisé par les grandes entreprises technologiques, contient des données provenant de divers sites Web liés à la cryptographie.

L'ensemble de données C4 provient de sites cryptographiques

Le Washington Post et l'Allen Institute for AI récemment analysé l'ensemble de données C4, classant les sites Web en fonction du nombre de «jetons» ou d'extraits de texte extraits de chaque source.

La Securities and Exchange Commission des États-Unis – qui contient en partie du contenu sur la réglementation des crypto-monnaies – figurait parmi les plus grandes sources de l'ensemble de données. Son site Web (sec.gov) s'est classé au 39e rang et représentait 36 ​​millions, soit 0.02 %, des jetons de C4.

Bitcointalk.org, un forum de discussion blockchain créé par Satoshi Nakamoto, classé #780. Il représentait 6.1 millions, soit 0.004 %, des jetons de C4.

Les sites d'information et d'agrégation de crypto-monnaie tels que Cointelegraph et Coinmarketcap.com étaient également représentés. Huit sites de ce type représentaient collectivement au moins 0.008 % des jetons de C4, bien que d'autres sites augmentent probablement le vrai total.

Les sites Web liés à des crypto-monnaies et des échanges spécifiques étaient également représentés dans l'ensemble de données, mais représentaient une quantité négligeable de jetons.

Deux sites crypto-adjacents se sont également bien classés. IPFS (ipfs.io) classé au 16e rang alors que Steemit (steemit.com) classé #594. Le premier site est un réseau distribué de la société blockchain Protocol Labs, tandis que le second utilise directement la blockchain. Cependant, ces sites ne contiennent pas nécessairement de contenu lié à la crypto-monnaie.

Les sites grand public arrivent en tête de liste

L'ensemble de données C4 est utilisé dans les modèles de langage d'IA de grandes entreprises technologiques, notamment Google T5 et Facebook LLaMA, selon le Washington Post.

Bien que les sites ci-dessus figurent parmi les sites Web les plus importants liés à la cryptographie de C4, ils sont surclassés par les sites Web et les sources d'information grand public, qui couvrent souvent des sujets de crypto-monnaie et sont probablement la principale source de toutes les données liées à la cryptographie.

C4 a également été critiqué pour contenir des discours de haine et des données piratées. Bien que le nom de l'ensemble de données suggère qu'il a été "nettoyé", ses assembleurs n'ont utilisé qu'une liste de 400 mots pour censurer un contenu spécifique, ce qui signifie que le contenu controversé reste intact.

La présence de sites cryptographiques, ainsi que la présence de données controversées, pourraient affecter le niveau de biais observé dans le contenu produit par les chatbots IA.

Publié dans: AI

Horodatage:

Plus de CryptoSlate