Les principaux ensembles de données AI présentent des sites Web de crypto-monnaie dans son flux de données

Les principaux ensembles de données AI présentent des sites Web de crypto-monnaie dans son flux de données

Le principal ensemble de données IA présente des sites Web de crypto-monnaie dans son flux de données PlatoBlockchain Data Intelligence. Recherche verticale. Aï.
  • Colossal Clean Crawled Corpus dépend de plusieurs plates-formes de chiffrement pour les données.
  • L'analyse montre qu'une partie des extraits de texte de C4 sont extraits de sites Web basés sur la cryptographie.
  • La présence de sites cryptographiques dans l'ensemble de données de C4 pourrait affecter son niveau de biais.

Le meilleur outil d'IA, Corpus rampé colossal propre (C4), dépend de plusieurs plates-formes de chiffrement pour une partie importante de ses données. Une analyse montre que C4 extrait des millions d'extraits de texte à partir de sites Web basés sur la cryptographie ou de plates-formes Web étroitement liées à crypto-monnaie.

Selon les rapports, la Securities and Exchange Commission (SEC) des États-Unis, qui contient désormais une quantité importante d'informations liées à la cryptographie, représente 36 millions de jetons C4, ce qui représente 0.02 % de l'ensemble de données de la plateforme. Le site Web de la SEC (sec.gov), à partir duquel C4 récupère les données, s'est classé 39e parmi les sites Web consultés par C4.

Bitcointalk.org de Satoshi Nakamoto représentait 6.1 millions de jetons C4, soit 0.004 % du total des jetons. Il s'est classé au 780e site Web engagé par la plateforme.

Parmi les autres plates-formes de cryptographie engagées par C4 pour l'acquisition de données, citons le site Web d'informations sur la cryptographie, Cointelegraph, et la plate-forme d'agrégation de jetons, CoinmarketCap. Ces sites et six autres sites Web connexes représentaient 0.008 % de tous les jetons C4, tandis que d'autres sites Web liés à des crypto-monnaies spécifiques constituaient une part négligeable de la représentation.

IPFS (ipfs.io) et Steemit (steemit.com) figuraient de manière significative dans l'ensemble de données de C4. IPFS s'est classé 16e, tandis que Steemit s'est classé à la 594e position. Ces deux sites ne sont pas directement impliqués dans la cryptographie mais ont des penchants importants pour l'industrie de la cryptographie.

L'implication des plates-formes liées à la cryptographie dans les C4 Formation IA processus expose l'empiètement de la crypto-monnaie dans le courant dominant. L'étendue de la représentation des sites Web de cryptographie est suffisamment importante pour influencer le résultat de C4, même si les sites Web grand public comme Google et Facebook les surpassent de manière significative.

C4 a fait l'objet de critiques concernant des données piratées et des discours de haine, malgré les informations selon lesquelles l'ensemble de données aurait été «nettoyé». Avec seulement 400 mots dans sa liste pour censurer un contenu spécifique, cela suggère qu'il pourrait encore y avoir un contenu controversé dans C4. La présence de sites cryptographiques dans son ensemble de données pourrait également affecter son niveau de biais.

Poste des vues: 125

Horodatage:

Plus de Édition de pièces