Top AI Dataset enthält Kryptowährungs-Websites in seinem Datafeed

Top AI Dataset enthält Kryptowährungs-Websites in seinem Datafeed

Der Top-KI-Datensatz enthält Kryptowährungs-Websites in seinem Datenfeed PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.
  • Colossal Clean Crawled Corpus hängt von mehreren Kryptoplattformen für Daten ab.
  • Die Analyse zeigt, dass ein Teil der Textschnipsel von C4 von kryptobasierten Websites extrahiert wurden.
  • Das Vorhandensein von Krypto-Sites im Datensatz von C4 könnte sich auf den Grad der Verzerrung auswirken.

Das Top-KI-Tool, Kolossaler sauberer gekrabbelter Korpus (C4), hängt für einen erheblichen Teil seiner Daten von mehreren Kryptoplattformen ab. Eine Analyse zeigt, dass C4 Millionen von Textschnipseln von kryptobasierten Websites oder eng damit verbundenen Webplattformen extrahiert kryptowährung.

Berichten zufolge macht die US Securities and Exchange Commission (SEC), die inzwischen eine beträchtliche Menge an kryptobezogenen Informationen enthält, 36 Millionen C4-Token aus, was 0.02 % des Datensatzes der Plattform entspricht. Die Website der SEC (sec.gov), von der C4 die Daten bezieht, belegte den 39. Platz unter den von C4 beauftragten Websites.

Auf Bitcointalk.org von Satoshi Nakamoto entfielen 6.1 Millionen C4-Token, was 0.004 % der gesamten Token entspricht. Es ist die 780. Website, die von der Plattform genutzt wird.

Andere Kryptoplattformen, die von C4 für die Datenerfassung eingesetzt werden, sind die Kryptonachrichten-Website Cointelegraph und die Token-Aggregationsplattform CoinmarketCap. Diese und sechs weitere verwandte Websites machten 0.008 % aller C4-Token aus, während andere Websites, die sich auf bestimmte Kryptowährungen beziehen, einen vernachlässigbaren Teil der Darstellung ausmachten.

IPFS (ipfs.io) und Steemit (steemit.com) spielten im Datensatz von C4 eine wichtige Rolle. IPFS belegte den 16. Platz, während Steemit den 594. Platz belegte. Diese beiden Seiten sind nicht direkt an Krypto beteiligt, haben aber erhebliche Neigungen zur Kryptoindustrie.

Die Beteiligung kryptobezogener Plattformen an C4s KI-Training Der Prozess enthüllt das Vordringen der Kryptowährung in den Mainstream. Das Ausmaß der Repräsentation von Krypto-Websites ist signifikant genug, um das Ergebnis von C4 zu beeinflussen, obwohl Mainstream-Websites wie Google und Facebook sie deutlich übertreffen.

C4 wurde wegen Raubkopien und Hassreden kritisiert, obwohl berichtet wurde, dass der Datensatz „gesäubert“ wurde. Mit nur 400 Wörtern in seiner Liste zum Zensieren bestimmter Inhalte deutet es darauf hin, dass es in C4 immer noch kontroverse Inhalte geben könnte. Das Vorhandensein von Krypto-Sites in seinem Datensatz könnte sich auch auf den Grad der Verzerrung auswirken.

Beiträge: 125

Zeitstempel:

Mehr von Münzausgabe