Top-KI-Datensatz bezieht Daten von BitcoinTalk, Steemit und US SEC

Top-KI-Datensatz bezieht Daten von BitcoinTalk, Steemit und US SEC

Ad

CoinDesk-KonsensCoinDesk-Konsens

Colossal Clean Crawled Corpus (C4), ein KI-Datensatz, der von großen Technologieunternehmen verwendet wird, enthält Daten von verschiedenen kryptobezogenen Websites.

Der C4-Datensatz stammt von Krypto-Sites

Die Washington Post und das Allen Institute for AI kürzlich analysiert den C4-Datensatz, der Websites nach der Anzahl der „Token“ oder Textausschnitte aus jeder Quelle einordnet.

Die US Securities and Exchange Commission – die teilweise Inhalte zur Regulierung von Kryptowährungen enthält – gehörte zu den größten Quellen des Datensatzes. Seine Website (sec.gov) rangierte auf Platz 39 und machte 36 Millionen oder 0.02 % der Token von C4 aus.

Bitcointalk.org, ein Blockchain-Diskussionsforum, das von erstellt wurde Satoshi Nakamoto, auf Platz #780. Es machte 6.1 Millionen oder 0.004 % der Token von C4 aus.

Nachrichten- und Aggregationsseiten für Kryptowährungen wie Cointelegraph und Coinmarketcap.com waren ebenfalls vertreten. Acht solcher Websites machten zusammen mindestens 0.008 % der Token von C4 aus, obwohl andere Websites die tatsächliche Gesamtzahl wahrscheinlich erhöhen.

Websites, die sich auf bestimmte Kryptowährungen und Börsen beziehen, waren ebenfalls im Datensatz vertreten, machten jedoch nur eine vernachlässigbare Menge an Token aus.

Zwei Krypto-angrenzende Websites rangierten ebenfalls hoch. IPFS (ipfs.io) auf Platz 16, während Steemit (steemit.com) auf Platz 594. Der erste Standort ist ein verteiltes Netzwerk der Blockchain-Firma Protocol Labs, während der zweite die Blockchain direkt nutzt. Diese Seiten enthalten jedoch nicht unbedingt Inhalte im Zusammenhang mit Kryptowährung.

Mainstream-Sites führten die Liste an

Der C4-Datensatz wird in KI-Sprachmodellen großer Technologieunternehmen verwendet, darunter Google T5 und Facebook- LLaMA, so die Washington Post.

Obwohl die oben genannten Websites zu den bedeutendsten kryptobezogenen Websites von C4 gehören, werden sie von Mainstream-Websites und Nachrichtenquellen übertroffen, die häufig Kryptowährungsthemen behandeln und wahrscheinlich die Hauptquelle für alle kryptobezogenen Daten sind.

C4 wurde auch dafür kritisiert, Hassreden und Raubkopien zu enthalten. Obwohl der Name des Datensatzes darauf hindeutet, dass er „bereinigt“ wurde, verwendeten seine Assembler nur eine Liste von 400 Wörtern, um bestimmte Inhalte zu zensieren, was bedeutet, dass kontroverse Inhalte intakt bleiben.

Das Vorhandensein von Krypto-Sites sowie das Vorhandensein kontroverser Daten könnten den Grad der Voreingenommenheit beeinflussen, der in von KI-Chatbots produzierten Inhalten zu sehen ist.

Veröffentlicht in: AI

Zeitstempel:

Mehr von CryptoSlate