O principal conjunto de dados de IA extrai dados do BitcoinTalk, Steemit e US SEC

O principal conjunto de dados de IA extrai dados do BitcoinTalk, Steemit e US SEC

Ad

Consenso CoinDeskConsenso CoinDesk

Colossal Clean Crawled Corpus (C4), um conjunto de dados de IA usado por grandes empresas de tecnologia, contém dados de vários sites relacionados à criptografia.

O conjunto de dados C4 é extraído de sites criptográficos

The Washington Post e o Allen Institute for AI analisado recentemente o conjunto de dados C4, classificando sites pelo número de “tokens” ou trechos de texto retirados de cada fonte.

A Comissão de Valores Mobiliários dos EUA – que em parte contém conteúdo sobre regulamentação de criptomoedas – estava entre as maiores fontes do conjunto de dados. Seu site (sec.gov) ficou em 39º lugar e foi responsável por 36 milhões, ou 0.02%, dos tokens do C4.

Bitcointalk.org, um fórum de discussão blockchain criado por Satoshi Nakamoto, classificado em # 780. Ele representou 6.1 milhões, ou 0.004%, dos tokens do C4.

Sites de notícias e agregação de criptomoedas, como Cointelegraph e Coinmarketcap.com, também foram representados. Oito desses sites representaram coletivamente pelo menos 0.008% dos tokens do C4, embora outros sites provavelmente aumentem o total real.

Sites relacionados a criptomoedas e exchanges específicas também foram representados no conjunto de dados, mas representaram uma quantidade insignificante de tokens.

Dois sites cripto adjacentes também tiveram uma classificação alta. IPFS (ipfs.io) ficou em 16º lugar, enquanto Steemit (steemit.com) ficou em 594º lugar. O primeiro site é uma rede distribuída da empresa de blockchain Protocol Labs, enquanto o segundo faz uso direto do blockchain. No entanto, esses sites não necessariamente contêm conteúdo relacionado à criptomoeda.

Sites mainstream encabeçaram a lista

O conjunto de dados C4 é usado em modelos de linguagem AI de grandes empresas de tecnologia, incluindo Google T5 e Facebook LLaMA, de acordo com o Washington Post.

Embora os sites acima estejam entre os sites relacionados a cripto mais significativos da C4, eles são superados por sites e fontes de notícias convencionais, que geralmente cobrem tópicos de criptomoeda e provavelmente são a fonte primária de todos os dados relacionados a cripto.

O C4 também foi criticado por conter discurso de ódio e dados piratas. Embora o nome do conjunto de dados sugira que ele foi “limpo”, seus montadores usaram apenas uma lista de 400 palavras para censurar um conteúdo específico, o que significa que o conteúdo controverso permanece intacto.

A presença de sites criptográficos, bem como a presença de dados controversos, pode afetar o nível de viés observado no conteúdo produzido por chatbots de IA.

Publicado em: AI

Carimbo de hora:

Mais de CryptoSlate