Principais conjuntos de dados de IA apresentam sites de criptomoeda em seu feed de dados

Principais conjuntos de dados de IA apresentam sites de criptomoeda em seu feed de dados

O principal conjunto de dados de IA apresenta sites de criptomoeda em seu Datafeed PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
  • O Colossal Clean Crawled Corpus depende de várias plataformas criptográficas para obter dados.
  • A análise mostra que parte dos trechos de texto do C4 são extraídos de sites baseados em criptografia.
  • A presença de sites criptográficos no conjunto de dados do C4 pode afetar seu nível de viés.

A principal ferramenta de IA, Corpus Rastejado Limpo Colossal (C4), depende de várias plataformas criptográficas para uma parte significativa de seus dados. Uma análise mostra que o C4 extrai milhões de trechos de texto de sites baseados em criptografia ou plataformas da web intimamente relacionadas a criptomoedas.

Segundo relatos, a Securities and Exchange Commission (SEC) dos EUA, que agora contém uma quantidade significativa de informações relacionadas a cripto, responde por 36 milhões de tokens C4, representando 0.02% do conjunto de dados da plataforma. O site da SEC (sec.gov), de onde o C4 busca os dados, ficou em 39º lugar entre os sites contratados pelo C4.

O Bitcointalk.org de Satoshi Nakamoto foi responsável por 6.1 milhões de tokens C4, equivalente a 0.004% do total de tokens. Ele foi classificado como o 780º site engajado pela plataforma.

Outras plataformas criptográficas contratadas pela C4 para aquisição de dados incluem o site de notícias criptográficas, Cointelegraph, e a plataforma de agregação de tokens, CoinmarketCap. Esses e mais seis sites relacionados representaram 0.008% de todos os tokens C4, enquanto outros sites relacionados a criptomoedas específicas formaram uma parte insignificante da representação.

IPFS (ipfs.io) e Steemit (steemit.com) aparecem significativamente no conjunto de dados do C4. O IPFS ficou em 16º lugar, enquanto o Steemit ficou na 594ª posição. Ambos os sites não estão diretamente envolvidos na criptografia, mas têm inclinações significativas para a indústria de criptografia.

O envolvimento de plataformas relacionadas a criptomoedas em C4's Treinamento de IA O processo expõe a invasão da criptomoeda no mainstream. A extensão da representação dos sites criptográficos é significativa o suficiente para influenciar o resultado do C4, mesmo que sites convencionais como Google e Facebook os superem significativamente.

O C4 enfrentou críticas sobre dados pirateados e discurso de ódio, apesar de relatos de que o conjunto de dados foi “limpo”. Com apenas 400 palavras em sua lista para censurar conteúdo específico, sugere que ainda pode haver conteúdo controverso dentro do C4. A presença de sites criptográficos em seu conjunto de dados também pode afetar seu nível de viés.

Publicar vistas: 125

Carimbo de hora:

Mais de Edição de moedas