- O Colossal Clean Crawled Corpus depende de várias plataformas criptográficas para obter dados.
- A análise mostra que parte dos trechos de texto do C4 são extraídos de sites baseados em criptografia.
- A presença de sites criptográficos no conjunto de dados do C4 pode afetar seu nível de viés.
A principal ferramenta de IA, Corpus Rastejado Limpo Colossal (C4), depende de várias plataformas criptográficas para uma parte significativa de seus dados. Uma análise mostra que o C4 extrai milhões de trechos de texto de sites baseados em criptografia ou plataformas da web intimamente relacionadas a criptomoedas.
Segundo relatos, a Securities and Exchange Commission (SEC) dos EUA, que agora contém uma quantidade significativa de informações relacionadas a cripto, responde por 36 milhões de tokens C4, representando 0.02% do conjunto de dados da plataforma. O site da SEC (sec.gov), de onde o C4 busca os dados, ficou em 39º lugar entre os sites contratados pelo C4.
O Bitcointalk.org de Satoshi Nakamoto foi responsável por 6.1 milhões de tokens C4, equivalente a 0.004% do total de tokens. Ele foi classificado como o 780º site engajado pela plataforma.
Outras plataformas criptográficas contratadas pela C4 para aquisição de dados incluem o site de notícias criptográficas, Cointelegraph, e a plataforma de agregação de tokens, CoinmarketCap. Esses e mais seis sites relacionados representaram 0.008% de todos os tokens C4, enquanto outros sites relacionados a criptomoedas específicas formaram uma parte insignificante da representação.
IPFS (ipfs.io) e Steemit (steemit.com) aparecem significativamente no conjunto de dados do C4. O IPFS ficou em 16º lugar, enquanto o Steemit ficou na 594ª posição. Ambos os sites não estão diretamente envolvidos na criptografia, mas têm inclinações significativas para a indústria de criptografia.
O envolvimento de plataformas relacionadas a criptomoedas em C4's Treinamento de IA O processo expõe a invasão da criptomoeda no mainstream. A extensão da representação dos sites criptográficos é significativa o suficiente para influenciar o resultado do C4, mesmo que sites convencionais como Google e Facebook os superem significativamente.
O C4 enfrentou críticas sobre dados pirateados e discurso de ódio, apesar de relatos de que o conjunto de dados foi “limpo”. Com apenas 400 palavras em sua lista para censurar conteúdo específico, sugere que ainda pode haver conteúdo controverso dentro do C4. A presença de sites criptográficos em seu conjunto de dados também pode afetar seu nível de viés.
Publicar vistas: 125
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
- Cunhando o Futuro com Adryenn Ashley. Acesse aqui.
- Fonte: https://coinedition.com/top-ai-dataset-features-cryptocurrency-websites-in-its-datafeed/
- :tem
- :é
- :não
- 1
- a
- Contas
- aquisição
- afetar
- agregação
- AI
- Todos os Produtos
- tb
- entre
- quantidade
- an
- análise
- e
- SOMOS
- AS
- BE
- ser
- viés
- Bitcointalk
- Bitcointalk.org
- ambos
- mas a
- by
- de perto
- CoinMarketCap
- Cointelegraph
- COM
- de referência
- contém
- conteúdo
- controverso
- poderia
- crítica
- cripto
- Indústria de criptografia
- Crypto News
- baseado em criptografia
- criptomoedas
- criptomoedas
- dados,
- depende
- Apesar de
- diretamente
- contratado
- suficiente
- Equivalente
- Mesmo
- exchange
- Extractos
- enfrentou
- destaque
- Funcionalidades
- Escolha
- formado
- da
- Ter
- HTTPS
- in
- incluir
- indústria
- influência
- INFORMAÇÕES
- para dentro
- envolvido
- envolvimento
- IPFS
- IT
- ESTÁ
- jpg
- Nível
- como
- Lista
- Corrente principal
- milhão
- milhões
- mais
- múltiplo
- notícias
- agora
- of
- on
- só
- or
- Outros
- Resultado
- Acima de
- parte
- plataforma
- Plataformas
- platão
- Inteligência de Dados Platão
- PlatãoData
- posição
- presença
- processo
- classificado
- relacionado
- Relatórios
- representação
- representando
- s
- SEC
- Valores mobiliários
- Securities and Exchange Commission
- Shows
- periodo
- de forma considerável
- Locais
- SIX
- específico
- discurso
- Ainda
- Sugere
- que
- A
- Eles
- Lá.
- Este
- para
- Tokens
- ferramenta
- topo
- Total
- para
- nos
- Títulos dos EUA
- US Securities and Exchange Commission
- visualizações
- web
- Site
- sites
- qual
- enquanto
- de
- dentro
- palavras
- zefirnet