El principal conjunto de datos de IA extrae datos de BitcoinTalk, Steemit y la SEC de EE. UU.

El principal conjunto de datos de IA extrae datos de BitcoinTalk, Steemit y la SEC de EE. UU.

Ad

Consenso de CoinDeskConsenso de CoinDesk

Colossal Clean Crawled Corpus (C4), un conjunto de datos de IA utilizado por las principales empresas de tecnología, contiene datos de varios sitios web relacionados con criptografía.

El conjunto de datos C4 se extrae de sitios criptográficos

The Washington Post y el Instituto Allen para la IA analizado recientemente el conjunto de datos C4, clasificando los sitios web por la cantidad de "tokens" o fragmentos de texto tomados de cada fuente.

La Comisión de Bolsa y Valores de EE. UU., que en parte contiene contenido sobre la regulación de criptomonedas, fue una de las fuentes más grandes del conjunto de datos. Su sitio web (sec.gov) ocupó el puesto 39 y representó 36 millones, o el 0.02 %, de los tokens de C4.

Bitcointalk.org, un foro de discusión de blockchain creado por Satoshi Nakamoto, clasificado en el puesto 780. Representó 6.1 millones, o el 0.004 %, de los tokens de C4.

También estuvieron representados sitios de noticias y agregación de criptomonedas como Cointelegraph y Coinmarketcap.com. Ocho de estos sitios representaron colectivamente al menos el 0.008 % de los tokens de C4, aunque es probable que otros sitios aumenten el total real.

Los sitios web relacionados con criptomonedas e intercambios específicos también estaban representados en el conjunto de datos, pero representaban una cantidad insignificante de tokens.

Dos sitios criptoadyacentes también ocuparon un lugar destacado. IPFS (ipfs.io) ocupó el puesto 16 mientras que Steemit (steemit.com) clasificado en el puesto 594. El primer sitio es una red distribuida de la firma de blockchain Protocol Labs, mientras que el segundo hace uso directo de blockchain. Sin embargo, estos sitios no necesariamente contienen contenido relacionado con criptomonedas.

Los sitios convencionales encabezaron la lista

El conjunto de datos C4 se utiliza en modelos de lenguaje de IA de las principales empresas tecnológicas, incluidas De Google T5 y Facebook LLaMA, según el Washington Post.

Aunque los sitios anteriores se encuentran entre los sitios web relacionados con las criptomonedas más importantes de C4, están superados por los principales sitios web y fuentes de noticias, que a menudo cubren temas relacionados con las criptomonedas y probablemente sean la fuente principal de todos los datos relacionados con las criptomonedas.

C4 también ha sido criticado por contener discursos de odio y datos pirateados. Aunque el nombre del conjunto de datos sugiere que ha sido "limpiado", sus ensambladores solo usaron una lista de 400 palabras para censurar contenido específico, lo que significa que el contenido controvertido permanece intacto.

La presencia de criptositios, así como la presencia de datos controvertidos, podría afectar el nivel de sesgo observado en el contenido producido por los chatbots de IA.

Publicado en: AI

Sello de tiempo:

Mas de CryptoSlate