Top AI Dataset presenta sitios web de criptomonedas en su fuente de datos

Top AI Dataset presenta sitios web de criptomonedas en su fuente de datos

El principal conjunto de datos de IA presenta sitios web de criptomonedas en su fuente de datos PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.
  • Colossal Clean Crawled Corpus depende de múltiples plataformas criptográficas para los datos.
  • El análisis muestra que parte de los fragmentos de texto de C4 se extraen de sitios web basados ​​en criptografía.
  • La presencia de criptositios en el conjunto de datos de C4 podría afectar su nivel de sesgo.

La mejor herramienta de IA, Corpus colosal limpio y arrastrándose (C4), depende de múltiples plataformas criptográficas para una parte significativa de sus datos. Un análisis muestra que C4 extrae millones de fragmentos de texto de sitios web criptográficos o plataformas web estrechamente relacionadas con criptomoneda.

Según los informes, la Comisión de Bolsa y Valores de EE. UU. (SEC), que ahora contiene una cantidad significativa de información relacionada con las criptomonedas, representa 36 millones de tokens C4, lo que representa el 0.02 % del conjunto de datos de la plataforma. El sitio web de la SEC (sec.gov), desde el cual C4 obtiene los datos, ocupó el puesto 39 entre los sitios web contratados por C4.

Bitcointalk.org de Satoshi Nakamoto representó 6.1 millones de tokens C4, equivalentes al 0.004% del total de tokens. Se clasificó como el sitio web número 780 contratado por la plataforma.

Otras plataformas criptográficas contratadas por C4 para la adquisición de datos incluyen el sitio web de noticias criptográficas, Cointelegraph, y la plataforma de agregación de tokens, CoinmarketCap. Estos y otros seis sitios web relacionados representaron el 0.008 % de todos los tokens C4, mientras que otros sitios web relacionados con criptomonedas específicas formaron una parte insignificante de la representación.

IPFS (ipfs.io) y Steemit (steemit.com) figuraron significativamente en el conjunto de datos de C4. IPFS ocupó el puesto 16, mientras que Steemit ocupó el puesto 594. Ambos sitios no están directamente involucrados en la criptografía, pero tienen inclinaciones significativas hacia la industria de la criptografía.

La participación de las plataformas relacionadas con las criptomonedas en los C4 Entrenamiento de IA El proceso expone la invasión de la criptomoneda en la corriente principal. El grado de representación de los sitios web criptográficos es lo suficientemente significativo como para influir en el resultado de C4, a pesar de que los sitios web convencionales como Google y Facebook los superan significativamente.

C4 ha enfrentado críticas por datos pirateados y discursos de odio, a pesar de los informes de que el conjunto de datos se "limpió". Con solo 400 palabras en su lista para censurar contenido específico, sugiere que aún podría haber contenido controvertido dentro de C4. La presencia de criptositios en su conjunto de datos también podría afectar su nivel de sesgo.

Publicar Vistas: 125

Sello de tiempo:

Mas de Edición de moneda