Topp AI-datasett har kryptovalutanettsteder i datafeeden

Topp AI-datasett har kryptovalutanettsteder i datafeeden

Topp AI-datasett inneholder kryptovalutanettsteder i Datafeed PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
  • Colossal Clean Crawled Corpus er avhengig av flere kryptoplattformer for data.
  • Analyse viser at deler av C4s tekstutdrag er hentet fra kryptobaserte nettsteder.
  • Tilstedeværelsen av kryptosider i C4s datasett kan påvirke nivået av skjevhet.

Det beste AI-verktøyet, Colossal Clean Crawled Corpus (C4), avhenger av flere kryptoplattformer for en betydelig del av dataene. En analyse viser at C4 trekker ut millioner av tekstbiter fra kryptobaserte nettsider eller nettplattformer nært knyttet til cryptocurrency.

I følge rapporter står US Securities and Exchange Commission (SEC), som nå inneholder en betydelig mengde kryptorelatert informasjon, for 36 millioner C4-tokens, som representerer 0.02 % av plattformens datasett. SECs nettsted (sec.gov), som C4 henter dataene fra, rangert på 39. ​​plass blant nettstedene som er engasjert av C4.

Satoshi Nakamotos Bitcointalk.org sto for 6.1 millioner C4-tokens, tilsvarende 0.004% av de totale tokenene. Den ble rangert som den 780. nettsiden engasjert av plattformen.

Andre kryptoplattformer engasjert av C4 for datainnsamling inkluderer kryptonyhetsnettstedet, Cointelegraph, og tokens aggregeringsplattformen, CoinmarketCap. Disse og seks andre relaterte nettsteder utgjorde 0.008 % av alle C4-tokens, mens andre nettsteder relatert til spesifikke kryptovalutaer utgjorde en ubetydelig del av representasjonen.

IPFS (ipfs.io) og Steemit (steemit.com) var betydelig med i C4s datasett. IPFS rangerte 16., mens Steemit rangerte på 594. plass. Begge disse nettstedene er ikke direkte involvert i krypto, men har betydelige tilbøyeligheter til kryptoindustrien.

Involvering av krypto-relaterte plattformer i C4-er AI-trening prosessen avslører cryptocurrencys inngrep i mainstream. Krypto-nettsteders omfang av representasjon er betydelig nok til å påvirke resultatet av C4, selv om vanlige nettsteder som Google og Facebook overgår dem betydelig.

C4 har møtt kritikk over piratkopierte data og hatytringer, til tross for rapporter om at datasettet er "renset". Med bare 400 ord på listen for sensurering av spesifikt innhold, antyder det at det fortsatt kan være kontroversielt innhold i C4. Tilstedeværelsen av kryptonettsteder i datasettet kan også påvirke nivået av skjevhet.

Innlegg Visninger: 125

Tidstempel:

Mer fra Myntutgave