- Colossal Clean Crawled Corpus er avhengig av flere kryptoplattformer for data.
- Analyse viser at deler av C4s tekstutdrag er hentet fra kryptobaserte nettsteder.
- Tilstedeværelsen av kryptosider i C4s datasett kan påvirke nivået av skjevhet.
Det beste AI-verktøyet, Colossal Clean Crawled Corpus (C4), avhenger av flere kryptoplattformer for en betydelig del av dataene. En analyse viser at C4 trekker ut millioner av tekstbiter fra kryptobaserte nettsider eller nettplattformer nært knyttet til cryptocurrency.
I følge rapporter står US Securities and Exchange Commission (SEC), som nå inneholder en betydelig mengde kryptorelatert informasjon, for 36 millioner C4-tokens, som representerer 0.02 % av plattformens datasett. SECs nettsted (sec.gov), som C4 henter dataene fra, rangert på 39. plass blant nettstedene som er engasjert av C4.
Satoshi Nakamotos Bitcointalk.org sto for 6.1 millioner C4-tokens, tilsvarende 0.004% av de totale tokenene. Den ble rangert som den 780. nettsiden engasjert av plattformen.
Andre kryptoplattformer engasjert av C4 for datainnsamling inkluderer kryptonyhetsnettstedet, Cointelegraph, og tokens aggregeringsplattformen, CoinmarketCap. Disse og seks andre relaterte nettsteder utgjorde 0.008 % av alle C4-tokens, mens andre nettsteder relatert til spesifikke kryptovalutaer utgjorde en ubetydelig del av representasjonen.
IPFS (ipfs.io) og Steemit (steemit.com) var betydelig med i C4s datasett. IPFS rangerte 16., mens Steemit rangerte på 594. plass. Begge disse nettstedene er ikke direkte involvert i krypto, men har betydelige tilbøyeligheter til kryptoindustrien.
Involvering av krypto-relaterte plattformer i C4-er AI-trening prosessen avslører cryptocurrencys inngrep i mainstream. Krypto-nettsteders omfang av representasjon er betydelig nok til å påvirke resultatet av C4, selv om vanlige nettsteder som Google og Facebook overgår dem betydelig.
C4 har møtt kritikk over piratkopierte data og hatytringer, til tross for rapporter om at datasettet er "renset". Med bare 400 ord på listen for sensurering av spesifikt innhold, antyder det at det fortsatt kan være kontroversielt innhold i C4. Tilstedeværelsen av kryptonettsteder i datasettet kan også påvirke nivået av skjevhet.
Innlegg Visninger: 125
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. Tilgang her.
- Minting the Future med Adryenn Ashley. Tilgang her.
- kilde: https://coinedition.com/top-ai-dataset-features-cryptocurrency-websites-in-its-datafeed/
- : har
- :er
- :ikke
- 1
- a
- kontoer
- oppkjøp
- påvirke
- aggregering
- AI
- Alle
- også
- blant
- beløp
- an
- analyse
- og
- ER
- AS
- BE
- være
- Bias
- Bitcointalk
- Bitcointalk.org
- både
- men
- by
- tett
- CoinMarketCap
- Cointelegraph
- COM
- kommisjon
- inneholder
- innhold
- kontroversiell
- kunne
- kritikk
- krypto
- Kryptoindustri
- Crypto Nyheter
- krypto-baserte
- cryptocurrencies
- cryptocurrency
- dato
- avhenger
- Til tross for
- direkte
- engasjert
- nok
- Tilsvarende
- Selv
- utveksling
- ekstrakter
- møtt
- kjennetegnet
- Egenskaper
- Til
- dannet
- fra
- Ha
- HTTPS
- in
- inkludere
- industri
- påvirke
- informasjon
- inn
- involvert
- engasjement
- IPFS
- IT
- DET ER
- jpg
- Nivå
- i likhet med
- Liste
- Mainstream
- millioner
- millioner
- mer
- flere
- nyheter
- nå
- of
- on
- bare
- or
- Annen
- Utfallet
- enn
- del
- plattform
- Plattformer
- plato
- Platon Data Intelligence
- PlatonData
- posisjon
- tilstedeværelse
- prosess
- rangert
- i slekt
- Rapporter
- representasjon
- representerer
- s
- SEK
- Verdipapirer
- Securities and Exchange Commission
- Viser
- signifikant
- betydelig
- Nettsteder
- SIX
- spesifikk
- tale
- Still
- foreslår
- Det
- De
- Dem
- Der.
- Disse
- til
- tokens
- verktøy
- topp
- Totalt
- mot
- oss
- amerikanske verdipapirer
- US Securities and Exchange Commission
- visninger
- web
- Nettsted
- nettsteder
- hvilken
- mens
- med
- innenfor
- ord
- zephyrnet