Top AI-dataset met cryptocurrency-websites in zijn datafeed

Top AI-dataset met cryptocurrency-websites in zijn datafeed

Top AI-dataset bevat cryptocurrency-websites in zijn datafeed PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
  • Colossal Clean Crawled Corpus is voor gegevens afhankelijk van meerdere cryptoplatforms.
  • Analyse toont aan dat een deel van de tekstfragmenten van C4 afkomstig is van op crypto gebaseerde websites.
  • De aanwezigheid van crypto-sites in de dataset van C4 kan van invloed zijn op de mate van vooringenomenheid.

De beste AI-tool, Kolossal Clean Crawled Corpus (C4), is voor een aanzienlijk deel van zijn gegevens afhankelijk van meerdere cryptoplatforms. Uit een analyse blijkt dat C4 miljoenen tekstfragmenten extraheert van op crypto gebaseerde websites of webplatforms die nauw verwant zijn aan cryptogeld.

Volgens rapporten is de Amerikaanse Securities and Exchange Commission (SEC), die nu een aanzienlijke hoeveelheid crypto-gerelateerde informatie bevat, goed voor 36 miljoen C4-tokens, wat neerkomt op 0.02% van de dataset van het platform. De website van de SEC (sec.gov), waarvan C4 de gegevens ophaalt, stond op de 39e plaats van de websites die door C4 werden gebruikt.

Satoshi Nakamoto's Bitcointalk.org was goed voor 6.1 miljoen C4-tokens, gelijk aan 0.004% van het totale aantal tokens. Het was de 780e website die door het platform werd gebruikt.

Andere cryptoplatforms die door C4 worden gebruikt voor gegevensverzameling zijn de crypto-nieuwswebsite, Cointelegraph, en het tokens-aggregatieplatform, CoinmarketCap. Deze en zes andere gerelateerde websites waren goed voor 0.008% van alle C4-tokens, terwijl andere websites met betrekking tot specifieke cryptocurrencies een verwaarloosbaar deel van de vertegenwoordiging vormden.

IPFS (ipfs.io) en Steemit (steemit.com) kwamen significant voor in de dataset van C4. IPFS staat op de 16e plaats, terwijl Steemit op de 594e plaats staat. Beide sites zijn niet direct betrokken bij cryptovaluta, maar hebben aanzienlijke neigingen naar de crypto-industrie.

De betrokkenheid van cryptogerelateerde platforms bij C4's AI-training proces onthult de aantasting van cryptocurrency in de mainstream. De mate van vertegenwoordiging van crypto-websites is significant genoeg om de uitkomst van C4 te beรฏnvloeden, ook al overtreffen reguliere websites zoals Google en Facebook ze aanzienlijk.

C4 heeft kritiek gekregen op illegale gegevens en haatzaaiende uitlatingen, ondanks berichten dat de dataset is "opgeschoond". Met slechts 400 woorden in de lijst voor het censureren van specifieke inhoud, suggereert het dat er nog steeds controversiรซle inhoud binnen C4 kan zijn. De aanwezigheid van crypto-sites in de dataset kan ook van invloed zijn op de mate van vooringenomenheid.

Publicatie Bezichtigingen: 125

Tijdstempel:

Meer van Munt Editie