Populaarseimad tehisintellekti andmekogumid sisaldavad oma andmevoos krüptovaluutade veebisaite

Populaarseimad tehisintellekti andmekogumid sisaldavad oma andmevoos krüptovaluutade veebisaite

Top AI Dataset Features Cryptocurrency Websites in its Datafeed PlatoBlockchain Data Intelligence. Vertical Search. Ai.
  • Colossal Clean Crawled Corpus sõltub andmete mitmest krüptoplatvormist.
  • Analüüs näitab, et osa C4 tekstilõikudest ekstraheeritakse krüptopõhistelt veebisaitidelt.
  • Krüptosaitide olemasolu C4 andmestikus võib mõjutada selle kallutatuse taset.

Parim AI tööriist, Colossal Clean Crawled Corpus (C4), sõltub olulise osa andmetest mitmest krüptoplatvormist. Analüüs näitab, et C4 eraldab miljoneid tekstilõike krüptopõhistelt veebisaitidelt või veebiplatvormidelt, mis on tihedalt seotud cryptocurrency.

Aruannete kohaselt moodustab USA väärtpaberi- ja börsikomisjon (SEC), mis sisaldab nüüd märkimisväärsel hulgal krüptoga seotud teavet, 36 miljonit C4-märki, mis moodustab 0.02% platvormi andmekogumist. SECi veebisait (sec.gov), millelt C4 andmed hangib, oli C39 kaasatud veebisaitide seas 4. kohal.

Satoshi Nakamoto Bitcointalk.org moodustas 6.1 miljonit C4-märki, mis moodustab 0.004% kõigist žetoonidest. See oli 780. platvormi kaasatud veebisait.

Muud krüptoplatvormid, mida C4 andmete hankimiseks kasutab, hõlmavad krüptouudiste veebisaiti Cointelegraph ja žetoonide koondamise platvormi CoinmarketCap. Need ja veel kuus seotud veebisaiti moodustasid 0.008% kõigist C4 žetoonidest, samas kui teised konkreetsete krüptovaluutadega seotud veebisaidid moodustasid esindusest tühise osa.

IPFS (ipfs.io) ja Steemit (steemit.com) olid C4 andmekogumis olulisel kohal. IPFS oli 16. kohal, Steemit aga 594. positsioonil. Mõlemad saidid ei ole otseselt krüptoga seotud, kuid neil on märkimisväärne kalduvus krüptotööstusele.

Krüptoga seotud platvormide kaasamine C4-desse AI koolitus protsess paljastab krüptovaluuta tungimise peavoolu. Krüptoveebisaitide esindatuse ulatus on piisavalt märkimisväärne, et mõjutada C4 tulemust, kuigi peamised veebisaidid, nagu Google ja Facebook, edestavad neid märkimisväärselt.

C4 on silmitsi kriitikaga piraatandmete ja vaenu õhutamise pärast, hoolimata andmetest, et andmekogu on "puhastatud". Kuna konkreetse sisu tsenseerimise loendis on ainult 400 sõna, võib see arvata, et C4-s võib endiselt olla vastuolulist sisu. Krüptosaitide olemasolu selle andmekogumis võib samuti mõjutada selle eelarvamuste taset.

Postituse vaatamised: 125

Ajatempel:

Veel alates Müntide väljaanne