- Colossal Clean Crawled Corpus är beroende av flera kryptoplattformar för data.
- Analys visar att en del av C4:s textutdrag extraheras från kryptobaserade webbplatser.
- Närvaron av kryptosajter i C4:s datauppsättning kan påverka dess nivå av partiskhet.
Det bästa AI-verktyget, Colossal Clean Crawled Corpus (C4), beror på flera kryptoplattformar för en betydande del av dess data. En analys visar att C4 extraherar miljontals textutdrag från kryptobaserade webbplatser eller webbplattformar som är nära relaterade till kryptovaluta.
Enligt rapporter står US Securities and Exchange Commission (SEC), som nu innehåller en betydande mängd kryptorelaterad information, för 36 miljoner C4-tokens, vilket motsvarar 0.02 % av plattformens datauppsättning. SEC:s webbplats (sec.gov), från vilken C4 hämtar data, rankades på 39:e plats bland de webbplatser som C4 anlitar.
Satoshi Nakamotos Bitcointalk.org stod för 6.1 miljoner C4-tokens, motsvarande 0.004% av de totala tokens. Den rankades som den 780:e webbplatsen som engagerades av plattformen.
Andra kryptoplattformar som anlitas av C4 för datainsamling inkluderar kryptonyhetswebbplatsen Cointelegraph och tokenaggregationsplattformen CoinmarketCap. Dessa och ytterligare sex relaterade webbplatser stod för 0.008 % av alla C4-tokens, medan andra webbplatser relaterade till specifika kryptovalutor utgjorde en försumbar del av representationen.
IPFS (ipfs.io) och Steemit (steemit.com) var betydande i C4:s datauppsättning. IPFS rankades 16:e, medan Steemit rankades på 594:e plats. Båda dessa webbplatser är inte direkt involverade i krypto men har betydande böjelser mot kryptoindustrin.
Inblandning av kryptorelaterade plattformar i C4:s AI-utbildning processen avslöjar kryptovalutans intrång i mainstream. Kryptowebbplatsers omfattning av representation är tillräckligt stor för att påverka resultatet av C4, även om vanliga webbplatser som Google och Facebook överträffar dem betydligt.
C4 har mött kritik för piratkopierad data och hatretorik, trots rapporter om att datamängden "rensats". Med bara 400 ord på sin lista för att censurera specifikt innehåll, tyder det på att det fortfarande kan finnas kontroversiellt innehåll inom C4. Närvaron av kryptosajter i dess datauppsättning kan också påverka dess nivå av partiskhet.
Inlägg Visningar: 125
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
- Minting the Future med Adryenn Ashley. Tillgång här.
- Källa: https://coinedition.com/top-ai-dataset-features-cryptocurrency-websites-in-its-datafeed/
- : har
- :är
- :inte
- 1
- a
- konton
- förvärv
- påverka
- aggregation
- AI
- Alla
- också
- bland
- mängd
- an
- analys
- och
- ÄR
- AS
- BE
- Där vi får lov att vara utan att konstant prestera,
- förspänning
- Bitcointalk
- Bitcointalk.org
- båda
- men
- by
- nära
- CoinMarketCap
- Cointelegraph
- COM
- provision
- innehåller
- innehåll
- kontroversiell
- kunde
- kritik
- crypto
- Kryptoindustri
- crypto News
- kryptobaserad
- cryptocurrencies
- kryptovaluta
- datum
- beror
- Trots
- direkt
- ingrepp
- tillräckligt
- Motsvarande
- Även
- utbyta
- extrakt
- inför
- skisserat
- Funktioner
- För
- bildad
- från
- Har
- HTTPS
- in
- innefattar
- industrin
- påverka
- informationen
- in
- involverade
- inblandning
- ipfs
- IT
- DESS
- jpg
- Nivå
- tycka om
- Lista
- Vanliga
- miljon
- miljoner
- mer
- multipel
- nyheter
- nu
- of
- on
- endast
- or
- Övriga
- Resultat
- över
- del
- plattform
- Plattformar
- plato
- Platon Data Intelligence
- PlatonData
- placera
- Närvaron
- process
- rankad
- relaterad
- Rapport
- representation
- representerar
- s
- SEC
- Värdepapper
- säkerhet och utbytesprovision
- Visar
- signifikant
- signifikant
- Områden
- SEX
- specifik
- tal
- Fortfarande
- Föreslår
- den där
- Smakämnen
- Dem
- Där.
- Dessa
- till
- tokens
- verktyg
- topp
- Totalt
- mot
- oss
- amerikanska värdepapper
- US Securities and Exchange Commission
- visningar
- webb
- Webbplats
- webbsidor
- som
- medan
- med
- inom
- ord
- zephyrnet