Najboljši nabor podatkov AI črpa podatke iz BitcoinTalk, Steemit in US SEC

Najboljši nabor podatkov AI črpa podatke iz BitcoinTalk, Steemit in US SEC

Ad

CoinDesk ConsensusCoinDesk Consensus

Colossal Clean Crawled Corpus (C4), nabor podatkov AI, ki ga uporabljajo velika tehnološka podjetja, vsebuje podatke z različnih spletnih mest, povezanih s kripto.

Nabor podatkov C4 črpa s kripto spletnih mest

Washington Post in Allenov inštitut za umetno inteligenco nedavno analizirana nabor podatkov C4, ki razvršča spletna mesta po številu "žetonov" ali delčkov besedila, vzetih iz vsakega vira.

Komisija ZDA za vrednostne papirje in borzo – ki delno vsebuje vsebino o regulaciji kriptovalut – je bila med največjimi viri nabora podatkov. Njegovo spletno mesto (sec.gov) je bilo uvrščeno na 39. mesto in je predstavljalo 36 milijonov ali 0.02 % žetonov C4.

Bitcointalk.org, forum za razprave o blockchainu, ki ga je ustvaril Satoshi Nakamoto, uvrščen na 780. mesto. Predstavljal je 6.1 milijona ali 0.004 % žetonov C4.

Predstavljena so bila tudi spletna mesta z novicami in združevanjem kriptovalut, kot sta Cointelegraph in Coinmarketcap.com. Osem takšnih spletnih mest skupaj predstavlja vsaj 0.008 % žetonov C4, čeprav druga spletna mesta verjetno povečajo dejansko skupno vrednost.

V naboru podatkov so bila predstavljena tudi spletna mesta, povezana z določenimi kriptovalutami in menjavami, vendar so predstavljala zanemarljivo količino žetonov.

Visoko sta se uvrstili tudi dve kripto sosednji spletni strani. IPFS (ipfs.io) uvrščen na 16. mesto medtem Steemit (steemit.com) na 594. mestu. Prvo mesto je porazdeljeno omrežje podjetja Protocol Labs za verigo blokov, drugo pa neposredno uporablja verigo blokov. Vendar ta spletna mesta ne vsebujejo nujno vsebine, povezane s kriptovaluto.

Glavna spletna mesta so bila na vrhu seznama

Nabor podatkov C4 se uporablja v jezikovnih modelih umetne inteligence večjih tehnoloških podjetij, vključno z Googlova T5 in Facebookovi LLaMA, poroča Washington Post.

Čeprav so zgornja spletna mesta med najpomembnejšimi spletnimi mesti C4, povezana s kripto, jih prehitevajo običajna spletna mesta in viri novic, ki pogosto pokrivajo teme o kriptovalutah in so verjetno glavni vir za vse podatke, povezane s kriptovalutami.

C4 je bil deležen tudi kritik, ker vsebuje sovražni govor in piratske podatke. Čeprav ime nabora podatkov nakazuje, da je bil »očiščen«, so njegovi sestavljavci za cenzuro določene vsebine uporabili samo seznam 400 besed, kar pomeni, da sporna vsebina ostane nedotaknjena.

Prisotnost kripto spletnih mest, kot tudi prisotnost spornih podatkov, bi lahko vplivala na stopnjo pristranskosti, vidno v vsebini, ki jo ustvarijo klepetalni roboti AI.

Objavljeno v: AI

Časovni žig:

Več od CryptoSlate