Набор данных Top AI извлекает данные из BitcoinTalk, Steemit и SEC США

Набор данных Top AI извлекает данные из BitcoinTalk, Steemit и SEC США

Ad

Консенсус CoinDeskКонсенсус CoinDesk

Colossal Clean Crawled Corpus (C4), набор данных AI, используемый крупными технологическими компаниями, содержит данные с различных веб-сайтов, связанных с криптографией.

Набор данных C4 взят с криптосайтов

The Washington Post и Институт искусственного интеллекта Аллена недавно проанализированный набор данных C4, ранжирующий веб-сайты по количеству «токенов» или текстовых фрагментов, взятых из каждого источника.

Комиссия по ценным бумагам и биржам США, которая частично содержит информацию о регулировании криптовалют, была одним из крупнейших источников набора данных. Его веб-сайт (sec.gov) занял 39-е место, и на его долю приходилось 36 миллионов, или 0.02%, токенов C4.

Bitcointalk.org, форум для обсуждения блокчейна, созданный Сатоши Накамото, под номером 780. На его долю приходилось 6.1 миллиона, или 0.004%, токенов C4.

Также были представлены новостные и агрегаторные сайты криптовалюты, такие как Cointelegraph и Coinmarketcap.com. На восемь таких сайтов в совокупности приходится не менее 0.008% токенов C4, хотя другие сайты, вероятно, увеличивают истинную сумму.

Веб-сайты, связанные с конкретными криптовалютами и биржами, также были представлены в наборе данных, но на их долю приходилось незначительное количество токенов.

Два крипто-смежных сайта также получили высокие оценки. ОПЗ (ipfs.io) заняла 16-е место, а Steemit (steemit.com) занял 594-е место. Первый сайт представляет собой распределенную сеть от блокчейн-фирмы Protocol Labs, а второй напрямую использует блокчейн. Однако эти сайты не обязательно содержат контент, связанный с криптовалютой.

Популярные сайты возглавили список

Набор данных C4 используется в языковых моделях ИИ крупных технологических компаний, включая Google T5 и Facebook в LLaMA, сообщает Washington Post.

Хотя вышеуказанные сайты входят в число наиболее важных веб-сайтов C4, связанных с криптовалютой, они уступают основным веб-сайтам и источникам новостей, которые часто освещают темы криптовалюты и, вероятно, являются основным источником всех данных, связанных с криптовалютой.

C4 также подвергался критике за разжигание ненависти и пиратские данные. Хотя название набора данных предполагает, что он был «очищен», его сборщики использовали только список из 400 слов для цензуры определенного контента, а это означает, что спорный контент остается нетронутым.

Наличие крипто-сайтов, а также наличие противоречивых данных может повлиять на уровень предвзятости, наблюдаемый в контенте, создаваемом чат-ботами с искусственным интеллектом.

Опубликовано в: AI

Отметка времени:

Больше от CryptoSlate