Colossal Clean Crawled Corpus (C4), набор данных AI, используемый крупными технологическими компаниями, содержит данные с различных веб-сайтов, связанных с криптографией.
Набор данных C4 взят с криптосайтов
The Washington Post и Институт искусственного интеллекта Аллена недавно проанализированный набор данных C4, ранжирующий веб-сайты по количеству «токенов» или текстовых фрагментов, взятых из каждого источника.
Комиссия по ценным бумагам и биржам США, которая частично содержит информацию о регулировании криптовалют, была одним из крупнейших источников набора данных. Его веб-сайт (sec.gov) занял 39-е место, и на его долю приходилось 36 миллионов, или 0.02%, токенов C4.
Bitcointalk.org, форум для обсуждения блокчейна, созданный Сатоши Накамото, под номером 780. На его долю приходилось 6.1 миллиона, или 0.004%, токенов C4.
Также были представлены новостные и агрегаторные сайты криптовалюты, такие как Cointelegraph и Coinmarketcap.com. На восемь таких сайтов в совокупности приходится не менее 0.008% токенов C4, хотя другие сайты, вероятно, увеличивают истинную сумму.
Веб-сайты, связанные с конкретными криптовалютами и биржами, также были представлены в наборе данных, но на их долю приходилось незначительное количество токенов.
Два крипто-смежных сайта также получили высокие оценки. ОПЗ (ipfs.io) заняла 16-е место, а Steemit (steemit.com) занял 594-е место. Первый сайт представляет собой распределенную сеть от блокчейн-фирмы Protocol Labs, а второй напрямую использует блокчейн. Однако эти сайты не обязательно содержат контент, связанный с криптовалютой.
Популярные сайты возглавили список
Набор данных C4 используется в языковых моделях ИИ крупных технологических компаний, включая Google T5 и Facebook в LLaMA, сообщает Washington Post.
Хотя вышеуказанные сайты входят в число наиболее важных веб-сайтов C4, связанных с криптовалютой, они уступают основным веб-сайтам и источникам новостей, которые часто освещают темы криптовалюты и, вероятно, являются основным источником всех данных, связанных с криптовалютой.
C4 также подвергался критике за разжигание ненависти и пиратские данные. Хотя название набора данных предполагает, что он был «очищен», его сборщики использовали только список из 400 слов для цензуры определенного контента, а это означает, что спорный контент остается нетронутым.
Наличие крипто-сайтов, а также наличие противоречивых данных может повлиять на уровень предвзятости, наблюдаемый в контенте, создаваемом чат-ботами с искусственным интеллектом.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Чеканка будущего с Эдриенн Эшли. Доступ здесь.
- Источник: https://cryptoslate.com/top-ai-dataset-pulls-data-from-bitcointalk-steemit-and-u-s-sec/
- :имеет
- :является
- :нет
- 1
- 500
- a
- выше
- По
- влиять на
- агрегирование
- AI
- Все
- причислены
- среди
- количество
- an
- и
- МЫ
- AS
- At
- было
- смещение
- Bitcointalk
- блокчейн
- Блокчейн Фирма
- доска
- но
- by
- Категории
- chatbots
- Coindesk
- CoinMarketCap
- Cointelegraph
- коллективно
- COM
- комиссии
- Компании
- Консенсус
- содержать
- содержит
- содержание
- спорный
- может
- чехол для варгана
- создали
- крипто-
- криптовалюты
- криптовалюта
- криптовалютное регулирование
- CryptoSlate
- данным
- направлять
- обсуждение
- распределенный
- Распределенная сеть
- каждый
- обмена
- Биржи
- Фирма
- First
- Что касается
- от
- GIF
- очень
- Однако
- HTTPS
- in
- В том числе
- Увеличение
- Институт
- ОПЗ
- IT
- ЕГО
- Labs
- язык
- крупнейших
- уровень
- Вероятно
- Limewire
- Список
- Лама
- Mainstream
- основной
- ДЕЛАЕТ
- смысл
- миллиона
- Модели
- самых
- имя
- обязательно
- сеть
- Новости
- номер
- of
- on
- только
- or
- Другое
- часть
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- После
- присутствие
- первичный
- Произведенный
- протокол
- Лаборатории протоколов
- Тянет
- вошел
- Ранжирование
- "Регулирование"
- Связанный
- остатки
- представленный
- s
- SEC / КОМИССИЯ ПО ЦЕННЫМ БУМАГАМ И БИРЖАМ
- Во-вторых
- Ценные бумаги
- Комиссия по ценным бумагам и биржам
- значительный
- сайте
- Сайтов
- Источник
- Источники
- конкретный
- речь
- Спонсоров
- такие
- Предлагает
- TAG
- технологии
- технологические компании
- который
- Ассоциация
- Washington Post
- Эти
- они
- в
- знак
- Лексемы
- топ
- Темы
- увенчанный
- Всего
- правда
- нам
- ТРЦ США
- Ценные бумаги США
- Комиссия США по ценным бумагам и биржам
- использование
- используемый
- различный
- законопроект
- Вашингтон
- Сообщение
- Вебсайт
- веб-сайты
- ЧТО Ж
- были
- который
- в то время как
- слова
- зефирнет