Лучший набор данных AI включает криптовалютные веб-сайты в свой поток данных

Лучший набор данных AI включает криптовалютные веб-сайты в свой поток данных

Топовый набор данных AI включает веб-сайты, посвященные криптовалютам, в своем канале данных PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
  • Colossal Clean Crawled Corpus зависит от нескольких криптоплатформ для данных.
  • Анализ показывает, что часть текстовых фрагментов C4 извлечена из криптографических веб-сайтов.
  • Наличие крипто-сайтов в наборе данных C4 может повлиять на его уровень предвзятости.

Лучший инструмент искусственного интеллекта, Колоссальный чистый ползучий корпус (C4), зависит от нескольких криптоплатформ для значительной части своих данных. Анализ показывает, что C4 извлекает миллионы текстовых фрагментов с криптографических веб-сайтов или веб-платформ, тесно связанных с криптовалюта.

Согласно отчетам, Комиссия по ценным бумагам и биржам США (SEC), которая в настоящее время содержит значительный объем информации, связанной с криптовалютой, насчитывает 36 миллионов токенов C4, что составляет 0.02% набора данных платформы. Веб-сайт SEC (sec.gov), с которого C4 получает данные, занял 39-е место среди веб-сайтов, используемых C4.

На Bitcointalk.org Сатоши Накамото приходится 6.1 миллиона токенов C4, что составляет 0.004% от общего количества токенов. Он стал 780-м веб-сайтом, задействованным платформой.

Другие криптоплатформы, используемые C4 для сбора данных, включают веб-сайт криптовалютных новостей Cointelegraph и платформу агрегации токенов CoinmarketCap. На эти и еще шесть связанных веб-сайтов приходилось 0.008% всех токенов C4, в то время как другие веб-сайты, связанные с конкретными криптовалютами, составляли незначительную часть представления.

IPFS (ipfs.io) и Steemit (steemit.com) занимают важное место в наборе данных C4. IPFS заняла 16-е место, а Steemit — 594-е. Оба эти сайта не имеют прямого отношения к криптоиндустрии, но имеют значительные склонности к криптоиндустрии.

Участие платформ, связанных с криптовалютой, в C4 AI обучение процесс выявляет вторжение криптовалюты в мейнстрим. Степень представленности крипто-сайтов достаточно значительна, чтобы повлиять на результат C4, даже несмотря на то, что основные веб-сайты, такие как Google и Facebook, значительно опережают их.

C4 столкнулся с критикой из-за пиратских данных и разжигания ненависти, несмотря на сообщения об «очистке» набора данных. Имея в своем списке всего 400 слов для цензуры определенного контента, он предполагает, что в C4 все еще может быть спорный контент. Наличие крипто-сайтов в его наборе данных также может повлиять на его уровень предвзятости.

Сообщение Просмотров: 125

Отметка времени:

Больше от Монетное издание