- Colossal Clean Crawled Corpus залежить від кількох криптоплатформ для даних.
- Аналіз показує, що частина текстових фрагментів C4 витягується з веб-сайтів, заснованих на криптографії.
- Наявність криптографічних сайтів у наборі даних C4 може вплинути на рівень упередженості.
Найкращий інструмент ШІ, Колосальний чистий повзаний корпус (C4), залежить від кількох криптоплатформ для значної частини своїх даних. Аналіз показує, що C4 витягує мільйони текстових фрагментів із криптографічних веб-сайтів або веб-платформ, тісно пов’язаних із криптовалюта.
Згідно з повідомленнями, Комісія з цінних паперів і бірж США (SEC), яка зараз містить значну кількість інформації, пов’язаної з криптовалютою, має 36 мільйонів токенів C4, що становить 0.02% набору даних платформи. Веб-сайт SEC (sec.gov), з якого C4 отримує дані, займає 39-е місце серед веб-сайтів, які використовує C4.
На Bitcointalk.org Сатоші Накамото припадало 6.1 мільйона токенів C4, що еквівалентно 0.004% від загальної кількості токенів. Він став 780-м веб-сайтом, залученим платформою.
Інші криптоплатформи, задіяні C4 для збору даних, включають веб-сайт криптовалютних новин Cointelegraph і платформу агрегації токенів CoinmarketCap. На ці та ще шість пов’язаних веб-сайтів припадало 0.008% усіх токенів C4, тоді як інші веб-сайти, пов’язані з певними криптовалютами, становили незначну частину представництва.
IPFS (ipfs.io) і Steemit (steemit.com) займають значне місце в наборі даних C4. IPFS посів 16 місце, а Steemit – 594 місце. Обидва ці сайти не займаються безпосередньо крипто, але мають значні нахили до криптоіндустрії.
Залучення платформ, пов’язаних із криптовалютами, до C4 Навчання AI процес викриває вторгнення криптовалюти в мейнстрім. Ступінь представництва криптовалютних веб-сайтів достатньо значний, щоб вплинути на результат C4, навіть незважаючи на те, що основні веб-сайти, такі як Google і Facebook, значно випереджають їх.
C4 зіткнувся з критикою через піратські дані та ворожнечу, незважаючи на повідомлення про «очищення» набору даних. Маючи лише 400 слів у своєму списку для цензури певного вмісту, це припускає, що в C4 все ще може бути суперечливий вміст. Наявність криптосайтів у наборі даних також може вплинути на рівень упередженості.
Переглядів публікацій: 125
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
- Карбування майбутнього з Адріенн Ешлі. Доступ тут.
- джерело: https://coinedition.com/top-ai-dataset-features-cryptocurrency-websites-in-its-datafeed/
- : має
- :є
- : ні
- 1
- a
- Рахунки
- придбання
- впливати
- агрегація
- AI
- ВСІ
- Також
- серед
- кількість
- an
- аналіз
- та
- ЕСТЬ
- AS
- BE
- буття
- зміщення
- Bitcointalk
- Bitcointalk.org
- обидва
- але
- by
- тісно
- CoinMarketCap
- Монеттелеграф
- COM
- комісія
- містить
- зміст
- спірний
- може
- критика
- крипто
- Криптовалюта
- Crypto Новини
- на основі криптовалют
- cryptocurrencies
- криптовалюта
- дані
- залежить
- Незважаючи на
- безпосередньо
- зайнятий
- досить
- Еквівалент
- Навіть
- обмін
- Виписки
- стикаються
- ознаками
- риси
- для
- сформований
- від
- Мати
- HTTPS
- in
- включати
- промисловість
- вплив
- інформація
- в
- залучений
- участь
- ОПЗ
- IT
- ЙОГО
- JPG
- рівень
- як
- список
- Mainstream
- мільйона
- мільйони
- більше
- множинний
- новини
- зараз
- of
- on
- тільки
- or
- Інше
- Результат
- над
- частина
- платформа
- Платформи
- plato
- Інформація про дані Платона
- PlatoData
- положення
- наявність
- процес
- ранг
- пов'язаний
- Звіти
- подання
- представляє
- s
- SEC
- Securities
- Комісія з цінних паперів і бірж
- Шоу
- значний
- істотно
- сайти
- SIX
- конкретний
- мова
- Як і раніше
- Запропонує
- Що
- Команда
- Їх
- Там.
- Ці
- до
- Жетони
- інструмент
- топ
- Усього:
- до
- нас
- Цінні папери США
- Комісія з цінних паперів та бірж США
- думки
- Web
- веб-сайт
- веб-сайти
- який
- в той час як
- з
- в
- слова
- зефірнет