Найкращий набір даних штучного інтелекту містить у своїй стрічці даних веб-сайти про криптовалюту

Найкращий набір даних штучного інтелекту містить у своїй стрічці даних веб-сайти про криптовалюту

Найкращий набір даних штучного інтелекту містить криптовалютні веб-сайти у своєму каналі даних PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.
  • Colossal Clean Crawled Corpus залежить від кількох криптоплатформ для даних.
  • Аналіз показує, що частина текстових фрагментів C4 витягується з веб-сайтів, заснованих на криптографії.
  • Наявність криптографічних сайтів у наборі даних C4 може вплинути на рівень упередженості.

Найкращий інструмент ШІ, Колосальний чистий повзаний корпус (C4), залежить від кількох криптоплатформ для значної частини своїх даних. Аналіз показує, що C4 витягує мільйони текстових фрагментів із криптографічних веб-сайтів або веб-платформ, тісно пов’язаних із криптовалюта.

Згідно з повідомленнями, Комісія з цінних паперів і бірж США (SEC), яка зараз містить значну кількість інформації, пов’язаної з криптовалютою, має 36 мільйонів токенів C4, що становить 0.02% набору даних платформи. Веб-сайт SEC (sec.gov), з якого C4 отримує дані, займає 39-е місце серед веб-сайтів, які використовує C4.

На Bitcointalk.org Сатоші Накамото припадало 6.1 мільйона токенів C4, що еквівалентно 0.004% від загальної кількості токенів. Він став 780-м веб-сайтом, залученим платформою.

Інші криптоплатформи, задіяні C4 для збору даних, включають веб-сайт криптовалютних новин Cointelegraph і платформу агрегації токенів CoinmarketCap. На ці та ще шість пов’язаних веб-сайтів припадало 0.008% усіх токенів C4, тоді як інші веб-сайти, пов’язані з певними криптовалютами, становили незначну частину представництва.

IPFS (ipfs.io) і Steemit (steemit.com) займають значне місце в наборі даних C4. IPFS посів 16 місце, а Steemit – 594 місце. Обидва ці сайти не займаються безпосередньо крипто, але мають значні нахили до криптоіндустрії.

Залучення платформ, пов’язаних із криптовалютами, до C4 Навчання AI процес викриває вторгнення криптовалюти в мейнстрім. Ступінь представництва криптовалютних веб-сайтів достатньо значний, щоб вплинути на результат C4, навіть незважаючи на те, що основні веб-сайти, такі як Google і Facebook, значно випереджають їх.

C4 зіткнувся з критикою через піратські дані та ворожнечу, незважаючи на повідомлення про «очищення» набору даних. Маючи лише 400 слів у своєму списку для цензури певного вмісту, це припускає, що в C4 все ще може бути суперечливий вміст. Наявність криптосайтів у наборі даних також може вплинути на рівень упередженості.

Переглядів публікацій: 125

Часова мітка:

Більше від Монетне видання