Kumpulan Data AI Teratas Menampilkan Situs Web Cryptocurrency di Datafeed-nya

Kumpulan Data AI Teratas Menampilkan Situs Web Cryptocurrency di Datafeed-nya

Kumpulan Data AI Teratas Menampilkan Situs Web Cryptocurrency dalam Datafeed PlatoBlockchain Data Intelligence-nya. Pencarian Vertikal. Ai.
  • Colossal Clean Crawled Corpus bergantung pada beberapa platform kripto untuk data.
  • Analisis menunjukkan bagian dari cuplikan teks C4 diekstraksi dari situs web berbasis crypto.
  • Kehadiran situs kripto di dataset C4 dapat memengaruhi tingkat biasnya.

Alat AI teratas, Corpus Merangkak Bersih Kolosal (C4), bergantung pada beberapa platform crypto untuk sebagian besar datanya. Sebuah analisis menunjukkan bahwa C4 mengekstrak jutaan cuplikan teks dari situs web berbasis crypto atau platform web yang terkait erat cryptocurrency.

Menurut laporan, Komisi Sekuritas dan Pertukaran AS (SEC), yang sekarang berisi sejumlah besar informasi terkait crypto, menyumbang 36 juta token C4, mewakili 0.02% dari kumpulan data platform. Situs web SEC (sec.gov), tempat C4 mengambil data, menduduki peringkat ke-39 di antara situs web yang digunakan oleh C4.

Bitcointalk.org Satoshi Nakamoto menyumbang 6.1 juta token C4, setara dengan 0.004% dari total token. Itu peringkat sebagai situs web ke-780 yang digunakan oleh platform.

Platform crypto lain yang digunakan oleh C4 untuk akuisisi data termasuk situs web berita crypto, Cointelegraph, dan platform agregasi token, CoinmarketCap. Ini dan enam situs web terkait lainnya menyumbang 0.008% dari semua token C4, sementara situs web lain yang terkait dengan cryptocurrency tertentu membentuk bagian yang dapat diabaikan dari representasi.

IPFS (ipfs.io) dan Steemit (steemit.com) ditampilkan secara signifikan dalam kumpulan data C4. IPFS di peringkat ke-16, sedangkan Steemit di peringkat ke-594. Kedua situs ini tidak terlibat langsung dalam crypto tetapi memiliki kecenderungan yang signifikan terhadap industri crypto.

Keterlibatan platform terkait kripto di C4 Pelatihan AI proses memaparkan perambahan cryptocurrency ke arus utama. Tingkat representasi situs web Crypto cukup signifikan untuk memengaruhi hasil C4, meskipun situs web utama seperti Google dan Facebook mengungguli mereka secara signifikan.

C4 menghadapi kritik atas data bajakan dan ujaran kebencian, meskipun ada laporan bahwa dataset sedang "dibersihkan". Dengan hanya 400 kata dalam daftarnya untuk menyensor konten tertentu, ini menunjukkan masih ada konten kontroversial di dalam C4. Kehadiran situs crypto dalam kumpulan datanya juga dapat memengaruhi tingkat biasnya.

Tampilan Posting: 125

Stempel Waktu:

Lebih dari Edisi Koin