- تعتمد مجموعة Colossal Clean Crawled Corpus على منصات تشفير متعددة للبيانات.
- يُظهر التحليل أن جزءًا من مقتطفات نص C4 مستخرج من مواقع الويب القائمة على التشفير.
- قد يؤثر وجود مواقع التشفير في مجموعة بيانات C4 على مستوى تحيزها.
أفضل أداة للذكاء الاصطناعي ، كوربوس مجنزرة نظيف للغاية (C4)، يعتمد على منصات تشفير متعددة لجزء كبير من بياناته. يُظهر تحليل أن C4 تستخرج ملايين المقتطفات النصية من مواقع الويب القائمة على التشفير أو منصات الويب وثيقة الصلة بـ العملات المشفرة.
وفقًا للتقارير ، فإن لجنة الأوراق المالية والبورصات الأمريكية (SEC) ، التي تحتوي الآن على قدر كبير من المعلومات المتعلقة بالتشفير ، تمثل 36 مليون رمز C4 ، تمثل 0.02 ٪ من مجموعة بيانات المنصة. احتل موقع SEC (sec.gov) ، الذي تقوم C4 بجلب البيانات منه ، المرتبة 39 بين المواقع الإلكترونية التي تعمل بواسطة C4.
تمثل Bitcointalk.org لساتوشي ناكاموتو 6.1 مليون C4 tokens ، أي ما يعادل 0.004٪ من إجمالي الرموز. تم تصنيفها على أنها موقع الويب رقم 780 الذي تعمل به المنصة.
تشمل منصات التشفير الأخرى التي تستخدمها C4 للحصول على البيانات موقع أخبار التشفير ، و Cointelegraph ، ومنصة تجميع الرموز ، CoinmarketCap. شكلت هذه المواقع وستة مواقع أخرى ذات صلة 0.008٪ من جميع الرموز المميزة C4 ، بينما شكلت المواقع الأخرى ذات الصلة بعملات مشفرة معينة جزءًا ضئيلًا من التمثيل.
ظهرت IPFS (ipfs.io) و Steemit (steemit.com) بشكل ملحوظ في مجموعة بيانات C4. احتلت IPFS المرتبة 16 ، بينما احتلت Steemit المرتبة 594. لا يشارك هذان الموقعان بشكل مباشر في التشفير ولكن لهما ميول كبيرة نحو صناعة التشفير.
تورط الأنظمة الأساسية المتعلقة بالعملات المشفرة في C4's تدريب الذكاء الاصطناعى تكشف عملية التعدي على العملة المشفرة في الاتجاه السائد. يعد مدى تمثيل مواقع الويب المشفرة كبيرًا بما يكفي للتأثير على نتائج C4 ، على الرغم من أن مواقع الويب الرئيسية مثل Google و Facebook تفوقت عليها بشكل كبير.
واجهت C4 انتقادات بشأن البيانات المقرصنة وخطاب الكراهية ، على الرغم من التقارير عن "تنظيف" مجموعة البيانات. مع وجود 400 كلمة فقط في قائمتها لفرض رقابة على محتوى معين ، فإنها تشير إلى أنه لا يزال هناك محتوى مثير للجدل داخل C4. يمكن أن يؤثر وجود مواقع التشفير في مجموعة البيانات الخاصة بها أيضًا على مستوى تحيزها.
المشاهدات بعد: 125
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. الوصول هنا.
- سك المستقبل مع أدرين أشلي. الوصول هنا.
- المصدر https://coinedition.com/top-ai-dataset-features-cryptocurrency-websites-in-its-datafeed/
- :لديها
- :يكون
- :ليس
- 1
- a
- الحسابات
- استحواذ
- تؤثر
- تجميع
- AI
- الكل
- أيضا
- من بين
- كمية
- an
- تحليل
- و
- هي
- AS
- BE
- يجري
- انحياز
- Bitcointalk
- Bitcointalk.org
- على حد سواء
- لكن
- by
- عن كثب
- CoinMarketCap
- Cointelegraph
- COM
- عمولة
- يحتوي
- محتوى
- المثير للجدل
- استطاع
- نقد
- التشفير
- صناعة تشفير
- التشفير الأخبار
- على أساس التشفير
- العملات الرقمية
- العملات المشفرة
- البيانات
- يعتمد
- على الرغم من
- مباشرة
- مخطوب
- كاف
- معادل
- حتى
- تبادل
- مقتطفات
- فيسبوك
- واجه
- عقار مميز
- المميزات
- في حالة
- شكلت
- تبدأ من
- شراء مراجعات جوجل
- يملك
- HTTPS
- in
- تتضمن
- العالمية
- تأثير
- معلومات
- إلى
- المشاركة
- مشاركة
- التي اعتمدها الفريق الحكومي
- IT
- انها
- JPG
- مستوى
- مثل
- قائمة
- التيار
- مليون
- ملايين
- الأكثر من ذلك
- متعدد
- أخبار
- الآن
- of
- on
- فقط
- or
- أخرى
- نتيجة
- على مدى
- جزء
- المنصة
- منصات التداول
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- ان يرتفع المركز
- وجود
- عملية المعالجة
- المرتبة
- ذات صلة
- التقارير
- التمثيل
- تمثل
- s
- ثانية
- ضمانات
- الأوراق المالية وهيئة الأوراق المالية
- يظهر
- هام
- بشكل ملحوظ
- المواقع
- SIX
- محدد
- خطاب
- لا يزال
- وتقترح
- أن
- •
- منهم
- هناك.
- تشبه
- إلى
- الرموز
- أداة
- تيشرت
- الإجمالي
- نحو
- لنا
- الأوراق المالية الأمريكية
- الولايات المتحدة لجنة الاوراق المالية والبورصات
- الرؤى
- الويب
- الموقع الإلكتروني
- المواقع
- التي
- في حين
- مع
- في غضون
- كلمات
- زفيرنت