تتميز مجموعة بيانات الذكاء الاصطناعي الأفضل بمواقع الويب الخاصة بالعملات المشفرة في خلاصة البيانات الخاصة بها

تتميز مجموعة بيانات الذكاء الاصطناعي الأفضل بمواقع الويب الخاصة بالعملات المشفرة في خلاصة البيانات الخاصة بها

تتميز مجموعة بيانات Top AI بمواقع الويب الخاصة بالعملات المشفرة في Datafeed PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
  • تعتمد مجموعة Colossal Clean Crawled Corpus على منصات تشفير متعددة للبيانات.
  • يُظهر التحليل أن جزءًا من مقتطفات نص C4 مستخرج من مواقع الويب القائمة على التشفير.
  • قد يؤثر وجود مواقع التشفير في مجموعة بيانات C4 على مستوى تحيزها.

أفضل أداة للذكاء الاصطناعي ، كوربوس مجنزرة نظيف للغاية (C4)، يعتمد على منصات تشفير متعددة لجزء كبير من بياناته. يُظهر تحليل أن C4 تستخرج ملايين المقتطفات النصية من مواقع الويب القائمة على التشفير أو منصات الويب وثيقة الصلة بـ العملات المشفرة.

وفقًا للتقارير ، فإن لجنة الأوراق المالية والبورصات الأمريكية (SEC) ، التي تحتوي الآن على قدر كبير من المعلومات المتعلقة بالتشفير ، تمثل 36 مليون رمز C4 ، تمثل 0.02 ٪ من مجموعة بيانات المنصة. احتل موقع SEC (sec.gov) ، الذي تقوم C4 بجلب البيانات منه ، المرتبة 39 بين المواقع الإلكترونية التي تعمل بواسطة C4.

تمثل Bitcointalk.org لساتوشي ناكاموتو 6.1 مليون C4 tokens ، أي ما يعادل 0.004٪ من إجمالي الرموز. تم تصنيفها على أنها موقع الويب رقم 780 الذي تعمل به المنصة.

تشمل منصات التشفير الأخرى التي تستخدمها C4 للحصول على البيانات موقع أخبار التشفير ، و Cointelegraph ، ومنصة تجميع الرموز ، CoinmarketCap. شكلت هذه المواقع وستة مواقع أخرى ذات صلة 0.008٪ من جميع الرموز المميزة C4 ، بينما شكلت المواقع الأخرى ذات الصلة بعملات مشفرة معينة جزءًا ضئيلًا من التمثيل.

ظهرت IPFS (ipfs.io) و Steemit (steemit.com) بشكل ملحوظ في مجموعة بيانات C4. احتلت IPFS المرتبة 16 ، بينما احتلت Steemit المرتبة 594. لا يشارك هذان الموقعان بشكل مباشر في التشفير ولكن لهما ميول كبيرة نحو صناعة التشفير.

تورط الأنظمة الأساسية المتعلقة بالعملات المشفرة في C4's تدريب الذكاء الاصطناعى تكشف عملية التعدي على العملة المشفرة في الاتجاه السائد. يعد مدى تمثيل مواقع الويب المشفرة كبيرًا بما يكفي للتأثير على نتائج C4 ، على الرغم من أن مواقع الويب الرئيسية مثل Google و Facebook تفوقت عليها بشكل كبير.

واجهت C4 انتقادات بشأن البيانات المقرصنة وخطاب الكراهية ، على الرغم من التقارير عن "تنظيف" مجموعة البيانات. مع وجود 400 كلمة فقط في قائمتها لفرض رقابة على محتوى معين ، فإنها تشير إلى أنه لا يزال هناك محتوى مثير للجدل داخل C4. يمكن أن يؤثر وجود مواقع التشفير في مجموعة البيانات الخاصة بها أيضًا على مستوى تحيزها.

المشاهدات بعد: 125

الطابع الزمني:

اكثر من إصدار العملة