تقوم مجموعة بيانات الذكاء الاصطناعي الأعلى بسحب البيانات من BitcoinTalk و Steemit و US SEC

تقوم مجموعة بيانات الذكاء الاصطناعي الأعلى بسحب البيانات من BitcoinTalk و Steemit و US SEC

Ad

توافق CoinDeskتوافق CoinDesk

تحتوي Colossal Clean Crawled Corpus (C4) ، وهي مجموعة بيانات AI تستخدمها شركات التكنولوجيا الكبرى ، على بيانات من مواقع ويب متنوعة مرتبطة بالتشفير.

تستمد مجموعة بيانات C4 من مواقع التشفير

واشنطن بوست ومعهد ألين للذكاء الاصطناعي تحليلها مؤخرا مجموعة البيانات C4 ، وترتيب مواقع الويب حسب عدد "الرموز المميزة" أو المقتطفات النصية المأخوذة من كل مصدر.

كانت لجنة الأوراق المالية والبورصات الأمريكية - التي تحتوي جزئيًا على محتوى حول تنظيم العملات المشفرة - من بين أكبر مصادر مجموعة البيانات. احتل موقعها على الويب (sec.gov) المرتبة 39 وشكلت 36 مليونًا ، أو 0.02٪ من الرموز المميزة لـ C4.

Bitcointalk.org ، لوحة مناقشة blockchain تم إنشاؤها بواسطة ساتوشي ناكاموتو، المرتبة # 780. تمثل 6.1 مليون ، أو 0.004 ٪ ، من الرموز المميزة لـ C4.

كما تم تمثيل أخبار العملات المشفرة ومواقع التجميع مثل Cointelegraph و Coinmarketcap.com. ثمانية من هذه المواقع مجتمعة تمثل 0.008 ٪ على الأقل من الرموز المميزة لـ C4 ، على الرغم من أن المواقع الأخرى من المحتمل أن تزيد الإجمالي الحقيقي.

تم أيضًا تمثيل مواقع الويب المتعلقة بالعملات المشفرة والتبادلات في مجموعة البيانات ولكنها تمثل عددًا ضئيلًا من الرموز المميزة.

كما احتل موقعان مجاوران للعملات مرتبة عالية. التي اعتمدها الفريق الحكومي (ipfs.io) في المرتبة رقم 16 بينما Steemit (steemit.com) في المرتبة # 594. الموقع الأول عبارة عن شبكة موزعة من شركة Protocol Labs الخاصة بشركة blockchain ، بينما يستخدم الموقع الثاني بشكل مباشر blockchain. ومع ذلك ، لا تحتوي هذه المواقع بالضرورة على محتوى متعلق بالعملة المشفرة.

تصدرت المواقع الرئيسية القائمة

تُستخدم مجموعة بيانات C4 في نماذج لغة الذكاء الاصطناعي من شركات التكنولوجيا الكبرى بما في ذلك جوجل T5 و في الفيسبوك LLaMA ، وفقًا لصحيفة واشنطن بوست.

على الرغم من أن المواقع المذكورة أعلاه هي من بين أهم مواقع C4 ذات الصلة بالتشفير ، إلا أنها تتفوق على مواقع الويب الرئيسية ومصادر الأخبار ، والتي غالبًا ما تغطي موضوعات العملة المشفرة ومن المحتمل أن تكون المصدر الأساسي لجميع البيانات المتعلقة بالعملات المشفرة.

كما تم انتقاد C4 لاحتوائه على كلام يحض على الكراهية وبيانات مقرصنة. على الرغم من أن اسم مجموعة البيانات يشير إلى أنه تم "تنظيفها" ، إلا أن مجمعاتها استخدمت فقط قائمة من 400 كلمة لفرض رقابة على محتوى معين ، مما يعني أن المحتوى المثير للجدل لا يزال سليماً.

يمكن أن يؤثر وجود مواقع التشفير ، بالإضافة إلى وجود بيانات مثيرة للجدل ، على مستوى التحيز الملحوظ في المحتوى الذي تنتجه روبوتات الدردشة بالذكاء الاصطناعي.

نشر في: AI

الطابع الزمني:

اكثر من CryptoSlate