ٹاپ AI ڈیٹاسیٹ BitcoinTalk، Steemit اور US SEC سے ڈیٹا کھینچتا ہے۔

ٹاپ AI ڈیٹاسیٹ BitcoinTalk، Steemit اور US SEC سے ڈیٹا کھینچتا ہے۔

Ad

سکے ڈیسک اتفاق رائےسکے ڈیسک اتفاق رائے

Colossal Clean Crawled Corpus (C4)، ایک AI ڈیٹاسیٹ جسے بڑی ٹیک کمپنیوں کے ذریعے استعمال کیا جاتا ہے، مختلف کرپٹو سے متعلق ویب سائٹس کے ڈیٹا پر مشتمل ہے۔

C4 ڈیٹاسیٹ کرپٹو سائٹس سے حاصل کرتا ہے۔

واشنگٹن پوسٹ اور ایلن انسٹی ٹیوٹ برائے AI حال ہی میں تجزیہ کیا C4 ڈیٹاسیٹ، ہر ذریعہ سے لیے گئے "ٹوکنز" یا ٹیکسٹ اسنیپٹس کی تعداد کے مطابق ویب سائٹس کی درجہ بندی کرنا۔

یو ایس سیکیورٹیز اینڈ ایکسچینج کمیشن - جو جزوی طور پر کرپٹو کرنسی ریگولیشن پر مواد پر مشتمل ہے - ڈیٹا سیٹ کے سب سے بڑے ذرائع میں سے تھا۔ اس کی ویب سائٹ (sec.gov) #39 پر ہے اور C36 کے ٹوکنز کا 0.02 ملین، یا 4% ہے۔

Bitcointalk.org، ایک بلاکچین ڈسکشن بورڈ جس نے بنایا ہے۔ فوروکاوا Nakamoto#780 پر درجہ بندی کی گئی ہے۔ اس میں C6.1 کے 0.004 ملین، یا 4% ٹوکنز ہیں۔

کرپٹو کرنسی کی خبریں اور جمع کرنے والی سائٹس جیسے Cointelegraph اور Coinmarketcap.com کی بھی نمائندگی کی گئی۔ اس طرح کی آٹھ سائٹس نے مجموعی طور پر C0.008 کے ٹوکنز کا کم از کم 4% حصہ لیا، حالانکہ دوسری سائٹیں ممکنہ طور پر حقیقی کل میں اضافہ کرتی ہیں۔

مخصوص کریپٹو کرنسیوں اور تبادلے سے متعلق ویب سائٹس کو بھی ڈیٹاسیٹ میں دکھایا گیا تھا لیکن ان میں ٹوکنز کی تعداد نہ ہونے کے برابر تھی۔

دو کرپٹو ملحقہ سائٹس بھی اعلیٰ درجہ پر ہیں۔ آئی پی ایف ایس (ipfs.io) درجہ بندی #16 پر ہے جبکہ بھاپ (steemit.com) نمبر 594 پر ہے۔ پہلی سائٹ بلاکچین فرم پروٹوکول لیبز کا ایک تقسیم شدہ نیٹ ورک ہے، جبکہ دوسری بلاکچین کا براہ راست استعمال کرتی ہے۔ تاہم، ضروری نہیں کہ ان سائٹس میں cryptocurrency سے متعلق مواد موجود ہو۔

مین اسٹریم سائٹس اس فہرست میں سرفہرست ہیں۔

C4 ڈیٹاسیٹ بڑی ٹیک کمپنیوں کے AI لینگویج ماڈلز میں استعمال کیا جاتا ہے بشمول گوگل T5 اور فیس بک کی LLaMA، واشنگٹن پوسٹ کے مطابق۔

اگرچہ مندرجہ بالا سائٹس C4 کی سب سے اہم کرپٹو سے متعلق ویب سائٹس میں سے ہیں، لیکن وہ مرکزی دھارے کی ویب سائٹس اور خبروں کے ذرائع سے آگے ہیں، جو اکثر کرپٹو کرنسی کے موضوعات کا احاطہ کرتی ہیں اور ممکنہ طور پر کرپٹو سے متعلق تمام ڈیٹا کا بنیادی ذریعہ ہیں۔

C4 کو نفرت انگیز تقریر اور پائریٹڈ ڈیٹا رکھنے پر بھی تنقید کا نشانہ بنایا گیا ہے۔ اگرچہ ڈیٹاسیٹ کے نام سے پتہ چلتا ہے کہ اسے "صاف" کر دیا گیا ہے، لیکن اس کے جمع کرنے والوں نے مخصوص مواد کو سنسر کرنے کے لیے صرف 400 الفاظ کی فہرست کا استعمال کیا، مطلب یہ ہے کہ متنازعہ مواد برقرار ہے۔

کرپٹو سائٹس کی موجودگی، نیز متنازعہ ڈیٹا کی موجودگی، AI چیٹ بوٹس کے ذریعہ تیار کردہ مواد میں نظر آنے والے تعصب کی سطح کو متاثر کر سکتی ہے۔

میں پوسٹ کیا گیا: AI

ٹائم اسٹیمپ:

سے زیادہ کرپٹو سلیٹ