শীর্ষ AI ডেটাসেট BitcoinTalk, Steemit এবং US SEC থেকে ডেটা টেনে নেয়

শীর্ষ AI ডেটাসেট BitcoinTalk, Steemit এবং US SEC থেকে ডেটা টেনে নেয়

Ad

CoinDesk ঐক্যমতCoinDesk ঐক্যমত

Colossal Clean Crawled Corpus (C4), একটি AI ডেটাসেট যা প্রধান প্রযুক্তি সংস্থাগুলির দ্বারা ব্যবহৃত হয়, এতে বিভিন্ন ক্রিপ্টো-সম্পর্কিত ওয়েবসাইটের ডেটা রয়েছে।

C4 ডেটাসেট ক্রিপ্টো সাইট থেকে আঁকে

ওয়াশিংটন পোস্ট এবং এআই এর জন্য অ্যালেন ইনস্টিটিউট সম্প্রতি বিশ্লেষণ করা হয়েছে C4 ডেটাসেট, প্রতিটি উৎস থেকে নেওয়া "টোকেন" বা টেক্সট স্নিপেটের সংখ্যা অনুসারে ওয়েবসাইটগুলিকে র‌্যাঙ্কিং করে।

ইউএস সিকিউরিটিজ অ্যান্ড এক্সচেঞ্জ কমিশন - যা কিছু অংশে ক্রিপ্টোকারেন্সি রেগুলেশনের বিষয়বস্তু ধারণ করে - ডেটাসেটের বৃহত্তম উত্সগুলির মধ্যে ছিল৷ এর ওয়েবসাইট (sec.gov) #39-এ স্থান পেয়েছে এবং C36-এর টোকেনের 0.02 মিলিয়ন বা 4% এর জন্য দায়ী।

Bitcointalk.org, একটি ব্লকচেইন আলোচনা বোর্ড তৈরি করেছে Satoshi নাকামoto, #780-এ স্থান পেয়েছে। এটি C6.1 এর টোকেনের 0.004 মিলিয়ন বা 4% এর জন্য দায়ী।

ক্রিপ্টোকারেন্সি সংবাদ এবং সমষ্টি সাইট যেমন Cointelegraph এবং Coinmarketcap.comও প্রতিনিধিত্ব করা হয়েছিল। এই ধরনের আটটি সাইট সম্মিলিতভাবে C0.008-এর টোকেনের কমপক্ষে 4% জন্য দায়ী, যদিও অন্যান্য সাইট সম্ভবত প্রকৃত মোট বৃদ্ধি করে।

নির্দিষ্ট ক্রিপ্টোকারেন্সি এবং এক্সচেঞ্জের সাথে সম্পর্কিত ওয়েবসাইটগুলিও ডেটাসেটে উপস্থাপন করা হয়েছিল কিন্তু টোকেনগুলির একটি নগণ্য পরিমাণের জন্য দায়ী।

দুটি ক্রিপ্টো-সংলগ্ন সাইটগুলিও উচ্চ স্থান পেয়েছে৷ IPFS (ipfs.io) যখন #16-এ স্থান পেয়েছে Steemit (steemit.com) #594-এ স্থান পেয়েছে। প্রথম সাইটটি ব্লকচেইন ফার্ম প্রোটোকল ল্যাবস থেকে একটি বিতরণ করা নেটওয়ার্ক, যখন দ্বিতীয়টি ব্লকচেইনের সরাসরি ব্যবহার করে। যাইহোক, এই সাইটগুলিতে অগত্যা ক্রিপ্টোকারেন্সি সম্পর্কিত বিষয়বস্তু থাকে না।

মূলধারার সাইটগুলি তালিকার শীর্ষে রয়েছে

C4 ডেটাসেটটি AI ভাষার মডেলগুলিতে ব্যবহৃত হয় যার মধ্যে প্রধান প্রযুক্তি সংস্থাগুলি রয়েছে৷ Google এর T5 এবং ফেসবুকের LLaMA, ওয়াশিংটন পোস্ট অনুযায়ী.

যদিও উপরের সাইটগুলি C4-এর সবচেয়ে উল্লেখযোগ্য ক্রিপ্টো-সম্পর্কিত ওয়েবসাইটগুলির মধ্যে রয়েছে, তবে এগুলি মূলধারার ওয়েবসাইট এবং সংবাদ উত্সগুলির দ্বারা আউটর্যাঙ্ক করা হয়েছে, যা প্রায়শই ক্রিপ্টোকারেন্সি বিষয়গুলি কভার করে এবং সম্ভবত সমস্ত ক্রিপ্টো-সম্পর্কিত ডেটার প্রাথমিক উত্স।

ঘৃণাত্মক বক্তৃতা এবং পাইরেটেড ডেটা থাকার জন্যও C4-এর সমালোচনা করা হয়েছে। যদিও ডেটাসেটের নাম থেকে বোঝা যায় যে এটি "পরিষ্কার" করা হয়েছে, তবে এর সমাবেশকারীরা নির্দিষ্ট বিষয়বস্তু সেন্সর করার জন্য শুধুমাত্র 400 শব্দের একটি তালিকা ব্যবহার করেছে, যার অর্থ বিতর্কিত বিষয়বস্তু অক্ষত রয়েছে।

ক্রিপ্টো সাইটগুলির উপস্থিতি, সেইসাথে বিতর্কিত ডেটার উপস্থিতি, এআই চ্যাটবট দ্বারা উত্পাদিত সামগ্রীতে দেখা পক্ষপাতের স্তরকে প্রভাবিত করতে পারে।

পোস্ট: AI

সময় স্ট্যাম্প:

থেকে আরো ক্রিপ্টোস্লেট