Colossal Clean Crawled Corpus (C4), একটি AI ডেটাসেট যা প্রধান প্রযুক্তি সংস্থাগুলির দ্বারা ব্যবহৃত হয়, এতে বিভিন্ন ক্রিপ্টো-সম্পর্কিত ওয়েবসাইটের ডেটা রয়েছে।
C4 ডেটাসেট ক্রিপ্টো সাইট থেকে আঁকে
ওয়াশিংটন পোস্ট এবং এআই এর জন্য অ্যালেন ইনস্টিটিউট সম্প্রতি বিশ্লেষণ করা হয়েছে C4 ডেটাসেট, প্রতিটি উৎস থেকে নেওয়া "টোকেন" বা টেক্সট স্নিপেটের সংখ্যা অনুসারে ওয়েবসাইটগুলিকে র্যাঙ্কিং করে।
ইউএস সিকিউরিটিজ অ্যান্ড এক্সচেঞ্জ কমিশন - যা কিছু অংশে ক্রিপ্টোকারেন্সি রেগুলেশনের বিষয়বস্তু ধারণ করে - ডেটাসেটের বৃহত্তম উত্সগুলির মধ্যে ছিল৷ এর ওয়েবসাইট (sec.gov) #39-এ স্থান পেয়েছে এবং C36-এর টোকেনের 0.02 মিলিয়ন বা 4% এর জন্য দায়ী।
Bitcointalk.org, একটি ব্লকচেইন আলোচনা বোর্ড তৈরি করেছে Satoshi নাকামoto, #780-এ স্থান পেয়েছে। এটি C6.1 এর টোকেনের 0.004 মিলিয়ন বা 4% এর জন্য দায়ী।
ক্রিপ্টোকারেন্সি সংবাদ এবং সমষ্টি সাইট যেমন Cointelegraph এবং Coinmarketcap.comও প্রতিনিধিত্ব করা হয়েছিল। এই ধরনের আটটি সাইট সম্মিলিতভাবে C0.008-এর টোকেনের কমপক্ষে 4% জন্য দায়ী, যদিও অন্যান্য সাইট সম্ভবত প্রকৃত মোট বৃদ্ধি করে।
নির্দিষ্ট ক্রিপ্টোকারেন্সি এবং এক্সচেঞ্জের সাথে সম্পর্কিত ওয়েবসাইটগুলিও ডেটাসেটে উপস্থাপন করা হয়েছিল কিন্তু টোকেনগুলির একটি নগণ্য পরিমাণের জন্য দায়ী।
দুটি ক্রিপ্টো-সংলগ্ন সাইটগুলিও উচ্চ স্থান পেয়েছে৷ IPFS (ipfs.io) যখন #16-এ স্থান পেয়েছে Steemit (steemit.com) #594-এ স্থান পেয়েছে। প্রথম সাইটটি ব্লকচেইন ফার্ম প্রোটোকল ল্যাবস থেকে একটি বিতরণ করা নেটওয়ার্ক, যখন দ্বিতীয়টি ব্লকচেইনের সরাসরি ব্যবহার করে। যাইহোক, এই সাইটগুলিতে অগত্যা ক্রিপ্টোকারেন্সি সম্পর্কিত বিষয়বস্তু থাকে না।
মূলধারার সাইটগুলি তালিকার শীর্ষে রয়েছে
C4 ডেটাসেটটি AI ভাষার মডেলগুলিতে ব্যবহৃত হয় যার মধ্যে প্রধান প্রযুক্তি সংস্থাগুলি রয়েছে৷ Google এর T5 এবং ফেসবুকের LLaMA, ওয়াশিংটন পোস্ট অনুযায়ী.
যদিও উপরের সাইটগুলি C4-এর সবচেয়ে উল্লেখযোগ্য ক্রিপ্টো-সম্পর্কিত ওয়েবসাইটগুলির মধ্যে রয়েছে, তবে এগুলি মূলধারার ওয়েবসাইট এবং সংবাদ উত্সগুলির দ্বারা আউটর্যাঙ্ক করা হয়েছে, যা প্রায়শই ক্রিপ্টোকারেন্সি বিষয়গুলি কভার করে এবং সম্ভবত সমস্ত ক্রিপ্টো-সম্পর্কিত ডেটার প্রাথমিক উত্স।
ঘৃণাত্মক বক্তৃতা এবং পাইরেটেড ডেটা থাকার জন্যও C4-এর সমালোচনা করা হয়েছে। যদিও ডেটাসেটের নাম থেকে বোঝা যায় যে এটি "পরিষ্কার" করা হয়েছে, তবে এর সমাবেশকারীরা নির্দিষ্ট বিষয়বস্তু সেন্সর করার জন্য শুধুমাত্র 400 শব্দের একটি তালিকা ব্যবহার করেছে, যার অর্থ বিতর্কিত বিষয়বস্তু অক্ষত রয়েছে।
ক্রিপ্টো সাইটগুলির উপস্থিতি, সেইসাথে বিতর্কিত ডেটার উপস্থিতি, এআই চ্যাটবট দ্বারা উত্পাদিত সামগ্রীতে দেখা পক্ষপাতের স্তরকে প্রভাবিত করতে পারে।
- এসইও চালিত বিষয়বস্তু এবং পিআর বিতরণ। আজই পরিবর্ধিত পান।
- প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. এখানে প্রবেশ করুন.
- অ্যাড্রিয়েন অ্যাশলির সাথে ভবিষ্যত মিন্টিং। এখানে প্রবেশ করুন.
- উত্স: https://cryptoslate.com/top-ai-dataset-pulls-data-from-bitcointalk-steemit-and-u-s-sec/
- : আছে
- : হয়
- :না
- 1
- 500
- a
- উপরে
- অনুযায়ী
- প্রভাবিত
- মোট পরিমাণ
- AI
- সব
- এছাড়াও
- মধ্যে
- পরিমাণ
- an
- এবং
- রয়েছি
- AS
- At
- হয়েছে
- পক্ষপাত
- Bitcointalk
- blockchain
- ব্লকচেইন ফার্ম
- তক্তা
- কিন্তু
- by
- বিভাগ
- chatbots
- Coindesk
- CoinMarketCap
- Cointelegraph
- সম্মিলিতভাবে
- এর COM
- কমিশন
- কোম্পানি
- ঐক্য
- ধারণ করা
- ধারণ
- বিষয়বস্তু
- বিতর্কমূলক
- পারা
- আবরণ
- নির্মিত
- ক্রিপ্টো
- ক্রিপ্টোকারেন্সি
- cryptocurrency
- ক্রিপ্টোকারেন্সি রেগুলেশন
- ক্রিপ্টোস্লেট
- উপাত্ত
- সরাসরি
- আলোচনা
- বণ্টিত
- বিতরণ নেটওয়ার্ক
- প্রতি
- বিনিময়
- এক্সচেঞ্জ
- দৃঢ়
- প্রথম
- জন্য
- থেকে
- GIF
- অত্যন্ত
- যাহোক
- HTTPS দ্বারা
- in
- সুদ্ধ
- বৃদ্ধি
- প্রতিষ্ঠান
- IPFS
- IT
- এর
- ল্যাবস
- ভাষা
- বৃহত্তম
- উচ্চতা
- সম্ভবত
- লাইমওয়ায়ার
- তালিকা
- শিখা
- মেনস্ট্রিম
- মুখ্য
- তৈরি করে
- অর্থ
- মিলিয়ন
- মডেল
- সেতু
- নাম
- অগত্যা
- নেটওয়ার্ক
- সংবাদ
- সংখ্যা
- of
- on
- কেবল
- or
- অন্যান্য
- অংশ
- Plato
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটোডাটা
- পোস্ট
- উপস্থিতি
- প্রাথমিক
- প্রযোজনা
- প্রোটোকল
- প্রোটোকল ল্যাব
- pulls
- স্থান
- রাঙ্কিং
- প্রবিধান
- সংশ্লিষ্ট
- দেহাবশেষ
- প্রতিনিধিত্ব
- s
- এসইসি
- দ্বিতীয়
- সিকিউরিটিজ
- সিকিউরিটিজ ও এক্সচেঞ্জ কমিশন
- গুরুত্বপূর্ণ
- সাইট
- সাইট
- উৎস
- সোর্স
- নির্দিষ্ট
- বক্তৃতা
- স্পন্সরকৃত
- এমন
- প্রস্তাব
- TAG
- প্রযুক্তি
- প্রযুক্তি কোম্পানিগুলি
- যে
- সার্জারির
- ওয়াশিংটন পোস্ট
- এইগুলো
- তারা
- থেকে
- টোকেন
- টোকেন
- শীর্ষ
- টপিক
- শীর্ষস্থানে
- মোট
- সত্য
- আমাদের
- ইউএস এসইসি
- মার্কিন সিকিউরিটিজ
- মার্কিন সিকিউরিটিজ অ্যান্ড এক্সচেঞ্জ কমিশন
- ব্যবহার
- ব্যবহৃত
- বিভিন্ন
- ছিল
- ওয়াশিংটন
- ওয়াশিংটন পোস্ট
- ওয়েবসাইট
- ওয়েবসাইট
- আমরা একটি
- ছিল
- যে
- যখন
- শব্দ
- zephyrnet