مجموعه داده های برتر هوش مصنوعی داده ها را از BitcoinTalk، Steemit و US SEC استخراج می کند

مجموعه داده های برتر هوش مصنوعی داده ها را از BitcoinTalk، Steemit و US SEC استخراج می کند

Ad

اجماع CoinDeskاجماع CoinDesk

Colossal Clean Crawled Corpus (C4)، مجموعه داده های هوش مصنوعی که توسط شرکت های بزرگ فناوری استفاده می شود، حاوی داده هایی از وب سایت های مختلف مرتبط با رمزنگاری است.

مجموعه داده های C4 از سایت های رمزنگاری استخراج می شود

واشنگتن پست و موسسه آلن برای هوش مصنوعی اخیرا تحلیل شده است مجموعه داده C4، رتبه‌بندی وب‌سایت‌ها بر اساس تعداد «توکن‌ها» یا تکه‌های متنی گرفته‌شده از هر منبع.

کمیسیون بورس و اوراق بهادار ایالات متحده - که تا حدی حاوی محتوایی در مورد مقررات ارزهای دیجیتال است - یکی از بزرگترین منابع مجموعه داده بود. وب سایت آن (sec.gov) در رتبه 39 قرار گرفت و 36 میلیون یا 0.02 درصد از توکن های C4 را به خود اختصاص داد.

Bitcointalk.org، یک تابلوی بحث بلاک چین که توسط ساتوشی Nakamoto، در رتبه 780 قرار گرفت. 6.1 میلیون یا 0.004 درصد از توکن های C4 را به خود اختصاص داده است.

سایت‌های خبری و تجمیع ارزهای دیجیتال مانند Cointelegraph و Coinmarketcap.com نیز ارائه شده‌اند. هشت سایت از این قبیل در مجموع حداقل 0.008٪ از توکن های C4 را تشکیل می دهند، اگرچه سایر سایت ها احتمالاً کل واقعی را افزایش می دهند.

وب‌سایت‌های مربوط به ارزهای دیجیتال و صرافی‌های خاص نیز در مجموعه داده‌ها نشان داده شده‌اند، اما مقدار ناچیزی از توکن‌ها را تشکیل می‌دهند.

دو سایت کریپتو مجاور نیز رتبه بالایی داشتند. IPFS (ipfs.io) در رتبه 16 قرار گرفت Steemit (steemit.com) در رتبه 594 قرار گرفت. سایت اول یک شبکه توزیع شده از شرکت بلاک چین Protocol Labs است، در حالی که سایت دوم مستقیماً از بلاک چین استفاده می کند. با این حال، این سایت‌ها لزوماً حاوی محتوای مرتبط با ارزهای دیجیتال نیستند.

سایت های جریان اصلی در صدر فهرست قرار گرفتند

مجموعه داده C4 در مدل‌های زبان هوش مصنوعی از شرکت‌های بزرگ فناوری از جمله استفاده می‌شود گوگل T5 و فیس بوک به گزارش واشنگتن پست، LLaMA.

اگرچه سایت‌های فوق از مهم‌ترین وب‌سایت‌های مرتبط با رمزنگاری C4 هستند، اما در رتبه‌بندی وب‌سایت‌های اصلی و منابع خبری قرار دارند که اغلب موضوعات مربوط به ارزهای دیجیتال را پوشش می‌دهند و احتمالاً منبع اصلی برای همه داده‌های مرتبط با رمزنگاری هستند.

C4 همچنین به دلیل حاوی سخنان نفرت انگیز و داده های دزدی دریایی مورد انتقاد قرار گرفته است. اگرچه نام مجموعه داده نشان می‌دهد که «پاک‌شده» شده است، مونتاژکنندگان آن تنها از فهرستی از 400 کلمه برای سانسور محتوای خاص استفاده کردند، به این معنی که محتوای بحث‌برانگیز دست نخورده باقی می‌ماند.

وجود سایت‌های رمزنگاری و همچنین وجود داده‌های بحث‌برانگیز می‌تواند بر سطح سوگیری مشاهده شده در محتوای تولید شده توسط چت‌بات‌های هوش مصنوعی تأثیر بگذارد.

ارسال شده در: AI

تمبر زمان:

بیشتر از CryptoSlate