Bộ dữ liệu AI hàng đầu lấy dữ liệu từ BitcoinTalk, Steemit và US SEC

Bộ dữ liệu AI hàng đầu lấy dữ liệu từ BitcoinTalk, Steemit và US SEC

Ad

Đồng thuận CoinDeskĐồng thuận CoinDesk

Colossal Clean Crawled Corpus (C4), một bộ dữ liệu AI được sử dụng bởi các công ty công nghệ lớn, chứa dữ liệu từ nhiều trang web liên quan đến tiền điện tử.

Bộ dữ liệu C4 lấy từ các trang web tiền điện tử

The Washington Post và Viện Allen về AI phân tích gần đây bộ dữ liệu C4, xếp hạng các trang web theo số lượng “mã thông báo” hoặc đoạn văn bản được lấy từ mỗi nguồn.

Ủy ban Chứng khoán và Giao dịch Hoa Kỳ — một phần chứa nội dung về quy định tiền điện tử — là một trong những nguồn lớn nhất của bộ dữ liệu. Trang web của nó (sec.gov) xếp ở vị trí thứ 39 và chiếm 36 triệu, tương đương 0.02%, mã thông báo của C4.

Bitcointalk.org, một diễn đàn thảo luận blockchain được tạo bởi Satoshi Nakamoto, xếp hạng #780. Nó chiếm 6.1 triệu, tương đương 0.004%, mã thông báo của C4.

Các trang web tổng hợp và tin tức về tiền điện tử như Cointelegraph và Coinmarketcap.com cũng được đại diện. Tổng cộng tám trang web như vậy chiếm ít nhất 0.008% mã thông báo của C4, mặc dù các trang web khác có thể tăng tổng số thực.

Các trang web liên quan đến các loại tiền điện tử và trao đổi cụ thể cũng được trình bày trong tập dữ liệu nhưng chiếm một lượng mã thông báo không đáng kể.

Hai trang web liền kề tiền điện tử cũng được xếp hạng cao. IPFS (ipfs.io) xếp hạng #16 trong khi Steemit (steemit.com) xếp hạng #594. Trang web đầu tiên là một mạng phân tán từ công ty chuỗi khối Protocol Labs, trong khi trang thứ hai sử dụng trực tiếp chuỗi khối. Tuy nhiên, các trang web này không nhất thiết phải chứa nội dung liên quan đến tiền điện tử.

Các trang web chính thống đứng đầu danh sách

Bộ dữ liệu C4 được sử dụng trong các mô hình ngôn ngữ AI từ các công ty công nghệ lớn bao gồm Google T5 và Facebook LLaMA, theo Washington Post.

Mặc dù các trang web trên nằm trong số các trang web liên quan đến tiền điện tử quan trọng nhất của C4, nhưng chúng bị xếp hạng thấp hơn so với các trang web và nguồn tin tức chính thống, thường bao gồm các chủ đề về tiền điện tử và có khả năng là nguồn chính cho tất cả dữ liệu liên quan đến tiền điện tử.

C4 cũng bị chỉ trích vì chứa ngôn từ kích động thù địch và dữ liệu vi phạm bản quyền. Mặc dù tên của tập dữ liệu gợi ý rằng nó đã được "làm sạch", nhưng trình biên dịch của nó chỉ sử dụng danh sách 400 từ để kiểm duyệt nội dung cụ thể, nghĩa là nội dung gây tranh cãi vẫn còn nguyên vẹn.

Sự hiện diện của các trang web tiền điện tử, cũng như sự hiện diện của dữ liệu gây tranh cãi, có thể ảnh hưởng đến mức độ sai lệch được thấy trong nội dung do các chatbot AI tạo ra.

Đăng trong: AI

Dấu thời gian:

Thêm từ Mật mã