Το κορυφαίο σύνολο δεδομένων AI αντλεί δεδομένα από το BitcoinTalk, το Steemit και το US SEC

Το κορυφαίο σύνολο δεδομένων AI αντλεί δεδομένα από το BitcoinTalk, το Steemit και το US SEC

Ad

Συναίνεση CoindeskΣυναίνεση Coindesk

Το Colossal Clean Crawled Corpus (C4), ένα σύνολο δεδομένων AI που χρησιμοποιείται από μεγάλες εταιρείες τεχνολογίας, περιέχει δεδομένα από διάφορους ιστότοπους που σχετίζονται με κρυπτογράφηση.

Το σύνολο δεδομένων C4 αντλείται από τοποθεσίες κρυπτογράφησης

Η Washington Post και το Allen Institute for AI πρόσφατα αναλύθηκε το σύνολο δεδομένων C4, ταξινομώντας τους ιστότοπους με βάση τον αριθμό των «κουπονιών» ή των αποσπασμάτων κειμένου που λαμβάνονται από κάθε πηγή.

Η Επιτροπή Κεφαλαιαγοράς των ΗΠΑ - η οποία εν μέρει περιέχει περιεχόμενο για τη ρύθμιση των κρυπτονομισμάτων - ήταν μεταξύ των μεγαλύτερων πηγών του συνόλου δεδομένων. Ο ιστότοπός της (sec.gov) κατατάχθηκε στο #39 και αντιπροσώπευε τα 36 εκατομμύρια, ή το 0.02% των tokens του C4.

Bitcointalk.org, ένας πίνακας συζητήσεων blockchain που δημιουργήθηκε από Satoshi Nakamoto, κατατάχθηκε στο #780. Αντιπροσώπευε το 6.1 εκατομμύρια, ή το 0.004%, των μάρκες του C4.

Εκπροσωπήθηκαν επίσης ιστότοποι ειδήσεων και συγκέντρωσης κρυπτονομισμάτων, όπως το Cointelegraph και το Coinmarketcap.com. Οκτώ τέτοιοι ιστότοποι αντιπροσώπευαν συλλογικά τουλάχιστον το 0.008% των διακριτικών του C4, αν και άλλοι ιστότοποι πιθανότατα αυξάνουν το πραγματικό σύνολο.

Οι ιστότοποι που σχετίζονται με συγκεκριμένα κρυπτονομίσματα και ανταλλαγές αντιπροσωπεύονταν επίσης στο σύνολο δεδομένων, αλλά αντιπροσώπευαν αμελητέα ποσότητα διακριτικών.

Δύο γειτονικοί ιστότοποι κρυπτογράφησης κατέλαβαν επίσης υψηλή κατάταξη. IPFS (ipfs.io) κατατάχθηκε στο #16 ενώ Steemit (steemit.com) κατατάχθηκε στο #594. Ο πρώτος ιστότοπος είναι ένα κατανεμημένο δίκτυο από την εταιρεία blockchain Protocol Labs, ενώ ο δεύτερος κάνει απευθείας χρήση του blockchain. Ωστόσο, αυτοί οι ιστότοποι δεν περιέχουν απαραίτητα περιεχόμενο που σχετίζεται με κρυπτονομίσματα.

Οι κύριοι ιστότοποι βρέθηκαν στην κορυφή της λίστας

Το σύνολο δεδομένων C4 χρησιμοποιείται σε μοντέλα γλώσσας AI από μεγάλες εταιρείες τεχνολογίας, συμπεριλαμβανομένων Της Google Τ5 και Του Facebook LLaMA, σύμφωνα με την Washington Post.

Αν και οι παραπάνω ιστότοποι συγκαταλέγονται στους πιο σημαντικούς ιστοτόπους του C4 που σχετίζονται με κρυπτογράφηση, έχουν υψηλότερη κατάταξη από τους κύριους ιστότοπους και τις πηγές ειδήσεων, που συχνά καλύπτουν θέματα κρυπτονομισμάτων και είναι πιθανώς η κύρια πηγή για όλα τα δεδομένα που σχετίζονται με κρυπτονομίσματα.

Το C4 έχει επίσης επικριθεί ότι περιέχει ρητορική μίσους και πειρατικά δεδομένα. Αν και το όνομα του συνόλου δεδομένων υποδηλώνει ότι έχει «καθαριστεί», οι συναρμολογητές του χρησιμοποίησαν μόνο μια λίστα 400 λέξεων για να λογοκρίνουν συγκεκριμένο περιεχόμενο, πράγμα που σημαίνει ότι το αμφιλεγόμενο περιεχόμενο παραμένει άθικτο.

Η παρουσία ιστοτόπων κρυπτογράφησης, καθώς και η παρουσία αμφιλεγόμενων δεδομένων, θα μπορούσε να επηρεάσει το επίπεδο μεροληψίας που παρατηρείται στο περιεχόμενο που παράγεται από chatbots AI.

Posted in: AI

Σφραγίδα ώρας:

Περισσότερα από CryptoSlate