Το Colossal Clean Crawled Corpus (C4), ένα σύνολο δεδομένων AI που χρησιμοποιείται από μεγάλες εταιρείες τεχνολογίας, περιέχει δεδομένα από διάφορους ιστότοπους που σχετίζονται με κρυπτογράφηση.
Το σύνολο δεδομένων C4 αντλείται από τοποθεσίες κρυπτογράφησης
Η Washington Post και το Allen Institute for AI πρόσφατα αναλύθηκε το σύνολο δεδομένων C4, ταξινομώντας τους ιστότοπους με βάση τον αριθμό των «κουπονιών» ή των αποσπασμάτων κειμένου που λαμβάνονται από κάθε πηγή.
Η Επιτροπή Κεφαλαιαγοράς των ΗΠΑ - η οποία εν μέρει περιέχει περιεχόμενο για τη ρύθμιση των κρυπτονομισμάτων - ήταν μεταξύ των μεγαλύτερων πηγών του συνόλου δεδομένων. Ο ιστότοπός της (sec.gov) κατατάχθηκε στο #39 και αντιπροσώπευε τα 36 εκατομμύρια, ή το 0.02% των tokens του C4.
Bitcointalk.org, ένας πίνακας συζητήσεων blockchain που δημιουργήθηκε από Satoshi Nakamoto, κατατάχθηκε στο #780. Αντιπροσώπευε το 6.1 εκατομμύρια, ή το 0.004%, των μάρκες του C4.
Εκπροσωπήθηκαν επίσης ιστότοποι ειδήσεων και συγκέντρωσης κρυπτονομισμάτων, όπως το Cointelegraph και το Coinmarketcap.com. Οκτώ τέτοιοι ιστότοποι αντιπροσώπευαν συλλογικά τουλάχιστον το 0.008% των διακριτικών του C4, αν και άλλοι ιστότοποι πιθανότατα αυξάνουν το πραγματικό σύνολο.
Οι ιστότοποι που σχετίζονται με συγκεκριμένα κρυπτονομίσματα και ανταλλαγές αντιπροσωπεύονταν επίσης στο σύνολο δεδομένων, αλλά αντιπροσώπευαν αμελητέα ποσότητα διακριτικών.
Δύο γειτονικοί ιστότοποι κρυπτογράφησης κατέλαβαν επίσης υψηλή κατάταξη. IPFS (ipfs.io) κατατάχθηκε στο #16 ενώ Steemit (steemit.com) κατατάχθηκε στο #594. Ο πρώτος ιστότοπος είναι ένα κατανεμημένο δίκτυο από την εταιρεία blockchain Protocol Labs, ενώ ο δεύτερος κάνει απευθείας χρήση του blockchain. Ωστόσο, αυτοί οι ιστότοποι δεν περιέχουν απαραίτητα περιεχόμενο που σχετίζεται με κρυπτονομίσματα.
Οι κύριοι ιστότοποι βρέθηκαν στην κορυφή της λίστας
Το σύνολο δεδομένων C4 χρησιμοποιείται σε μοντέλα γλώσσας AI από μεγάλες εταιρείες τεχνολογίας, συμπεριλαμβανομένων Της Google Τ5 και Του Facebook LLaMA, σύμφωνα με την Washington Post.
Αν και οι παραπάνω ιστότοποι συγκαταλέγονται στους πιο σημαντικούς ιστοτόπους του C4 που σχετίζονται με κρυπτογράφηση, έχουν υψηλότερη κατάταξη από τους κύριους ιστότοπους και τις πηγές ειδήσεων, που συχνά καλύπτουν θέματα κρυπτονομισμάτων και είναι πιθανώς η κύρια πηγή για όλα τα δεδομένα που σχετίζονται με κρυπτονομίσματα.
Το C4 έχει επίσης επικριθεί ότι περιέχει ρητορική μίσους και πειρατικά δεδομένα. Αν και το όνομα του συνόλου δεδομένων υποδηλώνει ότι έχει «καθαριστεί», οι συναρμολογητές του χρησιμοποίησαν μόνο μια λίστα 400 λέξεων για να λογοκρίνουν συγκεκριμένο περιεχόμενο, πράγμα που σημαίνει ότι το αμφιλεγόμενο περιεχόμενο παραμένει άθικτο.
Η παρουσία ιστοτόπων κρυπτογράφησης, καθώς και η παρουσία αμφιλεγόμενων δεδομένων, θα μπορούσε να επηρεάσει το επίπεδο μεροληψίας που παρατηρείται στο περιεχόμενο που παράγεται από chatbots AI.
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- Platoblockchain. Web3 Metaverse Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- Minting the Future με την Adryenn Ashley. Πρόσβαση εδώ.
- πηγή: https://cryptoslate.com/top-ai-dataset-pulls-data-from-bitcointalk-steemit-and-u-s-sec/
- :έχει
- :είναι
- :δεν
- 1
- 500
- a
- πάνω από
- Σύμφωνα με
- επηρεάζουν
- συσσωμάτωση
- AI
- Όλα
- Επίσης
- μεταξύ των
- ποσό
- an
- και
- ΕΙΝΑΙ
- AS
- At
- ήταν
- προκατάληψη
- Bitcointalk
- blockchain
- Εταιρεία Blockchain
- επιτροπή
- αλλά
- by
- κατηγορία
- chatbots
- Coindesk
- CoinMarketCap
- Cointelegraph
- συλλογικά
- COM
- παραπομπής σας
- Εταιρείες
- Ομοφωνία
- περιέχουν
- Περιέχει
- περιεχόμενο
- αμφιλεγόμενος
- θα μπορούσε να
- κάλυμμα
- δημιουργήθηκε
- κρυπτο
- cryptocurrencies
- cryptocurrency
- κανονισμός κρυπτονομισμάτων
- CryptoSlate
- ημερομηνία
- κατευθύνει
- συζήτηση
- διανέμονται
- Κατανεμημένο δίκτυο
- κάθε
- ανταλλαγή
- Χρηματιστήρια
- Εταιρεία
- Όνομα
- Για
- από
- gif
- υψηλά
- Ωστόσο
- HTTPS
- in
- Συμπεριλαμβανομένου
- Αυξάνουν
- Ινστιτούτο
- IPFS
- IT
- ΤΟΥ
- Labs
- Γλώσσα
- μεγαλύτερη
- Επίπεδο
- Πιθανός
- Limewire
- Λιστα
- Είδος μικρής καμήλας
- Mainstream
- μεγάλες
- ΚΑΝΕΙ
- νόημα
- εκατομμύριο
- μοντέλα
- πλέον
- όνομα
- αναγκαίως
- δίκτυο
- νέα
- αριθμός
- of
- on
- αποκλειστικά
- or
- ΑΛΛΑ
- μέρος
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Θέση
- παρουσία
- πρωταρχικός
- Παράγεται
- πρωτόκολλο
- Εργαστήρια πρωτοκόλλου
- Τραβά
- κατάταξη
- Κατάταξη
- Ρυθμιστικές Αρχές
- σχετίζεται με
- λείψανα
- εκπροσωπούνται
- s
- SEC
- Δεύτερος
- Χρεόγραφα
- Securities and Exchange Commission
- σημαντικός
- ιστοσελίδα
- Sites
- Πηγή
- Πηγές
- συγκεκριμένες
- ομιλία
- ΧΟΡΗΓΟΥΜΕΝΟΙ
- τέτοιος
- Προτείνει
- TAG
- tech
- tech εταιρείες
- ότι
- Η
- Η εφημερίδα Washington Post
- Αυτοί
- αυτοί
- προς την
- ένδειξη
- κουπόνια
- κορυφή
- Θέματα
- ολοκληρώθηκε
- Σύνολο
- αληθής
- μας
- SEC SEC
- Χρεόγραφα των ΗΠΑ
- Αμερικανική Επιτροπή Κεφαλαιαγοράς
- χρήση
- μεταχειρισμένος
- διάφορα
- ήταν
- Ουάσιγκτον
- Washington Post
- Ιστοσελίδα : www.example.gr
- ιστοσελίδες
- ΛΟΙΠΌΝ
- ήταν
- Ποιό
- ενώ
- λόγια
- zephyrnet