Οι εργαζόμενοι που προσλαμβάνονται μέσω υπηρεσιών crowdsource όπως η Amazon Mechanical Turk χρησιμοποιούν μεγάλα γλωσσικά μοντέλα για να ολοκληρώσουν τις εργασίες τους – κάτι που θα μπορούσε να έχει αρνητικές επιπτώσεις στα μοντέλα τεχνητής νοημοσύνης στο μέλλον.
Τα δεδομένα είναι κρίσιμα για την τεχνητή νοημοσύνη. Οι προγραμματιστές χρειάζονται καθαρά, υψηλής ποιότητας σύνολα δεδομένων για να δημιουργήσουν συστήματα μηχανικής εκμάθησης που να είναι ακριβή και αξιόπιστα. Η συλλογή πολύτιμων, κορυφαίων δεδομένων, ωστόσο, μπορεί να είναι κουραστική. Οι εταιρείες συχνά στρέφονται σε πλατφόρμες τρίτων, όπως η Amazon Mechanical Turk, για να δώσουν οδηγίες σε ομάδες φτηνών εργαζομένων να εκτελούν επαναλαμβανόμενες εργασίες – όπως η επισήμανση αντικειμένων, η περιγραφή καταστάσεων, η μεταγραφή αποσπασμάτων και ο σχολιασμός κειμένου.
Η παραγωγή τους μπορεί να καθαριστεί και να τροφοδοτηθεί σε ένα μοντέλο για να το εκπαιδεύσει ώστε να αναπαράγει αυτό το έργο σε πολύ μεγαλύτερη, αυτοματοποιημένη κλίμακα.
Έτσι, τα μοντέλα τεχνητής νοημοσύνης χτίζονται στην πλάτη της ανθρώπινης εργασίας: άνθρωποι μοχθούν μακριά, παρέχουν βουνά παραδείγματα εκπαίδευσης για συστήματα τεχνητής νοημοσύνης που οι εταιρείες μπορούν να χρησιμοποιήσουν για να κερδίσουν δισεκατομμύρια δολάρια.
Όμως, ένα πείραμα που διεξήχθη από ερευνητές στην École polytechnique fédérale de Lausanne (EPFL) στην Ελβετία κατέληξε στο συμπέρασμα ότι αυτοί οι εργαζόμενοι με πληθώρα χρησιμοποιούν συστήματα τεχνητής νοημοσύνης – όπως το chatbot ChatGPT του OpenAI – για να εκτελούν περίεργες εργασίες στο διαδίκτυο.
Δεν συνιστάται η εκπαίδευση ενός μοντέλου με δική του απόδοση. Θα μπορούσαμε να δούμε μοντέλα τεχνητής νοημοσύνης να εκπαιδεύονται σε δεδομένα που δημιουργούνται όχι από ανθρώπους, αλλά από άλλα μοντέλα τεχνητής νοημοσύνης – ίσως ακόμη και τα ίδια μοντέλα. Αυτό θα μπορούσε να οδηγήσει σε καταστροφική ποιότητα παραγωγής, περισσότερη προκατάληψη και άλλα ανεπιθύμητα αποτελέσματα.
Το πείραμα
Οι ακαδημαϊκοί στρατολόγησαν 44 Μηχανικούς Τούρκους δουλοπάροικους για να συνοψίσουν τις περιλήψεις 16 ιατρικών ερευνητικών εργασιών και υπολόγισαν ότι το 33 με 46 τοις εκατό των αποσπασμάτων κειμένου που υποβλήθηκαν από τους εργάτες δημιουργήθηκαν χρησιμοποιώντας μεγάλα γλωσσικά μοντέλα. Οι εργαζόμενοι στο πλήθος συχνά αμείβονται με χαμηλούς μισθούς – η χρήση τεχνητής νοημοσύνης για την αυτόματη δημιουργία απαντήσεων τους επιτρέπει να εργάζονται γρηγορότερα και να αναλαμβάνουν περισσότερες θέσεις εργασίας για να αυξήσουν τις αμοιβές τους.
Η ελβετική ομάδα εκπαίδευσε έναν ταξινομητή για να προβλέψει εάν οι υποβολές από τους Τούρκερ ήταν δημιουργημένες από τον άνθρωπο ή την τεχνητή νοημοσύνη. Οι ακαδημαϊκοί κατέγραψαν επίσης τα πλήκτρα των εργαζομένων τους για να ανιχνεύσουν αν οι δουλοπάροικοι αντέγραψαν και επικολλούσαν κείμενο στην πλατφόρμα ή δακτυλογραφούσαν οι ίδιοι τις καταχωρήσεις τους. Υπάρχει πάντα η πιθανότητα κάποιος να χρησιμοποιήσει ένα chatbot και στη συνέχεια να πληκτρολογήσει με μη αυτόματο τρόπο την έξοδο – αλλά αυτό είναι απίθανο, υποθέτουμε.
«Αναπτύξαμε μια πολύ συγκεκριμένη μεθοδολογία που λειτούργησε πολύ καλά για την ανίχνευση συνθετικού κειμένου στο σενάριό μας», δήλωσε ο Manoel Ribeiro, συν-συγγραφέας του η μελέτη και ένας διδάκτορας στο EPFL, είπε Το μητρώο αυτή την εβδομάδα.
«Ενώ οι παραδοσιακές μέθοδοι προσπαθούν να ανιχνεύσουν συνθετικό κείμενο «σε οποιοδήποτε πλαίσιο», η προσέγγισή μας επικεντρώνεται στην ανίχνευση συνθετικού κειμένου στο συγκεκριμένο σενάριο».
Ο ταξινομητής δεν είναι τέλειος στο να προσδιορίζει εάν κάποιος χρησιμοποίησε ένα σύστημα τεχνητής νοημοσύνης ή αν παρήγαγε τη δική του εργασία. Οι ακαδημαϊκοί συνδύασαν την έξοδο του ταξινομητή τους με τα δεδομένα πληκτρολόγησης για να είναι πιο σίγουροι όταν κάποιος έκανε copy-paste από ένα bot ή παρήγαγε το δικό του υλικό.
Τα ανθρώπινα δεδομένα είναι ο χρυσός κανόνας, γιατί νοιαζόμαστε για τους ανθρώπους
«Καταφέραμε να επικυρώσουμε τα αποτελέσματά μας χρησιμοποιώντας δεδομένα πληκτρολόγησης που συλλέξαμε επίσης από το MTurk», μας είπε ο Ριμπέιρο. «Για παράδειγμα, διαπιστώσαμε ότι όλα τα κείμενα που δεν είχαν γίνει αντιγραφή-επικόλληση ταξινομήθηκαν από εμάς ως «πραγματικά», κάτι που υποδηλώνει ότι υπάρχουν λίγα ψευδώς θετικά».
Ο κωδικός και τα δεδομένα που χρησιμοποιούνται για την εκτέλεση της δοκιμής μπορείτε να βρείτε εδώ, στο GitHub.
Υπάρχει ένας άλλος λόγος που το πείραμα είναι απίθανο να είναι μια απολύτως δίκαιη αναπαράσταση του πόσοι εργαζόμενοι χρησιμοποιούν πραγματικά τεχνητή νοημοσύνη για να αυτοματοποιήσουν εργασίες crowdsource. Οι συγγραφείς σημειώνουν ότι η εργασία σύνοψης κειμένου είναι κατάλληλη για μεγάλα γλωσσικά μοντέλα σε σύγκριση με άλλους τύπους εργασιών – που σημαίνει ότι τα αποτελέσματά τους μπορεί να είναι πιο λοξά προς μεγαλύτερο αριθμό εργαζομένων που χρησιμοποιούν εργαλεία όπως το ChatGPT.
Το σύνολο δεδομένων τους με 46 απαντήσεις από 44 εργαζόμενους είναι επίσης μικρό. Οι εργαζόμενοι πληρώνονταν 1 $ για κάθε περίληψη κειμένου, κάτι που και πάλι μπορεί να ενθαρρύνει μόνο τη χρήση τεχνητής νοημοσύνης.
Τα μεγάλα γλωσσικά μοντέλα θα χειροτερέψουν εάν εκπαιδεύονται όλο και περισσότερο σε ψεύτικο περιεχόμενο που δημιουργείται από τεχνητή νοημοσύνη που συλλέγεται από πλατφόρμες crowdsource, υποστήριξαν οι ερευνητές. Οι στολές όπως το OpenAI κρατούν στενό μυστικό τον τρόπο με τον οποίο εκπαιδεύουν τα τελευταία μοντέλα τους και μπορεί να μην βασίζονται σε μεγάλο βαθμό σε πράγματα όπως το Mechanical Turk, αν όχι καθόλου. Τούτου λεχθέντος, πολλά άλλα μοντέλα μπορεί να βασίζονται σε ανθρώπινους εργάτες, οι οποίοι μπορεί με τη σειρά τους να χρησιμοποιούν bots για τη δημιουργία δεδομένων εκπαίδευσης, κάτι που είναι πρόβλημα.
Η Mechanical Turk, για παράδειγμα, διατίθεται στην αγορά ως πάροχος «λύσεων σήμανσης δεδομένων για την ισχύ μοντέλων μηχανικής εκμάθησης».
«Τα ανθρώπινα δεδομένα είναι το χρυσό πρότυπο, γιατί μας ενδιαφέρουν οι άνθρωποι και όχι τα μεγάλα γλωσσικά μοντέλα», είπε ο Riberio. «Δεν θα έπαιρνα ένα φάρμακο που δοκιμάστηκε μόνο σε βιολογικό μοντέλο Drosophila», είπε ως παράδειγμα.
Οι απαντήσεις που δημιουργούνται από τα σημερινά μοντέλα τεχνητής νοημοσύνης είναι συνήθως αρκετά ήπιες ή ασήμαντες και δεν αποτυπώνουν την πολυπλοκότητα και την ποικιλομορφία της ανθρώπινης δημιουργικότητας, υποστήριξαν οι ερευνητές.
«Μερικές φορές αυτό που θέλουμε να μελετήσουμε με δεδομένα crowdsourced είναι ακριβώς οι τρόποι με τους οποίους οι άνθρωποι είναι ατελείς», μας είπε ο Robert West, συν-συγγραφέας της εργασίας και επίκουρος καθηγητής στη σχολή επιστήμης υπολογιστών και επικοινωνιών του EPFL.
Καθώς η τεχνητή νοημοσύνη συνεχίζει να βελτιώνεται, είναι πιθανό να αλλάξει η εργασία με βάση το crowdsource. Ο Riberio υπέθεσε ότι τα μεγάλα γλωσσικά μοντέλα θα μπορούσαν να αντικαταστήσουν ορισμένους εργαζόμενους σε συγκεκριμένες εργασίες. «Ωστόσο, παραδόξως, τα ανθρώπινα δεδομένα μπορεί να είναι πιο πολύτιμα από ποτέ και έτσι μπορεί αυτές οι πλατφόρμες να είναι σε θέση να εφαρμόσουν τρόπους για να αποτρέψουν τη χρήση μεγάλων γλωσσικών μοντέλων και να διασφαλίσουν ότι παραμένουν πηγή ανθρώπινων δεδομένων».
Ποιος ξέρει – ίσως οι άνθρωποι να καταλήξουν να συνεργάζονται με μεγάλα γλωσσικά μοντέλα για να δημιουργήσουν επίσης απαντήσεις, πρόσθεσε. ®
- SEO Powered Content & PR Distribution. Ενισχύστε σήμερα.
- EVM Finance. Ενιαία διεπαφή για αποκεντρωμένη χρηματοδότηση. Πρόσβαση εδώ.
- Quantum Media Group. Ενισχυμένο IR/PR. Πρόσβαση εδώ.
- PlatoAiStream. Web3 Data Intelligence. Ενισχύθηκε η γνώση. Πρόσβαση εδώ.
- πηγή: https://go.theregister.com/feed/www.theregister.com/2023/06/16/crowd_workers_bots_ai_training/
- :έχει
- :είναι
- :δεν
- $UP
- 16
- 7
- a
- Ικανός
- Σχετικα
- περιλήψεις
- ακαδημαϊκούς
- ακριβής
- προστιθέμενη
- πάλι
- AI
- Όλα
- επιτρέπει
- Επίσης
- πάντοτε
- Amazon
- an
- και
- Άλλος
- κάθε
- πλησιάζω
- ΕΙΝΑΙ
- υποστήριξε
- τεχνητός
- τεχνητή νοημοσύνη
- AS
- Βοηθός
- At
- συγγραφείς
- αυτοματοποίηση
- Αυτοματοποιημένη
- αυτομάτως
- μακριά
- BE
- επειδή
- είναι
- προκατάληψη
- δισεκατομμύρια
- ήπιος
- Bot
- bots
- χτίζω
- χτισμένο
- αλλά
- by
- CAN
- πιάνω
- ο οποίος
- ορισμένες
- ευκαιρία
- αλλαγή
- chatbot
- ChatGPT
- φθηνά
- ταξινομούνται
- Κλεισιμο
- CO
- Συν-Συγγραφέας
- κωδικός
- συνεργάζεται
- σε συνδυασμό
- Επικοινωνία
- Εταιρείες
- σύγκριση
- πλήρης
- εντελώς
- περίπλοκο
- υπολογιστή
- Κατέληξε στο συμπέρασμα
- διενεργούνται
- περιεχόμενο
- συμφραζόμενα
- συνεχίζεται
- Εταιρείες
- θα μπορούσε να
- δημιουργικότητα
- κρίσιμης
- πλήθος
- ημερομηνία
- σύνολα δεδομένων
- αναπτύχθηκε
- προγραμματιστές
- καταστρεπτικός
- Ποικιλία
- do
- δολάρια
- κάθε
- αποτελέσματα
- ενθαρρύνει
- τέλος
- εξασφαλίζω
- αναμενόμενη
- Even
- ΠΑΝΤΑ
- ακριβώς
- παράδειγμα
- παραδείγματα
- πείραμα
- έκθεση
- απομίμηση
- ψευδής
- γρηγορότερα
- Fed
- λίγοι
- επικεντρώθηκε
- Για
- Βρέθηκαν
- από
- μελλοντικός
- παράγουν
- παράγεται
- παίρνω
- GitHub
- Χρυσό
- Χρυσός κανόνας
- Έχω
- he
- βαριά
- υψηλής ποιότητας
- υψηλότερο
- Πως
- Ωστόσο
- HTTPS
- ανθρώπινος
- Οι άνθρωποι
- i
- προσδιορισμό
- if
- εφαρμογή
- βελτίωση
- in
- Αυξάνουν
- όλο και περισσότερο
- Νοημοσύνη
- σε
- isn
- IT
- ΤΟΥ
- Θέσεις εργασίας
- jpg
- Διατήρηση
- τιτλοφόρηση
- εργασία
- Γλώσσα
- large
- μεγαλύτερος
- αργότερο
- οδηγήσει
- μάθηση
- Μου αρέσει
- Πιθανός
- καταγραφεί
- Χαμηλός
- μηχανή
- μάθηση μηχανής
- κάνω
- διαχειρίζεται
- χειροκίνητα
- πολοί
- υλικό
- Ενδέχεται..
- νόημα
- μηχανικός
- ιατρικών
- ιατρική έρευνα
- ιατρική
- Μεθοδολογία
- μέθοδοι
- ενδέχεται να
- μοντέλο
- μοντέλα
- περισσότερο
- πολύ
- Ανάγκη
- αρνητικός
- αριθμός
- αντικειμένων
- of
- συχνά
- on
- ONE
- διαδικτυακά (online)
- αποκλειστικά
- OpenAI
- or
- ΑΛΛΑ
- δικός μας
- παραγωγή
- δική
- καταβλήθηκε
- Χαρτί
- χαρτιά
- κόμμα
- Πληρωμή
- People
- τοις εκατό
- τέλειος
- Εκτελέστε
- ίσως
- πλατφόρμες
- Πλατφόρμες
- Πλάτων
- Πληροφορία δεδομένων Plato
- Πλάτωνα δεδομένα
- Αφθονία
- Πισίνες
- δύναμη
- Πολύτιμος
- ακριβώς
- προβλέψει
- πρόληψη
- Πρόβλημα
- Παράγεται
- Δάσκαλος
- προμηθευτής
- χορήγηση
- ποιότητα
- πραγματικός
- πραγματικά
- λόγος
- συνιστάται
- αξιόπιστος
- βασίζονται
- λείψανα
- επαναλαμβανόμενη
- αντικαθιστώ
- αντιπροσώπευση
- έρευνα
- ερευνητές
- απαντήσεις
- Αποτελέσματα
- ROBERT
- τρέξιμο
- s
- Είπε
- ίδιο
- Κλίμακα
- σενάριο
- Σχολείο
- Επιστήμη
- Μυστικό
- δείτε
- Υπηρεσίες
- καταστάσεων
- small
- Λύσεις
- μερικοί
- Κάποιος
- Πηγή
- συγκεκριμένες
- πρότυπο
- Φοιτητής
- Μελέτη
- Υποβολές
- υποβάλλονται
- τέτοιος
- Προτείνει
- συνοψίζω
- ΠΕΡΙΛΗΨΗ
- Ελβετός
- Ελβετία
- συνθετικός
- σύστημα
- συστήματα
- Πάρτε
- Έργο
- εργασίες
- δοκιμή
- δοκιμαστεί
- από
- ότι
- Η
- Το μέλλον
- τους
- Τους
- τους
- τότε
- Εκεί.
- Αυτοί
- αυτοί
- πράγματα
- Τρίτος
- αυτό
- αυτή την εβδομάδα
- προς την
- σήμερα
- πολύ
- εργαλεία
- προς
- παραδοσιακός
- Τρένο
- εκπαιδευμένο
- Εκπαίδευση
- προσπαθώ
- ΣΤΡΟΦΗ
- τύποι
- απίθανος
- ανεπιθύμητος
- us
- Χρήση
- χρήση
- μεταχειρισμένος
- χρησιμοποιεί
- χρησιμοποιώντας
- συνήθως
- ΕΠΙΚΥΡΩΝΩ
- Πολύτιμος
- πολύ
- μέσω
- μισθοί
- θέλω
- ήταν
- τρόπους
- we
- εβδομάδα
- ΛΟΙΠΌΝ
- ήταν
- δυτικά
- Τι
- πότε
- αν
- Ποιό
- ενώ
- θα
- με
- Εργασία
- εργάστηκαν
- εργαζομένων
- χειρότερος
- zephyrnet