Μαθήματα που αντλήθηκαν σχετικά με την ασφάλεια του μοντέλου γλώσσας και την κακή χρήση της νοημοσύνης δεδομένων PlatoBlockchain. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μαθήματα σχετικά με την ασφάλεια και την κακή χρήση του μοντέλου γλώσσας

Μαθήματα σχετικά με την ασφάλεια και την κακή χρήση του μοντέλου γλώσσας

Η ανάπτυξη ισχυρών συστημάτων τεχνητής νοημοσύνης έχει εμπλουτίσει την κατανόησή μας για την ασφάλεια και την κακή χρήση πολύ περισσότερο από ό,τι θα ήταν δυνατό μόνο μέσω της έρευνας. Ιδιαίτερα:

  • Η κακή χρήση του γλωσσικού μοντέλου που βασίζεται σε API έχει συχνά διαφορετικές μορφές από αυτές που φοβόμασταν περισσότερο.
  • Έχουμε εντοπίσει περιορισμούς στις υφιστάμενες αξιολογήσεις γλωσσικών μοντέλων που αντιμετωπίζουμε με νέα σημεία αναφοράς και ταξινομητές.
  • Η βασική έρευνα ασφάλειας προσφέρει σημαντικά οφέλη για την εμπορική χρησιμότητα των συστημάτων AI.

Εδώ, περιγράφουμε την τελευταία μας σκέψη με την ελπίδα να βοηθήσουμε άλλους προγραμματιστές τεχνητής νοημοσύνης να αντιμετωπίσουν την ασφάλεια και την κακή χρήση των αναπτυγμένων μοντέλων.


Oκατά τα δύο τελευταία χρόνια, μάθαμε πολλά για τον τρόπο χρήσης και κατάχρησης των μοντέλων γλώσσας — πληροφορίες που δεν θα μπορούσαμε να έχουμε αποκτήσει χωρίς την εμπειρία της ανάπτυξης σε πραγματικό κόσμο. Τον Ιούνιο του 2020, αρχίσαμε να παρέχουμε πρόσβαση σε προγραμματιστές και ερευνητές στο API OpenAI, μια διεπαφή για πρόσβαση και δημιουργία εφαρμογών πάνω από νέα μοντέλα τεχνητής νοημοσύνης που αναπτύχθηκαν από την OpenAI. Η ανάπτυξη GPT-3, Codex και άλλων μοντέλων με τρόπο που μειώνει τους κινδύνους βλάβης έχει θέσει διάφορες τεχνικές και πολιτικές προκλήσεις.

Επισκόπηση της προσέγγισης ανάπτυξης του μοντέλου μας

Τα μεγάλα γλωσσικά μοντέλα είναι πλέον ικανά να εκτελούν α πολύ ευρύ φάσμα εργασιών, συχνά έξω από το κουτί. Τα προφίλ κινδύνου, οι πιθανές εφαρμογές τους και οι ευρύτερες επιπτώσεις τους στην κοινωνία παραμένουν πτωχώς κατανοητή. Ως αποτέλεσμα, η προσέγγισή μας για την ανάπτυξη δίνει έμφαση στη συνεχή επανάληψη και χρησιμοποιεί τις ακόλουθες στρατηγικές που στοχεύουν στη μεγιστοποίηση των πλεονεκτημάτων της ανάπτυξης με παράλληλη μείωση των σχετικών κινδύνων:

  • Ανάλυση κινδύνου πριν από την ανάπτυξη, αξιοποιώντας ένα αυξανόμενο σύνολο αξιολογήσεων ασφάλειας και κόκκινων εργαλείων ομαδοποίησης (π.χ. ελέγξαμε το InstructGPT για τυχόν υποβαθμίσεις ασφάλειας χρησιμοποιώντας τις αξιολογήσεις συζητείται παρακάτω)
  • Ξεκινώντας με μια μικρή βάση χρηστών (π.χ., τόσο το GPT-3 όσο και το δικό μας InstructGPT οι σειρές ξεκίνησαν ως ιδιωτικές beta)
  • Μελέτη των αποτελεσμάτων πιλοτικών περιπτώσεων νέας χρήσης (π.χ. διερεύνηση των συνθηκών υπό τις οποίες θα μπορούσαμε να επιτρέψουμε με ασφάλεια τη δημιουργία περιεχομένου μακράς μορφής, σε συνεργασία με μικρό αριθμό πελατών)
  • Εφαρμογή διαδικασιών που βοηθούν στη διατήρηση ενός παλμού στη χρήση (π.χ. επανεξέταση περιπτώσεων χρήσης, ποσοστώσεις διακριτικών και όρια ρυθμών)
  • Διεξαγωγή λεπτομερών αναδρομικών ελέγχων (π.χ. συμβάντων ασφαλείας και μεγάλων αναπτύξεων)
Μαθήματα σχετικά με την ασφάλεια και την κακή χρήση του μοντέλου γλώσσας


Σημειώστε ότι αυτό το διάγραμμα έχει σκοπό να μεταφέρει οπτικά την ανάγκη για βρόχους ανάδρασης στη συνεχή διαδικασία ανάπτυξης και ανάπτυξης του μοντέλου και το γεγονός ότι η ασφάλεια πρέπει να ενσωματωθεί σε κάθε στάδιο. Δεν προορίζεται να μεταφέρει μια πλήρη ή ιδανική εικόνα της διαδικασίας μας ή οποιουδήποτε άλλου οργανισμού.

Δεν υπάρχει ασημένια κουκκίδα για υπεύθυνη ανάπτυξη, επομένως προσπαθούμε να μάθουμε και να αντιμετωπίσουμε τους περιορισμούς των μοντέλων μας και τις πιθανές οδούς για κακή χρήση, σε κάθε στάδιο ανάπτυξης και ανάπτυξης. Αυτή η προσέγγιση μάς επιτρέπει να μάθουμε όσα περισσότερα μπορούμε για θέματα ασφάλειας και πολιτικής σε μικρή κλίμακα και να ενσωματώσουμε αυτές τις πληροφορίες πριν ξεκινήσουμε την ανάπτυξη μεγαλύτερης κλίμακας.


Δεν υπάρχει ασημένια σφαίρα για υπεύθυνη ανάπτυξη.

Αν και δεν είναι εξαντλητικό, ορισμένοι τομείς στους οποίους έχουμε επενδύσει μέχρι στιγμής περιλαμβάνουν[1]:

Δεδομένου ότι κάθε στάδιο παρέμβασης έχει περιορισμούς, είναι απαραίτητη μια ολιστική προσέγγιση.

Υπάρχουν τομείς όπου θα μπορούσαμε να είχαμε κάνει περισσότερα και όπου έχουμε ακόμη περιθώρια βελτίωσης. Για παράδειγμα, όταν εργαζόμασταν για πρώτη φορά στο GPT-3, το θεωρούσαμε ως ένα τεχνούργημα εσωτερικής έρευνας και όχι ως σύστημα παραγωγής και δεν ήμασταν τόσο επιθετικοί στο φιλτράρισμα των τοξικών δεδομένων εκπαίδευσης όπως θα ήμασταν διαφορετικά. Έχουμε επενδύσει περισσότερα στην έρευνα και την αφαίρεση τέτοιου υλικού για τα επόμενα μοντέλα. Χρειάσαμε περισσότερο χρόνο για να αντιμετωπίσουμε ορισμένες περιπτώσεις κατάχρησης σε περιπτώσεις όπου δεν είχαμε σαφείς πολιτικές σχετικά με το θέμα και βελτιωθήκαμε στην επανάληψη αυτών των πολιτικών. Και συνεχίζουμε να επαναλαμβάνουμε μια δέσμη απαιτήσεων ασφάλειας που είναι μεγίστη αποτελεσματική για την αντιμετώπιση των κινδύνων, ενώ ταυτόχρονα κοινοποιείται ξεκάθαρα στους προγραμματιστές και ελαχιστοποιεί την υπερβολική τριβή.

Ωστόσο, πιστεύουμε ότι η προσέγγισή μας μάς έδωσε τη δυνατότητα να μετρήσουμε και να μειώσουμε διάφορους τύπους βλαβών από τη χρήση γλωσσικών μοντέλων σε σύγκριση με μια προσέγγιση πιο αυθόρμητη, ενώ ταυτόχρονα επέτρεψε ένα ευρύ φάσμα επιστημονικών, καλλιτεχνικών και εμπορικών εφαρμογών μας. μοντέλα.[2]

Τα πολλά σχήματα και μεγέθη του γλωσσικού μοντέλου κατάχρησης

Το OpenAI δραστηριοποιείται στην έρευνα των κινδύνων κατάχρησης της τεχνητής νοημοσύνης από την πρώιμη εργασία μας στο κακόβουλη χρήση AI σε 2018 και στο GPT-2 το 2019, και έχουμε δώσει ιδιαίτερη προσοχή στα συστήματα τεχνητής νοημοσύνης που ενισχύουν τις λειτουργίες επιρροής. Εχουμε συνεργάστηκε με να αναπτυχθούν εξωτερικοί εμπειρογνώμονες αποδείξεις της έννοιας και προωθούνται προσεκτικός ανάλυση τέτοιων κινδύνων από τρίτους. Παραμένουμε προσηλωμένοι στην αντιμετώπιση των κινδύνων που σχετίζονται με τις λειτουργίες επιρροής που ενεργοποιούνται από γλωσσικά μοντέλα και πρόσφατα συνδιοργανώσαμε ένα εργαστήριο για το θέμα.[3]

Ωστόσο, έχουμε εντοπίσει και σταματήσει εκατοντάδες παράγοντες που προσπαθούν να κάνουν κατάχρηση του GPT-3 για ένα πολύ ευρύτερο φάσμα σκοπών από την παραγωγή παραπληροφόρησης για επιχειρήσεις επιρροής, συμπεριλαμβανομένων τρόπων που είτε δεν περιμέναμε είτε που περιμέναμε αλλά δεν περιμέναμε. τόσο διαδεδομένη.[4] Τα οδηγίες χρήσης, οδηγίες περιεχομένου, και η εσωτερική υποδομή ανίχνευσης και απόκρισης ήταν αρχικά προσανατολισμένη σε κινδύνους που αναμέναμε βάσει εσωτερικής και εξωτερικής έρευνας, όπως η δημιουργία παραπλανητικού πολιτικού περιεχομένου με το GPT-3 ή η δημιουργία κακόβουλου λογισμικού με το Codex. Οι προσπάθειές μας για ανίχνευση και ανταπόκριση έχουν εξελιχθεί με την πάροδο του χρόνου ως απάντηση σε πραγματικές περιπτώσεις κακής χρήσης που συναντήθηκαν "στη φύση" που δεν εμφανίζονταν τόσο ευδιάκριτα ως λειτουργίες επιρροής στις αρχικές μας αξιολογήσεις κινδύνου. Παραδείγματα περιλαμβάνουν προωθήσεις ανεπιθύμητης αλληλογραφίας για αμφίβολα ιατρικά προϊόντα και παιχνίδι ρόλων ρατσιστικών φαντασιώσεων.

Για να υποστηρίξουμε τη μελέτη της κακής χρήσης γλωσσικών μοντέλων και τον μετριασμό της, διερευνούμε ενεργά ευκαιρίες για κοινή χρήση στατιστικών για περιστατικά ασφάλειας φέτος, προκειμένου να συγκεκριμενοποιήσουμε τις συζητήσεις σχετικά με την κακή χρήση γλωσσικού μοντέλου.

Η Δυσκολία της Μέτρησης Κινδύνου και Επιπτώσεων

Πολλές πτυχές των κινδύνων και των επιπτώσεων των γλωσσικών μοντέλων παραμένουν δύσκολο να μετρηθούν και επομένως είναι δύσκολο να παρακολουθηθούν, να ελαχιστοποιηθούν και να αποκαλυφθούν με υπεύθυνο τρόπο. Χρησιμοποιήσαμε ενεργά τα υπάρχοντα ακαδημαϊκά κριτήρια αξιολόγησης για την αξιολόγηση γλωσσικών μοντέλων και επιθυμούμε να συνεχίσουμε να βασιζόμαστε σε εξωτερική εργασία, αλλά έχουμε επίσης διαπιστώσει ότι τα υπάρχοντα σύνολα δεδομένων αναφοράς συχνά δεν αντικατοπτρίζουν τους κινδύνους ασφάλειας και κακής χρήσης που βλέπουμε στην πράξη.[5]

Τέτοιοι περιορισμοί αντικατοπτρίζουν το γεγονός ότι τα ακαδημαϊκά σύνολα δεδομένων σπάνια δημιουργούνται για σαφή σκοπό ενημέρωσης της χρήσης γλωσσικών μοντέλων στην παραγωγή και δεν επωφελούνται από την εμπειρία που αποκτήθηκε από την ανάπτυξη τέτοιων μοντέλων σε κλίμακα. Ως αποτέλεσμα, αναπτύσσουμε νέα σύνολα δεδομένων αξιολόγησης και πλαίσια για τη μέτρηση της ασφάλειας των μοντέλων μας, τα οποία σκοπεύουμε να κυκλοφορήσουμε σύντομα. Συγκεκριμένα, έχουμε αναπτύξει νέες μετρήσεις αξιολόγησης για τη μέτρηση της τοξικότητας στα αποτελέσματα των μοντέλων και έχουμε αναπτύξει επίσης εσωτερικούς ταξινομητές για τον εντοπισμό περιεχομένου που παραβιάζει πολιτική περιεχομένου, όπως ερωτικό περιεχόμενο, ρητορική μίσους, βία, παρενόχληση και αυτοτραυματισμό. Και τα δύο αυτά με τη σειρά τους έχουν επίσης αξιοποιηθεί για τη βελτίωση των προ-προπονητικών μας δεδομένων[6]—συγκεκριμένα, χρησιμοποιώντας τους ταξινομητές για το φιλτράρισμα του περιεχομένου και τις μετρήσεις αξιολόγησης για τη μέτρηση των επιπτώσεων των παρεμβάσεων δεδομένων.

Η αξιόπιστη ταξινόμηση των εξόδων μεμονωμένων μοντέλων σε διάφορες διαστάσεις είναι δύσκολη και η μέτρηση του κοινωνικού τους αντίκτυπου στην κλίμακα του OpenAI API είναι ακόμη πιο δύσκολη. Έχουμε διενεργήσει αρκετές εσωτερικές μελέτες προκειμένου να οικοδομήσουμε ένα θεσμικό δυναμικό για μια τέτοια μέτρηση, αλλά αυτές συχνά έχουν εγείρει περισσότερα ερωτήματα παρά απαντήσεις.

Μας ενδιαφέρει ιδιαίτερα να κατανοήσουμε καλύτερα τον οικονομικό αντίκτυπο των μοντέλων μας και την κατανομή αυτών των επιπτώσεων. Έχουμε βάσιμους λόγους να πιστεύουμε ότι οι επιπτώσεις στην αγορά εργασίας από την ανάπτυξη των τρεχόντων μοντέλων μπορεί να είναι ήδη σημαντικές σε απόλυτες τιμές, και ότι θα αυξάνονται καθώς αυξάνονται οι δυνατότητες και η εμβέλεια των μοντέλων μας. Έχουμε μάθει για μια ποικιλία τοπικών επιπτώσεων μέχρι σήμερα, συμπεριλαμβανομένων των τεράστιων βελτιώσεων παραγωγικότητας σε υπάρχουσες εργασίες που εκτελούνται από άτομα όπως η συγγραφή κειμένων και η σύνοψη (ενίοτε συμβάλλουν στην εκτόπιση και τη δημιουργία θέσεων εργασίας), καθώς και περιπτώσεις όπου το API ξεκλείδωσε νέες εφαρμογές που προηγουμένως δεν ήταν εφικτές , όπως σύνθεση ποιοτικής ανατροφοδότησης μεγάλης κλίμακας. Αλλά δεν έχουμε καλή κατανόηση των καθαρών επιπτώσεων.

Πιστεύουμε ότι είναι σημαντικό για όσους αναπτύσσουν και αναπτύσσουν ισχυρές τεχνολογίες AI να αντιμετωπίζουν τόσο τις θετικές όσο και τις αρνητικές επιπτώσεις της εργασίας τους κατά μέτωπο. Αναφέρουμε ορισμένα βήματα προς αυτή την κατεύθυνση στην τελική ενότητα αυτής της ανάρτησης.

Η σχέση μεταξύ της ασφάλειας και της χρησιμότητας των συστημάτων AI

Σε μας Ναύλωση, που δημοσιεύτηκε το 2018, λέμε ότι «ανησυχούμε μήπως η ανάπτυξη του AGI στα τελευταία στάδια θα γίνει ένας ανταγωνιστικός αγώνας χωρίς χρόνο για επαρκείς προφυλάξεις ασφαλείας». Εμείς τότε δημοσιεύθηκε μια λεπτομερή ανάλυση της ανταγωνιστικής ανάπτυξης τεχνητής νοημοσύνης και έχουμε παρακολουθήσει στενά μεταγενέστερος έρευνα. Ταυτόχρονα, η ανάπτυξη συστημάτων AI μέσω του OpenAI API έχει επίσης εμβαθύνει την κατανόησή μας για τις συνέργειες μεταξύ ασφάλειας και χρησιμότητας.

Για παράδειγμα, οι προγραμματιστές προτιμούν σε μεγάλο βαθμό τα μοντέλα μας InstructGPT—τα οποία έχουν ρυθμιστεί με ακρίβεια για να ακολουθούν τις προθέσεις των χρηστών[7]— πάνω από τα βασικά μοντέλα GPT-3. Σημειωτέον, ωστόσο, ότι τα μοντέλα InstructGPT δεν είχαν αρχικά κίνητρο από εμπορικούς λόγους, αλλά μάλλον είχαν ως στόχο την επίτευξη προόδου σε μακροπρόθεσμη βάση προβλήματα ευθυγράμμισης. Πρακτικά, αυτό σημαίνει ότι οι πελάτες, ίσως δεν αποτελεί έκπληξη, προτιμούν πολύ μοντέλα που παραμένουν στην εργασία και κατανοούν την πρόθεση του χρήστη, και μοντέλα που είναι λιγότερο πιθανό να παράγουν αποτελέσματα που είναι επιβλαβή ή λανθασμένα.[8] Άλλες θεμελιώδεις έρευνες, όπως η εργασία μας για αξιοποίηση πληροφοριών που ανακτήθηκε από το Διαδίκτυο για να απαντήσει σε ερωτήσεις με μεγαλύτερη ειλικρίνεια, έχει επίσης τη δυνατότητα να βελτιώσει την εμπορική χρησιμότητα των συστημάτων AI.[9]

Αυτές οι συνέργειες δεν θα συμβαίνουν πάντα. Για παράδειγμα, τα πιο ισχυρά συστήματα συχνά χρειάζονται περισσότερο χρόνο για να αξιολογηθούν και να ευθυγραμμιστούν αποτελεσματικά, αποκλείοντας άμεσες ευκαιρίες για κέρδος. Και η χρησιμότητα ενός χρήστη και της κοινωνίας μπορεί να μην ευθυγραμμίζονται λόγω αρνητικών εξωτερικών παραγόντων—εξετάστε το πλήρως αυτοματοποιημένο copywriting, το οποίο μπορεί να είναι ωφέλιμο για τους δημιουργούς περιεχομένου αλλά κακό για το οικοσύστημα πληροφοριών στο σύνολό του.

Είναι ενθαρρυντικό να βλέπουμε περιπτώσεις ισχυρής συνέργειας μεταξύ ασφάλειας και χρησιμότητας, αλλά δεσμευόμαστε να επενδύουμε στην έρευνα για την ασφάλεια και την πολιτική, ακόμη και όταν αυτά αντισταθμίζονται με εμπορική χρησιμότητα.


Δεσμευόμαστε να επενδύουμε στην έρευνα για την ασφάλεια και την πολιτική, ακόμη και όταν αυτά συμβιβάζονται με εμπορική χρησιμότητα.

Τρόποι για να εμπλακείτε

Κάθε ένα από τα παραπάνω μαθήματα εγείρει νέα δικά του ερωτήματα. Τι είδους περιστατικά ασφάλειας ενδέχεται να μην μπορούμε να εντοπίσουμε και να προβλέψουμε; Πώς μπορούμε να μετρήσουμε καλύτερα τους κινδύνους και τις επιπτώσεις; Πώς μπορούμε να συνεχίσουμε να βελτιώνουμε τόσο την ασφάλεια όσο και τη χρησιμότητα των μοντέλων μας και να πλοηγούμε τις ανταλλαγές μεταξύ αυτών των δύο όταν προκύψουν;

Συζητάμε ενεργά πολλά από αυτά τα θέματα με άλλες εταιρείες που αναπτύσσουν μοντέλα γλώσσας. Αλλά γνωρίζουμε επίσης ότι κανένας οργανισμός ή σύνολο οργανισμών δεν έχει όλες τις απαντήσεις και θα θέλαμε να επισημάνουμε αρκετούς τρόπους με τους οποίους οι αναγνώστες μπορούν να εμπλακούν περισσότερο στην κατανόηση και τη διαμόρφωση της ανάπτυξης συστημάτων τεχνητής νοημοσύνης τελευταίας τεχνολογίας.

Πρώτον, η απόκτηση εμπειρίας από πρώτο χέρι στην αλληλεπίδραση με συστήματα τεχνητής νοημοσύνης τελευταίας τεχνολογίας είναι πολύτιμη για την κατανόηση των δυνατοτήτων και των συνεπειών τους. Πρόσφατα τερματίσαμε τη λίστα αναμονής API αφού δημιουργήσαμε περισσότερη εμπιστοσύνη στην ικανότητά μας να εντοπίζουμε αποτελεσματικά και να ανταποκρινόμαστε σε κακή χρήση. Άτομα σε υποστηριζόμενες χώρες και εδάφη μπορεί να αποκτήσει γρήγορα πρόσβαση στο OpenAI API με την εγγραφή σας εδώ.

Δεύτερον, οι ερευνητές που εργάζονται σε θέματα ιδιαίτερου ενδιαφέροντος για εμάς, όπως η μεροληψία και η κακή χρήση, και οι οποίοι θα επωφεληθούν από οικονομική υποστήριξη, μπορούν να υποβάλουν αίτηση για επιδοτούμενες πιστώσεις API χρησιμοποιώντας αυτή η μορφή. Η εξωτερική έρευνα είναι ζωτικής σημασίας για την ενημέρωση τόσο της κατανόησης αυτών των πολύπλευρων συστημάτων όσο και για την ευρύτερη κατανόηση του κοινού.

Τέλος, σήμερα δημοσιεύουμε ένα ερευνητικό πρόγραμμα Διερεύνηση των επιπτώσεων στην αγορά εργασίας που σχετίζονται με την οικογένεια μοντέλων Codex και έκκληση για εξωτερικούς συνεργάτες για τη διεξαγωγή αυτής της έρευνας. Είμαστε ενθουσιασμένοι που συνεργαζόμαστε με ανεξάρτητους ερευνητές για να μελετήσουμε τα αποτελέσματα των τεχνολογιών μας, προκειμένου να ενημερώσουμε κατάλληλες παρεμβάσεις πολιτικής και να επεκτείνουμε τελικά τη σκέψη μας από τη δημιουργία κώδικα σε άλλες μεθόδους.

Εάν ενδιαφέρεστε να εργαστείτε για την υπεύθυνη ανάπτυξη τεχνολογιών τεχνητής νοημοσύνης αιχμής, κάντε αίτηση εδώ. να εργαστείτε στο OpenAI!


Ευχαριστίες

Χάρη στους Lilian Weng, Rosie Campbell, Anna Makanju, Bob McGrew, Hannah Wong, Ryan Lowe, Steve Dowling, Mira Murati, Sam Altman, Greg Brockman, Ilya Sutskever, Percy Liang, Peter Welinder, Ethan Perez, Ellie Evans, Helen Ngo, Helen Toner, Justin Jay Wang, Jack Clark, Rishi Bommasani, Girish Sastry, Sarah Shoker, Matt Knight, Bianca Martin, Bob Rotsted, Lama Ahmad, Toki Sherbakov και άλλοι για την παροχή σχολίων σχετικά με αυτήν την ανάρτηση και τη σχετική δουλειά.


Υποσημειώσεις

  1. Αυτή η ανάρτηση βασίζεται στην προσέγγισή μας για την ανάπτυξη μοντέλων γλώσσας μέσω ενός API, και ως εκ τούτου τα μαθήματα και οι μετριασμούς που περιγράφονται είναι πιο σχετικά με εκείνους που επιδιώκουν επίσης την ανάπτυξη βάσει API. Ωστόσο, αναμένουμε επίσης ότι μέρος της συζήτησης θα είναι σχετικό με όσους κατασκευάζουν εφαρμογές πρώτου κατασκευαστή χρησιμοποιώντας μοντέλα γλώσσας και όσους σκέφτονται την κυκλοφορία μοντέλων γλώσσας ανοιχτού κώδικα. ↩︎

  2. Αυτή η ανάρτηση προορίζεται να εξηγήσει και να μοιραστεί τα διδάγματα από την προσέγγισή μας, αντί να προτείνει ότι όλοι οι φορείς θα πρέπει απαραίτητα να υιοθετήσουν την ίδια προσέγγιση ή ότι η ίδια προσέγγιση ισχύει για όλα τα πιθανά συστήματα τεχνητής νοημοσύνης. Υπάρχουν οφέλη και κόστη που σχετίζονται με διαφορετικές προσεγγίσεις ανάπτυξης, διαφορετικά μοντέλα θα ωφεληθούν περισσότερο ή λιγότερο από τη μελέτη πριν από την ανάπτυξη και σε ορισμένες περιπτώσεις μπορεί να είναι πολύτιμο να ακολουθούνται ξεχωριστές διαδρομές ανάπτυξης από διαφορετικούς φορείς. ↩︎

  3. Περισσότερες λεπτομέρειες για αυτό το εργαστήριο θα συμπεριληφθούν στην επόμενη δημοσίευση με βάση αυτό. ↩︎

  4. Τα μέτρα μετριασμού που τονίζουμε ως απάντηση στην κακή χρήση έχουν επίσης εξελιχθεί. Για παράδειγμα, αρχικά επικεντρωθήκαμε στη δημιουργία κειμένου μεγάλης μορφής ως φορέα απειλής, λαμβάνοντας υπόψη προηγούμενες περιπτώσεις λειτουργιών επιρροής που αφορούσαν άτομα που έγραφαν με μη αυτόματο τρόπο παραπλανητικό περιεχόμενο μεγάλης μορφής. Δεδομένης αυτής της έμφασης, ορίσαμε τα μέγιστα μήκη εξόδου για το κείμενο που δημιουργείται. Ωστόσο, με βάση μια πιλοτική μελέτη δημιουργίας μακράς φόρμας, είδαμε ότι οι περιορισμοί παραγωγής είχαν μικρή επίδραση στις παραβιάσεις των πολιτικών. Αντίθετα, πιστεύουμε ότι το περιεχόμενο σύντομης μορφής που ενισχύει ή αυξάνει την αφοσίωση σε παραπλανητικό περιεχόμενο μπορεί να είναι ο μεγαλύτερος κίνδυνος. ↩︎

  5. Παραδείγματα περιορισμών στα υπάρχοντα σύνολα δεδομένων, από την οπτική γωνία των επαγγελματιών που αναζητούν μια ολιστική αξιολόγηση της ασφάλειας των αποτελεσμάτων πραγματικών γλωσσικών μοντέλων, περιλαμβάνουν τα ακόλουθα: μια υπερβολικά στενή εστίαση (π.χ., απλώς μέτρηση της προκατάληψης του επαγγελματικού φύλου), μια υπερβολικά ευρεία εστίαση (π.χ. μετρώντας όλα κάτω από την ομπρέλα της «τοξικότητας»), μια τάση αφαίρεσης των ιδιαιτεροτήτων χρήσης και του πλαισίου, μια αποτυχία μέτρησης του γενετική διάσταση χρήσης γλωσσικού μοντέλου (π.χ. χρήση στυλ πολλαπλών επιλογών), προτροπές που διαφέρουν στιλιστικά από εκείνες που χρησιμοποιούνται συνήθως σε περιπτώσεις χρήσης πραγματικών γλωσσικών μοντέλων, χωρίς αποτύπωση διαστάσεων ασφάλειας που είναι σημαντικές στην πράξη (π.χ. μια έξοδος που ακολουθεί ή αγνοεί μια ασφάλεια- παρακινούμενος περιορισμός στην οδηγία), ή μη καταγραφή τύπων αποτελεσμάτων που βρήκαμε ότι συσχετίζονται με κακή χρήση (π.χ. ερωτικό περιεχόμενο). ↩︎

  6. Αν και οι προσπάθειές μας είναι ειδικά προσανατολισμένες στην αντιμετώπιση περιορισμών στα υπάρχοντα σημεία αναφοράς και στα δικά μας μοντέλα, αναγνωρίζουμε επίσης ότι υπάρχουν περιορισμοί στις μεθόδους που χρησιμοποιούμε, όπως το φιλτράρισμα δεδομένων βάσει ταξινομητή. Για παράδειγμα, ο λειτουργικός καθορισμός των περιοχών περιεχομένου που στοχεύουμε να ανιχνεύσουμε μέσω του φιλτραρίσματος είναι δύσκολος και το ίδιο το φιλτράρισμα μπορεί να εισάγει επιβλαβείς προκαταλήψεις. Επιπλέον, η επισήμανση των τοξικών δεδομένων είναι ένα κρίσιμο συστατικό αυτής της εργασίας και η διασφάλιση της ψυχικής υγείας αυτών των ετικετών αποτελεί πρόκληση για ολόκληρο τον κλάδο. ↩︎

  7. Ο σχετικός «χρήστης» του API μας μπορεί να είναι ένας προγραμματιστής που δημιουργεί μια εφαρμογή ή ένας τελικός χρήστης που αλληλεπιδρά με μια τέτοια εφαρμογή, ανάλογα με το περιβάλλον. Υπάρχουν βαθιές ερωτήσεις σχετικά με τις αξίες που αντικατοπτρίζουν τα ευθυγραμμισμένα μοντέλα μας και ελπίζουμε να δημιουργήσουμε μια πιο λεπτή κατανόηση του τρόπου εξισορρόπησης των τιμών ενός ευρέος φάσματος πιθανών χρηστών και ανταγωνιστικών στόχων κατά την ευθυγράμμιση γλωσσικών μοντέλων ώστε να είναι πιο χρήσιμα, πιο αληθινά και λιγότερο επιβλαβή. ↩︎

  8. Τα πιο ευθυγραμμισμένα μοντέλα έχουν επίσης πιο πρακτικά πλεονεκτήματα, όπως η μείωση της ανάγκης για «άμεσα μηχανική» (παροχή παραδειγμάτων της επιθυμητής συμπεριφοράς για την οδήγηση του μοντέλου στη σωστή κατεύθυνση), εξοικονόμηση χώρου στο παράθυρο περιβάλλοντος του μοντέλου που μπορεί να χρησιμοποιηθεί για άλλους σκοπούς. ↩︎

  9. Πέρα από την έρευνα, ανακαλύψαμε ότι άλλες παρεμβάσεις με κίνητρο την ασφάλεια έχουν μερικές φορές απροσδόκητα οφέλη για τους πελάτες. Για παράδειγμα, τα όρια τιμών που αποσκοπούν στον περιορισμό του ανεπιθύμητου ή παραπλανητικού περιεχομένου βοηθούν επίσης τους πελάτες να ελέγχουν τα έξοδα. ↩︎

Σφραγίδα ώρας:

Περισσότερα από OpenAI