Σύνοψη βιβλίων με ανθρώπινη ανατροφοδότηση PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Σύνοψη βιβλίων με ανθρώπινη ανατροφοδότηση

Διαβάστε χαρτίΠεριηγηθείτε σε δείγματα

Σύνοψη βιβλίων με ανθρώπινη ανατροφοδότηση

To με ασφάλεια αναπτύξουμε ισχυρή, γενικής χρήσης τεχνητή νοημοσύνη στο μέλλον, πρέπει να διασφαλίσουμε ότι τα μοντέλα μηχανικής μάθησης ενεργούν σύμφωνα με τις ανθρώπινες προθέσεις. Αυτή η πρόκληση έχει γίνει γνωστή ως η πρόβλημα ευθυγράμμισης.

Μια επεκτάσιμη λύση στο πρόβλημα της ευθυγράμμισης πρέπει να λειτουργήσει σε εργασίες όπου τα αποτελέσματα του μοντέλου είναι δύσκολα ή χρονοβόρα για την αξιολόγηση των ανθρώπων. Για να δοκιμάσουμε κλιμακούμενες τεχνικές ευθυγράμμισης, εκπαιδεύσαμε ένα μοντέλο για τη σύνοψη ολόκληρων βιβλίων, όπως φαίνεται στα ακόλουθα δείγματα.[1] Το μοντέλο μας λειτουργεί συνοψίζοντας πρώτα μικρές ενότητες ενός βιβλίου, στη συνέχεια συνοψίζοντας αυτές τις περιλήψεις σε μια περίληψη υψηλότερου επιπέδου και ούτω καθεξής.

Εξερευνήστε περισσότερα δείγματα

Το καλύτερο μοντέλο μας είναι βελτιστοποιημένο από το GPT-3 και δημιουργεί λογικές περιλήψεις ολόκληρων βιβλίων, μερικές φορές μάλιστα ταιριάζουν με τη μέση ποιότητα των περιλήψεων που έχουν γραφτεί από άνθρωπο: επιτυγχάνει βαθμολογία 6/7 (παρόμοια με τη μέση ανθρώπινη σύνοψη) από ανθρώπους που έχουν διαβάσει το βιβλίο το 5% του χρόνου και βαθμολογία 5/7 το 15% του χρόνου. Το μοντέλο μας επιτυγχάνει επίσης αποτελέσματα τελευταίας τεχνολογίας στο Σύνολο δεδομένων βιβλίου για τη σύνοψη του βιβλίου. Ένα μοντέλο απάντησης ερωτήσεων μηδενικής λήψης μπορεί να χρησιμοποιήσει τις περιλήψεις του μοντέλου μας για να αποκτήσει ανταγωνιστικά αποτελέσματα σχετικά με το Δεδομένα NarrativeQA για την απάντηση ερωτήσεων σε όλο το βιβλίο.[2]

Η προσέγγισή μας: Συνδυάζοντας την Ενισχυτική Μάθηση από την Ανθρώπινη Ανατροφοδότηση και την Αναδρομική Αποσύνθεση Εργασιών

Εξετάστε το έργο της σύνοψης ενός κειμένου. Μεγάλο Τα προεκπαιδευμένα μοντέλα δεν είναι πολύ καλά στη σύνοψη. Στο παρελθόν διαπιστώσαμε ότι η εκπαίδευση ενός μοντέλου με ενίσχυση της μάθησης από την ανθρώπινη ανατροφοδότηση βοήθησε στην ευθυγράμμιση των περιλήψεων μοντέλων με τις ανθρώπινες προτιμήσεις σε σύντομες αναρτήσεις και άρθρα. Αλλά η κρίση περιλήψεων ολόκληρων βιβλίων απαιτεί μεγάλη προσπάθεια για να γίνει άμεσα, καθώς ένας άνθρωπος θα χρειαστεί να διαβάσει ολόκληρο το βιβλίο, κάτι που διαρκεί πολλές ώρες.

Για την αντιμετώπιση αυτού του προβλήματος, χρησιμοποιούμε επιπλέον αναδρομική αποσύνθεση εργασιών: διαδικαστικά χωρίζουμε μια δύσκολη εργασία σε πιο εύκολη. Σε αυτήν την περίπτωση, χωρίζουμε τη σύνοψη ενός μεγάλου κειμένου σε σύνοψη πολλών μικρότερων κομματιών. Σε σύγκριση με μια διαδικασία εκπαίδευσης από άκρο σε άκρο, η αναδρομική αποσύνθεση εργασιών έχει τα ακόλουθα πλεονεκτήματα:

  1. Η αποσύνθεση επιτρέπει στους ανθρώπους να αξιολογούν τις περιλήψεις μοντέλων πιο γρήγορα χρησιμοποιώντας περιλήψεις μικρότερων τμημάτων του βιβλίου αντί να διαβάζουν το κείμενο πηγής.
  2. Είναι ευκολότερο να παρακολουθήσετε τη διαδικασία σύνταξης περίληψης. Για παράδειγμα, μπορείτε να εντοπίσετε για να βρείτε πού συμβαίνουν στο αρχικό κείμενο ορισμένα γεγονότα από τη σύνοψη. Δείτε μόνοι σας ο περιληπτικός εξερευνητής μας!
  3. Η μέθοδός μας μπορεί να χρησιμοποιηθεί για τη σύνοψη βιβλίων απεριόριστου μήκους, χωρίς περιορισμούς από το μήκος περιβάλλοντος των μοντέλων μετασχηματιστών που χρησιμοποιούμε.

Γιατί εργαζόμαστε σε αυτό

Tτου η δουλειά είναι μέρος του δικού μας συνεχή έρευνα στην ευθυγράμμιση προηγμένων συστημάτων τεχνητής νοημοσύνης, κάτι που είναι βασικό η αποστολή μας. Καθώς εκπαιδεύουμε τα μοντέλα μας να κάνουν όλο και πιο περίπλοκες εργασίες, η πραγματοποίηση ενημερωμένων αξιολογήσεων των αποτελεσμάτων των μοντέλων θα γίνεται όλο και πιο δύσκολη για τους ανθρώπους. Αυτό καθιστά δυσκολότερο τον εντοπισμό λεπτών προβλημάτων στα αποτελέσματα του μοντέλου που θα μπορούσαν να οδηγήσουν σε αρνητικές συνέπειες όταν αυτά τα μοντέλα αναπτύσσονται. Επομένως, θέλουμε η ικανότητά μας να αξιολογούμε τα μοντέλα μας να αυξάνεται καθώς αυξάνονται οι δυνατότητές τους.

Η τρέχουσα προσέγγισή μας σε αυτό το πρόβλημα είναι να δίνουν τη δυνατότητα στους ανθρώπους να αξιολογούν τα αποτελέσματα των μοντέλων μηχανικής μάθησης χρησιμοποιώντας τη βοήθεια άλλων μοντέλων. Σε αυτήν την περίπτωση, για την αξιολόγηση των περιλήψεων βιβλίων, ενδυναμώνουμε τους ανθρώπους με μεμονωμένες περιλήψεις κεφαλαίων γραμμένες από το μοντέλο μας, γεγονός που τους εξοικονομεί χρόνο κατά την αξιολόγηση αυτών των περιλήψεων σε σχέση με την ανάγνωση του κειμένου πηγής. Η πρόοδός μας στη σύνοψη βιβλίων είναι η πρώτη μεγάλης κλίμακας εμπειρική εργασία σχετικά με τις τεχνικές στοίχισης κλιμάκωσης.

Στο εξής, ερευνούμε καλύτερους τρόπους για να βοηθήσουμε τους ανθρώπους στην αξιολόγηση της συμπεριφοράς μοντέλων, με στόχο την εύρεση τεχνικών που να ευθυγραμμίζουν την τεχνητή γενική νοημοσύνη.

Αναζητούμε πάντα πιο ταλαντούχους ανθρώπους για να ενωθούν μαζί μας. οπότε αν αυτό το έργο σας ενδιαφέρει, παρακαλώ κάντε αίτηση για να γίνετε μέλος της ομάδας μας!


Ευχαριστίες

Θα θέλαμε να αναγνωρίσουμε τους συν-συγγραφείς της εργασίας μας: Long Ouyang, Daniel Ziegler, Nisan Stiennon και Paul Christiano.

Ευχαριστούμε τους ακόλουθους για τα σχόλια σχετικά με αυτήν την κυκλοφορία: Steve Dowling, Hannah Wong, Miles Brundage, Gretchen Krueger, Ilya Sutskever και Sam Altman.


Υπηρεσίες
Τζάστιν Τζέι Γουάνγκ


Καλλιτεχνικό εξώφυλλο βιβλίου


Υποσημειώσεις

  1. Αυτά τα δείγματα επιλέχθηκαν από εργασίες στο δημόσιος τομέας, και αποτελούν μέρος των δεδομένων προεκπαίδευσης του GPT-3. Για τον έλεγχο για αυτό το αποτέλεσμα, και καθαρά για ερευνητικούς σκοπούς, μας χαρτί αξιολογεί περιλήψεις βιβλίων που το μοντέλο δεν έχει ξαναδεί. ↩︎

  2. Έχουμε τροποποιήσει τον αρχικό μας ισχυρισμό σχετικά με τα αποτελέσματα στο NarrativeQA αφού ενημερωθήκαμε για προηγούμενη εργασία με καλύτερα αποτελέσματα από τα δικά μας. ↩︎

Σφραγίδα ώρας:

Περισσότερα από OpenAI