DALL·E 2 Μετριασμούς Προεκπαίδευσης

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

DALL·E 2 Μετριασμούς Προεκπαίδευσης

Για να μοιραστείτε τη μαγεία του DALL E 2 με ένα ευρύ κοινό, χρειαζόμασταν να μειώσουμε τους κινδύνους που συνδέονται με τα ισχυρά μοντέλα παραγωγής εικόνας. Για το σκοπό αυτό, βάζουμε διάφορα προστατευτικά κιγκλιδώματα στη θέση του για να αποτρέψει τις δημιουργούμενες εικόνες από το να παραβιάζουν το δικό μας πολιτική περιεχομένου. Αυτή η ανάρτηση εστιάζει σε μετριασμούς πριν από την εκπαίδευση, ένα υποσύνολο αυτών των προστατευτικών κιγκλιδωμάτων που τροποποιούν άμεσα τα δεδομένα από τα οποία μαθαίνει το DALL·E 2. Συγκεκριμένα, το DALL·E 2 εκπαιδεύεται σε εκατοντάδες εκατομμύρια εικόνων με λεζάντες από το Διαδίκτυο, και αφαιρούμε και επανασταθμίζουμε ορισμένες από αυτές τις εικόνες για να αλλάξουμε όσα μαθαίνει το μοντέλο.

Αυτή η ανάρτηση είναι οργανωμένη σε τρεις ενότητες, καθεμία από τις οποίες περιγράφει έναν διαφορετικό μετριασμό πριν από την εκπαίδευση:

Στην πρώτη ενότητα, περιγράφουμε πώς φιλτράραμε βίαιες και σεξουαλικές εικόνες από το σύνολο δεδομένων εκπαίδευσης του DALL·E 2. Χωρίς αυτόν τον μετριασμό, το μοντέλο θα μάθαινε να παράγει γραφικές ή σαφείς εικόνες όταν τους ζητηθεί, και μπορεί ακόμη και να επιστρέψει τέτοιες εικόνες ακούσια ως απόκριση σε φαινομενικά αβλαβείς προτροπές.
Στη δεύτερη ενότητα, διαπιστώνουμε ότι το φιλτράρισμα των δεδομένων εκπαίδευσης μπορεί να ενισχύσει τις προκαταλήψεις και περιγράφουμε την τεχνική μας για τον μετριασμό αυτού του αποτελέσματος. Για παράδειγμα, χωρίς αυτόν τον μετριασμό, παρατηρήσαμε ότι τα μοντέλα που εκπαιδεύτηκαν σε φιλτραρισμένα δεδομένα παρήγαγαν μερικές φορές περισσότερες εικόνες που απεικονίζουν άνδρες και λιγότερες εικόνες που απεικονίζουν γυναίκες σε σύγκριση με μοντέλα που εκπαιδεύτηκαν στο αρχικό σύνολο δεδομένων.
Στην τελευταία ενότητα, στραφούμε στο θέμα της απομνημόνευσης, διαπιστώνοντας ότι μοντέλα όπως το DALL·E 2 μπορούν μερικές φορές να αναπαράγουν εικόνες στις οποίες έχουν εκπαιδευτεί αντί να δημιουργούν νέες εικόνες. Στην πράξη διαπιστώσαμε ότι αυτό παλινδρόμηση εικόνας προκαλείται από εικόνες που αναπαράγονται πολλές φορές στο σύνολο δεδομένων και μετριάζουν το πρόβλημα αφαιρώντας εικόνες που είναι οπτικά παρόμοιες με άλλες εικόνες στο σύνολο δεδομένων.

Μείωση γραφικών και ρητών δεδομένων εκπαίδευσης

Δεδομένου ότι τα δεδομένα εκπαίδευσης διαμορφώνουν τις δυνατότητες οποιουδήποτε μοντέλου που έχει μάθει, το φιλτράρισμα δεδομένων είναι ένα ισχυρό εργαλείο για τον περιορισμό των ανεπιθύμητων δυνατοτήτων του μοντέλου. Εφαρμόσαμε αυτήν την προσέγγιση σε δύο κατηγορίες—εικόνες που απεικονίζουν γραφική βία και σεξουαλικό περιεχόμενο—χρησιμοποιώντας ταξινομητές για να φιλτράρουμε εικόνες σε αυτές τις κατηγορίες εκτός του συνόλου δεδομένων πριν από την εκπαίδευση του DALL·E 2. Εκπαιδεύσαμε αυτούς τους ταξινομητές εικόνων εσωτερικά και συνεχίζουμε να μελετάμε επιπτώσεις του φιλτραρίσματος δεδομένων στο εκπαιδευμένο μοντέλο μας.

Για να εκπαιδεύσουμε τους ταξινομητές εικόνων μας, χρησιμοποιήσαμε ξανά μια προσέγγιση που είχαμε χρησιμοποιήσει στο παρελθόν για να φιλτράρουμε τα δεδομένα εκπαίδευσης για ΓΛΙΣΤΡΩ. Τα βασικά βήματα αυτής της προσέγγισης είναι τα εξής: πρώτον, δημιουργούμε μια προδιαγραφή για τις κατηγορίες εικόνων που θα θέλαμε να επισημάνουμε. Δεύτερον, συγκεντρώνουμε μερικές εκατοντάδες θετικά και αρνητικά παραδείγματα για κάθε κατηγορία. Τρίτον, χρησιμοποιούμε μια ενεργή διαδικασία εκμάθησης για να συλλέξουμε περισσότερα δεδομένα και να βελτιώσουμε την αντιστάθμιση ακρίβειας/ανάκλησης. και τέλος, εκτελούμε τον ταξινομητή που προκύπτει σε ολόκληρο το σύνολο δεδομένων με ένα συντηρητικό όριο ταξινόμησης για να ευνοήσουμε την ανάκληση έναντι της ακρίβειας. Για να ορίσουμε αυτά τα όρια, δώσαμε προτεραιότητα στο φιλτράρισμα όλων των ορίων κακός δεδομένα σχετικά με την αποχώρηση σε όλα τα καλός δεδομένα. Αυτό συμβαίνει επειδή μπορούμε πάντα να βελτιστοποιήσουμε το μοντέλο μας με περισσότερα δεδομένα αργότερα για να του διδάξουμε νέα πράγματα, αλλά είναι πολύ πιο δύσκολο να κάνουμε το μοντέλο να ξεχάσει κάτι που έχει ήδη μάθει.

DALL·E 2 Μετριασμούς Προεκπαίδευσης — Ξεκινάμε με ένα μικρό σύνολο δεδομένων εικόνων με ετικέτα (πάνω μέρος της εικόνας). Στη συνέχεια εκπαιδεύουμε έναν ταξινομητή σε αυτά τα δεδομένα. Στη συνέχεια, η ενεργή διαδικασία εκμάθησης χρησιμοποιεί τον τρέχοντα ταξινομητή για να επιλέξει μια χούφτα εικόνων χωρίς ετικέτα που είναι πιθανό να βελτιώσουν την απόδοση του ταξινομητή. Τέλος, οι άνθρωποι παράγουν ετικέτες για αυτές τις εικόνες, προσθέτοντάς τις στο επισημασμένο σύνολο δεδομένων. Η διαδικασία μπορεί να επαναληφθεί για να βελτιωθεί επαναληπτικά η απόδοση του ταξινομητή.

Κατά τη φάση της ενεργητικής μάθησης, βελτιώσαμε επαναληπτικά τους ταξινομητές μας συλλέγοντας ανθρώπινες ετικέτες για δυνητικά δύσκολες ή εσφαλμένες εικόνες. Συγκεκριμένα, χρησιμοποιήσαμε δύο τεχνικές ενεργής εκμάθησης για να επιλέξουμε εικόνες από το σύνολο δεδομένων μας (το οποίο περιέχει εκατοντάδες εκατομμύρια εικόνες χωρίς ετικέτα) για να τις παρουσιάσουμε στους ανθρώπους για επισήμανση. Πρώτον, για να μειώσουμε το ψευδώς θετικό ποσοστό του ταξινομητή μας (δηλαδή, τη συχνότητα με την οποία ταξινομεί εσφαλμένα μια καλοήθη εικόνα ως βίαιη ή σεξουαλική), αποδώσαμε ανθρώπινες ετικέτες σε εικόνες που το τρέχον μοντέλο ταξινόμησε ως θετικές. Για να λειτουργήσει καλά αυτό το βήμα, ρυθμίσαμε το όριο ταξινόμησης για ανάκληση σχεδόν 100%, αλλά υψηλό ποσοστό ψευδώς θετικών. Με αυτόν τον τρόπο, οι ετικετοποιητές μας έγραφαν ως επί το πλείστον πραγματικά αρνητικές περιπτώσεις. Αν και αυτή η τεχνική συμβάλλει στη μείωση των ψευδών θετικών στοιχείων και μειώνει την ανάγκη των ετικετών να εξετάζουν δυνητικά επιβλαβείς εικόνες, δεν βοηθά στην εύρεση θετικών περιπτώσεων που λείπουν αυτήν τη στιγμή από το μοντέλο.

Για να μειώσουμε το ψευδώς αρνητικό ποσοστό του ταξινομητή μας, χρησιμοποιήσαμε μια δεύτερη τεχνική ενεργής εκμάθησης: την αναζήτηση πλησιέστερου γείτονα. Συγκεκριμένα, πραγματοποιήσαμε πολλαπλή διασταυρούμενη επικύρωση για να βρούμε θετικά δείγματα στο τρέχον σύνολο δεδομένων μας με ετικέτα, τα οποία το μοντέλο έτεινε να τα ταξινομήσει εσφαλμένα ως αρνητικά (για να γίνει αυτό, εκπαιδεύσαμε κυριολεκτικά εκατοντάδες εκδόσεις του ταξινομητή με διαφορετικούς διαχωρισμούς επικύρωσης αμαξοστοιχίας). Στη συνέχεια, σαρώσαμε τη μεγάλη συλλογή εικόνων χωρίς ετικέτα για τους πλησιέστερους γείτονες αυτών των δειγμάτων σε έναν αντιληπτικό χώρο χαρακτηριστικών και αντιστοιχίσαμε ανθρώπινες ετικέτες στις εικόνες που ανακαλύφθηκαν. Χάρη στην υπολογιστική μας υποδομή, ήταν ασήμαντο να κλιμακώσουμε τόσο την εκπαίδευση ταξινομητή όσο και την αναζήτηση πλησιέστερου γείτονα σε πολλές GPU, επιτρέποντας στο ενεργό βήμα εκμάθησης να πραγματοποιηθεί σε μερικά λεπτά και όχι σε ώρες ή ημέρες.

Για να επαληθεύσουμε την αποτελεσματικότητα των φίλτρων δεδομένων μας, εκπαιδεύσαμε δύο μοντέλα GLIDE με τις ίδιες υπερπαραμέτρους: ένα σε μη φιλτραρισμένα δεδομένα και ένα στο σύνολο δεδομένων μετά το φιλτράρισμα. Αναφερόμαστε στο προηγούμενο μοντέλο ως το αφιλτράριστο μοντέλο, και το τελευταίο ως το φιλτραρισμένο μοντέλο. Όπως ήταν αναμενόμενο, διαπιστώσαμε ότι το αφιλτράριστο μοντέλο παρήγαγε γενικά λιγότερο σαφές ή γραφικό περιεχόμενο ως απάντηση σε αιτήματα για τέτοιου είδους περιεχόμενο. Ωστόσο, βρήκαμε επίσης μια απροσδόκητη παρενέργεια του φιλτραρίσματος δεδομένων: δημιούργησε ή ενίσχυσε τις προκαταλήψεις του μοντέλου προς ορισμένα δημογραφικά στοιχεία.

Διόρθωση προκατάληψης που εισάγεται από τα φίλτρα δεδομένων

Τα παραγωγικά μοντέλα προσπαθούν να ταιριάξουν με την κατανομή των δεδομένων εκπαίδευσης, συμπεριλαμβανομένων τυχόν προκαταλήψεων σε αυτά. Ως αποτέλεσμα, το φιλτράρισμα των δεδομένων εκπαίδευσης έχει τη δυνατότητα να δημιουργήσει ή να ενισχύσει προκαταλήψεις σε μοντέλα κατάντη. Γενικά, η διόρθωση προκαταλήψεων στο αρχικό σύνολο δεδομένων είναι μια δύσκολη κοινωνικοτεχνική εργασία που συνεχίζουμε να μελετάμε και είναι πέρα από το πεδίο εφαρμογής αυτής της ανάρτησης. Το πρόβλημα που αντιμετωπίζουμε εδώ είναι η ενίσχυση των προκαταλήψεων που προκαλούνται ειδικά από το ίδιο το φιλτράρισμα δεδομένων. Με την προσέγγισή μας, στοχεύουμε να αποτρέψουμε την ύπαρξη του φιλτραρισμένου μοντέλου περισσότερο προκατειλημμένο από το μη φιλτραρισμένο μοντέλο, μειώνοντας ουσιαστικά τη μετατόπιση της διανομής που προκαλείται από το φιλτράρισμα δεδομένων.

Ως συγκεκριμένο παράδειγμα ενίσχυσης μεροληψίας λόγω φιλτραρίσματος, λάβετε υπόψη την προτροπή "a CEO". Όταν το αφιλτράριστο μοντέλο μας δημιουργούσε εικόνες για αυτήν την προτροπή, έτεινε να παράγει περισσότερες εικόνες ανδρών παρά γυναικών και αναμένουμε ότι το μεγαλύτερο μέρος αυτής της προκατάληψης αντανακλά τα τρέχοντα δεδομένα εκπαίδευσης μας. Ωστόσο, όταν εκτελέσαμε την ίδια προτροπή μέσω του φιλτραρισμένου μοντέλου μας, η προκατάληψη φάνηκε να ενισχύεται. οι γενιές ήταν σχεδόν αποκλειστικά εικόνες ανδρών.

Υποθέτουμε ότι αυτή η συγκεκριμένη περίπτωση ενίσχυσης της μεροληψίας προέρχεται από δύο σημεία: πρώτον, ακόμη και αν γυναίκες και άνδρες έχουν περίπου ίση εκπροσώπηση στο αρχικό σύνολο δεδομένων, το σύνολο δεδομένων μπορεί να είναι προκατειλημμένο προς την παρουσίαση των γυναικών σε πιο σεξουαλικά περιβάλλοντα. και δεύτερον, οι ίδιοι οι ταξινομητές μας ενδέχεται να είναι προκατειλημμένοι είτε λόγω υλοποίησης είτε λόγω ορισμού κλάσης, παρά τις προσπάθειές μας να διασφαλίσουμε ότι αυτό δεν συνέβαινε κατά τις φάσεις συλλογής δεδομένων και επικύρωσης. Λόγω και των δύο αυτών επιδράσεων, το φίλτρο μας μπορεί να αφαιρέσει περισσότερες εικόνες γυναικών παρά ανδρών, κάτι που αλλάζει την αναλογία φύλων που παρατηρεί το μοντέλο στην προπόνηση.

Για να διερευνήσουμε διεξοδικά την προκατάληψη που προκαλείται από φίλτρα, θέλαμε έναν τρόπο να μετρήσουμε πόσο τα φίλτρα δεδομένων μας επηρέαζαν την προκατάληψη προς διάφορες έννοιες. Συγκεκριμένα, τα φίλτρα βίας και σεξουαλικού περιεχομένου βασίζονται αποκλειστικά σε εικόνες, αλλά η πολυτροπική φύση του συνόλου δεδομένων μας επιτρέπει να μετράμε άμεσα τις επιπτώσεις αυτών των φίλτρων στο κείμενο. Δεδομένου ότι κάθε εικόνα συνοδεύεται από λεζάντα κειμένου, μπορέσαμε να εξετάσουμε τη σχετική συχνότητα των λέξεων-κλειδιών που επιλέγονται με το χέρι στο φιλτραρισμένο και μη φιλτραρισμένο σύνολο δεδομένων για να υπολογίσουμε πόσο επηρεάζουν τα φίλτρα οποιαδήποτε δεδομένη έννοια.

Για να το κάνουμε πράξη, χρησιμοποιήσαμε το Apache Spark για να υπολογίσουμε τις συχνότητες μιας χούφτας λέξεων-κλειδιών (π.χ. "γονέας", "γυναίκα", "παιδί") σε όλους τους υπότιτλους τόσο στα φιλτραρισμένα όσο και στα μη φιλτραρισμένα σύνολα δεδομένων μας. Παρόλο που το σύνολο δεδομένων μας περιέχει εκατοντάδες εκατομμύρια ζεύγη κειμένου-εικόνας, ο υπολογισμός αυτών των συχνοτήτων λέξεων-κλειδιών χρειάστηκε μόνο λίγα λεπτά χρησιμοποιώντας το σύμπλεγμα υπολογιστών μας.

Αφού υπολογίσαμε τις συχνότητες των λέξεων-κλειδιών, μπορέσαμε να επιβεβαιώσουμε ότι τα φίλτρα δεδομένων μας είχαν πράγματι παραμορφώσει τις συχνότητες ορισμένων λέξεων-κλειδιών περισσότερο από άλλες. Για παράδειγμα, τα φίλτρα μείωσαν τη συχνότητα της λέξης «γυναίκα» κατά 14%, ενώ η συχνότητα της λέξης «άντρας» μειώθηκε μόνο κατά 6%. Αυτό επιβεβαίωσε, σε μεγάλη κλίμακα, αυτό που είχαμε ήδη παρατηρήσει ανέκδοτα με δειγματοληψία από μοντέλα GLIDE που εκπαιδεύτηκαν και στα δύο σύνολα δεδομένων.

Τώρα που είχαμε έναν διακομιστή μεσολάβησης για τη μέτρηση της προκατάληψης που προκαλείται από το φίλτρο, χρειαζόμασταν έναν τρόπο να το μετριάσουμε. Για την αντιμετώπιση αυτού του προβλήματος, στοχεύσαμε να σταθμίσουμε εκ νέου το φιλτραρισμένο σύνολο δεδομένων, έτσι ώστε η κατανομή του να ταιριάζει καλύτερα με τη διανομή των αφιλτραρισμένων εικόνων. Ως παράδειγμα παιχνιδιού για να επεξηγήσουμε αυτήν την ιδέα, ας υποθέσουμε ότι το σύνολο δεδομένων μας αποτελείται από 50% φωτογραφίες γατών και 50% φωτογραφίες σκύλων, αλλά τα φίλτρα δεδομένων μας αφαιρούν το 75% των σκύλων αλλά μόνο το 50% των γατών. Το τελικό σύνολο δεδομένων θα είναι ⅔ γάτες και ⅓ σκύλοι, και ένα μοντέλο παραγωγής βάσει πιθανοτήτων, εκπαιδευμένο σε αυτό το σύνολο δεδομένων, πιθανότατα θα δημιουργήσει περισσότερες εικόνες γατών παρά σκύλων. Μπορούμε να διορθώσουμε αυτήν την ανισορροπία πολλαπλασιάζοντας την απώλεια εκπαίδευσης κάθε εικόνας ενός σκύλου επί 2, μιμούμενοι το αποτέλεσμα της επανάληψης κάθε εικόνας σκύλου δύο φορές. Αποδεικνύεται ότι μπορούμε να κλιμακώσουμε αυτήν την προσέγγιση στα πραγματικά σύνολα δεδομένων και τα μοντέλα μας με τρόπο που είναι σε μεγάλο βαθμό αυτόματος –δηλαδή, δεν χρειάζεται να επιλέξουμε με το χέρι τα χαρακτηριστικά που θέλουμε να σταθμίσουμε εκ νέου.

Υπολογίζουμε τα βάρη για τις εικόνες στο φιλτραρισμένο σύνολο δεδομένων χρησιμοποιώντας πιθανότητες από έναν ειδικό ταξινομητή, παρόμοια με την προσέγγιση που χρησιμοποιείται από Choi et αϊ. (2019). Για να εκπαιδεύσουμε αυτόν τον ταξινομητή, δειγματίζουμε ομοιόμορφα εικόνες και από τα δύο σύνολα δεδομένων και προβλέπουμε από ποιο σύνολο δεδομένων προέρχεται η εικόνα. Συγκεκριμένα, αυτό το μοντέλο προβλέπει P(αφιλτράριστη|εικόνα), προηγουμένως P(αφιλτράριστο) = 0.5. Στην πράξη, δεν θέλουμε αυτό το μοντέλο να είναι πολύ ισχυρό, διαφορετικά μπορεί να μάθει εξαρχής την ακριβή λειτουργία που εφαρμόζουν τα φίλτρα μας. Αντίθετα, θέλουμε το μοντέλο να είναι πιο ομαλό από τα αρχικά μας φίλτρα δεδομένων, καταγράφοντας ευρείες κατηγορίες που επηρεάζονται από τα φίλτρα, ενώ δεν είμαστε σίγουροι για το εάν μια συγκεκριμένη εικόνα θα φιλτραριστεί ή όχι. Για το σκοπό αυτό, εκπαιδεύσαμε έναν γραμμικό καθετήρα πάνω από έναν μικρό CLIP μοντέλο.

Μόλις έχουμε έναν ταξινομητή που προβλέπει την πιθανότητα μια εικόνα να προέρχεται από το μη φιλτραρισμένο σύνολο δεδομένων, πρέπει να μετατρέψουμε αυτήν την πρόβλεψη σε βάρος για την εικόνα. Για παράδειγμα, ας υποθέσουμε ότι P(αφιλτράριστη|εικόνα) = 0.8. Αυτό σημαίνει ότι το δείγμα είναι 4 φορές πιο πιθανό να βρεθεί στα μη φιλτραρισμένα δεδομένα από τα φιλτραρισμένα δεδομένα και ότι ένα βάρος 4 θα πρέπει να διορθώσει την ανισορροπία. Γενικότερα, μπορούμε να χρησιμοποιήσουμε το βάρος P(αφιλτράριστη|εικόνα)/P(φιλτραρισμένη|εικόνα).^[1]

Πόσο καλά αυτό το σύστημα επαναστάθμισης μετριάζει πραγματικά την ενισχυμένη μεροληψία; Όταν βελτιστοποιήσαμε το προηγούμενο φιλτραρισμένο μοντέλο μας με το νέο σχήμα στάθμισης, η συμπεριφορά του βελτιωμένου μοντέλου ταίριαζε πολύ περισσότερο με το μη φιλτραρισμένο μοντέλο στα μεροληπτικά παραδείγματα που είχαμε βρει προηγουμένως. Αν και αυτό ήταν ενθαρρυντικό, θέλαμε επίσης να αξιολογήσουμε πιο διεξοδικά αυτόν τον μετριασμό χρησιμοποιώντας την ευρετική προκατάληψη που βασίζεται σε λέξεις-κλειδιά. Για να μετρήσουμε τις συχνότητες των λέξεων-κλειδιών, ενώ λαμβάνουμε υπόψη το νέο μας σχήμα στάθμισης, μπορούμε απλώς να σταθμίσουμε κάθε εμφάνιση μιας λέξης-κλειδιού στο φιλτραρισμένο σύνολο δεδομένων με βάση το βάρος του δείγματος που την περιέχει. Με αυτόν τον τρόπο, λαμβάνουμε ένα νέο σύνολο συχνοτήτων λέξεων-κλειδιών που αντικατοπτρίζουν τα βάρη του δείγματος στο φιλτραρισμένο σύνολο δεδομένων.

Στις περισσότερες από τις λέξεις-κλειδιά που ελέγξαμε, το σχήμα επαναστάθμισης μείωσε την αλλαγή συχνότητας που προκαλείται από το φιλτράρισμα. Για τα προηγούμενα παραδείγματα «άνδρας» και «γυναίκα», οι σχετικές μειώσεις συχνότητας έγιναν 1% και –1%, ενώ οι προηγούμενες τιμές τους ήταν 14% και 6%, αντίστοιχα. Αν και αυτή η μέτρηση είναι απλώς ένας διακομιστής μεσολάβησης για την πραγματική μεροληψία φιλτραρίσματος, είναι καθησυχαστικό ότι το σχέδιο επαναστάθμισης βάσει εικόνας βελτιώνει πραγματικά μια μέτρηση που βασίζεται σε κείμενο τόσο σημαντικά.

Συνεχίζουμε να διερευνούμε τις υπόλοιπες προκαταλήψεις στο DALL·E 2, εν μέρει μέσω μεγαλύτερων αξιολογήσεων της συμπεριφοράς του μοντέλου και ερευνών για το πώς το φιλτράρισμα επηρέασε την προκατάληψη και την ανάπτυξη δυνατοτήτων.

Πρόληψη της παλινδρόμησης της εικόνας

Παρατηρήσαμε ότι οι εσωτερικοί μας προκάτοχοι του DALL·E 2 μερικές φορές αναπαρήγαγαν κατά λέξη τις προπονητικές εικόνες. Αυτή η συμπεριφορά ήταν ανεπιθύμητη, καθώς θα θέλαμε το DALL·E 2 να δημιουργεί πρωτότυπες, μοναδικές εικόνες από προεπιλογή και όχι απλώς να «συναρμολογεί» κομμάτια υπαρχουσών εικόνων. Επιπλέον, η κατά λέξη αναπαραγωγή εικόνων εκπαίδευσης μπορεί να εγείρει νομικά ερωτήματα σχετικά με την παραβίαση πνευματικών δικαιωμάτων, την ιδιοκτησία και το απόρρητο (εάν οι φωτογραφίες των ατόμων υπήρχαν στα δεδομένα εκπαίδευσης).

Για να κατανοήσουμε καλύτερα το ζήτημα της παλινδρόμησης εικόνας, συλλέξαμε ένα σύνολο δεδομένων προτροπών που συχνά οδηγούσαν σε διπλότυπες εικόνες. Για να γίνει αυτό, χρησιμοποιήσαμε ένα εκπαιδευμένο μοντέλο για να δειγματίσουμε εικόνες για 50,000 προτροπές από το σύνολο δεδομένων εκπαίδευσης και ταξινομήσαμε τα δείγματα κατά αντιληπτική ομοιότητα με την αντίστοιχη εικόνα εκπαίδευσης. Τέλος, επιθεωρήσαμε με το χέρι τους κορυφαίους αγώνες, βρίσκοντας μόνο μερικές εκατοντάδες αληθινά διπλότυπα ζεύγη από τα συνολικά 50 χιλιάδες προτροπές. Παρόλο που το ποσοστό παλινδρόμησης φαινόταν να είναι μικρότερο από 1%, θεωρήσαμε ότι ήταν απαραίτητο να ωθήσουμε το ποσοστό κάτω στο 0 για τους λόγους που αναφέρθηκαν παραπάνω.

Όταν μελετήσαμε το σύνολο των εικόνων που είχαν αναρριχηθεί, παρατηρήσαμε δύο μοτίβα. Πρώτον, οι εικόνες ήταν σχεδόν όλες απλά διανυσματικά γραφικά, τα οποία ήταν πιθανό να απομνημονευθούν εύκολα λόγω του χαμηλού περιεχομένου πληροφοριών τους. Δεύτερον, και πιο σημαντικό, όλες οι εικόνες είχαν πολλά σχεδόν διπλότυπα στο σύνολο δεδομένων εκπαίδευσης. Για παράδειγμα, μπορεί να υπάρχει ένα διανυσματικό γραφικό που μοιάζει με ένα ρολόι που δείχνει την ώρα 1 η ώρα—αλλά στη συνέχεια θα ανακαλύψαμε ένα δείγμα εκπαίδευσης που περιέχει το ίδιο ρολόι που δείχνει 2 η ώρα και μετά 3 η ώρα κ.λπ. Το συνειδητοποιήσαμε αυτό, χρησιμοποιήσαμε μια κατανεμημένη αναζήτηση πλησιέστερου γείτονα για να επαληθεύσουμε ότι, όντως, όλες οι εικόνες που είχαν ανασταλεί είχαν αντιληπτικά παρόμοια διπλότυπα στο σύνολο δεδομένων. ΑΛΛΑ λειτουργεί έχουν παρατηρήσει ένα παρόμοιο φαινόμενο σε μεγάλα γλωσσικά μοντέλα, διαπιστώνοντας ότι η αντιγραφή δεδομένων συνδέεται στενά με την απομνημόνευση.

Το παραπάνω εύρημα υποδηλώνει ότι, εάν καταργούσαμε το σύνολο δεδομένων μας, θα μπορούσαμε να λύσουμε το πρόβλημα της παλινδρόμησης. Για να το πετύχουμε αυτό, σχεδιάσαμε να χρησιμοποιήσουμε ένα νευρωνικό δίκτυο για να αναγνωρίσουμε ομάδες εικόνων που έμοιαζαν και στη συνέχεια να αφαιρέσουμε όλες εκτός από μία εικόνα από κάθε ομάδα.^[2] Ωστόσο, αυτό θα απαιτούσε τον έλεγχο, για κάθε εικόνα, εάν είναι διπλότυπο κάθε άλλης εικόνας στο σύνολο δεδομένων. Δεδομένου ότι ολόκληρο το σύνολο δεδομένων μας περιέχει εκατοντάδες εκατομμύρια εικόνες, θα χρειαζόταν αφελώς να ελέγξουμε εκατοντάδες τετρασεκατομμύρια ζεύγη εικόνων για να βρούμε όλα τα διπλότυπα. Ενώ αυτό είναι τεχνικά εφικτό, ειδικά σε ένα μεγάλο σύμπλεγμα υπολογιστών, βρήκαμε μια πολύ πιο αποτελεσματική εναλλακτική που λειτουργεί σχεδόν εξίσου καλά με ένα μικρό κλάσμα του κόστους.

Σκεφτείτε τι θα συμβεί εάν ομαδοποιήσουμε το σύνολο δεδομένων μας πριν από την εκτέλεση της αντιγραφής. Δεδομένου ότι τα κοντινά δείγματα εμπίπτουν συχνά στο ίδιο σύμπλεγμα, τα περισσότερα από τα διπλότυπα ζεύγη δεν θα περνούσαν τα όρια απόφασης συμπλέγματος. Στη συνέχεια, θα μπορούσαμε να αφαιρέσουμε τα διπλότυπα δείγματα σε κάθε σύμπλεγμα χωρίς να ελέγξουμε για διπλότυπα εκτός του συμπλέγματος, ενώ λείπει μόνο ένα μικρό κλάσμα από όλα τα διπλότυπα ζεύγη. Αυτό είναι πολύ πιο γρήγορο από την αφελή προσέγγιση, αφού δεν χρειάζεται πλέον να ελέγχουμε κάθε ζευγάρι εικόνων.^[3] Όταν δοκιμάσαμε αυτήν την προσέγγιση εμπειρικά σε ένα μικρό υποσύνολο των δεδομένων μας, βρήκαμε το 85% όλων των διπλών ζευγών κατά τη χρήση K = 1024 συστοιχίες.

Για να βελτιώσουμε το ποσοστό επιτυχίας του παραπάνω αλγόριθμου, αξιοποιήσαμε μια βασική παρατήρηση: όταν ομαδοποιείτε διαφορετικά τυχαία υποσύνολα ενός συνόλου δεδομένων, τα προκύπτοντα όρια απόφασης συμπλέγματος είναι συχνά αρκετά διαφορετικά. Επομένως, εάν ένα διπλό ζεύγος διασχίζει ένα όριο συμπλέγματος για μια ομαδοποίηση δεδομένων, το ίδιο ζεύγος μπορεί να εμπίπτει σε ένα μόνο σύμπλεγμα σε διαφορετική ομαδοποίηση. Όσο περισσότερες ομαδοποιήσεις δοκιμάζετε, τόσο πιο πιθανό είναι να ανακαλύψετε ένα δεδομένο διπλό ζεύγος. Στην πράξη, καταλήξαμε στη χρήση πέντε συστάδων, πράγμα που σημαίνει ότι αναζητούμε αντίγραφα κάθε εικόνας στην ένωση πέντε διαφορετικών συστάδων. Στην πράξη, αυτό βρήκε το 97% όλων των διπλότυπων ζευγών σε ένα υποσύνολο των δεδομένων μας.

Παραδόξως, σχεδόν το ένα τέταρτο του συνόλου δεδομένων μας αφαιρέθηκε με αφαίρεση των αντιγράφων. Όταν εξετάσαμε τα σχεδόν διπλά ζεύγη που βρέθηκαν, πολλά από αυτά περιλάμβαναν σημαντικές αλλαγές. Θυμηθείτε το παράδειγμα ρολογιού από πάνω: το σύνολο δεδομένων μπορεί να περιλαμβάνει πολλές εικόνες του ίδιου ρολογιού σε διαφορετικές ώρες της ημέρας. Ενώ αυτές οι εικόνες είναι πιθανό να κάνουν το μοντέλο να απομνημονεύει την εμφάνιση αυτού του συγκεκριμένου ρολογιού, μπορεί επίσης να βοηθήσουν το μοντέλο να μάθει να διακρίνει τις ώρες της ημέρας σε ένα ρολόι. Δεδομένου του πόσα δεδομένα αφαιρέθηκαν, ανησυχούσαμε ότι η αφαίρεση εικόνων όπως αυτή μπορεί να είχε βλάψει την απόδοση του μοντέλου.

Για να ελέγξουμε την επίδραση της αποδιπλασιασμού στα μοντέλα μας, εκπαιδεύσαμε δύο μοντέλα με πανομοιότυπες υπερπαραμέτρους: ένα στο πλήρες σύνολο δεδομένων και ένα στην έκδοση του συνόλου δεδομένων που έχει αφαιρεθεί διπλότυπα. Για να συγκρίνουμε τα μοντέλα, χρησιμοποιήσαμε τις ίδιες ανθρώπινες αξιολογήσεις που χρησιμοποιήσαμε για να αξιολογήσουμε το αρχικό μας μοντέλο GLIDE. Παραδόξως, βρήκαμε ότι οι άνθρωποι αξιολογητές ελαφρώς προτιμάται το μοντέλο εκπαιδεύτηκε σε μη διπλότυπα δεδομένα, υποδηλώνοντας ότι ο μεγάλος αριθμός περιττών εικόνων στο σύνολο δεδομένων βλάπτει την απόδοση.

Μόλις είχαμε ένα μοντέλο εκπαιδευμένο σε μη διπλότυπα δεδομένα, επαναλάβαμε την αναζήτηση παλινδρόμησης που είχαμε κάνει προηγουμένως πάνω από 50 χιλιάδες προτροπές από το σύνολο δεδομένων εκπαίδευσης. Διαπιστώσαμε ότι το νέο μοντέλο δεν ανέδειξε ποτέ μια εικόνα εκπαίδευσης όταν δόθηκε η ακριβής προτροπή για την εικόνα από το σύνολο δεδομένων εκπαίδευσης. Για να πάμε αυτό το τεστ άλλο ένα βήμα παραπέρα, πραγματοποιήσαμε επίσης μια αναζήτηση πλησιέστερου γείτονα σε ολόκληρο το σύνολο δεδομένων εκπαίδευσης για καθεμία από τις 50 χιλιάδες εικόνες που δημιουργήθηκαν. Με αυτόν τον τρόπο, σκεφτήκαμε ότι μπορεί να πιάσουμε το μοντέλο να αναπαράγει μια διαφορετική εικόνα από αυτή που σχετίζεται με μια δεδομένη προτροπή. Ακόμη και με αυτόν τον πιο ενδελεχή έλεγχο, δεν βρήκαμε ποτέ περίπτωση παλινδρόμησης της εικόνας.

Επόμενα βήματα

Ενώ όλα τα μέτρα μετριασμού που συζητήθηκαν παραπάνω αντιπροσωπεύουν σημαντική πρόοδο προς τον στόχο μας για μείωση των κινδύνων που σχετίζονται με το DALL·E 2, κάθε μετριασμός έχει ακόμα περιθώρια βελτίωσης:

Τα καλύτερα φίλτρα προ-προπόνησης θα μπορούσαν να μας επιτρέψουν να εκπαιδεύσουμε το DALL·E 2 σε περισσότερα δεδομένα και ενδεχομένως να μειώσουμε περαιτέρω την προκατάληψη στο μοντέλο. Τα τρέχοντα φίλτρα μας είναι ρυθμισμένα για χαμηλό ποσοστό αστοχίας με το κόστος πολλών ψευδώς θετικών. Ως αποτέλεσμα, φιλτράραμε περίπου το 5% του συνόλου των δεδομένων μας, παρόλο που οι περισσότερες από αυτές τις φιλτραρισμένες εικόνες δεν παραβιάζουν καθόλου την πολιτική περιεχομένου μας. Η βελτίωση των φίλτρων μας θα μπορούσε να μας επιτρέψει να ανακτήσουμε ορισμένα από αυτά τα δεδομένα εκπαίδευσης.
Η μεροληψία εισάγεται και δυνητικά ενισχύεται σε πολλά στάδια ανάπτυξης και ανάπτυξης συστήματος. Η αξιολόγηση και ο μετριασμός της μεροληψίας σε συστήματα όπως το DALL·E 2 και η βλάβη που προκαλείται από αυτήν την προκατάληψη είναι ένα σημαντικό διεπιστημονικό πρόβλημα που συνεχίζουμε να μελετάμε στο OpenAI ως μέρος της ευρύτερης αποστολής μας. Η εργασία μας σε αυτό περιλαμβάνει αξιολογήσεις κτιρίων για την καλύτερη κατανόηση του προβλήματος, επιμέλεια νέων συνόλων δεδομένων και εφαρμογή τεχνικών όπως η ανθρώπινη ανάδραση και η λεπτομέρεια για τη δημιουργία πιο ισχυρών και αντιπροσωπευτικών τεχνολογιών.
Είναι επίσης σημαντικό να συνεχίσουμε να μελετάμε την απομνημόνευση και τη γενίκευση σε συστήματα βαθιάς μάθησης. Αν και η αφαίρεση των αντιγράφων είναι ένα καλό πρώτο βήμα προς την αποφυγή της απομνημόνευσης, δεν μας λέει όλα όσα πρέπει να μάθουμε για το γιατί ή πώς μοντέλα όπως το DALL·E 2 απομνημονεύουν τα δεδομένα προπόνησης.

Σφραγίδα ώρας: Ιούνιος 28, 2022

Σφραγίδα ώρας: 23 Απριλίου 2024

Αναδημοσίευση από τον Πλάτωνα

DALL·E: Παρουσιάζοντας το Outpainting

Το DALL·E είναι πλέον διαθέσιμο χωρίς λίστα αναμονής

Εκμάθηση παιχνιδιού Minecraft με Προεκπαίδευση βίντεο (VPT)

Κανονισμός Frontier AI: Διαχείριση αναδυόμενων κινδύνων για τη δημόσια ασφάλεια

Δημοκρατικές εισροές στην τεχνητή νοημοσύνη

Τεχνικές Εκπαίδευσης Μεγάλων Νευρωνικών Δικτύων

Πρόβλεψη πιθανών καταχρήσεων γλωσσικών μοντέλων για εκστρατείες παραπληροφόρησης—και πώς να μειώσετε τον κίνδυνο

Παρουσιάζουμε τα API ChatGPT και Whisper

Διακυβέρνηση της υπερνοημοσύνης

Η δέσμευση του OpenAI για την ασφάλεια των παιδιών: υιοθέτηση της ασφάλειας βάσει αρχών σχεδιασμού

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός