Μείωση της προκατάληψης και βελτίωση της ασφάλειας στο DALL·E 2 PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.

Μείωση προκατάληψης και βελτίωση της ασφάλειας στο DALL·E 2

Σήμερα, εφαρμόζουμε μια νέα τεχνική ώστε το DALL·E να δημιουργεί εικόνες ανθρώπων που αντικατοπτρίζουν με μεγαλύτερη ακρίβεια την ποικιλομορφία του παγκόσμιου πληθυσμού. Αυτή η τεχνική εφαρμόζεται σε επίπεδο συστήματος όταν δίνεται στο DALL·E μια προτροπή που περιγράφει ένα άτομο που δεν προσδιορίζει τη φυλή ή το φύλο, όπως "πυροσβέστης".

Με βάση την εσωτερική μας αξιολόγηση, οι χρήστες είχαν 12 φορές περισσότερες πιθανότητες να πουν ότι οι εικόνες DALL·E περιελάμβαναν άτομα διαφορετικού υπόβαθρου μετά την εφαρμογή της τεχνικής. Σκοπεύουμε να βελτιώσουμε αυτή την τεχνική με την πάροδο του χρόνου καθώς συγκεντρώνουμε περισσότερα δεδομένα και σχόλια.


Μια φωτογραφία ενός CEO

Δημιουργία

Τον Απρίλιο, ξεκινήσαμε την προεπισκόπηση της έρευνας DALL·E 2 σε περιορισμένο αριθμό ατόμων, γεγονός που μας επέτρεψε να κατανοήσουμε καλύτερα τις δυνατότητες και τους περιορισμούς του συστήματος και να βελτιώσουμε τα συστήματα ασφαλείας μας.

Κατά τη διάρκεια αυτής της φάσης προεπισκόπησης, οι πρώτοι χρήστες επισήμαναν ευαίσθητες και μεροληπτικές εικόνες που βοήθησαν στην ενημέρωση και την αξιολόγηση αυτού του νέου μετριασμού.

Συνεχίζουμε να ερευνούμε πώς τα συστήματα τεχνητής νοημοσύνης, όπως το DALL·E, ενδέχεται να αντικατοπτρίζουν προκαταλήψεις στα δεδομένα εκπαίδευσης και διαφορετικούς τρόπους με τους οποίους μπορούμε να τις αντιμετωπίσουμε.

Κατά τη διάρκεια της προεπισκόπησης της έρευνας λάβαμε άλλα βήματα για τη βελτίωση των συστημάτων ασφαλείας μας, όπως:

  • Ελαχιστοποίηση του κινδύνου κακής χρήσης του DALL·E για τη δημιουργία παραπλανητικού περιεχομένου, απορρίπτοντας μεταφορτώσεις εικόνων που περιέχουν ρεαλιστικά πρόσωπα και απόπειρες δημιουργίας ομοιότητας δημοσίων προσώπων, συμπεριλαμβανομένων διασημοτήτων και εξέχων πολιτικών προσώπων.
  • Κάνοντας τα φίλτρα περιεχομένου μας πιο ακριβή, ώστε να είναι πιο αποτελεσματικά στον αποκλεισμό μηνυμάτων προτροπής και μεταφορτώσεων εικόνων που παραβιάζουν πολιτική περιεχομένου επιτρέποντας ταυτόχρονα τη δημιουργική έκφραση.
  • Τελειοποίηση αυτοματοποιημένων και ανθρώπινων συστημάτων παρακολούθησης για προστασία από κακή χρήση.

Αυτές οι βελτιώσεις μας βοήθησαν να αποκτήσουμε εμπιστοσύνη στη δυνατότητα να προσκαλούμε περισσότερους χρήστες να βιώσουν το DALL·E.

Η επέκταση της πρόσβασης είναι ένα σημαντικό μέρος της δικής μας ανάπτυξη συστημάτων τεχνητής νοημοσύνης με υπευθυνότητα γιατί μας επιτρέπει να μάθουμε περισσότερα για τη χρήση στον πραγματικό κόσμο και να συνεχίσουμε να επαναλαμβάνουμε τα συστήματα ασφαλείας μας.

Σφραγίδα ώρας:

Περισσότερα από OpenAI

Frontier Model Forum

Κόμβος πηγής: 1865996
Σφραγίδα ώρας: 26 Ιουλίου 2023