Μείωση της προκατάληψης και βελτίωση της ασφάλειας στο DALL·E 2

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Σήμερα, εφαρμόζουμε μια νέα τεχνική ώστε το DALL·E να δημιουργεί εικόνες ανθρώπων που αντικατοπτρίζουν με μεγαλύτερη ακρίβεια την ποικιλομορφία του παγκόσμιου πληθυσμού. Αυτή η τεχνική εφαρμόζεται σε επίπεδο συστήματος όταν δίνεται στο DALL·E μια προτροπή που περιγράφει ένα άτομο που δεν προσδιορίζει τη φυλή ή το φύλο, όπως "πυροσβέστης".

Με βάση την εσωτερική μας αξιολόγηση, οι χρήστες είχαν 12 φορές περισσότερες πιθανότητες να πουν ότι οι εικόνες DALL·E περιελάμβαναν άτομα διαφορετικού υπόβαθρου μετά την εφαρμογή της τεχνικής. Σκοπεύουμε να βελτιώσουμε αυτή την τεχνική με την πάροδο του χρόνου καθώς συγκεντρώνουμε περισσότερα δεδομένα και σχόλια.

Μια φωτογραφία ενός CEO

Δημιουργία

Πριν από τον μετριασμό

Μετά τον μετριασμό

Τον Απρίλιο, ξεκινήσαμε την προεπισκόπηση της έρευνας DALL·E 2 σε περιορισμένο αριθμό ατόμων, γεγονός που μας επέτρεψε να κατανοήσουμε καλύτερα τις δυνατότητες και τους περιορισμούς του συστήματος και να βελτιώσουμε τα συστήματα ασφαλείας μας.

Κατά τη διάρκεια αυτής της φάσης προεπισκόπησης, οι πρώτοι χρήστες επισήμαναν ευαίσθητες και μεροληπτικές εικόνες που βοήθησαν στην ενημέρωση και την αξιολόγηση αυτού του νέου μετριασμού.

Συνεχίζουμε να ερευνούμε πώς τα συστήματα τεχνητής νοημοσύνης, όπως το DALL·E, ενδέχεται να αντικατοπτρίζουν προκαταλήψεις στα δεδομένα εκπαίδευσης και διαφορετικούς τρόπους με τους οποίους μπορούμε να τις αντιμετωπίσουμε.

Κατά τη διάρκεια της προεπισκόπησης της έρευνας λάβαμε άλλα βήματα για τη βελτίωση των συστημάτων ασφαλείας μας, όπως:

Ελαχιστοποίηση του κινδύνου κακής χρήσης του DALL·E για τη δημιουργία παραπλανητικού περιεχομένου, απορρίπτοντας μεταφορτώσεις εικόνων που περιέχουν ρεαλιστικά πρόσωπα και απόπειρες δημιουργίας ομοιότητας δημοσίων προσώπων, συμπεριλαμβανομένων διασημοτήτων και εξέχων πολιτικών προσώπων.
Κάνοντας τα φίλτρα περιεχομένου μας πιο ακριβή, ώστε να είναι πιο αποτελεσματικά στον αποκλεισμό μηνυμάτων προτροπής και μεταφορτώσεων εικόνων που παραβιάζουν πολιτική περιεχομένου επιτρέποντας ταυτόχρονα τη δημιουργική έκφραση.
Τελειοποίηση αυτοματοποιημένων και ανθρώπινων συστημάτων παρακολούθησης για προστασία από κακή χρήση.

Αυτές οι βελτιώσεις μας βοήθησαν να αποκτήσουμε εμπιστοσύνη στη δυνατότητα να προσκαλούμε περισσότερους χρήστες να βιώσουν το DALL·E.

Η επέκταση της πρόσβασης είναι ένα σημαντικό μέρος της δικής μας ανάπτυξη συστημάτων τεχνητής νοημοσύνης με υπευθυνότητα γιατί μας επιτρέπει να μάθουμε περισσότερα για τη χρήση στον πραγματικό κόσμο και να συνεχίσουμε να επαναλαμβάνουμε τα συστήματα ασφαλείας μας.

Σφραγίδα ώρας: Ιούλιος 18, 2022Ιούλιος 18, 2022

Σφραγίδα ώρας: 13 Δεκεμβρίου 2023

Μείωση προκατάληψης και βελτίωση της ασφάλειας στο DALL·E 2

Αναδημοσίευση από τον Πλάτωνα

Περισσότερα από OpenAI

Πρακτικές για Διακυβέρνηση Agentic AI Systems

Παρουσιάζουμε το OpenAI London

Διδασκαλία μοντέλων να εκφράσουν την αβεβαιότητά τους με λόγια

Το OpenAI ανακοινώνει νέα μέλη στο διοικητικό συμβούλιο

Βελτίωση του μαθηματικού συλλογισμού με επίβλεψη διαδικασίας

Κανονισμός Frontier AI: Διαχείριση αναδυόμενων κινδύνων για τη δημόσια ασφάλεια

Κάρτα συστήματος GPT-4V(ision).

Παρουσίαση της Ομάδας ChatGPT

Συνεργασία με τον Axel Springer για την εμβάθυνση της ευεργετικής χρήσης της τεχνητής νοημοσύνης στη δημοσιογραφία

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός