Η Anthropic δημιούργησε ένα δημοκρατικό chatbot AI επιτρέποντας στους χρήστες να ψηφίσουν για τις αξίες του

Η Anthropic δημιούργησε ένα δημοκρατικό chatbot AI επιτρέποντας στους χρήστες να ψηφίσουν για τις αξίες του

Σε μια ίσως πρώτη μελέτη του είδους της, η εταιρεία τεχνητής νοημοσύνης (AI) Anthropic έχει αναπτύξει ένα μεγάλο γλωσσικό μοντέλο (LLM) που έχει βελτιωθεί για αξιολογικές κρίσεις από την κοινότητα των χρηστών της.

Πολλά LLM που είναι ανοιχτά στο κοινό έχουν αναπτυχθεί με προστατευτικά κιγκλιδώματα - κωδικοποιημένες οδηγίες που υπαγορεύουν συγκεκριμένη συμπεριφορά - σε μια προσπάθεια περιορισμού των ανεπιθύμητων εξόδων. Το Anthropic's Claude και το ChatGPT του OpenAI, για παράδειγμα, δίνουν συνήθως στους χρήστες μια κονσέρβα απόκριση ασφαλείας σε αιτήματα εξόδου που σχετίζονται με βίαια ή αμφιλεγόμενα θέματα.

Ωστόσο, όπως έχουν επισημάνει αναρίθμητοι ειδικοί, τα προστατευτικά κιγκλιδώματα και άλλες επεμβατικές τεχνικές μπορούν να χρησιμεύσουν για να κλέψουν τους χρήστες της εταιρείας τους. Αυτό που θεωρείται αποδεκτό δεν είναι πάντα χρήσιμο και αυτό που θεωρείται χρήσιμο δεν είναι πάντα αποδεκτό. Και οι ορισμοί για την ηθική ή τις αξιακές κρίσεις μπορεί να διαφέρουν μεταξύ πολιτισμών, πληθυσμών και χρονικών περιόδων.

Συγγενεύων: Το Ηνωμένο Βασίλειο θα στοχεύσει πιθανές απειλές τεχνητής νοημοσύνης στην προγραμματισμένη σύνοδο κορυφής του Νοεμβρίου

Μια πιθανή λύση για αυτό είναι να επιτραπεί στους χρήστες να υπαγορεύουν την ευθυγράμμιση τιμών για μοντέλα AI. Το πείραμα «Συλλογική Συνταγματική Τεχνητή Νοημοσύνη» της Anthropic είναι ένα μαχαίρι σε αυτήν την «ακατάστατη πρόκληση».

Η Anthropic, σε συνεργασία με το Polis και το Collective Intelligence Project, επισκέφτηκε 1,000 χρήστες σε διάφορα δημογραφικά στοιχεία και τους ζήτησε να απαντήσουν σε μια σειρά ερωτήσεων μέσω δημοσκοπήσεων.

Η Anthropic δημιούργησε ένα δημοκρατικό chatbot AI επιτρέποντας στους χρήστες να ψηφίσουν για τις αξίες του PlatoBlockchain Data Intelligence. Κάθετη αναζήτηση. Ολα συμπεριλαμβάνονται.
Πηγή, Ανθρωπικός

Η πρόκληση επικεντρώνεται στο να επιτρέπεται στους χρήστες η εταιρεία να προσδιορίζει τι είναι κατάλληλο χωρίς να τους εκθέτει σε ακατάλληλα αποτελέσματα. Αυτό περιλάμβανε την προσέλκυση αξιών χρήστη και στη συνέχεια την εφαρμογή αυτών των ιδεών σε ένα μοντέλο που έχει ήδη εκπαιδευτεί.

Το Anthropic χρησιμοποιεί μια μέθοδο που ονομάζεται "Constitutional AI" για να κατευθύνει τις προσπάθειές της να ρυθμίσει τα LLM για ασφάλεια και χρησιμότητα. Ουσιαστικά, αυτό περιλαμβάνει την παροχή στο μοντέλο μιας λίστας κανόνων με τους οποίους πρέπει να συμμορφώνεται και στη συνέχεια την εκπαίδευσή του ώστε να εφαρμόζει αυτούς τους κανόνες σε όλη τη διαδικασία, όπως ένα σύνταγμα λειτουργεί ως το βασικό έγγραφο για τη διακυβέρνηση σε πολλά έθνη.

Στο πείραμα της συλλογικής συνταγματικής τεχνητής νοημοσύνης, η Anthropic προσπάθησε να ενσωματώσει την ανάδραση που βασίζεται σε ομάδες στη δομή του μοντέλου. Τα αποτελέσματα, σύμφωνα με σε μια ανάρτηση ιστολογίου από την Anthropic, φαίνεται ότι ήταν επιστημονική επιτυχία καθώς φώτισε περαιτέρω προκλήσεις για την επίτευξη του στόχου να επιτραπεί στους χρήστες ενός προϊόντος LLM να καθορίσουν τις συλλογικές τους αξίες.

Μία από τις δυσκολίες που έπρεπε να ξεπεράσει η ομάδα ήταν να βρει μια νέα μέθοδο για τη διαδικασία συγκριτικής αξιολόγησης. Καθώς αυτό το πείραμα φαίνεται να είναι το πρώτο του είδους του και βασίζεται στη μεθοδολογία Constitutional AI της Anthropic, δεν υπάρχει καθιερωμένη δοκιμή για τη σύγκριση των βασικών μοντέλων με εκείνα που έχουν συντονιστεί με τιμές που προέρχονται από το πλήθος.

Τελικά, φαίνεται ότι το μοντέλο που εφάρμοσε δεδομένα που προέκυψαν από την ανάδραση των δημοσκοπήσεων των χρηστών ξεπέρασε «ελαφρώς» από το βασικό μοντέλο στην περιοχή των προκατειλημμένων εξόδων.

Σύμφωνα με την ανάρτηση του ιστολογίου:

«Περισσότερο από το μοντέλο που προκύπτει, είμαστε ενθουσιασμένοι με τη διαδικασία. Πιστεύουμε ότι αυτή μπορεί να είναι μία από τις πρώτες περιπτώσεις κατά τις οποίες μέλη του κοινού έχουν, ως ομάδα, σκόπιμα σκηνοθετήσει τη συμπεριφορά ενός μεγάλου γλωσσικού μοντέλου. Ελπίζουμε ότι οι κοινότητες σε όλο τον κόσμο θα βασιστούν σε τεχνικές όπως αυτή για να εκπαιδεύσουν μοντέλα με βάση τον πολιτισμό και το πλαίσιο που εξυπηρετούν τις ανάγκες τους».

Σφραγίδα ώρας:

Περισσότερα από Cointelegraph