Τι σημαίνει ευθυγράμμιση της τεχνητής νοημοσύνης με τις ανθρώπινες αξίες;

Αναδημοσίευση από τον Πλάτωνα

Ακολουθούν: 0

Πριν από πολλά χρόνια, έμαθα να προγραμματίζω σε ένα παλιό Symbolics Lisp Machine. Το λειτουργικό σύστημα είχε μια ενσωματωμένη εντολή με την γραφή "DWIM", συντομογραφία του "Do What I Mean". Αν πληκτρολογούσα μια εντολή και λάμβανα ένα σφάλμα, θα μπορούσα να πληκτρολογήσω "DWIM" και το μηχάνημα θα προσπαθούσε να καταλάβει τι ήθελα να κάνω. Ένα εκπληκτικό μέρος του χρόνου, λειτούργησε πραγματικά.

Η εντολή DWIM ήταν μια μικρογραφία του πιο σύγχρονου προβλήματος της «ευθυγράμμισης AI»: Εμείς οι άνθρωποι είμαστε επιρρεπείς στο να δίνουμε στις μηχανές διφορούμενες ή λανθασμένες οδηγίες και θέλουμε να κάνουν αυτό που εννοούμε, όχι απαραίτητα αυτό που λέμε.

Οι υπολογιστές συχνά παρερμηνεύουν τι θέλουμε να κάνουν, με απροσδόκητα και συχνά διασκεδαστικά αποτελέσματα. Ένας ερευνητής μηχανικής μάθησης, για παράδειγμα, ενώ ερευνούσε τα ύποπτα καλά αποτελέσματα ενός προγράμματος ταξινόμησης εικόνων, ανακάλυψαν ότι δεν βασιζόταν στις ταξινομήσεις στην ίδια την εικόνα, αλλά στο πόσο χρόνο χρειαζόταν η πρόσβαση στο αρχείο εικόνας — οι εικόνες από διαφορετικές κατηγορίες αποθηκεύονταν σε βάσεις δεδομένων με ελαφρώς διαφορετικούς χρόνους πρόσβασης. Αλλο επιχειρηματικός προγραμματιστής ήθελε η ηλεκτρική σκούπα του Roomba να σταματήσει να προσκρούει σε έπιπλα, έτσι συνέδεσε το Roomba με ένα νευρωνικό δίκτυο που ανταμείβει την ταχύτητα, αλλά τιμώρησε το Roomba όταν ο μπροστινός προφυλακτήρας συγκρούστηκε με κάτι. Το μηχάνημα ικανοποίησε αυτούς τους στόχους οδηγώντας πάντα προς τα πίσω.

Αλλά η κοινότητα των ερευνητών ευθυγράμμισης AI βλέπει μια πιο σκοτεινή πλευρά σε αυτά τα ανέκδοτα. Στην πραγματικότητα, πιστεύουν ότι η αδυναμία των μηχανών να διακρίνουν τι πραγματικά θέλουμε να κάνουν είναι ένας υπαρξιακός κίνδυνος. Για να λύσουμε αυτό το πρόβλημα, πιστεύουν, πρέπει να βρούμε τρόπους για να ευθυγραμμίσουμε τα συστήματα AI με τις ανθρώπινες προτιμήσεις, στόχους και αξίες.

Αυτή η άποψη κέρδισε εξέχουσα θέση με το βιβλίο μπεστ σέλερ του 2014 Υπερ-ευφυΐα από τον φιλόσοφο Nick Bostrom, ο οποίος υποστήριξε εν μέρει ότι η αυξανόμενη νοημοσύνη των υπολογιστών θα μπορούσε να αποτελέσει άμεση απειλή για το μέλλον της ανθρωπότητας. Ο Bostrom δεν όρισε ποτέ με ακρίβεια τη νοημοσύνη, αλλά, όπως οι περισσότεροι άλλοι στην κοινότητα ευθυγράμμισης AI, υιοθέτησε έναν ορισμό αργότερα αρθρωτό από τον ερευνητή AI Στιούαρτ Ράσελ όπως: «Μια οντότητα θεωρείται ευφυής, χονδρικά μιλώντας, εάν επιλέγει ενέργειες που αναμένεται να επιτύχουν τους στόχους της, δεδομένων των όσων έχει αντιληφθεί».

Ο Μπόστρομ στήριξε την άποψή του για τους κινδύνους της τεχνητής νοημοσύνης σε δύο θέσεις. Η πρώτη είναι η θέση της ορθογωνικότητας, η οποία αναφέρει, σύμφωνα με τα λόγια του Bostrom, «Η ευφυΐα και οι τελικοί στόχοι είναι ορθογώνιοι άξονες κατά μήκος των οποίων οι πιθανοί παράγοντες μπορούν ελεύθερα να ποικίλλουν. Με άλλα λόγια, περισσότερο ή λιγότερο οποιοδήποτε επίπεδο νοημοσύνης θα μπορούσε καταρχήν να συνδυαστεί με λίγο-πολύ οποιονδήποτε τελικό στόχο». Η δεύτερη είναι η εργαλειακή θέση σύγκλισης, η οποία υπονοεί ότι ένας ευφυής πράκτορας θα ενεργήσει με τρόπους που προάγουν τη δική του επιβίωση, αυτοβελτίωση και απόκτηση πόρων, εφόσον αυτοί κάνουν τον πράκτορα πιο πιθανό να επιτύχει τον τελικό του στόχο. Στη συνέχεια, έκανε μια τελική υπόθεση: Οι ερευνητές θα δημιουργήσουν σύντομα μια υπερευφυΐα τεχνητής νοημοσύνης - μια που «υπερβαίνει κατά πολύ τη γνωστική απόδοση των ανθρώπων σε όλους σχεδόν τους τομείς ενδιαφέροντος».

Για τον Bostrom και άλλους στην κοινότητα ευθυγράμμισης τεχνητής νοημοσύνης, αυτή η προοπτική αποτελεί καταστροφή για την ανθρωπότητα, εκτός και αν καταφέρουμε να ευθυγραμμίσουμε τις υπερευφυείς τεχνητές νοημοσύνης με τις επιθυμίες και τις αξίες μας. Ο Bostrom απεικονίζει αυτόν τον κίνδυνο με ένα διάσημο πλέον πείραμα σκέψης: Φανταστείτε να δώσουμε σε έναν υπερέξυπνο AI τον στόχο να μεγιστοποιήσει την παραγωγή συνδετήρων. Σύμφωνα με τις διατριβές του Bostrom, στην προσπάθεια επίτευξης αυτού του στόχου, το σύστημα AI θα χρησιμοποιήσει την υπεράνθρωπη λάμψη και τη δημιουργικότητά του για να αυξήσει τη δική του δύναμη και έλεγχο, αποκτώντας τελικά όλους τους πόρους του κόσμου για την κατασκευή περισσότερων συνδετήρων. Η ανθρωπότητα θα πεθάνει, αλλά η παραγωγή συνδετήρων θα μεγιστοποιηθεί πράγματι.

Εάν πιστεύετε ότι η ευφυΐα ορίζεται από την ικανότητα επίτευξης στόχων, ότι οποιοσδήποτε στόχος θα μπορούσε να «εισαχθεί» από τους ανθρώπους σε έναν υπερέξυπνο πράκτορα τεχνητής νοημοσύνης και ότι ένας τέτοιος πράκτορας θα χρησιμοποιούσε την υπερευφυΐα του για να κάνει οτιδήποτε για να επιτύχει αυτόν τον στόχο, τότε θα φτάνουν στο ίδιο συμπέρασμα που έκανε ο Russell: «Το μόνο που χρειάζεται για να διασφαλιστεί η καταστροφή είναι μια εξαιρετικά ικανή μηχανή σε συνδυασμό με ανθρώπους που έχουν μια ατελή ικανότητα να προσδιορίζουν τις ανθρώπινες προτιμήσεις πλήρως και σωστά».

Είναι ένα γνωστό τροπάριο στην επιστημονική φαντασία - η ανθρωπότητα απειλείται από μηχανές εκτός ελέγχου που έχουν παρερμηνεύσει τις ανθρώπινες επιθυμίες. Τώρα, ένα μη ουσιαστικό τμήμα της ερευνητικής κοινότητας της τεχνητής νοημοσύνης ανησυχεί βαθιά για αυτό το είδος σεναρίου που διαδραματίζεται στην πραγματική ζωή. Δεκάδες ινστιτούτα έχουν ήδη ξοδέψει εκατοντάδες εκατομμύρια δολάρια για το πρόβλημα και οι ερευνητικές προσπάθειες για την ευθυγράμμιση βρίσκονται σε εξέλιξη σε πανεπιστήμια σε όλο τον κόσμο και σε μεγάλες εταιρείες τεχνητής νοημοσύνης όπως η Google, η Meta και η OpenAI.

Τι γίνεται με τους πιο άμεσους κινδύνους που ενέχει η μη υπερευφυής τεχνητή νοημοσύνη, όπως η απώλεια θέσεων εργασίας, η προκατάληψη, οι παραβιάσεις της ιδιωτικής ζωής και η διάδοση παραπληροφόρησης; Αποδεικνύεται ότι υπάρχει μικρή επικάλυψη μεταξύ των κοινοτήτων που αφορούν κυρίως τέτοιους βραχυπρόθεσμους κινδύνους και εκείνων που ανησυχούν περισσότερο για τους μακροπρόθεσμους κινδύνους ευθυγράμμισης. Στην πραγματικότητα, υπάρχει κάτι σαν πόλεμος κουλτούρας AI, με τη μία πλευρά να ανησυχεί περισσότερο για αυτούς τους τρέχοντες κινδύνους από αυτό που θεωρεί μη ρεαλιστικό τεχνο-φουτουρισμό και η άλλη πλευρά να θεωρεί τα τρέχοντα προβλήματα λιγότερο επείγοντα από τους πιθανούς καταστροφικούς κινδύνους που θέτει η υπερέξυπνη τεχνητή νοημοσύνη.

Σε πολλούς εκτός αυτών των συγκεκριμένων κοινοτήτων, η ευθυγράμμιση της τεχνητής νοημοσύνης μοιάζει κάτι σαν θρησκεία - μια με σεβαστούς ηγέτες, αδιαμφισβήτητο δόγμα και αφοσιωμένους μαθητές που πολεμούν έναν δυνητικά παντοδύναμο εχθρό (μη ευθυγραμμισμένη υπερέξυπνη τεχνητή νοημοσύνη). Πράγματι, ο επιστήμονας πληροφορικής και blogger Scott Aaronson πρόσφατα Σημειώνεται ότι υπάρχουν τώρα «Ορθόδοξοι» και «Μεταρρυθμιστικοί» κλάδοι της πίστης της ευθυγράμμισης της AI. Ο πρώτος, γράφει, ανησυχεί σχεδόν εξ ολοκλήρου για την «κακώς ευθυγραμμισμένη τεχνητή νοημοσύνη που εξαπατά τους ανθρώπους ενώ εργάζεται για να τους καταστρέψει». Αντίθετα, γράφει, «εμείς οι ριψοκίνδυνοι της Reform AI διασκεδάζουμε αυτή τη δυνατότητα, αλλά ανησυχούμε τουλάχιστον εξίσου για τα ισχυρά AI που οπλίζονται από κακούς ανθρώπους, τα οποία αναμένουμε να θέτουν υπαρξιακούς κινδύνους πολύ νωρίτερα».

Πολλοί ερευνητές ασχολούνται ενεργά με έργα που βασίζονται σε ευθυγράμμιση, που κυμαίνονται από προσπάθειες μετάδοσης αρχών της ηθικής φιλοσοφίας στις μηχανές, να εκπαίδευση μεγάλων γλωσσικών μοντέλων σχετικά με ηθικές κρίσεις που βασίζονται στο crowdsource. Καμία από αυτές τις προσπάθειες δεν ήταν ιδιαίτερα χρήσιμη στο να κάνουν τις μηχανές να συλλογιστούν για πραγματικές καταστάσεις. Πολλοί συγγραφείς έχουν σημειώσει τα πολλά εμπόδια που εμποδίζουν τις μηχανές να μάθουν τις ανθρώπινες προτιμήσεις και αξίες: Οι άνθρωποι είναι συχνά παράλογοι και συμπεριφέρονται με τρόπους που έρχονται σε αντίθεση με τις αξίες τους και οι αξίες μπορούν να αλλάξουν κατά τη διάρκεια της ζωής και των γενεών. Σε τελική ανάλυση, δεν είναι ξεκάθαρο ποιανού τις αξίες πρέπει να έχουμε οι μηχανές που προσπαθούν να μάθουν.

Πολλοί στην κοινότητα ευθυγράμμισης πιστεύουν ότι η πιο πολλά υποσχόμενη πορεία προς τα εμπρός είναι μια τεχνική μηχανικής μάθησης γνωστή ως αντίστροφη ενισχυτική μάθηση (IRL). Με το IRL, το μηχάνημα δεν έχει στόχο να μεγιστοποιήσει. Τέτοιοι «εισαγόμενοι» στόχοι, πιστεύουν οι υποστηρικτές της ευθυγράμμισης, μπορούν άθελά τους να οδηγήσουν σε σενάρια μεγιστοποίησης συνδετήρων. Αντίθετα, το καθήκον της μηχανής είναι να παρατηρεί τη συμπεριφορά των ανθρώπων και να συμπεράνει τις προτιμήσεις, τους στόχους και τις αξίες τους. Τα τελευταία χρόνια, οι ερευνητές χρησιμοποίησαν το IRL για να εκπαιδεύστε μηχανές για να παίζουν βιντεοπαιχνίδια με την παρατήρηση των ανθρώπων και τη διδασκαλία ρομπότ πώς να κάνετε backflips δίνοντάς τους σταδιακή ανατροφοδότηση από ανθρώπους (οι άνθρωποι είδαν σύντομα κλιπ από διάφορες προσπάθειες ενός ρομπότ και επέλεξαν αυτό που φαινόταν καλύτερο).

Δεν είναι σαφές εάν παρόμοιες μέθοδοι μπορούν να διδάξουν στις μηχανές τις πιο λεπτές και αφηρημένες ιδέες των ανθρώπινων αξιών. Ο συγγραφέας Μπράιαν Κρίστιαν, συγγραφέας του α βιβλίο δημοφιλούς επιστήμης για την ευθυγράμμιση AI, είναι αισιόδοξος: «Δεν είναι τόσο δύσκολο να φανταστείς την αντικατάσταση της νεφελώδους έννοιας του «backflip» με μια ακόμη πιο νεφελώδη και άφατη έννοια, όπως «βοηθητικός». Ή «καλοσύνη». Ή «καλή» συμπεριφορά».

Ωστόσο, νομίζω ότι αυτό υποτιμά την πρόκληση. Ηθικές έννοιες όπως η ευγένεια και η καλή συμπεριφορά είναι πολύ πιο περίπλοκες και εξαρτώμενες από το πλαίσιο από οτιδήποτε έχει κατακτήσει η IRL μέχρι τώρα. Σκεφτείτε την έννοια της «αλήθειας» — μια αξία που σίγουρα θέλουμε στα συστήματά μας AI. Πράγματι, ένα σημαντικό πρόβλημα με τα σημερινά μεγάλα γλωσσικά μοντέλα είναι η αδυναμία τους να διακρίνουν την αλήθεια από το ψέμα. Ταυτόχρονα, μπορεί μερικές φορές να θέλουμε οι βοηθοί μας AI, όπως και οι άνθρωποι, να μετριάζουν την ειλικρίνειά τους: να προστατεύουν το απόρρητο, να αποφεύγουν την προσβολή άλλων ή να κρατούν κάποιον ασφαλή, ανάμεσα σε αναρίθμητες άλλες δυσνόητες καταστάσεις.

Άλλες ηθικές έννοιες είναι εξίσου περίπλοκες. Θα πρέπει να είναι σαφές ότι ένα ουσιαστικό πρώτο βήμα προς τη διδασκαλία των ηθικών εννοιών των μηχανών είναι να επιτραπεί στις μηχανές να κατανοήσουν τις ανθρώπινες έννοιες εξαρχής, κάτι που έχω υποστηρίξει ότι εξακολουθεί να είναι η τεχνητή νοημοσύνη το πιο σημαντικό ανοιχτό πρόβλημα.

Επιπλέον, βλέπω ένα ακόμη πιο θεμελιώδες πρόβλημα με την επιστήμη που βασίζεται στις έννοιες της ευθυγράμμισης AI. Οι περισσότερες συζητήσεις φαντάζονται μια υπερέξυπνη τεχνητή νοημοσύνη ως μια μηχανή που, ενώ ξεπερνά τους ανθρώπους σε όλες τις γνωστικές εργασίες, εξακολουθεί να στερείται ανθρώπινης κοινής λογικής και παραμένει παράξενα μηχανική. Και είναι σημαντικό, σύμφωνα με τη θέση της ορθογωνικότητας του Bostrom, η μηχανή έχει επιτύχει υπερευφυΐα χωρίς να έχει κανέναν από τους δικούς της στόχους ή αξίες, αντί να περιμένει τους στόχους που θα εισαγάγουν οι άνθρωποι.

Θα μπορούσε όμως η νοημοσύνη να λειτουργήσει με αυτόν τον τρόπο; Τίποτα στην τρέχουσα επιστήμη της ψυχολογίας ή της νευροεπιστήμης δεν υποστηρίζει αυτή τη δυνατότητα. Στους ανθρώπους, τουλάχιστον, η νοημοσύνη είναι βαθιά συνδεδεμένη με τους στόχους και τις αξίες μας, καθώς και με την αίσθηση του εαυτού μας και το ιδιαίτερο κοινωνικό και πολιτιστικό μας περιβάλλον. Η διαίσθηση ότι ένα είδος καθαρής νοημοσύνης θα μπορούσε να διαχωριστεί από αυτούς τους άλλους παράγοντες έχει οδηγήσει πολλές αποτυχημένες προβλέψεις στην ιστορία της AI. Από ό,τι γνωρίζουμε, φαίνεται πολύ πιο πιθανό ότι οι στόχοι ενός γενικά ευφυούς συστήματος AI δεν θα μπορούσαν να εισαχθούν εύκολα, αλλά θα έπρεπε να αναπτυχθούν, όπως το δικό μας, ως αποτέλεσμα της δικής του κοινωνικής και πολιτιστικής ανατροφής.

Στο βιβλίο του Ανθρώπινη συμβατότητα, ο Russell υποστηρίζει τον επείγοντα χαρακτήρα της έρευνας για το πρόβλημα της ευθυγράμμισης: «Η κατάλληλη στιγμή για να ανησυχούμε για ένα δυνητικά σοβαρό πρόβλημα για την ανθρωπότητα δεν εξαρτάται μόνο από το πότε θα εμφανιστεί το πρόβλημα αλλά και από το πόσο καιρό θα χρειαστεί για να προετοιμαστεί και να εφαρμοστεί μια λύση. ” Αλλά χωρίς καλύτερη κατανόηση του τι είναι η νοημοσύνη και πόσο χωριστή είναι από άλλες πτυχές της ζωής μας, δεν μπορούμε καν να ορίσουμε το πρόβλημα, πολύ περισσότερο να βρούμε μια λύση. Ο σωστός καθορισμός και η επίλυση του προβλήματος ευθυγράμμισης δεν θα είναι εύκολος. θα απαιτήσει από εμάς να αναπτύξουμε μια ευρεία, επιστημονικά βασισμένη θεωρία της νοημοσύνης.

Σφραγίδα ώρας: Δεκέμβριος 13, 2022Δεκέμβριος 13, 2022

Σφραγίδα ώρας: 15 Σεπτεμβρίου 2022

Τι σημαίνει η ευθυγράμμιση της τεχνητής νοημοσύνης με τις ανθρώπινες αξίες;

Αναδημοσίευση από τον Πλάτωνα

Περισσότερα από Quantamamagazine

Το Computer Science Proof αποκαλύπτει απροσδόκητη μορφή εμπλοκής

Οι μηχανές μαθαίνουν καλύτερα αν τους διδάξουμε τα βασικά

Γιατί οι μαθηματικοί αποδεικνύουν ξανά αυτό που ήδη γνωρίζουν

Πώς να φτιάξετε έναν υπολογιστή Origami | Περιοδικό Quanta

Μια ερώτηση σχετικά με μια περιστρεφόμενη γραμμή βοηθά να αποκαλυφθεί τι κάνει τους πραγματικούς αριθμούς ξεχωριστούς

Πώς μπορούν οι άπειροι πρώτοι να απέχουν απείρως;

Πώς η Αρχαία Τέχνη της Πρόβλεψης Έκλειψης έγινε Ακριβής Επιστήμη | Περιοδικό Quanta

Ο επιστήμονας υπολογιστών που ενισχύει την ιδιωτικότητα στο Διαδίκτυο

Οι ερευνητές του χάους μπορούν τώρα να προβλέψουν επικίνδυνα σημεία χωρίς επιστροφή

Σχετικά με μας

Κάθετη αναζήτηση & Ai

Πλατφόρμα

Μείνετε συνδεδεμένοι

Λογαριασμός

Εισαγωγή