Αυτός ο αποκωδικοποιητής δραστηριότητας εγκεφάλου μεταφράζει ιδέες σε κείμενο χρησιμοποιώντας μόνο σαρώσεις εγκεφάλου

Αυτός ο αποκωδικοποιητής δραστηριότητας εγκεφάλου μεταφράζει ιδέες σε κείμενο χρησιμοποιώντας μόνο σαρώσεις εγκεφάλου

Η γλώσσα και ο λόγος είναι ο τρόπος που εκφράζουμε τις εσωτερικές μας σκέψεις. Αλλά οι νευροεπιστήμονες απλώς παρέκαμψαν την ανάγκη για ακουστική ομιλία, τουλάχιστον στο εργαστήριο. Αντίθετα, χρησιμοποίησαν απευθείας τη βιολογική μηχανή που παράγει γλώσσα και ιδέες: τον εγκέφαλο.

Χρησιμοποιώντας σαρώσεις εγκεφάλου και μεγάλη δόση μηχανικής μάθησης, μια ομάδα από το Πανεπιστήμιο του Τέξας στο Ώστιν ανέπτυξε έναν «αποκωδικοποιητή γλώσσας» που αποτυπώνει την ουσία του τι ακούει ένα άτομο με βάση μόνο τα μοτίβα ενεργοποίησης του εγκεφάλου του. Ο αποκωδικοποιητής μπορεί επίσης να μεταφράσει φανταστική ομιλία και ακόμη και να δημιουργήσει περιγραφικούς υπότιτλους για βουβές ταινίες χρησιμοποιώντας νευρική δραστηριότητα.

Εδώ είναι το θετικό: η μέθοδος δεν απαιτεί χειρουργική επέμβαση. Αντί να βασίζεται σε εμφυτευμένα ηλεκτρόδια, τα οποία ακούν ηλεκτρικές εκρήξεις απευθείας από νευρώνες, η νευροτεχνολογία χρησιμοποιεί λειτουργική μαγνητική τομογραφία (fMRI), μια εντελώς μη επεμβατική διαδικασία, για να δημιουργήσει εγκεφαλικούς χάρτες που αντιστοιχούν στη γλώσσα.

Για να είμαστε ξεκάθαροι, η τεχνολογία δεν είναι να διαβάζεις το μυαλό. Σε κάθε περίπτωση, ο αποκωδικοποιητής παράγει παραφράσεις που αποτυπώνουν τη γενική ιδέα μιας πρότασης ή παραγράφου. Δεν αναπαράγει κάθε λέξη. Ωστόσο, αυτή είναι και η δύναμη του αποκωδικοποιητή.

«Πιστεύουμε ότι ο αποκωδικοποιητής αντιπροσωπεύει κάτι βαθύτερο από τις γλώσσες», δήλωσε ο επικεφαλής συγγραφέας της μελέτης Δρ. Alexander Huth σε μια ενημέρωση τύπου. «Μπορούμε να ανακτήσουμε τη συνολική ιδέα… και να δούμε πώς εξελίσσεται η ιδέα, ακόμα κι αν χαθούν οι ακριβείς λέξεις».

Η μελέτη, που δημοσιεύτηκε αυτή την εβδομάδα στο Nature Neuroscience, αντιπροσωπεύει μια ισχυρή πρώτη ώθηση σε μη επεμβατική διεπαφές εγκεφάλου-μηχανής για την αποκωδικοποίηση της γλώσσας—ένα διαβόητο δύσκολο πρόβλημα. Με περαιτέρω ανάπτυξη, η τεχνολογία θα μπορούσε να βοηθήσει όσους έχουν χάσει την ικανότητα να μιλούν να ανακτήσουν την ικανότητά τους να επικοινωνούν με τον έξω κόσμο.

Η εργασία ανοίγει επίσης νέους δρόμους για να μάθουν πώς κωδικοποιείται η γλώσσα στον εγκέφαλο και για τους επιστήμονες της τεχνητής νοημοσύνης να σκάψουν στο «μαύρο κουτί» των μοντέλων μηχανικής μάθησης που επεξεργάζονται την ομιλία και τη γλώσσα.

«Ήταν πολύς καιρός… ήμασταν κάπως σοκαρισμένοι που αυτό λειτούργησε τόσο καλά όσο λειτουργεί», είπε ο Huth.

Γλώσσα αποκωδικοποίησης

Η μετάφραση της εγκεφαλικής δραστηριότητας σε ομιλία δεν είναι καινούργια. Μια προηγούμενη μελέτη χρησιμοποιούσαν ηλεκτρόδια που τοποθετήθηκαν απευθείας στον εγκέφαλο ασθενών με παράλυση. Ακούγοντας την ηλεκτρική φλυαρία των νευρώνων, η ομάδα μπόρεσε να ανακατασκευάσει πλήρεις λέξεις από τον ασθενή.

Ο Χουθ αποφάσισε να ακολουθήσει μια εναλλακτική, αν τολμηρή, διαδρομή. Αντί να βασίζεται στη νευροχειρουργική, επέλεξε μια μη επεμβατική προσέγγιση: fMRI.

«Η προσδοκία μεταξύ των νευροεπιστημόνων γενικά ότι μπορείς να κάνεις κάτι τέτοιο με το fMRI είναι αρκετά χαμηλή», είπε ο Huth.

Υπάρχουν πολλοί λόγοι. Σε αντίθεση με τα εμφυτεύματα που επηρεάζουν απευθείας τη νευρική δραστηριότητα, το fMRI μετρά τον τρόπο με τον οποίο αλλάζουν τα επίπεδα οξυγόνου στο αίμα. Αυτό ονομάζεται σήμα BOLD. Επειδή οι πιο ενεργές περιοχές του εγκεφάλου απαιτούν περισσότερο οξυγόνο, οι αποκρίσεις BOLD λειτουργούν ως αξιόπιστος αντιπρόσωπος για τη νευρική δραστηριότητα. Έρχεται όμως με προβλήματα. Τα σήματα είναι υποτονικά σε σύγκριση με τη μέτρηση ηλεκτρικών εκρήξεων και τα σήματα μπορεί να είναι θορυβώδη.

Ωστόσο, το fMRI έχει ένα τεράστιο πλεονέκτημα σε σύγκριση με τα εμφυτεύματα εγκεφάλου: μπορεί να παρακολουθεί ολόκληρο τον εγκέφαλο σε υψηλή ανάλυση. Σε σύγκριση με τη συλλογή δεδομένων από ένα ψήγμα σε μια περιοχή, παρέχει μια πανοραμική άποψη των γνωστικών λειτουργιών υψηλότερου επιπέδου, συμπεριλαμβανομένης της γλώσσας.

Με την αποκωδικοποίηση της γλώσσας, οι περισσότερες προηγούμενες μελέτες χρησιμοποίησαν τον κινητικό φλοιό, μια περιοχή που ελέγχει τον τρόπο με τον οποίο το στόμα και ο λάρυγγας κινούνται για να δημιουργήσουν ομιλία ή περισσότερο «επιφανειακό επίπεδο» στην επεξεργασία της γλώσσας για άρθρωση. Η ομάδα του Huth αποφάσισε να πάει μια αφαίρεση προς τα πάνω: στη σφαίρα των σκέψεων και των ιδεών.

Στο Άγνωστο

Η ομάδα συνειδητοποίησε ότι χρειαζόταν δύο πράγματα από την αρχή. Το ένα, ένα σύνολο δεδομένων από υψηλής ποιότητας σαρώσεις εγκεφάλου για την εκπαίδευση του αποκωδικοποιητή. Δεύτερον, ένα πλαίσιο μηχανικής μάθησης για την επεξεργασία των δεδομένων.

Για να δημιουργήσουν τη βάση δεδομένων με χάρτη εγκεφάλου, επτά εθελοντές έκαναν επανειλημμένα σάρωση του εγκεφάλου τους καθώς άκουγαν ιστορίες podcast ενώ μετρούσαν τη νευρική τους δραστηριότητα μέσα σε μια μηχανή μαγνητικής τομογραφίας. Το να ξαπλώνεις μέσα σε έναν γιγάντιο, θορυβώδη μαγνήτη δεν είναι διασκεδαστικό για κανέναν και η ομάδα φρόντισε να κρατήσει τους εθελοντές ενδιαφέρον και σε εγρήγορση, καθώς η προσοχή επηρεάζει την αποκωδικοποίηση.

Για κάθε άτομο, το τεράστιο σύνολο δεδομένων που ακολούθησε τροφοδοτήθηκε σε ένα πλαίσιο που τροφοδοτείται από τη μηχανική μάθηση. Χάρη στην πρόσφατη έκρηξη στα μοντέλα μηχανικής μάθησης που βοηθούν στην επεξεργασία της φυσικής γλώσσας, η ομάδα μπόρεσε να αξιοποιήσει αυτούς τους πόρους και να κατασκευάσει εύκολα τον αποκωδικοποιητή.

Έχει πολλά εξαρτήματα. Το πρώτο είναι ένα μοντέλο κωδικοποίησης που χρησιμοποιεί το αρχικό GPT, τον προκάτοχο του μαζικά δημοφιλούς ChatGPT. Το μοντέλο παίρνει κάθε λέξη και προβλέπει πώς θα ανταποκριθεί ο εγκέφαλος. Εδώ, η ομάδα βελτίωσε το GPT χρησιμοποιώντας περισσότερες από 200 εκατομμύρια λέξεις συνολικά από σχόλια και podcast του Reddit.

Αυτό το δεύτερο μέρος χρησιμοποιεί μια δημοφιλή τεχνική στη μηχανική μάθηση που ονομάζεται αποκωδικοποίηση Bayes. Ο αλγόριθμος μαντεύει την επόμενη λέξη με βάση μια προηγούμενη ακολουθία και χρησιμοποιεί τη μαντέψει λέξη για να ελέγξει την πραγματική απόκριση του εγκεφάλου.

Για παράδειγμα, ένα επεισόδιο podcast είχε ως ιστορία «ο μπαμπάς μου δεν το χρειάζεται…». Όταν τροφοδοτήθηκε στον αποκωδικοποιητή ως προτροπή, ήρθε με πιθανές απαντήσεις: «πολύ», «σωστό», «από» και ούτω καθεξής. Η σύγκριση της προβλεπόμενης εγκεφαλικής δραστηριότητας με κάθε λέξη με αυτή που παράγεται από την πραγματική λέξη βοήθησε τον αποκωδικοποιητή να βελτιώσει τα πρότυπα εγκεφαλικής δραστηριότητας κάθε ατόμου και να διορθώσει τα λάθη.

Μετά την επανάληψη της διαδικασίας με τις καλύτερες προβλεπόμενες λέξεις, η πτυχή της αποκωδικοποίησης του προγράμματος τελικά έμαθε το μοναδικό «νευρικό αποτύπωμα» κάθε ατόμου για τον τρόπο επεξεργασίας της γλώσσας.

Ένας νευρομεταφραστής

Ως απόδειξη της ιδέας, η ομάδα συνέθεσε τις αποκωδικοποιημένες απαντήσεις με το πραγματικό κείμενο της ιστορίας.

Πλησίασε εκπληκτικά, αλλά μόνο για τη γενική ουσία. Για παράδειγμα, μια ιστορία, «αρχίζουμε να ανταλλάσσουμε ιστορίες για τις ζωές μας που είμαστε και οι δύο από το βορρά», αποκωδικοποιήθηκε ως «αρχίσαμε να μιλάμε για τις εμπειρίες μας στην περιοχή που γεννήθηκε, ήμουν από το βορρά».

Αυτή η παράφραση είναι αναμενόμενη, εξήγησε ο Huth. Επειδή το fMRI είναι μάλλον θορυβώδες και αργό, είναι σχεδόν αδύνατο να συλλάβει και να αποκωδικοποιήσει κάθε λέξη. Ο αποκωδικοποιητής τροφοδοτείται με ένα συνονθύλευμα λέξεων και πρέπει να ξεμπερδέψει τις έννοιές τους χρησιμοποιώντας χαρακτηριστικά όπως στροφές φράσης.

πραγματικός έναντι αποκωδικοποιημένου ερεθίσματος αποκωδικοποιητής σαρώσεων εγκεφάλου
Πίστωση εικόνας: Το Πανεπιστήμιο του Τέξας στο Ώστιν

Αντίθετα, οι ιδέες είναι πιο μόνιμες και αλλάζουν σχετικά αργά. Επειδή η fMRI έχει καθυστέρηση κατά τη μέτρηση της νευρικής δραστηριότητας, συλλαμβάνει αφηρημένες έννοιες και σκέψεις καλύτερα από συγκεκριμένες λέξεις.

Αυτή η προσέγγιση υψηλού επιπέδου έχει προνόμια. Αν και δεν έχει πιστότητα, ο αποκωδικοποιητής καταγράφει υψηλότερο επίπεδο γλωσσικής αναπαράστασης από προηγούμενες προσπάθειες, συμπεριλαμβανομένων των εργασιών που δεν περιορίζονται μόνο στην ομιλία. Σε μια δοκιμή, οι εθελοντές παρακολούθησαν ένα κινούμενο κλιπ ενός κοριτσιού που δέχτηκε επίθεση από δράκους χωρίς ήχο. Χρησιμοποιώντας μόνο την εγκεφαλική δραστηριότητα, ο αποκωδικοποιητής περιέγραψε τη σκηνή από την οπτική γωνία του πρωταγωνιστή ως μια ιστορία βασισμένη σε κείμενο. Με άλλα λόγια, ο αποκωδικοποιητής ήταν σε θέση να μεταφράσει οπτικές πληροφορίες απευθείας σε μια αφήγηση βασισμένη σε μια αναπαράσταση της γλώσσας που κωδικοποιήθηκε στη δραστηριότητα του εγκεφάλου.

Ομοίως, ο αποκωδικοποιητής ανακατασκεύασε επίσης φανταστικές ιστορίες ενός λεπτού από τους εθελοντές.

Μετά από πάνω από μια δεκαετία εργασίας στην τεχνολογία, «ήταν συγκλονιστικό και συναρπαστικό όταν τελικά λειτούργησε», είπε ο Huth.

Αν και ο αποκωδικοποιητής δεν διαβάζει ακριβώς τα μυαλά, η ομάδα φρόντισε να αξιολογήσει την πνευματική ιδιωτικότητα. Σε μια σειρά δοκιμών, διαπίστωσαν ότι ο αποκωδικοποιητής λειτουργούσε μόνο με την ενεργό νοητική συμμετοχή των εθελοντών. Ζητώντας από τους συμμετέχοντες να μετρήσουν κατά σειρά επτά, να ονομάσουν διαφορετικά ζώα ή να κατασκευάσουν νοερά τις δικές τους ιστορίες, υποβάθμισε γρήγορα τον αποκωδικοποιητή, είπε ο πρώτος συγγραφέας Τζέρι Τανγκ. Με άλλα λόγια, ο αποκωδικοποιητής μπορεί να αντισταθεί συνειδητά.

Προς το παρόν, η τεχνολογία λειτουργεί μόνο μετά από μήνες προσεκτικών σαρώσεων εγκεφάλου σε μια μηχανή που βουίζει δυνατά ενώ βρίσκεται εντελώς ακίνητη - δύσκολα εφικτή για κλινική χρήση. Η ομάδα εργάζεται για τη μετάφραση της τεχνολογίας σε fNIRS (λειτουργική φασματοσκοπία εγγύς υπέρυθρη), η οποία μετρά τα επίπεδα οξυγόνου στο αίμα στον εγκέφαλο. Αν και έχει χαμηλότερη ανάλυση από το fMRI, το fNIRS είναι πολύ πιο φορητό καθώς το κύριο υλικό είναι μια συσκευή που μοιάζει με σκουφάκι κολύμβησης που χωράει εύκολα κάτω από ένα hoodie.

"Με τροποποιήσεις, θα πρέπει να είμαστε σε θέση να μεταφράσουμε την τρέχουσα ρύθμιση σε fNIRS χονδρική", δήλωσε ο Huth.

Η ομάδα σχεδιάζει επίσης να χρησιμοποιήσει νεότερα μοντέλα γλώσσας για να ενισχύσει την ακρίβεια του αποκωδικοποιητή και ενδεχομένως να γεφυρώσει διαφορετικές γλώσσες. Επειδή οι γλώσσες έχουν μια κοινή νευρωνική αναπαράσταση στον εγκέφαλο, ο αποκωδικοποιητής θα μπορούσε θεωρητικά να κωδικοποιήσει μια γλώσσα και να χρησιμοποιήσει τα νευρικά σήματα για να την αποκωδικοποιήσει σε μια άλλη.

Είναι μια «συναρπαστική μελλοντική κατεύθυνση», είπε ο Huth.

Image Credit: Τζέρι Τανγκ/Μάρθα Μοράλες/Το Πανεπιστήμιο του Τέξας στο Όστιν

Σφραγίδα ώρας:

Περισσότερα από Κέντρο μοναδικότητας