Ten dekoder aktywności mózgu tłumaczy pomysły na tekst, używając tylko skanów

Ten dekoder aktywności mózgu tłumaczy pomysły na tekst, używając tylko skanów

Język i mowa to sposób, w jaki wyrażamy nasze wewnętrzne myśli. Ale neuronaukowcy po prostu pominęli potrzebę słyszenia mowy, przynajmniej w laboratorium. Zamiast tego podłączyli się bezpośrednio do biologicznej maszyny, która generuje język i idee: do mózgu.

Korzystając ze skanów mózgu i dużej dawki uczenia maszynowego, zespół z University of Texas w Austin opracował „dekoder języka”, który rejestruje sedno tego, co dana osoba słyszy, na podstawie samych wzorców aktywacji mózgu. Daleki od kucyka jednej sztuczki, dekoder może również tłumaczyć wyimaginowaną mowę, a nawet generować opisowe napisy do niemych filmów za pomocą aktywności neuronowej.

Oto kicker: metoda nie wymaga operacji. Zamiast polegać na wszczepionych elektrodach, które nasłuchują impulsów elektrycznych bezpośrednio z neuronów, neurotechnologia wykorzystuje funkcjonalne obrazowanie rezonansu magnetycznego (fMRI), całkowicie nieinwazyjną procedurę, do generowania map mózgu odpowiadających językowi.

Żeby było jasne, technologia nie polega na czytaniu w myślach. W każdym przypadku dekoder tworzy parafrazy, które oddają ogólną ideę zdania lub akapitu. Nie powtarza każdego słowa. Ale to też jest moc dekodera.

„Uważamy, że dekoder reprezentuje coś głębszego niż języki” – powiedział na konferencji prasowej główny autor badania, dr Alexander Huth. „Możemy odzyskać ogólny pomysł… i zobaczyć, jak pomysł ewoluuje, nawet jeśli zgubią się dokładne słowa”.

Badania, opublikowane w tym tygodniu w Nature Neuroscience, stanowi potężny pierwszy nacisk na nieinwazję interfejsy mózg-maszyna do dekodowania języka — notorycznie trudny problem. Przy dalszym rozwoju technologia może pomóc tym, którzy utracili zdolność mówienia, odzyskać zdolność komunikowania się ze światem zewnętrznym.

Praca otwiera również nowe możliwości poznania sposobu kodowania języka w mózgu, a naukowcom zajmującym się sztuczną inteligencją pozwala zagłębić się w „czarną skrzynkę” modeli uczenia maszynowego, które przetwarzają mowę i język.

„Minęło dużo czasu… byliśmy trochę zszokowani, że to działa tak dobrze”, powiedział Huth.

Język dekodowania

Przełożenie aktywności mózgu na mowę nie jest niczym nowym. Jedno poprzednie badanie wykorzystano elektrody umieszczone bezpośrednio w mózgach pacjentów z porażeniem. Wsłuchując się w elektryczne drgania neuronów, zespół był w stanie zrekonstruować pełne słowa pacjenta.

Huth postanowił wybrać alternatywną, choć odważną trasę. Zamiast polegać na neurochirurgii, zdecydował się na podejście nieinwazyjne: fMRI.

„Ogólne oczekiwania wśród neuronaukowców, że można zrobić tego rodzaju rzeczy za pomocą fMRI, są dość niskie” – powiedział Huth.

Istnieje wiele powodów. W przeciwieństwie do implantów, które wykorzystują bezpośrednio aktywność neuronów, fMRI mierzy, jak zmienia się poziom tlenu we krwi. Nazywa się to sygnałem BOLD. Ponieważ bardziej aktywne regiony mózgu wymagają więcej tlenu, odpowiedzi BOLD działają jako wiarygodne proxy dla aktywności neuronów. Ale wiąże się to z problemami. Sygnały są powolne w porównaniu do pomiarów impulsów elektrycznych, a sygnały mogą być zaszumione.

Jednak fMRI ma ogromną zaletę w porównaniu z implantami mózgowymi: może monitorować cały mózg w wysokiej rozdzielczości. W porównaniu do zbierania danych z samorodka w jednym regionie, zapewnia widok z lotu ptaka na funkcje poznawcze wyższego poziomu – w tym język.

W przypadku dekodowania języka większość wcześniejszych badań dotyczyła kory ruchowej, obszaru, który kontroluje sposób poruszania się ust i krtani w celu generowania mowy lub bardziej „powierzchniowego” przetwarzania języka w celu artykulacji. Zespół Hutha zdecydował się pójść o jedną abstrakcję wyżej: w sferę myśli i idei.

W nieznane

Zespół od samego początku zdał sobie sprawę, że potrzebuje dwóch rzeczy. Po pierwsze, zbiór wysokiej jakości skanów mózgu wykorzystywanych do szkolenia dekodera. Po drugie, ramy uczenia maszynowego do przetwarzania danych.

Aby wygenerować bazę danych mapy mózgu, siedmiu ochotników wielokrotnie skanowało mózgi, słuchając historii z podcastów, jednocześnie mierząc aktywność neuronów wewnątrz maszyny MRI. Leżenie wewnątrz gigantycznego, hałaśliwego magnesu nie jest zabawne dla nikogo, a zespół zadbał o to, aby ochotnicy byli zainteresowani i czujni, ponieważ uwaga ma wpływ na dekodowanie.

Dla każdej osoby wynikający z tego ogromny zbiór danych został wprowadzony do platformy opartej na uczeniu maszynowym. Dzięki niedawnej eksplozji modeli uczenia maszynowego, które pomagają przetwarzać język naturalny, zespół był w stanie wykorzystać te zasoby i szybko zbudować dekoder.

Ma wiele elementów. Pierwszy to model kodowania wykorzystujący oryginalny GPT, poprzednik niezwykle popularnego ChatGPT. Model bierze każde słowo i przewiduje reakcję mózgu. Tutaj zespół dopracował GPT, używając łącznie ponad 200 milionów słów z komentarzy i podcastów Reddit.

Ta druga część wykorzystuje popularną technikę uczenia maszynowego zwaną dekodowaniem bayesowskim. Algorytm odgaduje następne słowo na podstawie poprzedniej sekwencji i używa odgadniętego słowa do sprawdzenia rzeczywistej reakcji mózgu.

Na przykład jeden odcinek podcastu miał „mój tata tego nie potrzebuje…” jako fabułę. Po wprowadzeniu do dekodera jako monitu, pojawił się z potencjalnymi odpowiedziami: „dużo”, „dobrze”, „od” i tak dalej. Porównanie przewidywanej aktywności mózgu z każdym słowem z tą wygenerowaną na podstawie rzeczywistego słowa pomogło dekoderowi udoskonalić wzorce aktywności mózgu każdej osoby i poprawić błędy.

Po powtórzeniu procesu z najlepszymi przewidywanymi słowami następuje aspekt dekodowania programu

w końcu nauczył się unikalnego „neuronowego odcisku palca” każdej osoby dotyczącego sposobu przetwarzania języka.

Neuro Tłumacz

Jako dowód słuszności koncepcji, zespół porównał zdekodowane odpowiedzi z rzeczywistym tekstem historii.

Było zaskakująco blisko, ale tylko dla ogólnego sedna. Na przykład jeden wątek fabularny „zaczynamy wymieniać się historiami o naszym życiu, oboje jesteśmy z północy”, został zdekodowany, gdy „zaczęliśmy rozmawiać o naszych doświadczeniach w okolicy, w której się urodził, ja byłem z północy”.

Ta parafraza jest oczekiwana, wyjaśnił Huth. Ponieważ fMRI jest raczej hałaśliwy i powolny, prawie niemożliwe jest uchwycenie i zdekodowanie każdego słowa. Dekoder jest karmiony mieszanką słów i musi rozwikłać ich znaczenie za pomocą takich funkcji, jak zwroty zdań.

Dekoder skanowania mózgu rzeczywistego vs dekodowanego bodźca
Źródło zdjęcia: University of Texas w Austin

Natomiast idee są bardziej trwałe i zmieniają się stosunkowo wolno. Ponieważ fMRI ma opóźnienie podczas pomiaru aktywności neuronów, oddaje abstrakcyjne koncepcje i myśli lepiej niż konkretne słowa.

To podejście na wysokim poziomie ma zalety. Pomimo braku wierności dekoder przechwytuje wyższy poziom reprezentacji języka niż poprzednie próby, w tym w przypadku zadań nieograniczających się wyłącznie do mowy. W jednym teście ochotnicy oglądali bez dźwięku animowany klip przedstawiający dziewczynę atakowaną przez smoki. Używając samej aktywności mózgu, dekoder opisał scenę z perspektywy bohatera jako opowieść tekstową. Innymi słowy, dekoder był w stanie przetłumaczyć informacje wizualne bezpośrednio na narrację opartą na reprezentacji języka zakodowanej w aktywności mózgu.

Podobnie dekoder zrekonstruował jednominutowe wymyślone historie ochotników.

Po ponad dekadzie pracy nad technologią „to było szokujące i ekscytujące, kiedy w końcu zadziałało” — powiedział Huth.

Chociaż dekoder nie czyta dokładnie w myślach, zespół ostrożnie ocenił prywatność psychiczną. W serii testów odkryli, że dekoder działał tylko przy aktywnym udziale umysłowym ochotników. Poproszenie uczestników o policzenie w kolejności do siedmiu, nazwanie różnych zwierząt lub skonstruowanie w myślach własnych historii szybko spowodowało degradację dekodera, powiedział pierwszy autor Jerry Tang. Innymi słowy, dekoderowi można „świadomie stawić opór”.

Na razie technologia działa dopiero po miesiącach starannych skanów mózgu w głośno brzęczącej maszynie, leżącej całkowicie nieruchomo - prawie niewykonalna do użytku klinicznego. Zespół pracuje nad przełożeniem technologii na fNIRS (funkcjonalna spektroskopia w bliskiej podczerwieni), która mierzy poziom tlenu we krwi w mózgu. Chociaż ma niższą rozdzielczość niż fMRI, fNIRS jest znacznie bardziej przenośny, ponieważ głównym sprzętem jest urządzenie przypominające czepek pływacki, które z łatwością mieści się pod bluzą z kapturem.

„Dzięki poprawkom powinniśmy być w stanie przełożyć obecną konfigurację na całą sprzedaż fNIRS” – powiedział Huth.

Zespół planuje również wykorzystanie nowszych modeli językowych, aby zwiększyć dokładność dekodera i potencjalnie połączyć różne języki. Ponieważ języki mają wspólną reprezentację neuronową w mózgu, dekoder mógłby teoretycznie zakodować jeden język i użyć sygnałów neuronowych do zdekodowania go na inny.

To „ekscytujący kierunek przyszłości” — powiedział Huth.

Kredytowych Image: Jerry Tang/Martha Morales/The University of Texas w Austin

Znak czasu:

Więcej z Centrum osobliwości