Wie Transformer Teile des Gehirns zu imitieren scheinen PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Wie Transformatoren Teile des Gehirns nachzuahmen scheinen

Zu verstehen, wie das Gehirn räumliche Informationen organisiert und darauf zugreift – wo wir uns befinden, was um die Ecke liegt, wie wir dorthin gelangen – bleibt eine exquisite Herausforderung. Der Prozess beinhaltet das Abrufen eines ganzen Netzwerks von Erinnerungen und gespeicherten räumlichen Daten von Zehnmilliarden von Neuronen, die jeweils mit Tausenden von anderen verbunden sind. Neurowissenschaftler haben Schlüsselelemente wie identifiziert Gitterzellen, Neuronen, die Orte abbilden. Aber tiefer zu gehen wird sich als schwierig erweisen: Es ist nicht so, dass Forscher Scheiben menschlicher grauer Substanz entfernen und untersuchen können, um zu beobachten, wie ortsbezogene Erinnerungen an Bilder, Geräusche und Gerüche durchfließen und sich miteinander verbinden.

Künstliche Intelligenz bietet einen anderen Zugang. Seit Jahren nutzen Neurowissenschaftler viele Arten von neuronalen Netzwerken – die Motoren, die die meisten Deep-Learning-Anwendungen antreiben – um das Feuern von Neuronen im Gehirn zu modellieren. In neueren Arbeiten haben Forscher gezeigt, dass der Hippocampus, eine für das Gedächtnis entscheidende Struktur des Gehirns, im Grunde eine besondere Art von neuronalem Netz ist, das als a bekannt ist Transformator, verkleidet. Ihr neues Modell verfolgt räumliche Informationen auf eine Weise, die der inneren Funktionsweise des Gehirns entspricht. Sie haben bemerkenswerte Erfolge erzielt.

„Die Tatsache, dass wir wissen, dass diese Gehirnmodelle dem Transformator entsprechen, bedeutet, dass unsere Modelle viel bessere Leistungen erbringen und einfacher zu trainieren sind“, sagte er James Whittington, ein kognitiver Neurowissenschaftler, der seine Zeit zwischen der Stanford University und dem Labor von aufteilt Tim Behrens an der Universität Oxford.

Studien von Whittington und anderen weisen darauf hin, dass Transformatoren die Fähigkeit neuronaler Netzwerkmodelle erheblich verbessern können, die Arten von Berechnungen nachzuahmen, die von Gitterzellen und anderen Teilen des Gehirns ausgeführt werden. Solche Modelle könnten unser Verständnis dafür vorantreiben, wie künstliche neuronale Netze funktionieren und, noch wahrscheinlicher, wie Berechnungen im Gehirn durchgeführt werden, sagte Whittington.

"Wir versuchen nicht, das Gehirn neu zu erschaffen", sagte er David Ha, ein Informatiker bei Google Brain, der auch an Transformatormodellen arbeitet. „Aber können wir einen Mechanismus schaffen, der das kann, was das Gehirn tut?“

Transformers erschien erstmals vor fünf Jahren als eine neue Möglichkeit für die KI, Sprache zu verarbeiten. Sie sind die geheime Zutat in diesen schlagzeilenträchtigen satzvervollständigenden Programmen wie BERT und GPT-3, das überzeugende Liedtexte erzeugen, Sonette im Shakespeare-Stil komponieren und sich als Kundendienstmitarbeiter ausgeben kann.

Transformer arbeiten mit einem Mechanismus namens Selbstaufmerksamkeit, bei dem jede Eingabe – ein Wort, ein Pixel, eine Zahl in einer Sequenz – immer mit jeder anderen Eingabe verbunden ist. (Andere neuronale Netze verbinden Eingaben nur mit bestimmten anderen Eingaben.) Aber während Transformatoren für Sprachaufgaben entwickelt wurden, haben sie sich seitdem bei anderen Aufgaben wie der Klassifizierung von Bildern – und jetzt bei der Modellierung des Gehirns – hervorgetan.

Im Jahr 2020 wurde eine Gruppe unter der Leitung von Sepp Hochreiter, Informatiker an der Johannes Kepler Universität Linz in Österreich, verwendete einen Transformator, um ein leistungsstarkes, langjähriges Modell des Gedächtnisabrufs namens Hopfield-Netzwerk umzurüsten. Vor 40 Jahren erstmals vom Princeton-Physiker John Hopfield eingeführt, folgen diese Netzwerke einer allgemeinen Regel: Neuronen, die gleichzeitig aktiv sind, bauen starke Verbindungen untereinander auf.

Hochreiter und seine Mitarbeiter, die feststellten, dass Forscher nach besseren Modellen für den Abruf von Erinnerungen gesucht haben, sahen einen Zusammenhang zwischen der Art und Weise, wie Hopfield-Netzwerke Erinnerungen abrufen, und der Art und Weise, wie Transformatoren Aufmerksamkeit erregen. Sie rüsteten das Hopfield-Netzwerk auf und verwandelten es im Wesentlichen in einen Transformator. Diese Änderung ermöglichte es dem Modell, aufgrund effektiverer Verbindungen mehr Erinnerungen zu speichern und abzurufen, sagte Whittington. Hopfield selbst hat zusammen mit Dmitry Krotov am MIT-IBM Watson AI Lab bewiesen, dass ein Transformator-basiertes Hopfield-Netzwerk biologisch plausibel ist.

Dann, früher in diesem Jahr, Whittington und Behrens halfen dabei, Hochreiters Ansatz weiter zu optimieren, indem sie den Transformator so modifizierten, dass er Erinnerungen nicht als lineare Abfolge behandelte – wie eine Reihe von Wörtern in einem Satz –, sondern sie als Koordinaten in höherdimensionalen Räumen codierte. Diese „Wendung“, wie die Forscher es nannten, verbesserte die Leistung des Modells bei neurowissenschaftlichen Aufgaben weiter. Sie zeigten auch, dass das Modell mathematisch äquivalent zu Modellen der Rasterzellen-Feuermuster war, die Neurowissenschaftler in fMRT-Scans sehen.

„Gitterzellen haben diese Art von aufregender, schöner, regelmäßiger Struktur und mit auffälligen Mustern, die wahrscheinlich nicht zufällig auftauchen“, sagte Caswell Barry, Neurowissenschaftler am University College London. Die neue Arbeit zeigte, wie Transformatoren genau die im Hippocampus beobachteten Muster replizieren. „Sie erkannten, dass ein Transformator auf der Grundlage früherer Zustände und seiner Bewegung herausfinden kann, wo er sich befindet, und zwar auf eine Weise, die in traditionelle Modelle von Gitterzellen integriert ist.“

Andere neuere Arbeiten deuten darauf hin, dass Transformatoren unser Verständnis auch für andere Gehirnfunktionen verbessern könnten. Letztes Jahr hat Martin Schrimpf, Computational Neuroscientist am Massachusetts Institute of Technology, analysierten 43 verschiedene neuronale Netzmodelle um zu sehen, wie gut sie Messungen der menschlichen neuralen Aktivität vorhersagten, wie sie von fMRI und Elektrokortikographie berichtet wurden. Er fand heraus, dass Transformatoren die derzeit führenden neuronalen Netze auf dem neuesten Stand der Technik sind, die fast alle in der Bildgebung gefundenen Variationen vorhersagen.

Und Ha, zusammen mit einem anderen Informatiker Yujin Tang, entwarf kürzlich ein Modell, das absichtlich große Datenmengen auf zufällige, ungeordnete Weise durch einen Transformator senden konnte und nachahmte, wie der menschliche Körper sensorische Beobachtungen an das Gehirn übermittelt. Ihr Transformator konnte, wie unser Gehirn, erfolgreich mit einem ungeordneten Informationsfluss umgehen.

„Neuronale Netze sind fest verdrahtet, um eine bestimmte Eingabe zu akzeptieren“, sagte Tang. Aber im wirklichen Leben ändern sich Datensätze oft schnell, und die meisten KIs haben keine Möglichkeit, sich anzupassen. „Wir wollten mit einer Architektur experimentieren, die sich sehr schnell anpassen kann.“

Trotz dieser Anzeichen des Fortschritts sieht Behrens Transformers nur als einen Schritt in Richtung eines genauen Modells des Gehirns – nicht als das Ende der Suche. „Ich muss hier ein skeptischer Neurowissenschaftler sein“, sagte er. „Ich glaube nicht, dass Transformatoren letztendlich so aussehen werden, wie wir zum Beispiel über Sprache im Gehirn denken, obwohl sie das derzeit beste Satzmodell haben.“

„Ist das die effizienteste Grundlage, um Vorhersagen darüber zu treffen, wo ich bin und was ich als nächstes sehen werde? Wenn ich ehrlich bin, ist es zu früh, um das zu sagen“, sagte Barry.

Auch Schrimpf bemerkte, dass selbst die leistungsstärksten Transformatoren begrenzt sind und zum Beispiel gut für Wörter und kurze Sätze funktionieren, aber nicht für größere Sprachaufgaben wie das Erzählen von Geschichten.

„Meiner Meinung nach versetzt Sie diese Architektur, dieser Transformator, in den richtigen Raum, um die Struktur des Gehirns zu verstehen, und kann durch Training verbessert werden“, sagte Schrimpf. „Das ist eine gute Richtung, aber das Feld ist super komplex.“

Zeitstempel:

Mehr von Quantamagazin