Autodidaktische KI zeigt Ähnlichkeiten zur Funktionsweise des Gehirns PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Autodidaktische KI zeigt Ähnlichkeiten zur Funktionsweise des Gehirns

Seit einem Jahrzehnt werden viele der beeindruckendsten Systeme der künstlichen Intelligenz anhand eines riesigen Bestands an gekennzeichneten Daten gelehrt. Ein Bild könnte zum Beispiel als „Tabby-Katze“ oder „Tiger-Katze“ bezeichnet werden, um ein künstliches neuronales Netzwerk zu „trainieren“, um eine getigerte Katze korrekt von einem Tiger zu unterscheiden. Die Strategie war sowohl spektakulär erfolgreich als auch beklagenswert mangelhaft.

Ein solches „überwachtes“ Training erfordert Daten, die von Menschen mühsam gekennzeichnet werden, und die neuronalen Netze nehmen oft Abkürzungen und lernen, die Kennzeichnungen mit minimalen und manchmal oberflächlichen Informationen zu verknüpfen. Beispielsweise könnte ein neuronales Netzwerk das Vorhandensein von Gras verwenden, um ein Foto einer Kuh zu erkennen, da Kühe normalerweise auf Feldern fotografiert werden.

„Wir bilden eine Generation von Algorithmen aus, die wie Studenten sind, [die] das ganze Semester nicht zum Unterricht gekommen sind und dann in der Nacht vor dem Abschluss pauken“, sagte er Alexej Efros, Informatiker an der University of California, Berkeley. „Sie lernen den Stoff nicht wirklich, aber sie schneiden im Test gut ab.“

Für Forscher, die sich für die Schnittmenge von tierischer und maschineller Intelligenz interessieren, könnte dieses „überwachte Lernen“ außerdem in Bezug auf das, was es über biologische Gehirne enthüllen kann, begrenzt sein. Tiere – einschließlich Menschen – verwenden keine beschrifteten Datensätze zum Lernen. Sie erkunden die Umwelt größtenteils auf eigene Faust und gewinnen dabei ein reichhaltiges und robustes Verständnis der Welt.

Jetzt haben einige Computer-Neurowissenschaftler damit begonnen, neuronale Netze zu erforschen, die mit wenigen oder keinen von Menschen gekennzeichneten Daten trainiert wurden. Diese „self-supervised learning“-Algorithmen haben sich als enorm erfolgreich erwiesen Modellierung der menschlichen Sprache und neuerdings Bilderkennung. In neueren Arbeiten haben Computermodelle der visuellen und auditiven Systeme von Säugetieren, die unter Verwendung von selbstüberwachten Lernmodellen erstellt wurden, eine engere Übereinstimmung mit der Gehirnfunktion gezeigt als ihre Gegenstücke zum überwachten Lernen. Einigen Neurowissenschaftlern scheint es, als ob die künstlichen Netzwerke beginnen, einige der tatsächlichen Methoden zu enthüllen, die unser Gehirn zum Lernen verwendet.

Fehlerhafte Aufsicht

Von künstlichen neuronalen Netzen inspirierte Gehirnmodelle wurden vor etwa 10 Jahren erwachsen, ungefähr zur gleichen Zeit, als ein neuronales Netz benannt wurde AlexNet revolutionierte die Aufgabe, unbekannte Bilder zu klassifizieren. Dieses Netzwerk bestand, wie alle neuronalen Netzwerke, aus Schichten künstlicher Neuronen, Recheneinheiten, die Verbindungen miteinander herstellen, deren Stärke oder „Gewicht“ variieren kann. Wenn ein neuronales Netzwerk ein Bild nicht richtig klassifiziert, aktualisiert der Lernalgorithmus die Gewichtungen der Verbindungen zwischen den Neuronen, um diese Fehlklassifizierung in der nächsten Trainingsrunde weniger wahrscheinlich zu machen. Der Algorithmus wiederholt diesen Vorgang viele Male mit allen Trainingsbildern und passt die Gewichte an, bis die Fehlerrate des Netzwerks akzeptabel niedrig ist.

Etwa zur gleichen Zeit entwickelten Neurowissenschaftler die ersten Rechenmodelle des visuelles System von Primaten, mit neuronalen Netzen wie AlexNet und seinen Nachfolgern. Die Vereinigung sah vielversprechend aus: Wenn zum Beispiel Affen und künstlichen neuronalen Netzen die gleichen Bilder gezeigt wurden, zeigte die Aktivität der echten Neuronen und der künstlichen Neuronen eine faszinierende Übereinstimmung. Es folgten künstliche Modelle der Hör- und Geruchserkennung.

Aber als sich das Feld weiterentwickelte, erkannten die Forscher die Grenzen des überwachten Trainings. Zum Beispiel haben Leon Gatys, damals Informatiker an der Universität Tübingen in Deutschland, und seine Kollegen 2017 ein Bild eines Ford Model T gemacht und dann ein Leopardenmuster über das Foto gelegt, wodurch ein bizarres, aber leicht erkennbares Bild entstand . Ein führendes künstliches neuronales Netzwerk klassifizierte das Originalbild korrekterweise als Modell T, betrachtete das modifizierte Bild jedoch als Leopard. Es war auf die Textur fixiert und hatte kein Verständnis für die Form eines Autos (oder eines Leoparden, was das betrifft).

Selbstüberwachte Lernstrategien sollen solche Probleme vermeiden. Bei diesem Ansatz kennzeichnen Menschen die Daten nicht. Vielmehr „kommen die Labels aus den Daten selbst“, heißt es Friedemann Zenke, Computational Neuroscientist am Friedrich Miescher Institute for Biomedical Research in Basel, Schweiz. Selbstüberwachte Algorithmen erzeugen im Wesentlichen Lücken in den Daten und bitten das neuronale Netzwerk, die Lücken zu füllen. In einem sogenannten Large Language Model beispielsweise zeigt der Trainingsalgorithmus dem neuronalen Netz die ersten paar Wörter eines Satzes und fordert es auf, das nächste Wort vorherzusagen. Wenn das Modell mit einem riesigen Textkorpus aus dem Internet trainiert wird scheint zu lernen die syntaktische Struktur der Sprache, die beeindruckende sprachliche Fähigkeiten demonstriert – alles ohne externe Etiketten oder Aufsicht.

Eine ähnliche Anstrengung ist im Bereich Computer Vision im Gange. Ende 2021, Kaiming He und Kollegen enthüllten ihre „maskierter Autoencoder“, die auf a aufbaut Technik wurde 2016 vom Efros-Team entwickelt. Der selbstüberwachte Lernalgorithmus maskiert zufällig Bilder und verdeckt fast drei Viertel von jedem. Der maskierte Auto-Encoder wandelt die unmaskierten Teile in latente Repräsentationen um – komprimierte mathematische Beschreibungen, die wichtige Informationen über ein Objekt enthalten. (Im Falle eines Bildes könnte die latente Darstellung eine mathematische Beschreibung sein, die unter anderem die Form eines Objekts im Bild erfasst.) Ein Decoder wandelt diese Darstellungen dann wieder in vollständige Bilder um.

Der selbstüberwachte Lernalgorithmus trainiert die Encoder-Decoder-Kombination, maskierte Bilder in ihre Vollversionen umzuwandeln. Jegliche Unterschiede zwischen den realen Bildern und den rekonstruierten Bildern werden in das System zurückgemeldet, um es beim Lernen zu unterstützen. Dieser Prozess wiederholt sich für eine Reihe von Trainingsbildern, bis die Fehlerrate des Systems angemessen niedrig ist. Als in einem Beispiel einem trainierten maskierten Autoencoder ein zuvor ungesehenes Bild eines Busses gezeigt wurde, von dem fast 80 % verdeckt waren, rekonstruierte das System erfolgreich die Struktur des Busses.

„Das ist ein sehr, sehr beeindruckendes Ergebnis“, sagte Efros.

Die latenten Repräsentationen, die in einem System wie diesem erzeugt werden, scheinen wesentlich tiefere Informationen zu enthalten, als bisherige Strategien beinhalten könnten. Das System lernt beispielsweise die Form eines Autos – oder eines Leoparden – und nicht nur deren Muster. „Und das ist wirklich die Grundidee des selbstüberwachten Lernens – Sie bauen Ihr Wissen von Grund auf auf“, sagte Efros. Kein Last-Minute-Pauken, um Prüfungen zu bestehen.

Selbstüberwachte Gehirne

In Systemen wie diesem sehen einige Neurowissenschaftler Echos davon, wie wir lernen. „Ich denke, es besteht kein Zweifel, dass 90 % dessen, was das Gehirn tut, selbstüberwachtes Lernen ist“, sagte er Blake Richards, Computational Neuroscientist an der McGill University und Mila, dem Quebec Artificial Intelligence Institute. Es wird angenommen, dass biologische Gehirne kontinuierlich beispielsweise die zukünftige Position eines sich bewegenden Objekts oder das nächste Wort in einem Satz vorhersagen, so wie ein selbstüberwachter Lernalgorithmus versucht, die Lücke in einem Bild oder einem Textsegment vorherzusagen. Und Gehirne lernen auch selbst aus ihren Fehlern – nur ein kleiner Teil des Feedbacks unseres Gehirns kommt von einer externen Quelle, die im Wesentlichen „falsche Antwort“ sagt.

Betrachten Sie zum Beispiel die visuellen Systeme von Menschen und anderen Primaten. Dies sind die am besten untersuchten aller tierischen Sinnessysteme, aber Neurowissenschaftler haben Mühe zu erklären, warum sie zwei getrennte Bahnen umfassen: den ventralen visuellen Strom, der für die Erkennung von Objekten und Gesichtern verantwortlich ist, und den dorsalen visuellen Strom, der Bewegungen verarbeitet (der „ Was“- bzw. „Wo“-Wege).

Richards und sein Team haben ein selbstüberwachtes Modell entwickelt, das auf eine Antwort hinweist. Sie trainiert eine KI, die zwei verschiedene neuronale Netze kombiniert: Das erste, die sogenannte ResNet-Architektur, wurde für die Verarbeitung von Bildern entwickelt; das zweite, bekannt als rekurrentes Netzwerk, könnte eine Folge früherer Eingaben verfolgen, um Vorhersagen über die nächste erwartete Eingabe zu treffen. Um die kombinierte KI zu trainieren, begann das Team mit einer Sequenz von beispielsweise 10 Bildern aus einem Video und ließ sie von ResNet nacheinander verarbeiten. Das rekurrente Netzwerk sagte dann die latente Darstellung des 11. Frames voraus, während es nicht einfach die ersten 10 Frames abgleichte. Der selbstüberwachte Lernalgorithmus verglich die Vorhersage mit dem tatsächlichen Wert und wies die neuronalen Netze an, ihre Gewichte zu aktualisieren, um die Vorhersage zu verbessern.

Das Team von Richards stellte fest, dass eine mit einem einzigen ResNet trainierte KI gut in der Objekterkennung, aber nicht in der Kategorisierung von Bewegungen war. Aber als sie das einzelne ResNet in zwei Teile aufteilten und zwei Pfade erstellten (ohne die Gesamtzahl der Neuronen zu ändern), entwickelte die KI Repräsentationen für Objekte in einem und für Bewegung im anderen, was eine nachgelagerte Kategorisierung dieser Eigenschaften ermöglichte – genau wie unser Gehirn wahrscheinlich tun.

Um die KI weiter zu testen, zeigte das Team ihr eine Reihe von Videos, die Forscher des Allen Institute for Brain Science in Seattle zuvor Mäusen gezeigt hatten. Wie Primaten haben Mäuse Gehirnregionen, die auf statische Bilder und auf Bewegung spezialisiert sind. Die Allen-Forscher zeichneten die neuronale Aktivität im visuellen Kortex der Maus auf, während die Tiere die Videos ansahen.

Auch hier fand das Team von Richards Ähnlichkeiten in der Art und Weise, wie die KI und die lebenden Gehirne auf die Videos reagierten. Während des Trainings wurde einer der Pfade im künstlichen neuronalen Netzwerk den ventralen, objekterkennenden Regionen des Mausgehirns ähnlicher, und der andere Pfad ähnelte den bewegungsorientierten dorsalen Regionen.

Die Ergebnisse deuten darauf hin, dass unser visuelles System zwei spezialisierte Wege hat, weil sie helfen, die visuelle Zukunft vorherzusagen, sagte Richards; ein einziger Pfad ist nicht gut genug.

Modelle des menschlichen Gehörs erzählen eine ähnliche Geschichte. Im Juni führte ein Team durch Jean-Rémi King, wissenschaftlicher Mitarbeiter bei Meta AI, trainierte eine KI namens Wav2Vec 2.0, das ein neuronales Netzwerk verwendet, um Audio in latente Repräsentationen umzuwandeln. Die Forscher maskieren einige dieser Darstellungen, die dann in eine andere neuronale Netzwerkkomponente eingespeist werden, die als Transformator bezeichnet wird. Während des Trainings sagt der Transformer die maskierten Informationen voraus. Dabei lernt die gesamte KI, Töne in latente Repräsentationen umzuwandeln – auch hier sind keine Etiketten erforderlich. Das Team verwendete etwa 600 Stunden Sprachdaten, um das Netzwerk zu trainieren, „das ist ungefähr das, was ein Kind in den ersten zwei Jahren Erfahrung bekommen würde“, sagte King.

Sobald das System trainiert war, spielten die Forscher Teile von Hörbüchern in Englisch, Französisch und Mandarin ab. Die Forscher verglichen dann die Leistung der KI mit Daten von 412 Personen – einer Mischung aus Muttersprachlern der drei Sprachen, die dieselben Audioabschnitte gehört hatten, während ihr Gehirn in einem fMRT-Scanner abgebildet wurde. King sagte, dass sein neuronales Netzwerk und das menschliche Gehirn trotz der verrauschten und niedrig aufgelösten fMRI-Bilder „nicht nur miteinander korrelieren, sondern auf systematische Weise korrelieren“: Die Aktivität in den frühen Schichten der KI stimmt mit der Aktivität überein im primären auditorischen Kortex, während die Aktivität der tiefsten Schichten der KI mit der Aktivität in den höheren Schichten im Gehirn, in diesem Fall dem präfrontalen Kortex, übereinstimmt. „Das sind wirklich schöne Daten“, sagte Richards. „Es ist nicht schlüssig, aber [es] ist ein weiterer überzeugender Beweis dafür, dass die Art und Weise, wie wir Sprache lernen, tatsächlich zu einem großen Teil darin besteht, dass wir versuchen, die nächsten Dinge vorherzusagen, die gesagt werden.“

Unheilbare Pathologien

Nicht jeder ist überzeugt. Josh McDermott, ein Computational Neuroscientist am Massachusetts Institute of Technology, hat an Modellen der visuellen und auditiven Wahrnehmung gearbeitet, die sowohl überwachtes als auch selbstüberwachtes Lernen verwenden. Sein Labor hat das entwickelt, was er „Metamere“ nennt, synthetisierte Audio- und visuelle Signale, die für einen Menschen gerecht sind unergründlicher Lärm. Für ein künstliches neuronales Netzwerk erscheinen Metamere jedoch nicht von echten Signalen zu unterscheiden. Dies deutet darauf hin, dass die Repräsentationen, die sich in den tieferen Schichten des neuronalen Netzes bilden, selbst bei selbstüberwachtem Lernen, nicht mit den Repräsentationen in unserem Gehirn übereinstimmen. Diese selbstüberwachten Lernansätze „sind ein Fortschritt in dem Sinne, dass Sie in der Lage sind, Repräsentationen zu lernen, die viele Erkennungsverhalten unterstützen können, ohne all diese Etiketten zu benötigen“, sagte McDermott. "Aber sie haben immer noch viele der Pathologien von überwachten Modellen."

Auch die Algorithmen selbst brauchen mehr Arbeit. Zum Beispiel sagt die KI in Wav2Vec 2.0 von Meta AI latente Repräsentationen nur für ein paar Dutzend Millisekunden Ton voraus – weniger Zeit als es braucht, um ein wahrnehmbares Geräusch zu äußern, geschweige denn ein Wort. „Es gibt viele Dinge zu tun, um etwas Ähnliches zu tun wie das Gehirn“, sagte King.

Um die Gehirnfunktion wirklich zu verstehen, ist mehr als selbstüberwachtes Lernen erforderlich. Zum einen ist das Gehirn voller Rückkopplungsverbindungen, während aktuelle Modelle nur wenige solcher Verbindungen haben, wenn überhaupt. Ein naheliegender nächster Schritt wäre, selbstüberwachtes Lernen zu verwenden, um hochrekurrente Netzwerke zu trainieren – ein schwieriger Prozess – und zu sehen, wie die Aktivität in solchen Netzwerken mit der realen Gehirnaktivität verglichen wird. Der andere entscheidende Schritt wäre, die Aktivität künstlicher Neuronen in selbstüberwachten Lernmodellen an die Aktivität einzelner biologischer Neuronen anzupassen. „Hoffentlich werden [unsere] Ergebnisse in Zukunft auch mit Einzelzellaufnahmen bestätigt“, sagte King.

Wenn die beobachteten Ähnlichkeiten zwischen Gehirnen und selbstüberwachten Lernmodellen für andere sensorische Aufgaben gelten, ist dies ein noch stärkerer Hinweis darauf, dass die Magie, zu der unser Gehirn fähig ist, in irgendeiner Form selbstüberwachtes Lernen erfordert. „Wenn wir systematische Ähnlichkeiten zwischen sehr unterschiedlichen Systemen finden, deutet dies darauf hin, dass es vielleicht nicht so viele Möglichkeiten gibt, Informationen auf intelligente Weise zu verarbeiten“, sagte King. „Zumindest ist das die schöne Hypothese, mit der wir arbeiten möchten.“

Zeitstempel:

Mehr von Quantamagazin