Neue „physikinspirierte“ generative KI übertrifft Erwartungen | Quanta-Magazin

Neue „physikinspirierte“ generative KI übertrifft Erwartungen | Quanta-Magazin

Neue „physikinspirierte“ generative KI übertrifft Erwartungen | Quanta Magazine PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Einleitung

Die Werkzeuge der künstlichen Intelligenz – insbesondere neuronale Netze – haben den Physikern gut getan. Seit Jahren hilft diese Technologie Forschern, Teilchenbahnen in Beschleunigerexperimenten zu rekonstruieren, nach Beweisen für neue Teilchen zu suchen und Gravitationswellen und Exoplaneten aufzuspüren. Während KI-Tools eindeutig viel für Physiker tun können, lautet die Frage laut Max Tegmark, einem Physiker am Massachusetts Institute of Technology, nun: „Können wir etwas zurückgeben?“

Tegmark glaubt, dass seine Physikerkollegen bedeutende Beiträge zur Wissenschaft der KI leisten können, und er hat dies zu seiner obersten Forschungspriorität gemacht. Eine Möglichkeit für Physiker, zur Weiterentwicklung der KI-Technologie beizutragen, bestehe seiner Meinung nach darin, die „Black-Box“-Algorithmen neuronaler Netze, deren Funktionsweise weitgehend unergründlich ist, durch gut verstandene Gleichungen physikalischer Prozesse zu ersetzen.

Die Idee ist nicht ganz neu. Generative KI-Modelle basierend auf Diffusion – der Prozess, der beispielsweise dafür sorgt, dass sich Milch, die in eine Tasse Kaffee gegossen wird, gleichmäßig verteilt – kam erstmals im Jahr 2015 auf und die Qualität der dabei erzeugten Bilder hat sich seitdem erheblich verbessert. Diese Technologie basiert auf beliebter Bildproduktionssoftware wie DALL·E 2 und Midjourney. Jetzt erfahren Tegmark und seine Kollegen, ob andere von der Physik inspirierte generative Modelle genauso gut wie diffusionsbasierte Modelle oder sogar besser funktionieren könnten.

Ende letzten Jahres stellte Tegmarks Team eine vielversprechende neue Methode zur Erstellung von Bildern vor: Generatives Poisson-Flow-Modell (PFGM). Darin werden Daten durch geladene Teilchen dargestellt, die sich zu einem elektrischen Feld verbinden, dessen Eigenschaften von der Verteilung der Ladungen zu einem bestimmten Zeitpunkt abhängen. Es wird als Poisson-Strömungsmodell bezeichnet, weil die Bewegung von Ladungen durch die Poisson-Gleichung bestimmt wird, die sich aus dem Prinzip ableitet, dass die elektrostatische Kraft zwischen zwei Ladungen umgekehrt mit dem Quadrat des Abstands zwischen ihnen variiert (ähnlich der Formulierung der Newtonschen Schwerkraft). .

Dieser physische Prozess ist das Herzstück von PFGM. „Unser Modell kann fast vollständig durch die Stärke und Richtung des elektrischen Feldes an jedem Punkt im Raum charakterisiert werden“, sagte er Yilun Xu, ein Doktorand am MIT und Co-Autor des Artikels. „Was das neuronale Netzwerk während des Trainingsprozesses lernt, ist, wie es dieses elektrische Feld abschätzt.“ Und dabei kann es lernen, Bilder zu erzeugen, da ein Bild in diesem Modell durch ein elektrisches Feld prägnant beschrieben werden kann.

Einleitung

Mit PFGM können Bilder in der gleichen Qualität wie mit diffusionsbasierten Ansätzen erstellt werden, und das 10- bis 20-mal schneller. „Es nutzt ein physikalisches Konstrukt, das elektrische Feld, auf eine Weise, die wir noch nie zuvor gesehen haben“, sagte er Hananel Hazan, Informatiker an der Tufts University. „Das öffnet die Tür für die Möglichkeit, dass andere physikalische Phänomene genutzt werden, um unsere neuronalen Netze zu verbessern.“

Diffusions- und Poisson-Strömungsmodelle haben viele Gemeinsamkeiten, abgesehen davon, dass sie auf aus der Physik importierten Gleichungen basieren. Während des Trainings beginnt ein für die Bilderzeugung konzipiertes Diffusionsmodell normalerweise mit einem Bild – sagen wir mal einem Hund – und fügt dann visuelles Rauschen hinzu, wobei jedes Pixel auf zufällige Weise verändert wird, bis seine Merkmale vollständig verdeckt (aber nicht vollständig eliminiert) werden. Das Modell versucht dann, den Prozess umzukehren und einen Hund zu erzeugen, der dem Original nahe kommt. Sobald das Modell trainiert ist, kann es ausgehend von einer scheinbar leeren Leinwand erfolgreich Hunde – und andere Bilder – erstellen.

Poisson-Strömungsmodelle funktionieren auf ähnliche Weise. Während des Trainings gibt es einen Vorwärtsprozess, bei dem Rauschen schrittweise zu einem einmal scharfen Bild hinzugefügt wird, und einen Rückwärtsprozess, bei dem das Modell versucht, dieses Rauschen Schritt für Schritt zu entfernen, bis die ursprüngliche Version größtenteils wiederhergestellt ist. Wie bei der diffusionsbasierten Generierung lernt das System schließlich, Bilder zu erstellen, die es im Training nie gesehen hat.

Aber die Physik, die den Poisson-Modellen zugrunde liegt, ist völlig anders. Die Diffusion wird durch thermodynamische Kräfte angetrieben, während die Poisson-Strömung durch elektrostatische Kräfte angetrieben wird. Letzteres stellt ein detailliertes Bild dar, bei dem eine Ladungsanordnung verwendet wird, die ein sehr kompliziertes elektrisches Feld erzeugen kann. Dieses Feld führt jedoch dazu, dass sich die Ladungen mit der Zeit gleichmäßiger verteilen – so wie sich Milch auf natürliche Weise in einer Tasse Kaffee verteilt. Das Ergebnis ist, dass das Feld selbst einfacher und einheitlicher wird. Aber dieses lärmgeplagte, einheitliche Feld ist kein völlig unbeschriebenes Blatt; Es enthält immer noch die Keime an Informationen, aus denen Bilder leicht zusammengesetzt werden können.

Anfang 2023 verbesserte das Team sein Poisson-Modell. es zu erweitern um eine ganze Modellfamilie zu umfassen. Die erweiterte Version, PFGM++, enthält einen neuen Parameter: D, wodurch Forscher die Dimensionalität des Systems anpassen können. Das kann einen großen Unterschied machen: Im vertrauten dreidimensionalen Raum verhält sich die Stärke des von einer Ladung erzeugten elektrischen Feldes umgekehrt proportional zum Quadrat der Entfernung von dieser Ladung. Aber in vier Dimensionen folgt die Feldstärke einem umgekehrten Würfelgesetz. Und für jede Raumdimension und jeden Wert D, diese Beziehung ist etwas anders.

Einleitung

Diese einzige Innovation verlieh Poisson-Strömungsmodellen eine weitaus größere Variabilität, wobei die Extremfälle unterschiedliche Vorteile boten. Wann D Ist beispielsweise der Wert niedrig, ist das Modell robuster, d. h., es ist toleranter gegenüber den Fehlern, die bei der Schätzung des elektrischen Feldes gemacht werden. „Das Modell kann das elektrische Feld nicht perfekt vorhersagen“, sagte er Ziming Liu, ein weiterer Doktorand am MIT und Co-Autor beider Artikel. „Es gibt immer Abweichungen. Aber Robustheit bedeutet, dass man auch bei einem hohen Schätzfehler gute Bilder erzeugen kann.“ Es kann also sein, dass Sie am Ende nicht den Hund Ihrer Träume haben, aber dennoch etwas, das einem Hund ähnelt.

Im anderen Extrem: wann D ist hoch, das neuronale Netzwerk lässt sich leichter trainieren und benötigt weniger Daten, um seine künstlerischen Fähigkeiten zu beherrschen. Der genaue Grund ist nicht leicht zu erklären, aber er liegt an der Tatsache, dass das Modell bei mehr Dimensionen weniger elektrische Felder im Auge behalten muss – und daher weniger Daten verarbeiten muss.

Das erweiterte Modell PFGM++ „gibt Ihnen die Flexibilität, zwischen diesen beiden Extremen zu interpolieren“, sagte er Rose Yu, Informatiker an der University of California, San Diego.

Und irgendwo in diesem Bereich liegt ein idealer Wert für D Das schaffe die richtige Balance zwischen Robustheit und einfacher Schulung, sagte Xu. „Ein Ziel der künftigen Arbeit wird darin bestehen, einen systematischen Weg zu finden, diesen Sweet Spot zu finden, damit wir den bestmöglichen auswählen können D für eine bestimmte Situation, ohne auf Versuch und Irrtum zurückzugreifen.“

Ein weiteres Ziel der MIT-Forscher besteht darin, weitere physikalische Prozesse zu finden, die die Grundlage für neue Familien generativer Modelle bilden können. Durch ein Projekt namens GenPhysEinen vielversprechenden Kandidaten hat das Team bereits identifiziert: das Yukawa-Potenzial, das mit der schwachen Atomkraft zusammenhängt. „Es unterscheidet sich von Poisson-Strömungs- und Diffusionsmodellen, bei denen die Anzahl der Partikel immer erhalten bleibt“, sagte Liu. „Das Yukawa-Potenzial ermöglicht es, Teilchen zu vernichten oder in zwei Teile zu spalten. Ein solches Modell könnte beispielsweise biologische Systeme simulieren, bei denen die Anzahl der Zellen nicht gleich bleiben muss.“

Dies könnte eine fruchtbare Untersuchung sein, sagte Yu. „Es könnte zu neuen Algorithmen und neuen generativen Modellen führen, deren potenzielle Anwendungen über die Bilderzeugung hinausgehen.“

Und allein PFGM++ hat die ursprünglichen Erwartungen seiner Erfinder bereits übertroffen. Sie wussten zunächst nicht, wann D auf Unendlich eingestellt ist, ist ihr verstärktes Poisson-Strömungsmodell nicht mehr von einem Diffusionsmodell zu unterscheiden. Liu entdeckte dies in Berechnungen, die er Anfang des Jahres durchführte.

Mert Pilanci, Informatiker an der Stanford University, hält diese „Vereinheitlichung“ für das wichtigste Ergebnis der Arbeit der MIT-Gruppe. „Das PFGM++-Papier“, sagte er, „zeigt, dass diese beiden Modelle Teil einer breiteren Klasse sind, [was] eine interessante Frage aufwirft: Könnte es andere physikalische Modelle für generative KI geben, die auf ihre Entdeckung warten, was auf eine noch größere Vereinheitlichung hindeutet? ”

Zeitstempel:

Mehr von Quantamagazin