Die KI-Tools sorgen dafür, dass Bilder besser aussehen | Quanta-Magazin

Die KI-Tools sorgen dafür, dass Bilder besser aussehen | Quanta-Magazin

Die KI-Tools sorgen dafür, dass Bilder besser aussehen | Quanta Magazine PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Einleitung

Es ist eines der größten Klischees in Kriminalität und Science-Fiction: Ein Ermittler ruft ein verschwommenes Foto auf einem Computerbildschirm auf und bittet darum, es zu verbessern, und plötzlich wird das Bild scharf und enthüllt einen wichtigen Hinweis. Es ist eine wunderbare Möglichkeit, Geschichten zu erzählen, aber es war jahrzehntelang eine frustrierende Fiktion – vergrößert man ein Bild zu sehr, wird es sichtbar verpixelt. Es gibt nicht genügend Daten, um mehr zu tun.

„Wenn man ein Bild nur naiv hochskaliert, wird es unscharf. Es wird viele Details geben, aber es wird falsch sein“, sagte er Bryan Catanzaro, Vizepräsident für angewandte Deep-Learning-Forschung bei Nvidia.

Vor kurzem haben Forscher und Fachleute damit begonnen, Algorithmen der künstlichen Intelligenz in ihre Bildverbesserungswerkzeuge zu integrieren, was den Prozess einfacher und leistungsfähiger macht, aber es gibt immer noch Grenzen dafür, wie viele Daten aus jedem Bild abgerufen werden können. Glücklicherweise finden Forscher, während sie Verbesserungsalgorithmen immer weiter vorantreiben, neue Wege, mit diesen Grenzen umzugehen – manchmal sogar Wege, sie zu überwinden.

Im letzten Jahrzehnt begannen Forscher damit, Bilder mit einer neuen Art von KI-Modell namens „Generative Adversarial Network“ (GAN) zu verbessern, das detaillierte, beeindruckend aussehende Bilder erzeugen konnte. „Die Bilder sahen plötzlich viel besser aus“, sagte er Tomer Michaeli, Elektroingenieur am Technion in Israel. Er war jedoch überrascht, dass von GANs erstellte Bilder ein hohes Maß an Verzerrung aufwiesen, was misst, wie nah ein verbessertes Bild an der zugrunde liegenden Realität dessen ist, was es zeigt. GANs erzeugten Bilder, die hübsch und natürlich aussahen, aber sie erfanden oder „halluzinierten“ tatsächlich Details, die nicht korrekt waren, was sich als starke Verzerrung zeigte.

Michaeli beobachtete, wie sich der Bereich der Fotorestaurierung in zwei verschiedene Untergruppen spaltete. „Eines zeigte schöne Bilder, viele davon wurden von GANs gemacht. Die anderen zeigten Daten, aber nicht viele Bilder, weil sie nicht schön aussahen“, sagte er.

Im Jahr 2017 untersuchten Michaeli und sein Doktorand Yochai Blau diese Dichotomie genauer. Sie zeichneten die Leistung verschiedener Bildverbesserungsalgorithmen in einem Diagramm der Verzerrung gegenüber der Wahrnehmungsqualität auf und verwendeten dabei ein bekanntes Maß für die Wahrnehmungsqualität, das gut mit dem subjektiven Urteilsvermögen des Menschen korreliert. Wie Michaeli erwartet hatte, führten einige der Algorithmen zu einer sehr hohen visuellen Qualität, während andere sehr genau und mit geringer Verzerrung waren. Aber keines hatte beide Vorteile; man musste sich für das eine oder das andere entscheiden. Die Forscher nannten dies der Kompromiss zwischen Wahrnehmung und Verzerrung.

Michaeli auch forderte andere Forscher heraus um Algorithmen zu entwickeln, die die beste Bildqualität bei einem bestimmten Verzerrungsgrad erzeugen können, um faire Vergleiche zwischen den Pretty-Picture-Algorithmen und den Nice-Stats-Algorithmen zu ermöglichen. Seitdem haben Hunderte von KI-Forschern über die Verzerrungs- und Wahrnehmungsqualitäten ihrer Algorithmen berichtet, unter Berufung auf den Artikel von Michaeli und Blau das den Kompromiss beschrieb.

Manchmal sind die Auswirkungen des Kompromisses zwischen Wahrnehmung und Verzerrung nicht schwerwiegend. Nvidia stellte beispielsweise fest, dass hochauflösende Bildschirme einige visuelle Inhalte mit niedrigerer Auflösung nicht gut wiedergeben konnten, und veröffentlichte daher im Februar ein Tool, das Deep Learning nutzt, um Streaming-Videos hochzuskalieren. In diesem Fall haben die Nvidia-Ingenieure die Wahrnehmungsqualität der Genauigkeit vorgezogen und die Tatsache akzeptiert, dass der Algorithmus bei der Hochskalierung des Videos einige visuelle Details ausgleicht, die im Originalvideo nicht enthalten sind. „Das Model halluziniert. „Das ist alles eine Vermutung“, sagte Catanzaro. „Meistens ist es für ein hochauflösendes Modell in Ordnung, falsch zu raten, solange es konsistent ist.“

Einleitung

Anwendungen in Forschung und Medizin erfordern natürlich weit mehr Genauigkeit. Die KI-Technologie hat zu großen Fortschritten in der Bildgebung geführt, sie bringt jedoch „manchmal unerwünschte Nebenwirkungen mit sich, wie etwa eine Überanpassung oder das Hinzufügen gefälschter Merkmale, und muss daher mit äußerster Vorsicht behandelt werden“, sagte er Junjie Yao, ein biomedizinischer Ingenieur an der Duke University. Letztes Jahr war er Co-Autor von a Krepppapier Beschreibung, wie KI-Tools bestehende Methoden zur Messung des Blutflusses und des Stoffwechsels im Gehirn verbessern können – und dabei sicher auf der richtigen Seite des Kompromisses zwischen Wahrnehmung und Verzerrung bleiben.

Eine Möglichkeit, die Beschränkungen, wie viele Daten aus einem Bild extrahiert werden können, zu umgehen, besteht darin, einfach Daten aus mehreren Bildern zu integrieren – obwohl das oft nicht so einfach ist. Forscher, die die Umwelt mithilfe von Satellitenbildern untersuchen, haben Fortschritte bei der Kombination verschiedener Quellen visueller Daten gemacht. Im Jahr 2021 eine Gruppe von Forschern in China und Großbritannien fusionierte Daten von zwei verschiedenen Arten von Satelliten, um einen besseren Überblick über die Abholzung im Kongobecken zu erhalten, dem zweitgrößten tropischen Regenwald der Welt und einem der größten Vorräte an Artenvielfalt. Die Forscher nutzten Daten von zwei Landsat-Satelliten, die seit Jahrzehnten die Entwaldung messen, und nutzten Deep-Learning-Techniken, um die Auflösung der Bilder von 30 Metern auf 10 Meter zu verfeinern. Anschließend fusionierten sie diesen Bildsatz mit Daten von zwei Sentinel-2-Satelliten, die über eine etwas andere Detektoranordnung verfügen. Die kombinierten Bilder „ermöglichten die Erkennung von 11 bis 21 % mehr gestörten Gebieten, als dies mit den Sentinel-2- oder Landsat-7/8-Bildern allein möglich war“, schrieben sie.

Michaeli schlägt einen anderen Weg vor, um die harten Beschränkungen der Zugänglichkeit von Informationen zu umgehen, wenn nicht sogar zu überwinden. Anstatt sich auf eine eindeutige Antwort darauf festzulegen, wie ein Bild mit geringer Qualität verbessert werden kann, könnten Modelle mehrere unterschiedliche Interpretationen des Originalbilds zeigen. In einem Artikel mit dem Titel „Erforschbare Superauflösung„Er half dabei, zu demonstrieren, wie Bildverbesserungstools einem Benutzer mehrere Vorschläge unterbreiten können. Ein unscharfes Bild mit niedriger Auflösung einer Person, die ein scheinbar gräuliches Hemd trägt, könnte in ein Bild mit höherer Auflösung rekonstruiert werden, in dem das Hemd schwarze und weiße vertikale Streifen, horizontale Streifen oder Karos aufweist, die alle gleichermaßen plausibel sind .

In einem anderen Beispiel machte Michaeli ein Foto eines Nummernschilds in schlechter Qualität und ließ es durch einen führenden KI-Bildverbesserer laufen, der zeigte, dass eine 1 auf dem Nummernschild am ehesten wie eine Null aussah. Als das Bild jedoch mit einem anderen, von Michaeli entwickelten, offeneren Algorithmus verarbeitet wurde, schien es sich bei der Ziffer gleichermaßen wahrscheinlich um eine Null, eine 1 oder eine 8 zu handeln. Dieser Ansatz könnte dabei helfen, andere Ziffern auszuschließen, ohne fälschlicherweise zu dem Schluss zu kommen, dass es sich bei der Ziffer um eine Null handelte.

Da sich verschiedene Disziplinen auf ihre eigene Weise mit dem Kompromiss zwischen Wahrnehmung und Verzerrung auseinandersetzen, bleibt die Frage von zentraler Bedeutung, wie viel wir aus KI-Bildern herausholen können und wie sehr wir diesen Bildern vertrauen können. „Wir sollten bedenken, dass die Algorithmen zur Ausgabe dieser schönen Bilder nur Details erfinden“, sagte Michaeli. Wir können diese Halluzinationen abmildern, aber der allmächtige „Verbesserungs“-Knopf zur Verbrechensaufklärung wird ein Traum bleiben.

Zeitstempel:

Mehr von Quantamagazin