Der Computerpionier hilft der KI. Sehen | Quanta-Magazin

Der Computerpionier hilft der KI. Sehen | Quanta-Magazin

Der Computerpionier hilft der KI. Sehen | Quanta Magazine PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Einleitung

Wann Alexej Efros Als Teenager in den 1980er Jahren mit seiner Familie von Russland nach Kalifornien zog, brachte er seinen in der Sowjetunion gebauten Personalcomputer mit, einen Elektronika BK-0010. Die Maschine hatte keinen externen Speicher und überhitzte alle paar Stunden. Um Videospiele spielen zu können, musste er also Code schreiben, Fehler beheben und schnell spielen – bevor die Maschine abschaltete. Dieser Zyklus, der sich an den meisten Tagen wiederholte, beschleunigte sein Lernen.

„Ich hatte großes Glück, dass dieser sowjetische Computer nicht sehr gut war!“ sagte Efros, der leicht lacht und mit einem milden russischen Akzent spricht. Heutzutage spielt er nicht mehr so ​​viele Spiele, aber die Bereitschaft, seine Werkzeuge zu erkunden und das Beste aus ihnen herauszuholen, bleibt bestehen.

Während seines Graduiertenstudiums an der University of California in Berkeley begann Efros zu wandern und die natürliche Schönheit der Bay Area zu erkunden. Es dauerte nicht lange, bis er begann, seine Leidenschaft für Computer mit der Freude an diesen Sehenswürdigkeiten zu verbinden. Er entwickelte eine Möglichkeit, Löcher in Fotos nahtlos zu flicken – zum Beispiel indem er einen verirrten Müllcontainer auf einem Foto eines Mammutbaumwaldes durch natürlich aussehende Bäume ersetzte. Adobe Photoshop übernahm später eine Version der Technik für sein Tool „Inhaltsbasierte Füllung“.

Als Informatiker am Berkeley Artificial Intelligence Research Lab kombiniert Efros riesige Online-Datensätze mit maschinellen Lernalgorithmen, um die visuelle Welt zu verstehen, zu modellieren und neu zu erschaffen. Im Jahr 2016 verlieh ihm die Association for Computing Machinery den Preis Preis für Informatik für seine Arbeit, realistische synthetische Bilder zu schaffen, und nannte ihn einen „Bild Alchemist"

Einleitung

Efros sagt, dass Maschinen trotz aller Bemühungen der Forscher immer noch grundlegend anders sehen als wir. „Bei Farb- und Helligkeitsflecken müssen wir das, was wir gerade sehen, mit unserer Erinnerung daran verbinden, wo wir diese Dinge schon einmal gesehen haben“, sagte Efros. „Diese Verbindung gibt dem, was wir sehen, Bedeutung.“ Allzu oft sehen Maschinen, was gerade da ist, ohne es mit dem zu verknüpfen, was sie zuvor gesehen haben.

Aber Unterschiede können Vorteile haben. Im Bereich Computer Vision schätzt Efros die Unmittelbarkeit, wenn man weiß, ob ein Algorithmus zur Erkennung von Objekten und Szenen auf einem Bild funktioniert. Einige seiner Computer-Vision-Fragen – wie zum Beispiel „Wie sieht Paris wie Paris aus?„- haben eine philosophische Neigung. Andere, z. B. wie man hartnäckige Probleme angeht Verzerrung in Datensätzen, sind praktisch und dringend.

„Es gibt derzeit viele Leute, die KI mit Sprache betreiben“, sagte Efros. „Ich möchte die rein visuellen Muster betrachten, die zurückbleiben.“ Durch die Verbesserung des Computersehens erhofft er sich nicht nur bessere praktische Anwendungen, etwa selbstfahrende Autos; Er möchte diese Erkenntnisse auch nutzen, um besser zu verstehen, was er „menschliche visuelle Intelligenz“ nennt – wie Menschen dem, was sie sehen, einen Sinn geben.

Quanta Magazine traf sich mit Efros in seinem Büro in Berkeley, um über wissenschaftliche Superkräfte, die Schwierigkeit, Bilder zu beschreiben, und wie gefährlich künstliche Intelligenz wirklich ist. Das Interview wurde aus Gründen der Klarheit gekürzt und bearbeitet.

Einleitung

Wie hat sich Computer Vision seit Ihrer Studienzeit verbessert?

Als ich mit meiner Doktorarbeit begann, gab es fast nichts Nützliches. Einige Roboter schraubten einige Schrauben mithilfe von Computer Vision an, aber dies war auf diese Art von sehr kontrolliertem Industrieumfeld beschränkt. Dann erkannte meine Kamera plötzlich Gesichter und machte sie schärfer.

Mittlerweile kommt Computer Vision in einer Vielzahl von Anwendungen zum Einsatz, beispielsweise in selbstfahrenden Autos. Es dauert länger, als manche zunächst dachten, aber dennoch gibt es Fortschritte. Für jemanden, der nicht Auto fährt, ist das äußerst aufregend.

Warte, du fährst nicht?

Nein, ich sehe nicht gut genug zum Fahren! [Lacht.] Für mich wäre das ein echter Game Changer – ein Auto zu haben, das mich an Orte bringen würde.

Mir war nicht klar, dass Ihre Sehkraft Sie am Fahren hindert. Können Sie die Bilder, mit denen Sie arbeiten, auf einem Computermonitor sehen?

Wenn ich sie groß genug mache. Sie können sehen, dass meine Schriftarten ziemlich groß sind. Ich wurde geboren und konnte nicht gut sehen. Ich denke, dass alle anderen verrückt sind, weil sie wahnsinnig gut sehen.

Hat Ihr Nicht-Verrückter-Status Ihre Forschungsrichtung beeinflusst?

Wer weiß? Es gab definitiv kein Gefühl von „Oh, ich sehe nicht gut, also werde ich Computer bauen, die besser sehen.“ Nein, das hatte ich nie als Motivation.

Um ein guter Wissenschaftler zu sein, braucht man eine geheime Superkraft. Du musst etwas besser machen als alle anderen. Das Tolle an der Wissenschaft ist, dass wir nicht alle die gleiche Superkraft haben. Vielleicht liegt meine Superkraft darin, dass ich, weil ich nicht sehr gut sehe, vielleicht mehr Einblick in das Sehproblem habe.

Einleitung

Ich habe schon früh verstanden, wie wichtig Vordaten für die Betrachtung der Welt sind. Ich konnte selbst nicht sehr gut sehen, aber meine Erinnerung an frühere Erlebnisse füllte die Lücken so weit, dass ich im Grunde genauso gut funktionieren konnte wie ein normaler Mensch. Die meisten Leute wissen nicht, dass ich nicht gut sehe. Das gab mir – glaube ich – die einzigartige Intuition, dass es weniger um die Pixel als vielmehr um den Speicher gehen könnte.

Computer sehen nur, was jetzt da ist, während wir den Moment sehen, der mit dem Geflecht von allem verbunden ist, was wir zuvor gesehen haben.

Ist es überhaupt möglich, die subtilen visuellen Muster, die beispielsweise Paris wie Paris aussehen lassen, in Worte zu fassen?

Wenn Sie in einer bestimmten Stadt sind, wissen Sie manchmal einfach, in welcher Stadt Sie sich befinden – da ist Folgendes je ne sais quoi, auch wenn Sie noch nie an dieser bestimmten Straßenecke waren. Das ist mit Worten kaum zu beschreiben, aber in den Pixeln ist es deutlich spürbar.

[Für Paris] könnte man darüber sprechen, dass es sich normalerweise um sechsstöckige Gebäude handelt und dass es normalerweise im vierten Stock Balkone gibt. Manches davon könnte man in Worte fassen, aber vieles ist nicht sprachlich. Für mich ist das spannend.

Zu Ihren jüngsten Aufgaben gehört es, Computern das beizubringen visuelle Daten aufnehmen auf eine Weise, die das menschliche Sehen nachahmt. Wie soll das gehen?

Derzeit verfügen Computer über einen riesigen Datensatz: Milliarden zufälliger Bilder, die aus dem Internet geschabt wurden. Sie nehmen zufällige Bilder auf, verarbeiten ein Bild, nehmen dann ein weiteres zufälliges Bild auf, verarbeiten dieses usw. Sie trainieren das visuelle System Ihres Computers, indem Sie diesen Datensatz immer wieder durchgehen.

Die Art und Weise, wie wir – biologische Wirkstoffe – Daten aufnehmen, ist sehr unterschiedlich. Wenn wir mit einer neuartigen Situation konfrontiert sind, ist dies das einzige Mal, dass diese Daten für uns verfügbar sind. Wir waren noch nie in genau dieser Situation, in diesem Raum, mit dieser Beleuchtung, so gekleidet. Erstens nutzen wir diese Daten, um das zu tun, was wir tun müssen: um die Welt zu verstehen. Dann nutzen wir diese Daten, um daraus zu lernen und die Zukunft vorherzusagen.

Einleitung

Außerdem sind die Daten, die wir sehen, nicht zufällig. Was Sie jetzt sehen, korreliert stark mit dem, was Sie vor ein paar Sekunden gesehen haben. Sie können es sich als Video vorstellen. Alle Einzelbilder des Videos sind miteinander korreliert, was sich stark von der Art und Weise unterscheidet, wie Computer die Daten verarbeiten.

Ich bin daran interessiert, unseren Lernansatz dahingehend zu gestalten, dass Computer die eingehenden Daten sehen, verarbeiten und daraus lernen.

Ich stelle mir vor, dass es nicht so einfach ist, Computer Videos anstelle von Standbildern betrachten zu lassen.

Nein, Sie brauchen immer noch [Computer], um sich anzupassen. Ich interessiere mich für Lernansätze, die die eingehenden Daten sehen und sie dann verarbeiten und daraus lernen. Ein Ansatz, den wir haben, ist bekannt als Probetraining. Die Idee ist, dass sich die Dinge ändern könnten, wenn Sie eine Bildfolge wie ein Video betrachten. Sie möchten also nicht, dass Ihr Modell repariert wird. So wie sich ein biologischer Wirkstoff ständig an seine Umgebung anpasst, möchten wir, dass sich der Computer kontinuierlich anpasst.

Das Standardparadigma besteht darin, dass Sie zuerst an einem großen Datensatz trainieren und ihn dann bereitstellen. Dall·E und ChatGPT wurden etwa im Jahr 2021 im Internet geschult, und dann fror [ihr Wissen] ein. Dann spuckt es aus, was es bereits weiß. Ein natürlicherer Weg ist das [Testzeittraining], bei dem versucht wird, die Daten zu absorbieren und am Arbeitsplatz zu lernen, ohne dass es separate Schulungs- und Bereitstellungsphasen gibt.

Es gibt definitiv ein Problem mit Computern, das als Domänenverschiebung oder Datensatzverzerrung bezeichnet wird – die Vorstellung, dass die Dinge nicht funktionieren werden, wenn sich Ihre Trainingsdaten stark von den Daten unterscheiden, die Sie bei der Bereitstellung des Systems verwenden sehr gut. Wir machen einige Fortschritte, aber wir sind noch nicht ganz am Ziel.

Einleitung

Ist das Problem vergleichbar mit der Art und Weise, wie Banken Anleger warnen, dass die Wertentwicklung in der Vergangenheit möglicherweise keine Prognose für künftige Gewinne darstellt?

Genau das ist das Problem. In der realen Welt ändern sich die Dinge. Wenn zum Beispiel eine Feldmaus in einem Haus landet, geht es ihr gut. Diese Maus wirst du nie mehr los! [Lacht.] Es wurde auf einem Feld geboren, war noch nie zuvor in einem Haus und wird dennoch alle Ihre Vorräte finden und fressen. Es passt sich sehr schnell an, lernt und passt sich der neuen Umgebung an.

Diese Fähigkeit ist in aktuellen [Computer-Vision-]Systemen nicht vorhanden. Wenn man beim Selbstfahren ein Auto in Kalifornien trainiert und es dann in Minnesota testet – boom! - es liegt Schnee. Es hat noch nie Schnee gesehen. Es wird verwirrt.

Jetzt lösen die Leute dieses Problem, indem sie so viele Daten erhalten, dass [das System] im Grunde alles gesehen hat. Dann muss es sich nicht anpassen. Aber das lässt immer noch seltene Ereignisse außer Acht.

Es hört sich also so an, als wären KI-Systeme der Weg in die Zukunft. Wo bleiben die Menschen?

Die Arbeit von OpenAI sowohl auf der Textseite (ChatGPT) als auch auf der Bildseite (Dall·E) war unglaublich aufregend und überraschend. Es bekräftigt die Idee, dass einigermaßen einfache Methoden überraschend gute Ergebnisse liefern können, sobald man über genügend Daten verfügt.

Einleitung

Aber ChatGPT hat mir klar gemacht, dass Menschen nicht so kreativ und außergewöhnlich sind, wie wir uns gerne sehen. Meistens übernehmen die Mustererkenner in uns die Oberhand. Wir sprechen in Sätzen, die aus Phrasen oder Sätzen bestehen, die wir zuvor gehört haben. Natürlich gibt es bei uns auch Höhenflüge der Fantasie und Kreativität. Wir sind in der Lage, Dinge zu tun, die Computer nicht können – zumindest im Moment. Aber meistens könnten wir durch ChatGPT ersetzt werden, ohne dass es den meisten Leuten auffällt.

Es ist demütigend. Aber es ist auch ein Motivator, aus diesen Mustern auszubrechen, mehr Fantasieflüge zu unternehmen und nicht in Klischees und Pastiches stecken zu bleiben.

Einige Wissenschaftler haben ihre Besorgnis über die Risiken geäußert, die KI für die Menschheit darstellt. Bist du besorgt?

Viele Forscher, vor denen ich großen Respekt habe, warnen vor künstlicher Intelligenz. Ich möchte diese Worte nicht herunterspielen. Viele davon sind berechtigte Punkte. Aber man muss die Dinge ins rechte Licht rücken.

Die größte Gefahr für die Zivilisation geht derzeit nicht von Computern, sondern vom Menschen aus. Das nukleare Armageddon und der Klimawandel sind weitaus dringlichere Sorgen. Die Russische Föderation hat ihren völlig unschuldigen Nachbarn angegriffen. Ich bin in Russland geboren und es ist besonders schrecklich, dass meine ehemaligen Landsleute so etwas tun könnten. Ich tue alles, was ich kann, um sicherzustellen, dass dies Thema Nummer eins bleibt.

Wir denken vielleicht, dass die KI-Revolution das wichtigste Ereignis unseres Lebens ist. Aber die KI-Revolution wird nichts sein, wenn wir die freie Welt nicht retten.

Sie machen sich also überhaupt keine Sorgen um KI?

Nein. Weißt du, ich liebe es, mir Sorgen zu machen. Ich mache mir große Sorgen! Aber wenn Putin dabei ist, die Welt zu zerstören [hebt die Hand an seinen Kopf] und der Klimawandel da ist [senkt die Hand auf seine Schultern], dann ist die KI hier unten [senkt die Hand auf seine Füße]. Im Vergleich zu Putin und dem Klimawandel sind es nur Bruchteile eines Prozents meiner Sorgen.

Zeitstempel:

Mehr von Quantamagazin