David Holz, Gründer des KI-Kunstgenerators Midjourney, über die Zukunft der Bildgebung von PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

David Holz, Gründer des KI-Kunstgenerators Midjourney, über die Zukunft der Bildgebung

Interview Im Jahr 2008 war David Holz Mitbegründer einer Hardware-Peripheriefirma namens Leap Motion. Er leitete es bis letztes Jahr, als er ging, um Midjourey zu gründen.

Zwischendurch in seiner jetzigen Form ist es ein soziales Netzwerk zum Erstellen von KI-generierter Kunst aus einer Texteingabeaufforderung – geben Sie ein Wort oder einen Satz an der Eingabeaufforderung ein und Sie erhalten nach etwa einer Minute Berechnung ein interessantes oder vielleicht wunderbares Bild auf dem Bildschirm. Es ist in mancher Hinsicht ähnlich wie OpenAI DALL-E2.

Bild des Himmels und der Wolken während der Reise mit der Texteingabeaufforderung „All diese nutzlose Schönheit“. Quelle: generiert von Zwischendurch

Beide sind das Ergebnis großer KI-Modelle, die mit einer großen Anzahl von Bildern trainiert wurden. Aber Midjourney hat seinen eigenen unverwechselbaren Stil, wie man an sehen kann dieser Twitter-Thread. Beide sind in den letzten Tagen in den öffentlichen Betatest eingetreten (obwohl der Zugriff auf DALL-E 2 langsam erweitert wird).

Die Möglichkeit, qualitativ hochwertige Bilder aus KI-Modellen mithilfe von Texteingabe zu erstellen, wurde letztes Jahr nach der Veröffentlichung von OpenAI zu einer beliebten Aktivität CLIP (Contrastive Language–Image Pre-training), das entwickelt wurde, um zu bewerten, wie gut generierte Bilder mit Textbeschreibungen übereinstimmen. Nach seiner Veröffentlichung, Künstler Ryan Murdock (@advadnoun auf Twitter) stellte fest, dass der Prozess umgekehrt werden könnte – durch die Bereitstellung von Texteingaben konnte man mit Hilfe anderer KI-Modelle eine Bildausgabe erhalten.

Danach begann die generative Kunstgemeinschaft eine Phase fieberhafter Erkundungen und veröffentlichte Python-Code, um Bilder mit einer Vielzahl von Modellen und Techniken zu erstellen.

„Irgendwann im letzten Jahr haben wir gesehen, dass es bestimmte Bereiche der KI gibt, die sich auf wirklich interessante Weise entwickelt haben“, erklärte Holz in einem Interview mit Das Register. „Einer davon war die Fähigkeit der KI, Sprache zu verstehen.“

Holz verwies auf Entwicklungen wie Transformer, ein Deep-Learning-Modell, das CLIP informiert, und Diffusionsmodelle, eine Alternative zu GANs. „Was mir persönlich wirklich aufgefallen ist, war die CLIP-geführte Diffusion“, sagte er, entwickelt von Katherine Crawson (bekannt auf Twitter als @RiversHaveWings).

Nicht der stereotype Florida-Mann

Holz wuchs in Florida auf und hatte ein Designgeschäft in der High School, wo er Mathematik und Physik studierte. Er arbeitete an einem Doktortitel in angewandter Mathematik und nahm 2008 eine Beurlaubung, um Leap Motion zu gründen. Im folgenden Jahr verbrachte er ein Jahr als studentischer Forscher am Max-Planck-Institut, gefolgt von zwei Jahren am NASA Langley Research Center als graduierter studentischer Forscher, der an LiDAR, Marsmissionen und Atmosphärenwissenschaften arbeitete.

„Ich dachte, warum arbeite ich an all dem Zeug?“ er erklärte. „Ich möchte nur an einer coolen Sache arbeiten, die mir wichtig ist.“

Also konzentrierte er sich auf Leap Motion, das ein Hardwaregerät entwickelte, um Handbewegungen zu verfolgen und für Geräteeingaben zu verwenden. Er leitete das Unternehmen zwölf Jahre lang und beschäftigte bei seinem Ausscheiden etwa 100 Mitarbeiter.

Midjourney, sagte er, ist im Moment ziemlich klein. „Wir sind ungefähr 10 Leute“, erklärte er. „Wir finanzieren uns selbst. Wir haben keine Investoren. Wir sind nicht wirklich finanziell motiviert. Wir sind einfach nur hier, um an Dingen zu arbeiten, die uns am Herzen liegen, und Spaß zu haben. Und wir haben an vielen verschiedenen Projekten gearbeitet.“

Holz sagte, der technologische Aspekt der KI und das Ausmaß, in dem sie sich verbessern werde, sei ziemlich leicht vorhersehbar. „Aber die menschlichen Auswirkungen davon sind so schwer vorstellbar“, sagte er. „Hier gibt es etwas, das an der Schnittstelle von Menschlichkeit und Technologie liegt. Um wirklich herauszufinden, was das ist und was es sein sollte, müssen wir wirklich viele Experimente machen.“

Die Straße entlang

Die unbeständige Natur der KI-Bildtechnologie zeigt sich im Unterschied zwischen Tools wie Midjourney und einer herunterladbaren Open-Source-Grafikanwendung wie Blender oder einer lokal installierten kommerziellen Anwendung wie Adobe Photoshop (bevor es zu einem Cloud-Dienst wurde).

Midjourney existiert in einem sozialen Kontext. Sein Frontend ist der Chatdienst Discord. Neue Benutzer melden sich beim Midjourney-Server von Discord an und können dann Textaufforderungen senden, um neben zahlreichen anderen Benutzern in einem der verschiedenen Newbie-Kanäle Bilder zu generieren.

Die resultierenden Bilder für alle Benutzer in diesem Kanal erscheinen in etwa einer Minute, was dazu beiträgt, den Gemeinschaftsgedanken zu verstärken. Diejenigen, die sich für ein Upgrade auf ein Abonnement von 10 $/Monat oder 30 $/Monat entscheiden, können Text als private Direktnachricht an den Midjourney-Bot in der Discord-App senden und Bilder als Antwort erhalten, ohne den Wasserfall der Bildschirm-Scrolling-Interaktion von anderen Benutzern in der Öffentlichkeit Kanal. Generierte Bilder bleiben jedoch standardmäßig öffentlich sichtbar.

Als Social-App unterliegt Midjourney Regeln zu zulässigen Inhalten – etwas, worüber sich Nutzer von Blender oder anderen lokal installierten Apps keine Gedanken machen müssen. In den Nutzungsbedingungen von Midjourney heißt es: „Keine Inhalte für Erwachsene oder Gore. Bitte vermeiden Sie visuell schockierende oder verstörende Inhalte. Wir werden einige Texteingaben automatisch blockieren.“

DALL-E 2 unterliegt ähnlichen, wenn auch umfangreicheren Beschränkungen, wie in dessen beschrieben Inhaltsrichtlinie.

„Ich denke, wenn wir in einer Welt ohne soziale Medien leben würden, bräuchten wir keine Einschränkungen“, sagte Holz. „… Als Photoshop erfunden wurde, gab es tatsächlich Presse darüber, wo es hieß: ‚Oh, man kann alles fälschen und es ist ein bisschen beängstigend.' [Aber jetzt] ist es viel lukrativer, sensationslüstern zu sein als früher.“

„Heutzutage kann jeder sensationslüstern sein und davon im Grunde profitieren“, sagte Holz. „Und so schafft es einen Markt für Drama und Sensationslust. Deshalb denke ich, dass wir ein bisschen vorsichtiger sein müssen, denn irgendwann werden die Leute sagen: ‚Okay, ich kann Bilder davon machen, was das dramatischste, beleidigendste und schrecklichste Zeug ist, das ich habe kann machen?'"

Keine einfachen Antworten

Holz gibt zu, dass es Dinge gibt, die soziale Plattformen tun können, um diese Probleme zu mildern, sagt aber, dass es keine einfachen Antworten gibt. „Leider gibt es keinen klaren Weg, es anzugehen, außer als Gesellschaft, um Sensationsgier weniger zu belohnen“, sagte er. „Mein Eindruck ist jedoch, dass niemand wirklich versucht, soziale Plattformen zu ändern, um Sensationsgier zu reduzieren, weil sie damit gerade Geld verdienen.“

Da Midjourney außerdem ein sozialer Raum für alle über 13 Jahre sein soll, seien Regeln gegen extreme oder anzügliche Inhalte notwendig, sagte er.

„Wir wollen eigentlich keine segmentierten Räume für Leute haben, die gerne Leichen machen oder Nacktfotos mögen“, erklärte Holz. „Damit wollen wir uns einfach nicht auseinandersetzen müssen. Wir glauben nicht, dass wir zum jetzigen Zeitpunkt dazu moralisch verpflichtet sind. Wir wollen einen schönen sozialen Raum, in dem Menschen zusammen etwas machen können und im Grunde nicht beleidigt sind und sich sicher fühlen.“

Zu diesem Zweck hat das Unternehmen etwa 40 Moderatoren, die die von den Benutzern erstellten Bilder im Auge behalten.

Der soziale Aspekt von Midjourney hat kürzlich damit begonnen, die Bildqualität zu verbessern. Laut Holz haben die Ingenieure des Unternehmens kürzlich die dritte Version seiner Software eingeführt, die zum ersten Mal eine Feedback-Schleife basierend auf Benutzeraktivitäten und -reaktionen enthält.

„Wenn Sie sich das v3-Zeug ansehen, gibt es diese enorme Verbesserung“, sagte er. „Es ist umwerfend besser und wir haben eigentlich keine Kunst mehr hineingesteckt. Wir haben nur die Daten darüber genommen, welche Bilder den Benutzern gefallen und wie sie sie verwendet haben. Und das hat es tatsächlich besser gemacht.“

Nach dem Midjourney-Tech-Stack gefragt, widersprach Holz. „Irgendwann werden wir wahrscheinlich eine Pressemitteilung veröffentlichen, in der es speziell darum geht, welche Anbieter wir verwenden“, sagte er. „Was ich sagen kann, ist, dass wir diese großen KI-Modelle mit Milliarden von Parametern haben. Sie werden über Milliarden von Bildern trainiert.“

Holz sagt, dass Benutzer jeden Tag Millionen und Abermillionen von Bildern machen, und zwar mithilfe von Computeranbietern für grüne Energie – was das Feld der großen Cloud-Computing-Anbieter nicht wirklich eingrenzt, da sie alle behaupten, mindestens COXNUMX-neutral zu sein.

„Jedes Bild benötigt Petaops“, sagte er, ein Begriff, der 10^15 Operationen pro Sekunde bedeutet. „Also Tausende von Billionen Operationen. Ich weiß nicht genau, ob es fünf oder 1000 oder 10 sind. Aber es sind Tausende von Billionen von Operationen, um ein Bild zu erstellen. Es ist wahrscheinlich das teuerste … wenn Sie Midjourney nennen, einen Service – wie Sie es einen Service oder ein Produkt nennen würden – ohne Zweifel hat es noch nie zuvor einen Service gegeben, bei dem eine normale Person so viel Rechenleistung verwendet.“

Halten uns in Nahrung und Kleidung

Midjourney ist jedoch nicht auf dem Weg, Kunden, die durch einen kostenlosen Service in bezahlte Stufen gebracht wurden, zu verkaufen und dann gut zahlende Unternehmenskunden anzuziehen, bevor es an die Börse geht oder übernommen wird.

„Wir sind nicht wie ein Startup, das viel Geld sammelt und sich dann nicht sicher ist, was sein Geschäft oder Produkt ist, und lange Zeit Geld verliert“, sagte Holz. „Wir sind wie ein selbstfinanziertes Forschungslabor. Wir können etwas Geld verlieren. Wir haben nicht etwa 100 Millionen Dollar von jemand anderem zu verlieren. Um ehrlich zu sein, sind wir bereits profitabel und uns geht es gut.“

„Es ist ein ziemlich einfaches Geschäftsmodell, das heißt, nutzen die Leute es gerne? Dann müssen sie die Kosten für die Nutzung bezahlen, da die Rohkosten tatsächlich ziemlich hoch sind. Und dann fügen wir noch einen Prozentsatz hinzu, der hoffentlich ausreicht, um uns zu ernähren und zu beherbergen. Und das ist es, was wir tun.“

Für die Zukunft könnte die Skalierung ein Problem sein. Laut Holz nutzen Midjourney derzeit Hunderttausende von Menschen, die den Dienst nutzen, was etwa 10,000 Server erfordert.

„Wenn es 10 Millionen Menschen gäbe, die versuchen würden, eine solche Technologie zu nutzen“, sagte er, „dann gibt es tatsächlich nicht genug Computer. Es gibt weltweit nicht eine Million kostenlose Server für KI. Ich denke, der Welt werden die Computer ausgehen, bevor die Technologie wirklich alle erreicht, die sie nutzen wollen.“

Wofür verwenden die Leute es? Nun, wenn Sie bei einem Midjourney-Konto angemeldet sind, können Sie sehen, was die Leute über erstellen Community-Feed Seite. Es ist ein ständiger Strom interessanter, oft verblüffend guter Bilder.

„Die Mehrheit der Leute hat einfach nur Spaß“, sagte Holz. „Ich denke, das ist das Größte, weil es eigentlich nicht um Kunst geht, sondern um Vorstellungskraft.“

Professionell sein

Aber für etwa 30 Prozent der Benutzer ist es professionell. Laut Holz verwenden viele Grafiker Midjourney als Teil ihres Konzeptentwicklungs-Workflows. Sie entwickeln einige Variationen einer Idee und präsentieren sie den Kunden, um zu sehen, welche Richtung sie einschlagen sollten.

„Die Profis nutzen es, um ihren kreativen oder Kommunikationsprozess zu beschleunigen“, erklärte Holz. "Und dann haben viele Leute nur damit gespielt."

Vielleicht 20 Prozent der Menschen nutzen Midjourney für das, was Holz als Kunsttherapie bezeichnet. Zum Beispiel das Erstellen von Hundebildern, nachdem ihr Hund gestorben ist. „Sie nutzen es als emotionales und intellektuelles Reflexionsinstrument“, sagte er. „Und das ist wirklich cool.“

Holz mag die Idee nicht, Midjourney zu verwenden, um gefälschte Fotos zu erstellen. „Es ist extrem gefährlich, es redaktionell zu verwenden, um gefälschte Fotos zu erstellen“, sagte er. "Niemand sollte das tun." Aber er ist offener für Midjourney als Quelle für kommerzielle Illustrationen und stellt dies fest Der Economist brachte eine Midjourney-Grafik auf seinem Cover im Juni.

„Erst vor Kurzem haben wir die kommerzielle Nutzung erlaubt“, sagt Holz. „Lange Zeit war es nur nichtkommerziell. Eines der Dinge, die wir tun, ist, dass wir es einfach beobachten, was die Leute tun, und wir könnten entscheiden, dass uns einiges davon nicht gefällt, und dann werden wir eine Regel aufstellen, die Sie besagt kann es nicht mehr nur für diese Dinge verwenden.“

Holz sagte, er sehe KI-Tools wie Midjourney, die Künstler besser in dem machen, was sie tun, anstatt jeden zu einem professionellen Künstler zu machen. „Ein Künstler, der diese Tools verwendet, ist immer besser als eine normale Person, die diese Tools verwendet. Könnte es irgendwann Druck geben, diese Tools zu verwenden, weil man so tolle Dinge machen kann? Ich denke ja. Aber im Moment glaube ich, dass es noch nicht so weit ist. Aber es wird in den nächsten zwei Jahren erschreckend besser werden.“

Midjourney und DALL-E 2 haben mehr Aufmerksamkeit auf langjährige Bedenken gelenkt, ob große KI-Modelle, die aus der Arbeit unter Urheberrecht oder bestimmten Lizenzen erstellt wurden, mit dem Urheberrecht und dem eigenen Verständnis der Ersteller von Inhalten, wie ihre Arbeit behandelt werden sollte, in Einklang gebracht werden können.

Amerika, Land des Rechtsstreits

In Bezug auf die Midjourney-Ausgabe verneint die aktuelle US-Rechtsprechung die Möglichkeit, KI-generierten Bildern Urheberrechte zu gewähren. Im Februar hat das US Copyright Office Review Board abgelehnt [PDF] ein zweiter Antrag auf Gewährung von Urheberrechten an einer computergenerierten Landschaft mit dem Titel „A Recent Entrance to Paradise“, da sie ohne menschliche Urheberschaft erstellt wurde.

In einem Telefoninterview sagte Tyler Ochoa, Professor an der juristischen Fakultät der Santa Clara University Das Register, „Das US Copyright Office hat gesagt, es sei [akzeptabel], wenn ein Künstler KI verwendet, um ihn bei der Erstellung eines Werks zu unterstützen, solange menschliche Kreativität beteiligt ist. Wenn Sie einfach Text eingeben und die KI ein Werk generiert, unterliegt das nach geltendem Recht ziemlich eindeutig nicht dem Urheberrechtsschutz.“

In den Nutzungsbedingungen von Midjourney heißt es: „Sie besitzen alle Vermögenswerte, die Sie mit den Diensten erstellen“, aber das Unternehmen verlangt von den Benutzern eine Urheberrechtslizenz, um mit dem Dienst erstellte Inhalte zu reproduzieren – eine notwendige Vorsichtsmaßnahme, um die Bilder der Benutzer zu hosten, auch wenn es zweifelhaft erscheint, dass diese vorhanden sind Das Erstellen von Midjourney-Bildern einfach durch Texteingabe hat keine Urheberrechte zu übertragen oder durchzusetzen.

Das mag nicht immer der Fall sein. Ochoa sagte, dass er glaubt, dass Steven Thaler, der Schöpfer von „A Recent Entrance to Paradise“, die Ablehnung der KI-basierten Urheberschaft durch das Copyright Office vor Gericht anfechten möchte, obwohl dies noch nicht geschehen ist.

Es gibt auch potenzielle Bedenken hinsichtlich des Urheberrechts, die sich aus KI-Modellen ergeben, die mit urheberrechtlich geschütztem Material trainiert wurden. „Die Frage ist, ob es eine faire Verwendung wäre, diese Bilder für das Training und die KI zu verwenden“, sagte Ochoa. „Und ich denke, die Argumente für eine faire Verwendung in diesem Zusammenhang sind ziemlich stark.“

Darüber hinaus besteht eine potenzielle Haftung für diejenigen, die Bilder erstellen, die bestehendem urheberrechtlich geschütztem Material im Wesentlichen ähneln. „Wenn Ihr Trainingssatz nicht groß genug ist, kann das, was die KI ausspuckt, dem, was sie aufgenommen hat, sehr ähnlich sehen“, erklärte Ochoa und merkte an, dass die Frage dann ist, ob es sich um eine Urheberrechtsverletzung handelt. „Indirekt denke ich, dass es sehr wahrscheinlich sein könnte.“

Was das potenzielle rechtliche Risiko für Kunden betrifft, die Midjourney-generierte Vermögenswerte verwenden, sagte Ochoa, dass er es für ziemlich gering hält. Wenn das Training eines KI-Modells gegen Urheberrechte verstoße, sei dies erfolgt, bevor der Auftraggeber involviert war, erklärte er. „Sofern der Kunde die Erstellung der KI nicht in irgendeiner Weise gesponsert hat, glaube ich nicht, dass [der Kunde] für eine Verletzung des Trainingssatzes haftbar gemacht wird“, sagte er. „Und das ist die stärkste Behauptung hier. Ich denke also, dass die Kunden mit der Verwendung dieser Bilder auf ziemlich solidem Boden stehen, vorausgesetzt, es war gut gemacht.“

Holz räumt ein, dass die Rechtslage unklar ist.

"Im Moment hat das Gesetz nichts über solche Dinge", sagte er. „Meines Wissens nach wird jedes einzelne große KI-Modell im Grunde mit Dingen trainiert, die im Internet zu finden sind. Und das ist okay, gerade jetzt. Spezielle Gesetze dazu gibt es nicht. Vielleicht wird es in Zukunft eine geben. Aber es ist eine Art neuartiges Gebiet, so wie die GPL eine Art neuartiges rechtliches Ding rund um Programmiercode war. Und es hat ungefähr 20 oder 30 Jahre gedauert, bis es wirklich zu etwas wurde, das das Rechtssystem zu verstehen beginnt.“

Holz sagte, er glaube, dass es im Moment wichtiger sei zu verstehen, wie die betroffenen Parteien über diese Technologie denken. „Wir haben viele Künstler, die unsere Sachen verwenden, und wir fragen sie ständig nach: ‚Fühlst du dich damit einverstanden?'“, sagte er.

Holz sagte, wenn genug Unzufriedenheit mit dem Status quo vorhanden sei, könne es sich lohnen, in Zukunft über eine Art Vergütungsstruktur für Künstler nachzudenken, deren Arbeit in Ausbildungsmodelle einfließt. Allerdings sei es derzeit schwierig, die Höhe der Beiträge abzuschätzen. „Die Herausforderung für so etwas besteht derzeit darin, dass nicht wirklich klar ist, was die KI-Modelle so gut funktionieren lässt“, sagte er. „Wenn ich dort ein Bild von einem Hund einfüge, wie sehr hilft es [dem KI-Modell] tatsächlich, Hundebilder zu machen. Es ist nicht wirklich klar, welche Teile der Daten [dem Modell] tatsächlich welche Fähigkeiten verleihen.“

Auf die Frage, was Midjourney seine unverwechselbare Ästhetik verleiht, sagte Holz, er könne das, was Midjourney macht, nicht wirklich mit DALL-E 2 vergleichen, aber im Allgemeinen würden KI-Forscher dazu neigen, das zu bekommen, wofür sie optimieren. Wenn sie das Wort „Hund“ eingeben, möchten sie wahrscheinlich ein Bild von einem Hund.

„Bei der Optimierung wollten wir, dass es irgendwie schön aussieht, und schön bedeutet nicht unbedingt realistisch. … Wenn überhaupt, neigen wir es tatsächlich ein wenig von Fotos weg. … Ich weiß, dass diese Technologie als Deep-Fake-Supermaschine verwendet werden kann. Und ich glaube nicht, dass die Welt noch mehr gefälschte Fotos braucht. Ich möchte nicht wirklich eine Quelle für gefälschte Fotos in der Welt sein.“

„Eigentlich fühle ich mich irgendwie unwohl, wenn unsere Sachen etwas machen, das wie ein Foto aussieht. Und das soll nicht heißen, dass wir niemals zulassen werden, dass Menschen Dinge machen, die realistischer sind. Es gibt legitime Anwendungsfälle für den Versuch, Dinge realistischer aussehen zu lassen. Ich bin jedoch der festen Überzeugung, dass standardmäßig kein gefälschtes Foto gemacht werden sollte, wenn jemand unser System verwendet.“

„Aber ich denke, die Welt braucht mehr Schönheit. Grundsätzlich, wenn ich etwas schaffe, das es Menschen ermöglicht, schöne Dinge zu machen, und es gibt schönere Dinge auf der Welt, ist das standardmäßig das, was ich will.“ ®

Zeitstempel:

Mehr von Das Register