David Holz, oprichter van AI-kunstgenerator Midjourney, over de toekomst van de beeldvorming van PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

David Holz, oprichter van AI-kunstgenerator Midjourney, over de toekomst van beeldvorming

Interview In 2008 was David Holz mede-oprichter van een hardware-randapparatuurbedrijf genaamd Leap Motion. Hij leidde het tot vorig jaar toen hij vertrok om Midjourey te creëren.

halverwege de reis in zijn huidige vorm is het een sociaal netwerk voor het maken van AI-gegenereerde kunst van een tekstprompt - typ een woord of zin bij de invoerprompt en je krijgt na ongeveer een minuut rekenen een interessant of misschien prachtig beeld op het scherm. Het is in sommige opzichten vergelijkbaar met OpenAI's DALL-E2.

Midjourney-afbeelding van de lucht en de wolken, met de tekstprompt "Al deze nutteloze schoonheid." Bron: gegenereerd door halverwege de reis

Beide zijn het resultaat van grote AI-modellen die zijn getraind op grote aantallen afbeeldingen. Maar Midjourney heeft zijn eigen kenmerkende stijl, zoals te zien is aan deze Twitter-thread. Beide zijn de afgelopen dagen in de openbare bètatest terechtgekomen (hoewel DALL-E 2-toegang langzaam wordt uitgebreid).

De mogelijkheid om hoogwaardige afbeeldingen te maken van AI-modellen met behulp van tekstinvoer werd vorig jaar een populaire activiteit na de release van OpenAI's CLIP (Contrastive Language-Image Pre-training), die is ontworpen om te evalueren hoe goed gegenereerde afbeeldingen overeenkomen met tekstbeschrijvingen. Na de release ervan, artiest Ryan Murdock (@advadnoun op Twitter) ontdekte dat het proces kan worden omgekeerd: door tekstinvoer te geven, kunt u beelduitvoer krijgen met behulp van andere AI-modellen.

Daarna begon de generatieve kunstgemeenschap aan een periode van koortsachtig onderzoek en publiceerde Python-code om afbeeldingen te maken met behulp van een verscheidenheid aan modellen en technieken.

"Ergens vorig jaar zagen we dat er bepaalde gebieden van AI waren die op echt interessante manieren evolueerden", legde Holz uit in een interview met Het register. "Een daarvan was het vermogen van AI om taal te begrijpen."

Holz wees op ontwikkelingen als transformatoren, een deep learning-model dat CLIP informeert, en diffusiemodellen, een alternatief voor GAN's. "Degene die me persoonlijk echt opviel, was de CLIP-geleide diffusie", zei hij, ontwikkeld door Katherine Crawson (op Twitter bekend als @RiversHaveWings).

Niet de stereotiepe man uit Florida

Holz groeide op in Florida en had een ontwerpbedrijf op de middelbare school waar hij wiskunde en natuurkunde studeerde. Hij werkte aan een PhD toegepaste wiskunde en nam in 2008 verlof om Leap Motion te starten. Het jaar daarop bracht hij een jaar door als student-onderzoeker aan het Max Planck Institute, gevolgd door twee jaar bij NASA Langley Research Center als afgestudeerde student-onderzoeker die werkte aan LiDAR, Mars-missies en atmosferische wetenschap.

"Ik had zoiets van, waarom werk ik aan al deze dingen?" hij legde uit. "Ik wil gewoon aan één cool ding werken waar ik om geef."

Dus concentreerde hij zich op Leap Motion, dat een hardwareapparaat ontwikkelde om handbewegingen te volgen en te gebruiken voor apparaatinvoer. Hij leidde het bedrijf twaalf jaar en toen hij wegging, waren er ongeveer 100 mensen in dienst.

Midjourney, zei hij, is momenteel vrij klein. "We zijn ongeveer 10 mensen," legde hij uit. “We zijn zelf gefinancierd. We hebben geen investeerders. We zijn niet echt financieel gemotiveerd. We zijn hier gewoon om te werken aan dingen waar we gepassioneerd over zijn en om plezier te hebben. En we werkten aan veel verschillende projecten.”

Holz zei dat het technologische aspect van AI en de mate waarin het zal verbeteren vrij eenvoudig te voorspellen is. "Maar de menselijke gevolgen daarvan zijn zo moeilijk voor te stellen", zei hij. “Er is hier iets dat zich op het snijvlak van mens en technologie bevindt. Om er echt achter te komen wat dit is en wat het zou moeten zijn, moeten we echt heel veel experimenten doen.”

De weg voor ons

Het onzekere karakter van AI-beeldtechnologie blijkt duidelijk uit het verschil tussen tools zoals Midjourney en een downloadbare open source grafische applicatie zoals Blender, of een lokaal geïnstalleerde commerciële applicatie zoals Adobe Photoshop (voordat het een cloudservice werd).

Midjourney bestaat in een sociale context. De front-end is de chatservice Discord. Nieuwe gebruikers loggen in op de Midjourney-server van Discord en kunnen vervolgens tekstprompts indienen om afbeeldingen te genereren samen met tal van andere gebruikers in een van de verschillende newbie-kanalen.

De resulterende afbeeldingen voor alle gebruikers in dat kanaal verschijnen in ongeveer een minuut, wat het idee van gemeenschap versterkt. Degenen die besluiten te upgraden naar een abonnement van $ 10/maand of $ 30/maand, kunnen tekst naar de Midjourney-bot in de Discord-app sturen als een privé-direct bericht en als reactie daarop afbeeldingen ontvangen zonder de schermscrollende waterval van interactie van andere gebruikers in een openbare kanaal. Gegenereerde afbeeldingen blijven echter standaard openbaar zichtbaar.

Als sociale app is Midjourney onderworpen aan regels over toegestane inhoud - iets waar gebruikers van Blender of andere lokaal geïnstalleerde apps zich geen zorgen over hoeven te maken. In de Servicevoorwaarden van Midjourney staat: "Geen inhoud voor volwassenen of bloed. Vermijd het maken van visueel schokkende of verontrustende inhoud. Sommige tekstinvoer zullen we automatisch blokkeren.”

DALL-E 2 is onderhevig aan vergelijkbare, maar uitgebreidere beperkingen, zoals beschreven in zijn Inhoudsbeleid.

"Ik denk dat als we in een wereld zouden leven zonder sociale media, we geen beperkingen zouden hebben", zei Holz. "... Toen Photoshop werd uitgevonden, was er eigenlijk pers over, waar het was als, 'oh, je kunt alles faken en het is een beetje eng.' [Maar nu] is het veel lucratiever om sensationeel te zijn dan voorheen."

"Tegenwoordig kan iedereen sensationeel zijn, en daar in feite van profiteren, weet je," zei Holz. “En wat het doet, is dat het een markt creëert voor drama en sensatiezucht. Daarom denk ik dat we wat voorzichtiger moeten zijn, want op een gegeven moment zullen mensen zeggen: 'Oké, ik kan hier foto's van maken, wat is de meest dramatische, aanstootgevende en gruwelijke dingen die ik kunnen maken?'"

Geen gemakkelijke antwoorden

Holz geeft toe dat er dingen zijn die sociale platforms kunnen doen om deze problemen te verminderen, maar zegt dat er geen simpele antwoorden zijn. "Helaas is er geen duidelijke manier om het aan te pakken, behalve als samenleving, om sensatiezucht minder te belonen," zei hij. "Mijn indruk is echter dat niemand echt probeert sociale platforms te veranderen om sensatiezucht te verminderen, omdat ze nu geld verdienen."

Bovendien, zei hij, omdat Midjourney een sociale ruimte wil zijn voor iedereen ouder dan 13 jaar, is het noodzakelijk om regels te hebben tegen extreme of grafische inhoud.

"We willen niet echt gesegmenteerde ruimtes hebben voor mensen die graag lijken maken of van naaktfoto's houden", legt Holz uit. “Daar willen we gewoon niet mee te maken hebben. We denken niet dat we in dit stadium een ​​morele verplichting hebben om dat te doen. We willen één mooie sociale ruimte waar mensen samen dingen kunnen maken en in feite niet beledigd zijn, en zich veilig voelen.”

Daartoe heeft het bedrijf ongeveer 40 moderators die de afbeeldingen die gebruikers maken in de gaten houden.

Het sociale aspect van Midjourney is onlangs begonnen met het verbeteren van de beeldkwaliteit. Holz zei dat bedrijfsingenieurs onlangs versie drie van zijn software hebben geïntroduceerd, die voor het eerst een feedbacklus bevatte op basis van gebruikersactiviteit en respons.

"Als je kijkt naar de v3-dingen, is er een enorme verbetering," zei hij. “Het is verbijsterend beter en we hebben er eigenlijk geen kunst meer in gestopt. We hebben zojuist de gegevens verzameld over welke afbeeldingen de gebruikers leuk vonden en hoe ze deze gebruikten. En dat maakte het juist beter.”

Gevraagd naar de technische stapel van Midjourney, protesteerde Holz. "Op een gegeven moment gaan we waarschijnlijk een persbericht uitbrengen over welke leveranciers we gebruiken," zei hij. “Wat ik wel kan zeggen is dat we deze grote AI-modellen hebben met miljarden parameters. Ze zijn getraind in miljarden afbeeldingen.”

Holz zegt dat gebruikers elke dag miljoenen en miljoenen afbeeldingen maken en daarbij gebruikmaken van computerproviders voor groene energie - wat het veld van grote cloud computing-providers niet echt beperkt, omdat ze allemaal beweren op zijn minst COXNUMX-neutraal te zijn.

"Elk beeld kost petaops", zei hij, een term die 10^15 bewerkingen per seconde betekent. “Dus duizenden biljoenen operaties. Ik weet niet precies of het vijf of tien of vijftig zijn. Maar het zijn duizenden biljoenen bewerkingen om een ​​afbeelding te maken. Het is waarschijnlijk de duurste … als je Midjourney een dienst noemt – zoals je het een dienst of een product zou noemen – is er ongetwijfeld nog nooit een dienst geweest waarbij een gewoon persoon zoveel rekenkracht gebruikt.”

Ons in eten en kleding houden

Toch is Midjourney niet op weg naar upselling van klanten die via een gratis service naar betaalde niveaus worden gebracht en vervolgens goedbetaalde zakelijke klanten aantrekken voordat ze naar de beurs gaan of worden overgenomen.

"We zijn niet zoals een startup die veel geld inzamelt en vervolgens niet zeker weet wat hun bedrijf of product is en lange tijd geld verliest", zegt Holz. “We zijn als een zelf gefinancierd onderzoekslab. We kunnen wat geld verliezen. We hebben niet zo'n 100 miljoen dollar van het geld van iemand anders te verliezen. Om eerlijk te zijn, we zijn al winstgevend, en het gaat goed met ons."

“Het is een vrij eenvoudig bedrijfsmodel, dat wil zeggen: vinden mensen het leuk om het te gebruiken? Als ze dat wel doen, moeten ze de kosten betalen om het te gebruiken, omdat de ruwe kosten eigenlijk vrij duur zijn. En dan voegen we daar nog een percentage aan toe, hopelijk genoeg om ons te voeden en te huisvesten. En daar doen we het dus voor.”

Wat de toekomst betreft, zou schaalvergroting een probleem kunnen zijn. Holz zei dat Midjourney momenteel honderdduizenden mensen heeft die de service gebruiken, waarvoor ongeveer 10,000 servers nodig zijn.

"Als er 10 miljoen mensen zouden zijn die technologie op deze manier proberen te gebruiken," zei hij, "zijn er eigenlijk niet genoeg computers. Er zijn geen miljoen gratis servers ter wereld om AI te doen. Ik denk dat er in de wereld geen computers meer zullen zijn voordat de technologie daadwerkelijk bij iedereen terechtkomt die er gebruik van wil maken.”

Waar gebruiken mensen het voor? Welnu, als u bent aangemeld bij een Midjourney-account, kunt u zien wat mensen maken via de Communityfeed bladzijde. Het is een constante stroom van interessante, vaak verrassend goede beelden.

"De meeste mensen hebben gewoon plezier", zei Holz. "Ik denk dat dat het belangrijkste is, want het gaat eigenlijk niet om kunst, maar om verbeeldingskracht."

Professioneel zijn

Maar voor ongeveer 30 procent van de gebruikers is het professioneel. Holz zei dat veel grafische kunstenaars Midjourney gebruiken als onderdeel van hun workflow voor conceptontwikkeling. Ze genereren een paar variaties op een idee en presenteren dit aan klanten om te zien welke richting ze op moeten.

"De professionals gebruiken het om hun creatieve of communicatieproces een boost te geven", legt Holz uit. "En toen speelden veel mensen er gewoon mee."

Misschien gebruikt 20 procent van de mensen Midjourney voor wat Holz beschrijft als kunsttherapie. Bijvoorbeeld het maken van hondenafbeeldingen nadat hun hond is overleden. "Ze gebruiken het als een emotioneel en intellectueel reflectief hulpmiddel," zei hij. "En dat is echt gaaf."

Holz houdt niet van het idee om Midjourney te gebruiken om nepfoto's te maken. "Het redactioneel gebruiken om nepfoto's te maken is extreem gevaarlijk", zei hij. "Niemand zou dat moeten doen." Maar hij staat meer open voor Midjourney als een bron van commerciële illustratie, en merkt op dat: The Economist maakte een Midjourney-afbeelding op de omslag in juni.

"We hebben pas onlangs mensen toegestaan ​​​​om het commercieel te gebruiken", zei Holz. “Het was lange tijd alleen niet-commercieel. Een van de dingen die we doen is dat we er gewoon naar kijken, wat mensen doen, en we zouden kunnen besluiten dat we ons daar niet prettig bij voelen en dan gaan we een regel invoeren die zegt dat je kan het niet meer alleen voor die dingen gebruiken.”

Holz zei dat hij ziet dat AI-tools zoals Midjourney artiesten beter maken in wat ze doen in plaats van iedereen een professionele artiest te maken. “Een artiest die deze tools gebruikt, is altijd beter dan een gewoon persoon die deze tools gebruikt. Zou er op een gegeven moment druk kunnen zijn om deze tools te gebruiken omdat je dingen kunt maken die zo geweldig zijn? Ik denk van wel. Maar op dit moment denk ik dat het er nog niet helemaal is. Maar de komende twee jaar zal het schrikbarend beter worden.”

Midjourney en DALL-E 2 hebben meer aandacht gevestigd op langdurige zorgen over de vraag of grote AI-modellen, gemaakt op basis van het werk onder auteursrecht of specifieke licenties, kunnen worden verzoend met het auteursrecht en met het eigen idee van de makers van hoe hun werk moet worden behandeld.

Amerika, land van de rechtszaak

In termen van Midjourney-output ontkent de huidige Amerikaanse jurisprudentie de mogelijkheid om auteursrechten toe te kennen aan AI-gegenereerde afbeeldingen. In februari heeft de US Copyright Office Review Board verworpen [PDF] een tweede verzoek om auteursrecht toe te kennen aan een door de computer gegenereerd landschap met de titel "A Recent Entrance to Paradise", omdat het is gemaakt zonder menselijk auteurschap.

In een telefonisch interview vertelde Tyler Ochoa, een professor in de juridische afdeling van de Santa Clara University, aan: Het register, "Het US Copyright Office heeft gezegd dat het [aanvaardbaar] is als een kunstenaar AI gebruikt om hem te helpen bij het maken van een werk, zolang er enige menselijke creativiteit bij komt kijken. Als jij gewoon tekst typt, en de AI genereert een werk, dan valt dat vrij duidelijk niet onder de auteursrechtelijke bescherming volgens de huidige wetgeving.”

In de Servicevoorwaarden van Midjourney staat "u bezit alle activa die u met de services maakt", maar het bedrijf vereist een auteursrechtlicentie van gebruikers om inhoud die met de service is gemaakt te reproduceren - een noodzakelijke voorzorgsmaatregel om de afbeeldingen van gebruikers te hosten, zelfs als het twijfelachtig lijkt dat die het maken van Midjourney-afbeeldingen eenvoudig door middel van tekstinvoer hebben alle auteursrechten om over te brengen of af te dwingen.

Dat is misschien niet altijd het geval. Ochoa zei dat hij gelooft dat Steven Thaler, die "A Recent Entrance to Paradise" heeft gemaakt, de afwijzing door het Copyright Office van op AI gebaseerd auteurschap voor de rechtbank wil aanvechten, hoewel dat nog niet is gebeurd.

Er zijn ook mogelijke auteursrechtelijke problemen die voortvloeien uit AI-modellen die zijn getraind op auteursrechtelijk beschermd materiaal. "De vraag is of het een redelijk gebruik zou zijn om die beelden te gebruiken voor training en AI", zegt Ochoa. "En ik denk dat de argumenten voor redelijk gebruik in die context redelijk sterk zijn."

Bovendien is er een potentiële aansprakelijkheid voor degenen die afbeeldingen genereren die in grote mate lijken op bestaand auteursrechtelijk beschermd materiaal. "Als je trainingsset niet groot genoeg is, kan wat de AI uitspuugt heel erg lijken op wat het binnenkrijgt", legt Ochoa uit, waarbij het probleem is of dat een schending van het auteursrecht is. "Indirect denk ik dat het zeer waarschijnlijk zou kunnen zijn."

Wat betreft het potentiële juridische risico voor klanten die door Midjourney gegenereerde activa gebruiken, zei Ochoa dat hij het redelijk laag vindt. Als het trainen van een AI-model inbreuk maakte op het auteursrecht, gebeurde dat voordat de opdrachtgever erbij betrokken was, legt hij uit. "Dus tenzij de klant de creatie van de AI op de een of andere manier sponsorde, denk ik niet dat [de klant] aansprakelijk zou zijn voor enige inbreuk op de trainingsset," zei hij. “En dat is de sterkste claim hier. Dus ik denk dat klanten een behoorlijk solide basis hebben bij het gebruik van deze afbeeldingen, ervan uitgaande dat het goed is gedaan."

Holz erkent dat de juridische situatie onduidelijk is.

"Op dit moment heeft de wet niet echt iets over dit soort dingen," zei hij. “Voor zover ik weet, is elk groot AI-model in feite getraind op dingen die op internet staan. En dat is oké, nu. Daar zijn geen specifieke wetten voor. Misschien in de toekomst, zal er zijn. Maar het is een soort nieuw gebied, zoals de GPL een soort nieuw juridisch ding was rond programmeercode. En het duurde zo'n 20 of 30 jaar voordat het echt iets werd dat het juridische systeem begint uit te zoeken."

Holz zei dat hij het op dit moment belangrijker vindt om te begrijpen hoe betrokken partijen over deze technologie denken. "We hebben veel artiesten die onze spullen gebruiken, en we checken constant met hen, 'voel je je hier goed over?'" zei hij.

Holz zei dat als er genoeg ontevredenheid is over de status-quo, het misschien de moeite waard is om in de toekomst na te denken over een soort betalingsstructuur voor kunstenaars wiens werk in trainingsmodellen gaat. Maar hij merkte op dat het momenteel moeilijk is om de omvang van de bijdragen in te schatten. "De uitdaging voor zoiets op dit moment is dat het niet echt duidelijk is waardoor de AI-modellen goed werken", zei hij. "Als ik er een foto van een hond in plaats, hoeveel helpt het [het AI-model] dan om hondenfoto's te maken. Het is niet echt duidelijk welke delen van de gegevens [het model] welke mogelijkheden geven.”

Op de vraag wat Midjourney zijn kenmerkende esthetiek geeft, zei Holz dat hij niet echt kon vergelijken wat Midjourney doet met DALL-E 2, maar dat AI-onderzoekers over het algemeen meestal krijgen waarvoor ze optimaliseren. Als ze het woord 'hond' gebruiken, willen ze waarschijnlijk een foto van een hond.

"Voor ons waren we toen we het optimaliseerden, we wilden dat het er mooi uitzag, en mooi betekent niet noodzakelijk realistisch. ... Als er iets is, doen we het eigenlijk een beetje weg van foto's. … Ik weet dat deze technologie kan worden gebruikt als een diepe nep-supermachine. En ik denk niet dat de wereld meer nepfoto's nodig heeft. Ik wil niet echt een bron zijn van nepfoto's in de wereld."

"Ik voel me eigenlijk een beetje ongemakkelijk als onze spullen iets maken dat op een foto lijkt. En dat wil niet zeggen dat we mensen nooit dingen zullen laten maken die realistischer zijn. Er zijn legitieme use-cases om te proberen dingen er realistischer uit te laten zien. Ik ben er echter sterk van overtuigd dat wanneer iemand ons systeem gebruikt, het standaard geen nepfoto mag maken."

“Maar ik denk wel dat de wereld meer schoonheid nodig heeft. Als ik iets maak waarmee mensen mooie dingen kunnen maken, en er zijn nog meer mooie dingen in de wereld, dan wil ik dat standaard.” ®

Tijdstempel:

Meer van Het register