David Holz, grundare av AI-konstgeneratorn Midjourney, om framtiden för avbildning av PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

David Holz, grundare av AI-konstgeneratorn Midjourney, om framtiden för bildbehandling

Intervju 2008 var David Holz med och grundade en hårdvarufirma som heter Leap Motion. Han drev det till förra året då han lämnade för att skapa Midjourey.

midjourney i sin nuvarande form är ett socialt nätverk för att skapa AI-genererad konst från en textprompt – skriv ett ord eller en fras vid inmatningsprompten så får du en intressant eller kanske underbar bild på skärmen efter ungefär en minuts beräkning. Det liknar i vissa avseenden OpenAIs DALL-E2.

Midjourney-bild av himlen och molnen, med hjälp av textuppmaningen "All denna värdelösa skönhet." Källa: genererad av midjourney

Båda är resultatet av stora AI-modeller som tränats på ett stort antal bilder. Men Midjourney har sin egen distinkta stil, som man kan se av den här Twitter-tråden. Båda de senaste dagarna har gått in i offentlig betatestning (även om DALL-E 2-åtkomsten utökas långsamt).

Möjligheten att skapa högkvalitativa bilder från AI-modeller med hjälp av textinmatning blev en populär aktivitet förra året efter lanseringen av OpenAI:s KLÄMMA (Contrastive Language–Image Pre-training), som utformades för att utvärdera hur väl genererade bilder överensstämmer med textbeskrivningar. Efter dess utgivning, konstnären Ryan Murdock (@advadnoun på Twitter) fann att processen kunde vändas – genom att tillhandahålla textinmatning kunde du få bildutdata med hjälp av andra AI-modeller.

Efter det inledde den generativa konstgemenskapen en period av febrig utforskning och publicerade Python-kod för att skapa bilder med en mängd olika modeller och tekniker.

"Någon gång förra året såg vi att det fanns vissa områden inom AI som utvecklades på riktigt intressanta sätt," förklarade Holz i en intervju med Registret. "En av dem var AI:s förmåga att förstå språk."

Holz pekade på utvecklingar som transformatorer, en djupinlärningsmodell som informerar CLIP, och diffusionsmodeller, ett alternativ till GAN. "Den som verkligen slog mitt öga personligen var den CLIP-styrda spridningen," sa han, utvecklad av Katherine Crawson (känd på Twitter som @RiversHaveWings).

Inte den stereotypa Florida-mannen

Holz växte upp i Florida och hade ett designföretag på gymnasiet där han studerade matematik och fysik. Han arbetade på en doktorsexamen i tillämpad matematik och tog tjänstledigt 2008 för att starta Leap Motion. Året därpå tillbringade han ett år som studentforskare vid Max Planck Institute, följt av två år vid NASA Langley Research Center som doktorandforskare som arbetade med LiDAR, Mars-uppdrag och atmosfärisk vetenskap.

"Jag tänkte, varför jobbar jag med allt det här?" han förklarade. "Jag vill bara jobba med en cool sak som jag bryr mig om."

Så han fokuserade på Leap Motion, som utvecklade en hårdvaruenhet för att spåra handrörelser och använda den för enhetsinmatning. Han drev företaget i tolv år, och när han lämnade det sysselsatte cirka 100 personer.

Midjourney, sa han, är ganska liten just nu. "Vi är ungefär 10 personer," förklarade han. "Vi är självfinansierade. Vi har inga investerare. Vi är inte riktigt ekonomiskt motiverade. Vi är bara här för att jobba med saker som vi brinner för och har roligt. Och vi arbetade med många olika projekt.”

Holz sa att den tekniska aspekten av AI och i vilken utsträckning den kommer att förbättras är ganska lätt att förutse. "Men de mänskliga konsekvenserna av det är så svåra att föreställa sig," sa han. "Det finns något här som är i skärningspunkten mellan mänsklighet och teknik. För att verkligen ta reda på vad det här är och vad det borde vara behöver vi verkligen göra många experiment.”

Vägen framför

Den oroliga karaktären hos AI-bildteknik är uppenbar i skillnaden mellan verktyg som Midjourney och ett nedladdningsbart grafikprogram med öppen källkod som Blender, eller en lokalt installerad kommersiell applikation som Adobe Photoshop (innan det blev en molntjänst).

Midjourney existerar i ett socialt sammanhang. Dess front-end är chattjänsten Discord. Nya användare loggar in på Discords Midjourney-server och kan sedan skicka textmeddelanden för att generera bilder tillsammans med många andra användare i någon av de olika nybörjarkanalerna.

De resulterande bilderna för alla användare i den kanalen dyker upp på ungefär en minut, vilket hjälper till att förstärka uppfattningen om gemenskap. De som bestämmer sig för att uppgradera till en prenumeration på $10/månad eller $30/månad kan skicka text till Midjourney-boten i Discord-appen som ett privat direktmeddelande och få bilder som svar utan det skärmrullande vattenfallet av interaktion från andra användare i en offentlig kanal. Genererade bilder förblir dock offentliga som standard.

Som en social app är Midjourney föremål för regler om tillåtet innehåll – något som användare av Blender eller andra lokalt installerade appar inte behöver oroa sig för. Midjourneys användarvillkor säger: "Inget barnförbjudet innehåll eller gore. Undvik att göra visuellt chockerande eller störande innehåll. Vi kommer att blockera vissa textinmatningar automatiskt."

DALL-E 2 är föremål för liknande men mer omfattande begränsningar, som beskrivs i dess Innehållspolicy.

"Jag tror att om vi levde i en värld som inte hade sociala medier, så skulle vi inte behöva ha några begränsningar", sa Holz. "...När Photoshop uppfanns fanns det faktiskt press om det, där det var som "åh, du kan fejka vad som helst och det är lite läskigt." [Men nu] är det mycket mer lukrativt att vara sensationell än det var förut."

"Nuförtiden kan vem som helst vara sensationell, och i princip tjäna på det, du vet," sa Holz. "Och vad det gör är att det skapar en marknad för dramatik och sensationellism. Det är därför jag tror att vi måste vara lite mer försiktiga, för någon gång, vad folk kommer att göra är att de kommer att säga, 'okej, jag kan ta bilder av det här, vad är det mest dramatiska och kränkande och skrämmande som jag kan göra?'"

Inga enkla svar

Holz tillåter att det finns saker som sociala plattformar kan göra för att mildra dessa problem men säger att det inte finns några enkla svar. "Tyvärr finns det inte ett tydligt sätt att ta itu med det, förutom som ett samhälle, för att belöna sensationalism mindre," sa han. "Men mitt intryck är att ingen verkligen försöker ändra sociala plattformar för att minska sensationsförmågan, eftersom det ger dem pengar just nu."

Vad mer, sa han, eftersom Midjourney syftar till att vara ett socialt utrymme för alla över 13 år, är det nödvändigt att ha regler mot extremt eller grafiskt innehåll.

"Vi vill egentligen inte ha segmenterade utrymmen för människor som gillar att göra lik eller gillar nakenbilder," förklarade Holz. "Vi vill helt enkelt inte behöva ta itu med det här. Vi tror inte att vi har en moralisk skyldighet att göra det i detta skede. Vi vill ha en vacker social plats där människor kan göra saker tillsammans och inte bli kränkta, i grund och botten, och för att känna sig trygga.”

För detta ändamål har företaget ett 40-tal moderatorer som håller ett öga på bilderna som användarna skapar.

Den sociala aspekten av Midjourney började nyligen förbättra bildkvaliteten. Holz sa att företagets ingenjörer nyligen introducerade version tre av sin mjukvara, som för första gången inkluderade en återkopplingsslinga baserad på användaraktivitet och svar.

"Om du tittar på v3-grejer så finns det en enorm förbättring," sa han. "Det är häpnadsväckande bättre och vi lade faktiskt inte ner mer konst i det. Vi tog bara data om vilka bilder användarna gillade och hur de använde dem. Och det gjorde det faktiskt bättre.”

Tillfrågad om Midjourney tech stack, bettrade Holz. "Vid någon tidpunkt kommer vi förmodligen att göra ett pressmeddelande specifikt kring vilka leverantörer vi använder," sa han. "Vad kan jag säga är att vi har dessa stora AI-modeller med miljarder parametrar. De är tränade över miljarder bilder.”

Holz säger att användare gör miljontals och åter miljoner bilder varje dag och att de gör det med hjälp av datorleverantörer för grön energi – vilket inte riktigt begränsar fältet för stora leverantörer av molndatorer eftersom de alla hävdar att de är åtminstone koldioxidneutrala.

"Varje bild tar petaops", sa han, en term som betyder 10^15 operationer per sekund. ”Så 1000-tals biljoner operationer. Jag vet inte exakt om det är fem eller 10 eller 50. Men det är 1000-tals biljoner operationer för att göra en bild. Det är förmodligen den dyraste … om du ringer Midjourney, en tjänst – som du skulle kalla det en tjänst eller en produkt – utan tvekan, det har aldrig funnits en tjänst tidigare där en vanlig person använder så mycket datorer.”

Håller oss i mat och kläder

Ändå är Midjourney inte på väg mot att merförsälja kunder som kommer in av en gratistjänst till betalda nivåer och sedan attrahera välbetalande företagskunder innan de går till börs eller blir förvärvade.

"Vi är inte som en startup som samlar in mycket pengar och sedan inte är säker på vad deras verksamhet eller produkt är och förlorar pengar under en lång tid", sa Holz. "Vi är som ett självfinansierat forskningslabb. Vi kan förlora en del pengar. Vi har inte som 100 miljoner dollar av någon annans pengar att förlora. För att vara ärlig så är vi redan lönsamma och vi mår bra.”

"Det är en ganska enkel affärsmodell, det vill säga tycker folk om att använda den? Om de gör det måste de betala kostnaden för att använda den eftersom råkostnaden faktiskt är ganska dyr. Och så lägger vi till en procentsats ovanpå det, som förhoppningsvis räcker för att mata och hysa oss. Och så det är vad vi gör."

När det gäller framtiden kan skalning bli ett problem. Holz sa att Midjourney för närvarande har hundratusentals människor som använder tjänsten, som kräver ungefär 10,000 XNUMX servrar.

"Om det fanns 10 miljoner människor som försökte använda teknik som denna," sa han, "finns det faktiskt inte tillräckligt med datorer. Det finns inte en miljon gratisservrar för att göra AI i världen. Jag tror att världen kommer att ta slut på datorer innan tekniken faktiskt når alla som vill använda den.”

Vad använder folk det till? Tja, om du är inloggad på ett Midjourney-konto kan du se vad folk skapar via Community-flöde sida. Det är ett konstant flöde av intressanta, ofta häpnadsväckande bra, bilder.

"Majoriteten av människor har bara roligt," sa Holz. "Jag tror att det är det största eftersom det faktiskt inte handlar om konst, det handlar om fantasi."

Att vara professionell

Men för cirka 30 procent av användarna är det professionellt. Holz sa att många grafiker använder Midjourney som en del av deras konceptutvecklingsarbetsflöde. De genererar några varianter av en idé och presenterar den för kunderna för att se vilken riktning de ska sträva efter.

"Proffsen använder det för att överta sin kreativa eller kommunikationsprocess," förklarade Holz. "Och då var det många som bara lekte med det."

Kanske 20 procent av människor använder Midjourney för vad Holz beskriver som konstterapi. Till exempel att skapa hundbilder efter att deras hund har dött. "De använder det som ett känslomässigt och intellektuellt reflekterande verktyg," sa han. "Och det är riktigt coolt."

Holz ogillar tanken på att använda Midjourney för att skapa falska fotografier. "Att använda det redaktionellt för att skapa falska bilder är extremt farligt," sa han. "Ingen borde göra det." Men han är mer öppen för Midjourney som en källa till kommersiell illustration, och noterar det The Economist körde en Midjourney-grafik på omslaget i juni.

"Vi har bara nyligen tillåtit människor att använda det kommersiellt," sa Holz. "Länge var det enbart icke-kommersiellt. Och så en av sakerna vi gör är att vi bara tittar på det, vad folk gör, och vi kanske bestämmer oss för att vi inte är bekväma med en del av det och sedan kommer vi att sätta in en regel som säger att du kan inte längre använda den bara för dessa saker."

Holz sa att han ser att AI-verktyg som Midjourney gör artister bättre på vad de gör snarare än att göra alla till professionella artister. "En konstnär som använder dessa verktyg är alltid bättre än en vanlig person som använder dessa verktyg. Någon gång, kan det finnas press att använda dessa verktyg eftersom du kan göra saker som är så fantastiska? Ja tror jag. Men just nu tror jag inte att det är riktigt där än. Men det kommer att bli chockerande bättre under de kommande två åren.”

Midjourney och DALL-E 2 har uppmärksammat mer långvariga farhågor om huruvida stora AI-modeller, skapade av verket under upphovsrätt eller specifika licenser, kan förenas med upphovsrättslagen och med innehållsskapares egen uppfattning om hur deras verk ska behandlas.

Amerika, rättegångens land

När det gäller Midjourney-utdata förnekar nuvarande amerikansk rättspraxis möjligheten att bevilja upphovsrätt till AI-genererade bilder. I februari, US Copyright Office Review Board förkastas [PDF] en andra begäran om att ge upphovsrätt till ett datorgenererat landskap med titeln "A Recent Entrance to Paradise" eftersom det skapades utan mänskligt författarskap.

I en telefonintervju berättade Tyler Ochoa, professor vid juridikavdelningen vid Santa Clara University Registret, "USA:s upphovsrättsbyrå har sagt att det är [acceptabelt] om en konstnär använder AI för att hjälpa dem att skapa ett verk så länge det finns en viss mänsklig kreativitet inblandad. Om det bara är du som skriver text och AI genererar ett verk, är det ganska uppenbart inte föremål för upphovsrättsskydd enligt gällande lag.”

Midjourneys användarvillkor säger "du äger alla tillgångar du skapar med tjänsterna", men företaget kräver en upphovsrättslicens från användare för att reproducera innehåll som skapats med tjänsten - en nödvändig försiktighetsåtgärd för att vara värd för användares bilder, även om det verkar tveksamt att de att göra Midjourney-bilder helt enkelt genom textinmatning har någon upphovsrätt att förmedla eller genomdriva.

Så kanske inte alltid är fallet. Ochoa sa att han tror att Steven Thaler, som skapade "A Recent Entrance to Paradise", kanske vill utmana Copyright Offices avslag på AI-baserat författarskap i domstol, även om det inte har hänt ännu.

Det finns också potentiella upphovsrättsproblem som uppstår från AI-modeller som tränats på upphovsrättsskyddat material. "Frågan är om det skulle vara rimligt att använda dessa bilder för träning och AI", sa Ochoa. "Och jag tror att argumenten för skälig användning i det sammanhanget är ganska stark."

Dessutom finns det potentiellt ansvar för de som genererar bilder som i huvudsak liknar befintligt upphovsrättsskyddat material. "Om din träningsuppsättning inte är tillräckligt stor, kan det som AI spottar ut likna det som den fick i sig," förklarade Ochoa och noterade att frågan då är om det är ett brott mot upphovsrätten. "Indirekt tror jag att det mycket troligt kan vara det."

När det gäller potentiella juridiska risker för kunder som använder Midjourney-genererade tillgångar, sa Ochoa att han tycker att den är ganska låg. Om utbildningen av en AI-modell gjorde intrång i upphovsrätten gjordes det innan kunden var inblandad, förklarade han. "Så om inte klienten sponsrade skapandet av AI på något sätt, tror jag inte att [klienten] skulle vara ansvarig för eventuella intrång i träningsuppsättningen," sa han. "Och det är det starkaste påståendet här. Så jag tror att kunderna är på ganska solid mark när det gäller att använda dessa bilder, förutsatt att det var bra gjort."

Holz erkänner att den rättsliga situationen saknar klarhet.

"För tillfället har lagen egentligen ingenting om den här typen av saker," sa han. "Vad jag vet är varenda stor AI-modell i grunden utbildad på saker som finns på internet. Och det är okej, just nu. Det finns inga lagar specifikt om det. Kanske kommer det att finnas i framtiden. Men det är ett slags nytt område, som att GPL var en slags ny juridisk sak kring programmeringskod. Och det tog typ 20 eller 30 år för det att verkligen bli något som rättssystemet börjar ta reda på."

Holz sa att han tror att det är viktigare för tillfället att förstå hur berörda parter tycker om denna teknik. "Vi har många artister som använder våra grejer, och vi kollar ständigt med dem som "mår du okej om det här?"", sa han.

Holz sa att om det finns tillräckligt med missnöje med status quo kan det vara värt att tänka på någon form av betalningsstruktur i framtiden för artister vars arbete går in på utbildningsmodeller. Men han observerade att det är svårt att bedöma omfattningen av bidrag för närvarande. "Utmaningen för något sådant just nu är att det faktiskt inte är klart vad som gör att AI-modellerna fungerar bra", sa han. "Om jag lägger in en bild på en hund där, hur mycket hjälper det egentligen [AI-modellen] att göra hundbilder. Det är faktiskt inte klart vilka delar av data som faktiskt ger [modellen] vilka förmågor.”

På frågan om vad som ger Midjourney dess distinkta estetik, sa Holz att han inte riktigt kunde jämföra vad Midjourney gör med DALL-E 2, men att AI-forskare i allmänhet tenderar att få det de optimerar för. Om de lägger in ordet "hund" vill de förmodligen ha en bild av en hund.

"För oss var vi när vi optimerade det, vi ville att det skulle se vackert ut, och vackert betyder inte nödvändigtvis realistiskt. … Om något, faktiskt fördomar vi det lite bort från foton. … Jag vet att den här tekniken kan användas som en djup falsk supermaskin. Och jag tror inte att världen behöver fler falska bilder. Jag vill egentligen inte vara en källa till falska bilder i världen.”

"Jag känner mig faktiskt lite obekväm om våra grejer gör något som ser ut som ett foto. Och det är inte att säga att vi aldrig kommer att låta människor göra saker som är mer realistiska. Det finns legitima användningsfall för att försöka få saker som ser mer realistiska ut. Men jag känner starkt att, som standard, när någon använder vårt system, bör det inte göra ett falskt foto."

"Men jag tror att världen behöver mer skönhet. I grund och botten, om jag skapar något som låter människor göra vackra saker, och det finns vackrare saker i världen, så är det vad jag vill ha som standard.” ®

Tidsstämpel:

Mer från Registret