David Holz, grundlægger af AI-kunstgenerator Midjourney, om fremtiden for billedbehandling af PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

David Holz, grundlægger af AI-kunstgenerator Midjourney, om fremtiden for billedbehandling

Interview I 2008 var David Holz med til at stifte et hardwarefirma ved navn Leap Motion. Han drev det indtil sidste år, hvor han rejste for at skabe Midjourey.

midt på rejsen i sin nuværende form er et socialt netværk til at skabe AI-genereret kunst fra en tekstprompt – skriv et ord eller en sætning ved inputprompten, og du vil modtage et interessant eller måske vidunderligt billede på skærmen efter cirka et minuts beregning. Det ligner i nogle henseender OpenAI's DALL-E2.

Midjourney-billede af himlen og skyerne ved hjælp af tekstprompten "Al denne ubrugelige skønhed." Kilde: genereret af midt på rejsen

Begge er resultatet af store AI-modeller trænet på et stort antal billeder. Men Midjourney har sin egen karakteristiske stil, som det kan ses af denne Twitter-tråd. Begge er de seneste dage gået ind i offentlig beta-test (selvom DALL-E 2-adgang udvides langsomt).

Evnen til at skabe billeder af høj kvalitet fra AI-modeller ved hjælp af tekstinput blev en populær aktivitet sidste år efter udgivelsen af ​​OpenAI's CLIP (Contrastive Language–Image Pre-training), som var designet til at evaluere, hvor godt genererede billeder stemmer overens med tekstbeskrivelser. Efter dens udgivelse, kunstner Ryan Murdock (@advadnoun på Twitter) fandt ud af, at processen kunne vendes - ved at give tekstinput kunne du få billedoutput ved hjælp af andre AI-modeller.

Derefter påbegyndte det generative kunstsamfund en periode med febrilsk udforskning og udgav Python-kode for at skabe billeder ved hjælp af en række forskellige modeller og teknikker.

"Engang sidste år så vi, at der var visse områder af AI, der udviklede sig på virkelig interessante måder," forklarede Holz i et interview med Registret. "En af dem var AI's evne til at forstå sprog."

Holz pegede på udviklinger som transformere, en dyb læringsmodel, der informerer CLIP, og diffusionsmodeller, et alternativ til GAN'er. "Den, der virkelig slog mit øje personligt, var den CLIP-guidede diffusion," sagde han, udviklet af Katherine Crawson (kendt på Twitter som @RiversHaveWings).

Ikke den stereotype Florida-mand

Holz voksede op i Florida og havde en designvirksomhed i gymnasiet, hvor han studerede matematik og fysik. Han arbejdede på en anvendt matematik-ph.d. og tog orlov i 2008 for at starte Leap Motion. Året efter tilbragte han et år som studerende forsker ved Max Planck Institute, efterfulgt af to år på NASA Langley Research Center som kandidatstuderende forsker, der arbejdede på LiDAR, Mars-missioner og atmosfærisk videnskab.

"Jeg tænkte, hvorfor arbejder jeg på alt det her?" forklarede han. "Jeg vil bare arbejde på en cool ting, som jeg holder af."

Så han fokuserede på Leap Motion, som udviklede en hardwareenhed til at spore håndbevægelser og bruge den til enhedsinput. Han drev virksomheden i tolv år, og da han forlod den beskæftigede han omkring 100 personer.

Midjourney, sagde han, er ret lille lige nu. "Vi er omkring 10 mennesker," forklarede han. "Vi er selvfinansierede. Vi har ingen investorer. Vi er ikke rigtig økonomisk motiverede. Vi er her bare for at arbejde med ting, vi brænder for og have det sjovt. Og vi arbejdede på en masse forskellige projekter.”

Holz sagde, at det teknologiske aspekt af AI og det omfang, det vil forbedre, er ret let at forudse. "Men de menneskelige konsekvenser af det er så svære at forestille sig," sagde han. "Der er noget her, der er i skæringspunktet mellem menneskelighed og teknologi. For virkelig at finde ud af, hvad det her er, og hvad det skal være, skal vi virkelig lave en masse eksperimenter."

Vejen videre

Den uafklarede karakter af AI-billedteknologi er tydelig i forskellen mellem værktøjer som Midjourney og et downloadbart open source-grafikprogram som Blender eller et lokalt installeret kommercielt program som Adobe Photoshop (før det blev en cloud-tjeneste).

Midjourney eksisterer i en social kontekst. Dens frontend er chattjenesten Discord. Nye brugere logger ind på Discords Midjourney-server og kan derefter sende tekstprompter for at generere billeder sammen med adskillige andre brugere i en af ​​de forskellige newbie-kanaler.

De resulterende billeder for alle brugere i den kanal dukker op på cirka et minut, hvilket hjælper med at forstærke forestillingen om fællesskab. De, der beslutter sig for at opgradere til et abonnement på $10/måned eller $30/måned, kan indsende tekst til Midjourney-bot i Discord-appen som en privat direkte besked og modtage billeder som svar uden det skærmrullende vandfald af interaktion fra andre brugere i en offentlig kanal. Genererede billeder forbliver dog offentligt synlige som standard.

Som en social app er Midjourney underlagt regler om tilladt indhold – noget brugere af Blender eller andre lokalt installerede apps ikke behøver at bekymre sig om. Midjourneys servicevilkår siger: "Intet voksenindhold eller lemlæstelse. Undgå at lave visuelt chokerende eller forstyrrende indhold. Vi blokerer automatisk nogle tekstinput."

DALL-E 2 er underlagt lignende, men mere omfattende begrænsninger, som beskrevet i dens Indholdspolitik.

"Jeg tror, ​​at hvis vi levede i en verden, der ikke havde sociale medier, så ville vi ikke have nogen begrænsninger," sagde Holz. “...Da Photoshop blev opfundet, var der faktisk presse om det, hvor det var som, 'åh, du kan fake hvad som helst, og det er lidt skræmmende.' [Men nu] er det meget mere lukrativt at være sensationslysten, end det var før."

"I dag kan enhver være sensationslysten, og dybest set tjene på det, du ved," sagde Holz. "Og det, det gør, er, at det skaber et marked for drama og sensationslyst. Det er derfor, jeg tror, ​​vi skal være lidt mere forsigtige, for på et tidspunkt vil folk gøre, at de vil sige, 'okay, jeg kan lave billeder af det her, hvad er det mest dramatiske og stødende og rædselsvækkende, jeg kan lave?'"

Ingen lette svar

Holz tillader, at der er ting, sociale platforme kan gøre for at afbøde disse problemer, men siger, at der ikke er nogen enkle svar. "Desværre er der ikke en klar måde at løse det på, undtagen som et samfund, for at belønne sensationslyst mindre," sagde han. "Men mit indtryk er, at ingen virkelig forsøger at ændre sociale platforme for at reducere sensationslyst, fordi det giver dem penge lige nu."

Hvad mere er, sagde han, fordi Midjourney sigter mod at være et socialt rum for alle over 13 år, er det nødvendigt at have regler mod ekstremt eller grafisk indhold.

"Vi ønsker ikke rigtig at have segmenterede rum for folk, der kan lide at lave lig eller kan lide nøgenbilleder," forklarede Holz. »Det vil vi bare ikke have med at gøre. Vi mener ikke, at vi har en moralsk forpligtelse til at gøre det på nuværende tidspunkt. Vi ønsker et smukt socialt rum, hvor folk kan lave ting sammen og dybest set ikke blive fornærmede og føle sig trygge."

Til det formål har virksomheden omkring 40 moderatorer, der holder øje med de billeder, som brugerne opretter.

Det sociale aspekt af Midjourney begyndte for nylig at forbedre billedkvaliteten. Holz sagde, at firmaets ingeniører for nylig introducerede version tre af sin software, som for første gang inkorporerede en feedback-loop baseret på brugeraktivitet og -respons.

"Hvis du ser på v3-tingene, er der denne enorme forbedring," sagde han. "Det er ufatteligt bedre, og vi har faktisk ikke lagt mere kunst i det. Vi tog lige dataene om, hvilke billeder brugerne kunne lide, og hvordan de brugte dem. Og det gjorde det faktisk bedre.”

Adspurgt om Midjourney tech stakken, tøvede Holz. "På et tidspunkt vil vi sandsynligvis lave en pressemeddelelse specifikt omkring, hvilke leverandører vi bruger," sagde han. "Hvad kan jeg sige er, at vi har disse store AI-modeller med milliarder af parametre. De er trænet over milliarder af billeder."

Holz siger, at brugerne laver millioner og atter millioner af billeder hver dag, og de gør det ved at bruge udbydere af grønne energidatabehandlinger – hvilket ikke rigtig indsnævrer feltet for store cloud computing-udbydere, da de alle hævder at være mindst COXNUMX-neutrale.

"Hvert billede tager petaops," sagde han, et udtryk, der betyder 10^15 operationer i sekundet. "Så 1000-vis af billioner af operationer. Jeg ved ikke præcist, om det er fem eller 10 eller 50. Men det er 1000-vis af billioner af operationer at lave et billede. Det er nok den dyreste … hvis du ringer til Midjourney, en service – som du ville kalde det en service eller et produkt – uden tvivl, har der aldrig været en service før, hvor en almindelig person bruger så meget computer.”

Holder os i mad og tøj

Alligevel er Midjourney ikke på vej mod at opsælge kunder, der er hentet ind af en gratis service til betalte niveauer og derefter tiltrække velbetalende virksomhedskunder, før de bliver børsnoterede eller opkøbes.

"Vi er ikke som en startup, der rejser en masse penge og derefter ikke er sikker på, hvad deres virksomhed eller produkt er og taber penge i lang tid," sagde Holz. "Vi er som et selvfinansieret forskningslaboratorium. Vi kan miste nogle penge. Vi har ikke 100 millioner dollars af en andens penge at tabe. For at være ærlig er vi allerede rentable, og vi har det godt.”

“Det er en ret simpel forretningsmodel, hvilket vil sige, nyder folk at bruge den? Så hvis de gør det, skal de betale omkostningerne ved at bruge det, fordi de rå omkostninger faktisk er ret dyre. Og så lægger vi en procent oveni, som forhåbentlig er nok til at fodre og huse os. Og det er det, vi gør.”

Hvad angår fremtiden, kan skalering være et problem. Holz sagde, at Midjourney i øjeblikket har hundredtusindvis af mennesker, der bruger tjenesten, som kræver noget i retning af 10,000 servere.

"Hvis der var 10 millioner mennesker, der forsøgte at bruge teknologi som denne," sagde han, "er der faktisk ikke nok computere. Der er ikke en million gratis servere til at lave kunstig intelligens i verden. Jeg tror, ​​at verden løber tør for computere, før teknologien rent faktisk når ud til alle, der ønsker at bruge den."

Hvad bruger folk det til? Nå, hvis du er logget ind på en Midjourney-konto, kan du se, hvad folk opretter via Fællesskabsfeed side. Det er en konstant strøm af interessante, ofte overraskende gode, billeder.

"De fleste mennesker har det bare sjovt," sagde Holz. "Jeg tror, ​​det er den største ting, fordi det faktisk ikke handler om kunst, det handler om fantasi."

At være professionel

Men for omkring 30 procent af brugerne er det professionelt. Holz sagde, at mange grafikere bruger Midjourney som en del af deres konceptudviklingsworkflow. De genererer et par variationer af en idé og præsenterer den for kunderne for at se, hvilken retning de skal forfølge.

"De professionelle bruger det til at overlade deres kreative eller kommunikationsproces," forklarede Holz. "Og så legede mange bare med det."

Måske 20 procent af mennesker bruger Midjourney til det, Holz beskriver som kunstterapi. For eksempel at lave hundebilleder efter deres hund er død. "De bruger det som et følelsesmæssigt og intellektuelt reflekterende værktøj," sagde han. "Og det er virkelig fedt."

Holz kan ikke lide ideen om at bruge Midjourney til at lave falske fotografier. "At bruge det redaktionelt til at skabe falske billeder er ekstremt farligt," sagde han. "Ingen burde gøre det." Men han er mere åben over for Midjourney som en kilde til kommerciel illustration, og bemærker det The Economist kørte en Midjourney-grafik på forsiden i juni.

"Vi har først for nylig tilladt folk at bruge det kommercielt," sagde Holz. "I lang tid var det kun ikke-kommercielt. Og så en af ​​de ting, vi gør, er, at vi bare ser det, hvad folk laver, og vi kan beslutte, at vi ikke er komfortable med noget af det, og så vil vi indsætte en regel, der siger, at du kan ikke længere bruge det kun til de ting."

Holz sagde, at han ser AI-værktøjer som Midjourney, der gør kunstnere bedre til det, de laver, i stedet for at gøre alle til professionelle kunstnere. "En kunstner, der bruger disse værktøjer, er altid bedre end en almindelig person, der bruger disse værktøjer. På et tidspunkt, kan der være pres for at bruge disse værktøjer, fordi du kan lave ting, der er så fantastiske? Jeg tænker ja. Men lige nu tror jeg ikke det er helt der endnu. Men det vil blive chokerende bedre i løbet af de næste to år."

Midjourney og DALL-E 2 har henledt mere opmærksomhed på langvarige bekymringer om, hvorvidt store AI-modeller, skabt ud fra værket under copyright eller specifikke licenser, kan forenes med copyright-lovgivningen og med indholdsskaberes egen følelse af, hvordan deres værk skal behandles.

Amerika, retssagens land

Med hensyn til Midjourney-output afviser den nuværende amerikansk retspraksis muligheden for at give ophavsret til AI-genererede billeder. I februar, US Copyright Office Review Board afvist [PDF] en anden anmodning om at give ophavsret til et computergenereret landskab med titlen "A Recent Entrance to Paradise", fordi det blev skabt uden menneskeligt forfatterskab.

I et telefoninterview fortalte Tyler Ochoa, professor i juraafdelingen ved Santa Clara University Registret, "Det amerikanske ophavsretskontor har sagt, at det er [acceptabelt], hvis en kunstner bruger kunstig intelligens til at hjælpe dem med at skabe et værk, så længe der er noget menneskelig kreativitet involveret. Hvis det blot er dig, der skriver tekst, og AI'en genererer et værk, er det temmelig klart ikke underlagt ophavsretsbeskyttelse i henhold til gældende lovgivning."

Midjourneys servicevilkår angiver "du ejer alle aktiver, du opretter med tjenesterne", men virksomheden kræver en copyright-licens fra brugere for at reproducere indhold, der er oprettet med tjenesten - en nødvendig forholdsregel for at hoste brugeres billeder, selvom det ser tvivlsomt ud, at de at gøre Midjourney-billeder blot gennem tekstinput har nogen ophavsret at formidle eller håndhæve.

Det er måske ikke altid tilfældet. Ochoa sagde, at han mener, at Steven Thaler, der skabte "A Recent Entrance to Paradise", måske vil udfordre Copyright Offices afvisning af AI-baseret forfatterskab i retten, selvom det ikke er sket endnu.

Der er også potentielle ophavsretlige bekymringer, der opstår fra AI-modeller, der er trænet i ophavsretligt beskyttet materiale. "Spørgsmålet er, om det ville være rimeligt at bruge disse billeder til træning og AI," sagde Ochoa. "Og jeg synes, at argumentet for fair brug i den sammenhæng er ret stærkt."

Derudover er der potentielt ansvar for dem, der genererer billeder, der i det væsentlige ligner eksisterende ophavsretligt beskyttet materiale. "Hvis dit træningssæt ikke er stort nok, kan det, AI'en spytter ud, ligne det, det indtog," forklarede Ochoa og bemærkede, at spørgsmålet så er, om det er en krænkelse af ophavsretten. "Indirekte tror jeg, det med stor sandsynlighed kunne være."

Med hensyn til potentiel juridisk risiko for kunder, der bruger Midjourney-genererede aktiver, sagde Ochoa, at han synes, den er ret lav. Hvis træningen af ​​en AI-model krænkede ophavsretten, blev det gjort før kunden blev involveret, forklarede han. "Så medmindre klienten sponsorerede skabelsen af ​​AI'en på en eller anden måde, tror jeg ikke [klienten] ville være ansvarlig for nogen krænkelse af træningssættet," sagde han. "Og det er den stærkeste påstand her. Så jeg tror, ​​at kunderne er ret solide med at bruge disse billeder, forudsat at det var godt udført."

Holz erkender, at den juridiske situation mangler klarhed.

"I øjeblikket har loven ikke rigtig noget om denne slags ting," sagde han. "Så vidt jeg ved, er hver eneste store AI-model dybest set trænet i ting, der er på internettet. Og det er okay lige nu. Der er ingen love specifikt om det. Måske vil der være i fremtiden. Men det er en slags nyt område, ligesom GPL var en slags ny juridisk ting omkring programmeringskode. Og det tog 20 eller 30 år, før det virkelig blev noget, som retssystemet begynder at finde ud af.”

Holz sagde, at han mener, at det er vigtigere i øjeblikket at forstå, hvordan bekymrede parter har det med denne teknologi. "Vi har mange kunstnere, der bruger vores ting, og vi tjekker konstant med dem som, 'føler du dig okay med det her?'" sagde han.

Holz sagde, at hvis der er utilfredshed nok med status quo, kan det være værd at tænke på en form for betalingsstruktur i fremtiden for kunstnere, hvis arbejde går ind i træningsmodeller. Men han bemærkede, at det i øjeblikket er svært at vurdere omfanget af bidrag. "Udfordringen for noget lignende lige nu er, at det faktisk ikke er klart, hvad der får AI-modellerne til at fungere godt," sagde han. "Hvis jeg lægger et billede af en hund derinde, hvor meget hjælper det så [AI-modellen] med at lave hundebilleder. Det er faktisk ikke klart, hvilke dele af dataene, der rent faktisk giver [modellen] hvilke evner."

På spørgsmålet om, hvad der giver Midjourney dens karakteristiske æstetik, sagde Holz, at han ikke rigtig kunne sammenligne, hvad Midjourney laver med DALL-E 2, men at AI-forskere generelt har en tendens til at få det, de optimerer til. Hvis de sætter ordet "hund" ind, så vil de sandsynligvis have et billede af en hund.

"For os var vi, da vi optimerede det, vi ønskede, at det skulle se smukt ud, og smukt betyder ikke nødvendigvis realistisk. … Hvis noget, så fordrejer vi det faktisk en lille smule væk fra billeder. … Jeg ved, at denne teknologi kan bruges som en dyb falsk supermaskine. Og jeg tror ikke, at verden har brug for flere falske billeder. Jeg ønsker ikke rigtig at være en kilde til falske billeder i verden.”

"Jeg føler mig faktisk lidt utilpas, hvis vores ting laver noget, der ligner et foto. Og dermed ikke sagt, at vi aldrig vil lade folk lave ting, der er mere realistiske. Der er legitime use cases for at forsøge at få ting til at se mere realistiske ud. Jeg føler dog stærkt, at når nogen bruger vores system, bør det som standard ikke lave et falsk billede."

"Men jeg tror, ​​at verden har brug for mere skønhed. Dybest set, hvis jeg skaber noget, der giver folk mulighed for at lave smukke ting, og der er flere smukke ting i verden, er det det, jeg ønsker som standard." ®

Tidsstempel:

Mere fra Registret