David Holz, grunnlegger av AI-kunstgenerator Midjourney, om fremtiden for bildebehandling av PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

David Holz, grunnlegger av AI-kunstgenerator Midjourney, om fremtiden for bildebehandling

Intervju I 2008 grunnla David Holz et perifert maskinvarefirma kalt Leap Motion. Han drev det til i fjor da han dro for å skape Midjourey.

midt på reisen i sin nåværende form er et sosialt nettverk for å lage AI-generert kunst fra en tekstmelding – skriv inn et ord eller en setning ved inngangsledeteksten, og du vil motta et interessant eller kanskje fantastisk bilde på skjermen etter omtrent et minutt med beregning. Det ligner på noen måter OpenAIs DALL-E2.

Midjourney-bilde av himmelen og skyene, ved å bruke tekstmeldingen "All this useless beauty." Kilde: generert av midt på reisen

Begge er resultatet av store AI-modeller trent på et stort antall bilder. Men Midjourney har sin egen særegne stil, som man kan se av denne Twitter-tråden. Begge de siste dagene har gått inn i offentlig beta-testing (selv om DALL-E 2-tilgangen utvides sakte).

Muligheten til å lage bilder av høy kvalitet fra AI-modeller ved hjelp av tekstinndata ble en populær aktivitet i fjor etter utgivelsen av OpenAIs CLIP (Contrastive Language–Image Pre-training), som ble designet for å evaluere hvor godt genererte bilder stemmer overens med tekstbeskrivelser. Etter utgivelsen, artist Ryan Murdock (@advadnoun på Twitter) fant ut at prosessen kunne reverseres - ved å gi tekstinndata kan du få bildeutdata ved hjelp av andre AI-modeller.

Etter det begynte det generative kunstsamfunnet en periode med febrilsk utforskning, og publiserte Python-kode for å lage bilder ved hjelp av en rekke modeller og teknikker.

"En gang i fjor så vi at det var visse områder av AI som utviklet seg på veldig interessante måter," forklarte Holz i et intervju med Registeret. "En av dem var AIs evne til å forstå språk."

Holz pekte på utviklinger som transformatorer, en dyp læringsmodell som informerer CLIP, og diffusjonsmodeller, et alternativ til GAN-er. "Den som virkelig traff øyet mitt personlig var den CLIP-guidede diffusjonen," sa han, utviklet av Katherine Crawson (kjent på Twitter som @RiversHaveWings).

Ikke den stereotype Florida-mannen

Holz vokste opp i Florida og hadde en designbedrift på videregående hvor han studerte matematikk og fysikk. Han jobbet med en PhD i anvendt matematikk og tok permisjon i 2008 for å starte Leap Motion. Året etter tilbrakte han et år som studentforsker ved Max Planck Institute, etterfulgt av to år ved NASA Langley Research Center som doktorgradsstudent som jobbet med LiDAR, Mars-oppdrag og atmosfærisk vitenskap.

"Jeg tenkte, hvorfor jobber jeg med alle disse tingene?" han forklarte. "Jeg vil bare jobbe med en kul ting som jeg bryr meg om."

Så han fokuserte på Leap Motion, som utviklet en maskinvareenhet for å spore håndbevegelser og bruke den til enhetsinndata. Han drev bedriften i tolv år, og da han sluttet sysselsatte han rundt 100 personer.

Midjourney, sa han, er ganske liten akkurat nå. "Vi er omtrent 10 personer," forklarte han. «Vi er selvfinansierte. Vi har ingen investorer. Vi er egentlig ikke økonomisk motiverte. Vi er bare her for å jobbe med ting vi brenner for og ha det gøy. Og vi jobbet med mange forskjellige prosjekter.»

Holz sa at det teknologiske aspektet ved AI og i hvilken grad det vil forbedres er ganske enkelt å forutse. "Men de menneskelige konsekvensene av det er så vanskelig å forestille seg," sa han. «Det er noe her som er i skjæringspunktet mellom menneskelighet og teknologi. For å virkelig finne ut hva dette er og hva det skal være, må vi virkelig gjøre mange eksperimenter.»

Veien fremover

Den ustabile naturen til AI-bildeteknologi er tydelig i forskjellen mellom verktøy som Midjourney og en nedlastbar åpen kildekode-grafikkapplikasjon som Blender, eller en lokalt installert kommersiell applikasjon som Adobe Photoshop (før den ble en skytjeneste).

Midjourney eksisterer i en sosial kontekst. Front-end er chat-tjenesten Discord. Nye brukere logger inn på Discords Midjourney-server og kan deretter sende inn tekstmeldinger for å generere bilder sammen med mange andre brukere i en av de forskjellige nybegynnerkanalene.

De resulterende bildene for alle brukerne i den kanalen dukker opp på omtrent ett minutt, noe som bidrar til å forsterke forestillingen om fellesskap. De som bestemmer seg for å oppgradere til et abonnement på $10/måned eller $30/måned, kan sende inn tekst til Midjourney-roboten i Discord-appen som en privat direktemelding og motta bilder som svar uten den skjermrullende fossen av interaksjon fra andre brukere i en offentlig kanal. Genererte bilder forblir imidlertid offentlig synlige som standard.

Som en sosial app er Midjourney underlagt regler om tillatt innhold – noe brukere av Blender eller andre lokalt installerte apper ikke trenger å bekymre seg for. Midjourneys vilkår for bruk sier: «Ingen voksent innhold eller elendighet. Unngå å lage visuelt sjokkerende eller forstyrrende innhold. Vi vil blokkere noen tekstinndata automatisk."

DALL-E 2 er underlagt lignende, men mer omfattende begrensninger, som beskrevet i dens Innholdspolicy.

"Jeg tror at hvis vi levde i en verden som ikke hadde sosiale medier, ville vi ikke trenge noen restriksjoner," sa Holz. "...Da Photoshop ble oppfunnet, var det faktisk presse om det, der det er som "åh, du kan forfalske hva som helst, og det er litt skummelt." [Men nå], det er mye mer lukrativt å være sensasjonell enn det var før.»

"I dag kan hvem som helst være oppsiktsvekkende, og i utgangspunktet tjene på det, vet du," sa Holz. "Og det den gjør er at den skaper et marked for drama og sensasjon. Det er derfor jeg tror vi må være litt mer forsiktige, for på et tidspunkt vil folk gjøre at de sier: 'ok, jeg kan lage bilder av dette, hva er det mest dramatiske og støtende og grufulle jeg har. kan lage?'"

Ingen enkle svar

Holz tillater at det er ting sosiale plattformer kan gjøre for å dempe disse problemene, men sier at det ikke finnes noen enkle svar. "Dessverre er det ikke en klar måte å håndtere det på, bortsett fra som et samfunn, for å belønne sensasjon mindre," sa han. "Mitt inntrykk er imidlertid at ingen virkelig prøver å endre sosiale plattformer for å redusere sensasjon, fordi det gir dem penger akkurat nå."

Dessuten, sa han, fordi Midjourney har som mål å være et sosialt rom for alle over 13 år, er det nødvendig å ha regler mot ekstremt eller grafisk innhold.

"Vi ønsker egentlig ikke å ha segmenterte rom for folk som liker å lage lik eller liker nakenbilder," forklarte Holz. «Vi ønsker bare ikke å måtte forholde oss til det. Vi tror ikke at vi har en moralsk forpliktelse til å gjøre det på dette stadiet. Vi vil ha ett vakkert sosialt rom der folk kan lage ting sammen og ikke bli fornærmet, og for å føle seg trygge.»

Mot det målet har selskapet rundt 40 moderatorer som holder øye med bildene som brukerne lager.

Det sosiale aspektet ved Midjourney begynte nylig å forbedre bildekvaliteten. Holz sa at selskapets ingeniører nylig introduserte versjon tre av programvaren, som for første gang inkorporerte en tilbakemeldingssløyfe basert på brukeraktivitet og respons.

"Hvis du ser på v3-tingene, er det en enorm forbedring," sa han. «Det er forbløffende bedre, og vi la faktisk ikke mer kunst i det. Vi tok nettopp dataene om hvilke bilder brukerne likte, og hvordan de brukte det. Og det gjorde det faktisk bedre.»

På spørsmål om Midjourney-teknologistabelen svarte Holz. "På et tidspunkt kommer vi sannsynligvis til å lage en pressemelding spesifikt rundt hvilke leverandører vi bruker," sa han. "Hva kan jeg si er at vi har disse store AI-modellene med milliarder av parametere. De er trent over milliarder av bilder.»

Holz sier at brukere lager millioner og millioner av bilder hver dag, og gjør det ved å bruke leverandører av grønne energidatamaskiner – noe som egentlig ikke begrenser feltet til store cloud computing-leverandører, da de alle hevder å være minst karbonnøytrale.

"Hvert bilde tar petaops," sa han, et begrep som betyr 10^15 operasjoner per sekund. «Så 1000-vis av billioner av operasjoner. Jeg vet ikke nøyaktig om det er fem eller 10 eller 50. Men det er 1000-vis av billioner av operasjoner for å lage et bilde. Det er sannsynligvis den dyreste … hvis du ringer Midjourney, en tjeneste – som du vil kalle det en tjeneste eller et produkt – uten tvil, det har aldri vært en tjeneste før der en vanlig person bruker så mye databehandling.»

Holder oss i mat og klær

Likevel er ikke Midjourney på vei mot å mersalg av kunder hentet inn av en gratis tjeneste til betalte nivåer og deretter tiltrekke seg godt betalende bedriftskunder før de blir børsnoterte eller anskaffes.

"Vi er ikke som en oppstart som samler inn mye penger og deretter ikke er sikker på hva deres virksomhet eller produkt er og taper penger i lang tid," sa Holz. «Vi er som et selvfinansiert forskningslaboratorium. Vi kan tape en del penger. Vi har ikke 100 millioner dollar av andres penger å tape. For å være ærlig, er vi allerede lønnsomme, og vi har det bra.»

"Det er en ganske enkel forretningsmodell, som er, liker folk å bruke den? Hvis de gjør det, må de betale kostnadene ved å bruke den fordi råkostnaden faktisk er ganske dyr. Og så legger vi en prosentandel på toppen av det, som forhåpentligvis er nok til å mate og huse oss. Og det er det vi gjør.»

Når det gjelder fremtiden, kan skalering være et problem. Holz sa at Midjourney for tiden har hundretusenvis av mennesker som bruker tjenesten, som krever noe sånt som 10,000 XNUMX servere.

"Hvis det var 10 millioner mennesker som prøvde å bruke teknologi som dette," sa han, "er det faktisk ikke nok datamaskiner. Det er ikke en million gratis servere for å gjøre AI i verden. Jeg tror verden vil gå tom for datamaskiner før teknologien faktisk når ut til alle som vil bruke den.»

Hva bruker folk det til? Vel, hvis du er logget på en Midjourney-konto kan du se hva folk lager via Fellesskapsfeed side. Det er en konstant strøm av interessante, ofte oppsiktsvekkende gode, bilder.

"De fleste mennesker har det bare gøy," sa Holz. "Jeg tror det er det største fordi det faktisk ikke handler om kunst, det handler om fantasi."

Å være profesjonell

Men for rundt 30 prosent av brukerne er det profesjonelt. Holz sa at mange grafikere bruker Midjourney som en del av arbeidsflyten for konseptutvikling. De genererer noen få varianter av en idé og presenterer den for kundene for å se hvilken retning de bør følge.

"Proffene bruker det til å overlade kreativiteten eller kommunikasjonsprosessen," forklarte Holz. "Og så var det mange som bare lekte med det."

Kanskje 20 prosent av folk bruker Midjourney til det Holz beskriver som kunstterapi. For eksempel å lage hundebilder etter at hunden deres har dødd. "De bruker det som et emosjonelt og intellektuelt reflekterende verktøy," sa han. "Og det er veldig kult."

Holz misliker ideen om å bruke Midjourney til å lage falske bilder. "Å bruke det redaksjonelt til å lage falske bilder er ekstremt farlig," sa han. "Ingen burde gjøre det." Men han er mer åpen for Midjourney som en kilde til kommersiell illustrasjon, og bemerker det The Economist kjørte en Midjourney-grafikk på omslaget i juni.

"Vi har bare nylig tillatt folk å bruke det kommersielt," sa Holz. «I lang tid var det bare ikke-kommersielt. Og så en av tingene vi gjør er at vi bare ser på det, hva folk gjør, og vi kan bestemme at vi ikke er komfortable med noe av det, og så skal vi sette inn en regel som sier at du kan ikke lenger bruke den bare til de tingene."

Holz sa at han ser at AI-verktøy som Midjourney gjør artister bedre til det de gjør i stedet for å gjøre alle til profesjonelle artister. "En kunstner som bruker disse verktøyene er alltid bedre enn en vanlig person som bruker disse verktøyene. På et tidspunkt, kan det være press for å bruke disse verktøyene fordi du kan lage ting som er så flotte? Jeg tror ja. Men akkurat nå tror jeg ikke det er helt der ennå. Men det vil bli sjokkerende bedre i løpet av de neste to årene.»

Midjourney og DALL-E 2 har trukket mer oppmerksomhet til langvarige bekymringer om hvorvidt store AI-modeller, laget av verket under opphavsrett eller spesifikke lisenser, kan forenes med lov om opphavsrett og med innholdsskaperes egen følelse av hvordan arbeidet deres skal behandles.

Amerika, søksmålets land

Når det gjelder Midjourney-utdata, avviser gjeldende amerikansk rettsvitenskap muligheten for å gi opphavsrett til AI-genererte bilder. I februar, US Copyright Office Review Board avvist [PDF] en andre forespørsel om å gi opphavsrett til et datagenerert landskap med tittelen "A Recent Entrance to Paradise" fordi det ble opprettet uten menneskelig forfatterskap.

I et telefonintervju fortalte Tyler Ochoa, en professor i jussavdelingen ved Santa Clara University Registeret, «Det amerikanske opphavsrettskontoret har sagt at det er [akseptabelt] hvis en kunstner bruker AI for å hjelpe dem med å lage et verk så lenge det er noe menneskelig kreativitet involvert. Hvis det bare er du som skriver tekst, og AI genererer et verk, er det ganske klart ikke underlagt opphavsrettsbeskyttelse i henhold til gjeldende lov.»

Midjourneys vilkår for bruk sier "du eier alle eiendeler du oppretter med tjenestene", men selskapet krever en opphavsrettslisens fra brukere for å reprodusere innhold opprettet med tjenesten - en nødvendig forholdsregel for å være vert for brukernes bilder, selv om det ser tvilsomt ut at de å lage Midjourney-bilder bare gjennom tekstinntasting har noen opphavsrett å formidle eller håndheve.

Det er kanskje ikke alltid tilfelle. Ochoa sa at han tror Steven Thaler, som skapte «A Recent Entrance to Paradise», kanskje vil utfordre Copyright Offices avvisning av AI-basert forfatterskap i retten, selv om det ikke har skjedd ennå.

Det er også potensielle opphavsrettsbekymringer som oppstår fra AI-modeller som er trent på opphavsrettsbeskyttet materiale. "Spørsmålet er om det ville være rimelig å bruke disse bildene til trening og AI," sa Ochoa. "Og jeg tror argumentet for rettferdig bruk i den sammenhengen er ganske sterkt."

I tillegg er det potensielt ansvar for de som genererer bilder som er vesentlig lik eksisterende opphavsrettsbeskyttet materiale. "Hvis treningssettet ditt ikke er stort nok, kan det AI spytter ut se veldig ut som det den inntok," forklarte Ochoa, og la merke til at problemet da er om det er et brudd på opphavsretten. "Indirekte tror jeg det veldig sannsynlig kan være det."

Når det gjelder potensiell juridisk risiko for klienter som bruker Midjourney-genererte eiendeler, sa Ochoa at han synes den er ganske lav. Hvis opplæringen av en AI-modell krenket opphavsretten, ble det gjort før klienten ble involvert, forklarte han. "Så med mindre klienten sponset opprettelsen av AI på en eller annen måte, tror jeg ikke [klienten] ville være ansvarlig for noen brudd på opplæringssettet," sa han. «Og det er den sterkeste påstanden her. Så jeg tror kundene er på ganske solid grunn når det gjelder å bruke disse bildene, forutsatt at det var godt utført."

Holz erkjenner at rettstilstanden mangler klarhet.

"For øyeblikket har ikke loven egentlig noe om denne typen ting," sa han. "Men jeg vet er hver eneste store AI-modell i utgangspunktet trent på ting som er på internett. Og det er greit, akkurat nå. Det er ingen lover spesifikt om det. Kanskje det vil bli det i fremtiden. Men det er liksom et nytt område, som om GPL var en slags ny juridisk ting rundt programmeringskode. Og det tok 20 eller 30 år før det virkelig ble noe som rettssystemet begynner å finne ut av.»

Holz sa at han tror det er viktigere for øyeblikket å forstå hvordan bekymrede parter føler om denne teknologien. "Vi har mange artister som bruker tingene våre, og vi sjekker hele tiden med dem som "føler du deg ok med dette?"" sa han.

Holz sa at hvis det er nok misnøye med status quo, kan det være verdt å tenke på en slags betalingsstruktur i fremtiden for kunstnere hvis arbeid går inn i treningsmodeller. Men han observerte at det er vanskelig å vurdere omfanget av bidrag for tiden. "Utfordringen for noe sånt akkurat nå er at det faktisk ikke er klart hva som gjør at AI-modellene fungerer bra," sa han. «Hvis jeg legger et bilde av en hund der inne, hvor mye hjelper det egentlig [AI-modellen] med å lage hundebilder. Det er faktisk ikke klart hvilke deler av dataene som faktisk gir [modellen] hvilke evner."

På spørsmål om hva som gir Midjourney sin særegne estetikk, sa Holz at han egentlig ikke kunne sammenligne hva Midjourney gjør med DALL-E 2, men at AI-forskere generelt har en tendens til å få det de optimaliserer for. Hvis de legger inn ordet "hund", vil de sannsynligvis ha et bilde av en hund.

"For oss var vi da vi optimaliserte det, vi ønsket at det skulle se vakkert ut, og vakkert betyr ikke nødvendigvis realistisk. … Hvis noe, faktisk skjev vi det litt bort fra bilder. … Jeg vet at denne teknologien kan brukes som en dyp falsk supermaskin. Og jeg tror ikke verden trenger flere falske bilder. Jeg vil egentlig ikke være en kilde til falske bilder i verden.»

"Jeg føler meg faktisk litt ukomfortabel hvis tingene våre lager noe som ser ut som et bilde. Og det er ikke dermed sagt at vi aldri vil la folk lage ting som er mer realistiske. Det er legitime brukstilfeller for å prøve å gjøre ting som ser mer realistiske ut. Imidlertid føler jeg sterkt at når noen bruker systemet vårt, bør det som standard ikke lage et falskt bilde.»

"Men jeg tror at verden trenger mer skjønnhet. I utgangspunktet, hvis jeg lager noe som lar folk lage vakre ting, og det finnes vakrere ting i verden, er det det jeg vil ha som standard." ®

Tidstempel:

Mer fra Registeret