David Holz, Founder Of AI Art Generator Midjourney, On The Future Of Imaging

Ponovno objavil Platon

Spremljevalci: 0

Intervju Leta 2008 je David Holz soustanovil podjetje za periferno strojno opremo, imenovano Leap Motion. Vodil ga je do lani, ko je odšel, da bi ustvaril Midjourey.

vmesna pot v sedanji obliki je družabno omrežje za ustvarjanje umetnosti, ustvarjene z umetno inteligenco, iz besedilnega poziva – vnesite besedo ali frazo v poziv za vnos in po približno minuti računanja boste na zaslonu prejeli zanimivo ali morda čudovito sliko. V nekaterih pogledih je podoben OpenAI-ju DALL-E2.

Vmesna slika neba in oblakov z uporabo besedilnega poziva »Vsa ta neuporabna lepota«. Vir: ustvaril vmesna pot

Oba sta rezultat velikih modelov umetne inteligence, usposobljenih za ogromno število slik. Toda Midjourney ima svoj značilen slog, kot je razvidno iz to nit Twitterja. Oba sta v zadnjih dneh vstopila v javno beta testiranje (čeprav se dostop do DALL-E 2 počasi širi).

Sposobnost ustvarjanja visokokakovostnih slik iz modelov AI z uporabo vnosa besedila je postala priljubljena dejavnost lani po izdaji OpenAI's CLIP (Predhodno usposabljanje za kontrastni jezik–slike), ki je bil zasnovan za oceno, kako dobro se ustvarjene slike ujemajo z besedilnimi opisi. Po izidu, umetnik Ryan Murdock (@advadnoun na Twitterju) je ugotovil, da je postopek mogoče obrniti – z zagotavljanjem vnosa besedila lahko dobite slikovni izpis s pomočjo drugih modelov AI.

Po tem se je skupnost generativne umetnosti podala v obdobje vročičnega raziskovanja in objavila kodo Python za ustvarjanje slik z uporabo različnih modelov in tehnik.

»Nekje lani smo opazili, da obstajajo nekatera področja umetne inteligence, ki napredujejo na res zanimive načine,« je pojasnil Holz v intervjuju za Register. "Eden od njih je bila sposobnost AI, da razume jezik."

Holz je opozoril na razvoj, kot so transformatorji, model globokega učenja, ki informira CLIP, in difuzijski modeli, alternativa GAN-jem. "Tisto, kar mi je osebno res padlo v oči, je difuzija, ki jo vodi CLIP," je dejal, razvila jo je Katherine Crawson (na Twitterju znana kot @RiversHaveWings).

Ne stereotipni človek s Floride

Holz je odraščal na Floridi in imel oblikovalsko podjetje v srednji šoli, kjer je študiral matematiko in fiziko. Delal je doktorat iz uporabne matematike in leta 2008 vzel dopust, da bi ustanovil Leap Motion. Naslednje leto je preživel eno leto kot študent raziskovalec na Inštitutu Max Planck, nato pa dve leti v NASA Langley Research Center kot podiplomski študent raziskovalec, ki je delal na LiDAR, misijah na Mars in atmosferskih znanostih.

"Pomislil sem, zakaj delam na vseh teh stvareh?" je pojasnil. "Rad bi samo delal na eni kul stvari, ki me zanima."

Zato se je osredotočil na Leap Motion, ki je razvil strojno napravo za sledenje gibanju roke in jo uporablja za vnos v napravo. Podjetje je vodil dvanajst let, ob odhodu pa je zaposlovalo okoli 100 ljudi.

Vmesni čas, je dejal, je trenutno precej majhen. "Približno 10 ljudi nas je," je pojasnil. »Smo financirani sami. Investitorjev nimamo. Nismo ravno finančno motivirani. Nekako smo tu samo zato, da delamo na stvareh, do katerih smo navdušeni, in se zabavamo. In delali smo na veliko različnih projektih.«

Holz je dejal, da je tehnološki vidik AI in obseg, v katerem se bo izboljšal, dokaj enostavno predvideti. "Toda človeške posledice tega si je tako težko predstavljati," je dejal. »Tukaj je nekaj, kar je na stičišču človeštva in tehnologije. Da bi res ugotovili, kaj je to in kaj bi moralo biti, moramo narediti veliko poskusov.«

Pot naprej

Neurejena narava slikovne tehnologije AI je očitna v razliki med orodji, kot je Midjourney, in odprtokodno grafično aplikacijo, ki jo je mogoče naložiti, kot je Blender, ali lokalno nameščeno komercialno aplikacijo, kot je Adobe Photoshop (preden je postala storitev v oblaku).

Midjourney obstaja v družbenem kontekstu. Njegov sprednji del je klepetalnica Discord. Novi uporabniki se prijavijo v Discordov strežnik Midjourney in lahko nato pošljejo besedilne pozive za ustvarjanje slik poleg številnih drugih uporabnikov v katerem koli od različnih kanalov za novince.

Nastale slike za vse uporabnike v tem kanalu se pojavijo v približno eni minuti, kar pomaga okrepiti pojem skupnosti. Tisti, ki se odločijo za nadgradnjo na naročnino v vrednosti 10 $/mesec ali 30 $/mesec, lahko pošljejo besedilo botu Midjourney v aplikaciji Discord kot zasebno neposredno sporočilo in v odgovor prejmejo slike brez slapa drsenja po zaslonu med interakcijo drugih uporabnikov v javnem kanal. Ustvarjene slike pa ostanejo privzeto javno vidne.

"Živa zbirka mrtvih metuljev"@images_ai, @ai_curio, #poldan pic.twitter.com/OFKRJtJq5w

— Thomas Claburn (@ThomasClaburn) Junij 10, 2022

Kot družabna aplikacija za Midjourney veljajo pravila o dovoljeni vsebini – nekaj, za kar uporabnikom Blenderja ali drugih lokalno nameščenih aplikacij ni treba skrbeti. Pogoji storitve Midjourney pravijo: »Brez vsebine za odrasle ali krvi. Izogibajte se ustvarjanju vizualno šokantne ali moteče vsebine. Samodejno bomo blokirali nekatere vnose besedila.«

Za DALL-E 2 veljajo podobne, vendar obsežnejše omejitve, kot je opisano v Pravilnik o vsebini.

"Mislim, da če bi živeli v svetu, ki ne bi imel družbenih medijev, potem nam ne bi bilo treba imeti nobenih omejitev," je dejal Holz. »…Ko je bil izumljen Photoshop, je bil tisk dejansko o tem, kjer je bilo kot, 'oh, lahko ponarediš karkoli in to je malce strašljivo.' [Toda zdaj] je veliko bolj donosno biti senzacionalist, kot je bilo prej.”

"Dandanes je lahko vsakdo senzacionalist in od tega v bistvu profitira, veste," je dejal Holz. »In torej ustvarja trg za dramo in senzacionalizem. Zato menim, da moramo biti malo bolj previdni, kajti na neki točki bodo ljudje rekli, 'v redu, lahko posnamem slike tega, kar je najbolj dramatično, žaljivo in grozljivo, kar sem lahko naredi?'"

Ni enostavnih odgovorov

Holz priznava, da lahko družbene platforme nekaj storijo za ublažitev teh težav, vendar pravi, da preprostih odgovorov ni. "Na žalost ni jasnega načina za reševanje tega, razen kot družba, da bi manj nagrajevali senzacionalizem," je dejal. "Vendar pa imam vtis, da nihče ne poskuša spremeniti družbenih platform, da bi zmanjšal senzacionalizem, saj jim to zdaj prinaša denar."

Še več, je dejal, ker želi Midjourney biti družabni prostor za vsakogar, starejšega od 13 let, so potrebna pravila proti ekstremni ali nazorni vsebini.

»Pravzaprav ne želimo imeti segmentiranih prostorov za ljudi, ki radi izdelujejo trupla ali imajo radi gole fotografije,« je pojasnil Holz. »Enostavno nočemo imeti opravka s tem. Mislimo, da na tej stopnji nimamo moralne obveznosti, da to storimo. Želimo si en lep družabni prostor, kjer bi ljudje skupaj ustvarjali stvari in v bistvu ne bili užaljeni ter se počutili varne.«

V ta namen ima podjetje približno 40 moderatorjev, ki spremljajo slike, ki jih ustvarijo uporabniki.

Socialni vidik Midjourneyja je pred kratkim začel izboljševati kakovost slike. Holz je dejal, da so inženirji podjetja pred kratkim predstavili različico tri svoje programske opreme, ki je prvič vključevala povratno zanko, ki temelji na dejavnosti in odzivu uporabnika.

"Če pogledate stvari v3, je ta ogromen napredek," je dejal. »Je osupljivo boljši in vanj pravzaprav nismo vložili več umetnosti. Vzeli smo samo podatke o tem, katere slike so bile uporabnikom všeč in kako so jih uporabljali. In to ga je dejansko izboljšalo.”

Na vprašanje o tehnološkem nizu Midjourney je Holz zavrnil. "Na neki točki bomo verjetno izdali sporočilo za javnost o tem, katere prodajalce uporabljamo," je dejal. »Kaj naj rečem je, da imamo te velike modele AI z milijardami parametrov. Urjeni so na milijardah slik.«

Holz pravi, da uporabniki vsak dan izdelajo milijone in milijone slik, pri čemer uporabljajo ponudnike računalništva z zeleno energijo – kar v resnici ne zožuje področja večjih ponudnikov računalništva v oblaku, saj vsi trdijo, da so vsaj ogljično nevtralni.

"Vsaka slika ima petaops," je dejal, izraz, ki pomeni 10^15 operacij na sekundo. »Torej 1000 bilijonov operacij. Ne vem natančno, ali jih je pet ali deset ali petdeset. Ampak to je 10 trilijonov operacij za ustvarjanje slike. Verjetno je najdražja … če pokličete storitev Midjourney – kot bi ji rekli storitev ali izdelek – brez dvoma še nikoli ni bilo storitve, pri kateri bi običajna oseba uporabljala toliko računalništva.«

Zadržuje nas v hrani in oblačilih

Vendar Midjourney ni na poti k temu, da bi stranke, ki jih pripelje brezplačna storitev, prodal na plačljive ravni in nato privabil dobro plačane poslovne stranke, preden bi šel na borzo ali bil pridobljen.

»Nismo kot startup, ki zbere veliko denarja in potem ni prepričan, kaj je njihov posel ali izdelek, in dolgo časa izgublja denar,« je dejal Holz. »Smo kot samoplačniški raziskovalni laboratorij. Lahko izgubimo nekaj denarja. Nimamo 100 milijonov dolarjev denarja nekoga drugega, ki bi ga lahko izgubili. Če sem iskren, smo že dobičkonosni in smo v redu.«

»Gre za precej preprost poslovni model, to je, ali ga ljudje radi uporabljajo? Potem, če to storijo, morajo plačati stroške uporabe, ker so surovi stroški dejansko precej dragi. In potem k temu dodamo še odstotek, ki upajmo, da je dovolj, da nas nahrani in nastani. In to je tisto, kar počnemo.”

Kar zadeva prihodnost, bi lahko bila težava skaliranje. Holz je dejal, da ima Midjourney trenutno na stotine tisoč ljudi, ki uporabljajo storitev, kar zahteva približno 10,000 strežnikov.

»Če bi 10 milijonov ljudi poskušalo uporabljati takšno tehnologijo,« je dejal, »v resnici ni dovolj računalnikov. Na svetu ni milijona brezplačnih strežnikov za AI. Mislim, da bo svetu zmanjkalo računalnikov, preden bo tehnologija dejansko prišla do vseh, ki jo želijo uporabljati.«

Za kaj ga ljudje uporabljajo? No, če ste prijavljeni v račun Midjourney, lahko vidite, kaj ljudje ustvarjajo prek Vir skupnosti strani. Je nenehen tok zanimivih, pogosto osupljivo dobrih slik.

Hišica v oblaku 2 #poldan #aiartskupnost pic.twitter.com/uL9WlJDMC6

— poetični AI (@generated_paint) Julij 24, 2022

"Večina ljudi se samo zabava," je dejal Holz. "Mislim, da je to največja stvar, ker pravzaprav ne gre za umetnost, ampak za domišljijo."

Biti profesionalen

Toda za približno 30 odstotkov uporabnikov je to profesionalno. Holz je dejal, da veliko grafičnih umetnikov uporablja Midjourney kot del svojega delovnega toka razvoja koncepta. Ustvarijo nekaj različic ideje in jo predstavijo strankam, da vidijo, v katero smer naj sledijo.

"Profesionalci ga uporabljajo za nadgradnjo svojega ustvarjalnega ali komunikacijskega procesa," je pojasnil Holz. "In potem se je veliko ljudi samo igralo s tem."

Morda 20 odstotkov ljudi uporablja Midjourney za tisto, kar Holz opisuje kot umetniško terapijo. Na primer ustvarjanje slik psov, potem ko njihov pes umre. "Uporabljajo ga kot orodje za čustveno in intelektualno refleksijo," je dejal. "In to je res kul."

Holzu ni všeč zamisel o uporabi Midjourneyja za ustvarjanje lažnih fotografij. "Uredniška uporaba za ustvarjanje lažnih fotografij je izjemno nevarna," je dejal. "Nihče ne bi smel tega storiti." Vendar je bolj odprt za Midjourney kot vir komercialne ilustracije, pri čemer ugotavlja, da The Economist je objavil grafiko Midjourney junija na naslovnici.

"Šele pred kratkim smo dovolili ljudem, da ga uporabljajo v komercialne namene," je dejal Holz. »Dolgo časa je bil le nekomercialen. In tako je ena od stvari, ki jih počnemo, ta, da samo opazujemo, kaj ljudje počnejo, in morda se odločimo, da nam nekaj od tega ni všeč, in potem bomo uvedli pravilo, ki pravi, da ne more več uporabljati samo za te stvari.«

Holz je dejal, da vidi orodja AI, kot je Midjourney, ki umetnike izboljšujejo pri tem, kar počnejo, namesto da bi vsi postali profesionalni umetniki. »Umetnik, ki uporablja ta orodja, je vedno boljši od navadne osebe, ki uporablja ta orodja. Ali bo morda na neki točki pritisk za uporabo teh orodij, ker lahko naredite stvari, ki so tako odlične? Mislim, da ja. Ampak trenutno mislim, da še ni čisto tam. Vendar bo v naslednjih dveh letih šokantno bolje.”

Midjourney in DALL-E 2 sta pritegnila več pozornosti na dolgoletne pomisleke o tem, ali je mogoče velike modele umetne inteligence, ustvarjene iz del pod avtorskimi pravicami ali posebnimi licencami, uskladiti z zakonodajo o avtorskih pravicah in z občutkom ustvarjalcev vsebine, kako je treba obravnavati njihovo delo.

Amerika, dežela tožb

Kar zadeva rezultate Midjourneyja, trenutna ameriška sodna praksa zavrača možnost podelitve avtorskih pravic za slike, ustvarjene z umetno inteligenco. Februarja je nadzorni odbor Urada ZDA za avtorske pravice zavrnjena [PDF] druga zahteva za podelitev avtorskih pravic za računalniško ustvarjeno pokrajino z naslovom »Nedavni vstop v raj«, ker je bila ustvarjena brez človeškega avtorstva.

Tyler Ochoa, profesor na oddelku za pravo na univerzi Santa Clara, je v telefonskem intervjuju povedal Register, »Ameriški urad za avtorske pravice je dejal, da je [sprejemljivo], če umetnik uporablja AI za pomoč pri ustvarjanju dela, če je vpletena nekaj človeške ustvarjalnosti. Če preprosto vtipkate besedilo in umetna inteligenca ustvari delo, to očitno ni predmet zaščite avtorskih pravic v skladu z veljavno zakonodajo.«

Pogoji storitve Midjourney navajajo, da ste lastnik vseh sredstev, ki jih ustvarite s storitvami, vendar podjetje od uporabnikov zahteva licenco za avtorske pravice za reprodukcijo vsebine, ustvarjene s storitvijo – kar je nujen previdnostni ukrep za gostovanje slik uporabnikov, tudi če je videti dvomljivo, da te ustvarjanje slik Midjourney preprosto z vnosom besedila ima kakršne koli avtorske pravice za prenos ali uveljavljanje.

Morda ni vedno tako. Ochoa je dejal, da verjame, da bi Steven Thaler, ki je ustvaril "A Recent Entrance to Paradise", morda želel na sodišču izpodbijati zavrnitev urada za avtorske pravice glede avtorstva, ki temelji na AI, čeprav se to še ni zgodilo.

Obstajajo tudi morebitni pomisleki glede avtorskih pravic, ki izhajajo iz modelov umetne inteligence, usposobljenih za avtorsko zaščiteno gradivo. "Vprašanje je, ali bi bila poštena uporaba teh slik za usposabljanje in AI," je dejal Ochoa. "In mislim, da so argumenti za pošteno uporabo v tem kontekstu precej močni."

Poleg tega obstaja potencialna odgovornost za tiste, ki ustvarjajo slike, ki so v bistvu podobne obstoječemu avtorsko zaščitenemu gradivu. »Če vaš nabor za usposabljanje ni dovolj velik, je lahko tisto, kar umetna inteligenca izpljune, zelo podobno temu, kar je zaužila,« je pojasnil Ochoa in opozoril, da je vprašanje, ali je to kršitev avtorskih pravic. "Posredno mislim, da je zelo verjetno."

Kar zadeva morebitno pravno tveganje za stranke, ki uporabljajo sredstva, ustvarjena na Midjourneyju, je Ochoa dejal, da meni, da je precej nizko. Če je usposabljanje modela AI kršilo avtorske pravice, je bilo to storjeno, preden je bila vključena stranka, je pojasnil. "Torej, razen če stranka na nek način sponzorira ustvarjanje AI, mislim, da [stranka] ne bi bila odgovorna za kakršno koli kršitev nabora usposabljanja," je dejal. »In to je najmočnejša trditev tukaj. Zato menim, da so stranke na precej trdnih tleh pri uporabi teh slik, ob predpostavki, da je bilo dobro narejeno.«

Holz priznava, da pravni položaj ni jasen.

"Trenutno zakon o takšnih stvareh pravzaprav nima ničesar," je dejal. »Kolikor vem, je vsak posamezen velik model AI v bistvu usposobljen za stvari, ki so na internetu. In to je v redu, zdaj. Posebnih zakonov o tem ni. Mogoče bo v prihodnosti. Toda to je nekakšno novo področje, kot je bila GPL nekakšna nova pravna stvar v zvezi s programsko kodo. In trajalo je približno 20 ali 30 let, da je res postalo nekaj, kar je pravni sistem začel ugotavljati.«

Holz je dejal, da meni, da je trenutno bolj pomembno razumeti, kako se zaskrbljene strani počutijo glede te tehnologije. »Imamo veliko umetnikov, ki uporabljajo naše stvari, in nenehno jih sprašujemo, 'se počutite v redu glede tega?'« je dejal.

Holz je dejal, da če je dovolj nezadovoljstva s statusom quo, bi bilo morda vredno razmisliti o nekakšni plačilni strukturi v prihodnosti za umetnike, katerih delo gre za usposabljanje modelov. Opazil pa je, da je trenutno težko oceniti obseg prispevkov. "Izziv za kaj takega trenutno je, da pravzaprav ni jasno, zakaj modeli AI delujejo dobro," je dejal. »Če vanjo dam sliko psa, koliko to dejansko pomaga [model AI] pri ustvarjanju slik psov. Pravzaprav ni jasno, kateri deli podatkov dejansko dajejo [modelu] kakšne sposobnosti.«

Na vprašanje, kaj daje Midjourneyju značilno estetiko, je Holz dejal, da ne more primerjati tega, kar Midjourney počne z DALL-E 2, a da na splošno raziskovalci umetne inteligence ponavadi dobijo tisto, za kar optimizirajo. Če dodajo besedo "pes", potem verjetno želijo sliko psa.

»Za nas smo bili, ko smo ga optimizirali, želeli smo, da izgleda lepo, lepo pa ne pomeni nujno realistično. … Če že kaj, ga pravzaprav nekoliko odmaknemo od fotografij. … Vem, da je to tehnologijo mogoče uporabiti kot globoko lažni super stroj. In mislim, da svet ne potrebuje več lažnih fotografij. V resnici nočem biti vir lažnih fotografij v svetu.”

»Pravzaprav se počutim nekako neprijetno, če naše stvari ustvarijo nekaj, kar je videti kot fotografija. In to ne pomeni, da ljudem nikoli ne bomo dovolili, da naredijo stvari, ki so bolj realistične. Obstajajo legitimni primeri uporabe za poskuse narediti stvari, ki izgledajo bolj realistične. Vendar trdno menim, da privzeto, ko nekdo uporablja naš sistem, ne bi smel ustvariti lažne fotografije.«

»Vendar mislim, da svet potrebuje več lepote. V bistvu, če ustvarim nekaj, kar ljudem omogoča, da naredijo lepe stvari, in je na svetu še več lepih stvari, je to tisto, kar si privzeto želim.« ®

Časovni žig: Avgust 1, 2022Avgust 1, 2022