David Holz, AI Art Generator Midjourney asutaja, pildistamise tulevik

Taasavaldanud Platon

järgijaid: 0

Intervjuu Aastal 2008 asutas David Holz riistvara välisseadmete ettevõtte Leap Motion. Ta juhtis seda kuni eelmise aastani, mil lahkus Midjoureyt looma.

Keskteekond praegusel kujul on sotsiaalne võrgustik AI-ga loodud kunsti loomiseks tekstiviibast – tippige sisestusviibale sõna või fraas ja pärast umbes minutilist arvutustööd kuvatakse ekraanile huvitav või ehk imeline pilt. Mõnes mõttes sarnaneb see OpenAI-ga DALL-E2.

Keskteekonna pilt taevast ja pilvedest, kasutades tekstiviipa "Kõik see kasutu ilu". Allikas: loodud Keskteekond

Mõlemad on suurte tehisintellekti mudelite tulemus, mis on treenitud suurel hulgal piltidel. Kuid Midjourney'l on oma eripärane stiil, nagu näha see Twitteri lõim. Mõlemad on viimastel päevadel avalikus beetatestimises (kuigi DALL-E 2 juurdepääsu laiendatakse aeglaselt).

Võimalus luua tehisintellekti mudelitest tekstisisestuse abil kvaliteetseid pilte sai eelmisel aastal populaarseks tegevuseks pärast OpenAI väljaandmist. CLIP (Kontrastiivse keele ja pildi eelkoolitus), mille eesmärk oli hinnata, kui hästi loodud kujutised tekstikirjeldustega ühtivad. Pärast selle vabastamist kunstnik Ryan Murdock (@advadnoun Twitteris) leidis, et protsessi saab ümber pöörata – tekstisisestuse abil saate pildiväljundi teiste AI-mudelite abil.

Pärast seda alustas generatiivne kunstikogukond palavikulist uurimisperioodi, avaldades Pythoni koodi, et luua pilte, kasutades erinevaid mudeleid ja tehnikaid.

"Mõnikord eelmisel aastal nägime, et AI teatud valdkonnad edenesid väga huvitaval viisil," selgitas Holz intervjuus. Register. "Üks neist oli AI võime keelest aru saada."

Holz osutas sellistele arengutele nagu trafod, süvaõppemudel, mis teavitab CLIP-i, ja difusioonimudelid, GAN-ide alternatiiv. "See, mis mulle isiklikult silma hakkas, oli CLIP-i juhitud difusioon," ütles ta, mille on välja töötanud Katherine Crawson (Twitteris tuntud kui @RiversHaveWings).

Mitte stereotüüpne Florida mees

Holz kasvas üles Floridas ja tal oli keskkoolis disainiettevõte, kus ta õppis matemaatikat ja füüsikat. Ta töötas rakendusmatemaatika doktorikraadi kallal ja võttis 2008. aastal puhkuse, et alustada programmi Leap Motion. Järgmisel aastal töötas ta ühe aasta Max Plancki Instituudi üliõpilasteadlasena, millele järgnes kaks aastat NASA Langley uurimiskeskuses kraadiõppuri teadurina, kes töötas LiDARi, Marsi missioonide ja atmosfääriteaduse alal.

"Ma mõtlesin, et miks ma selle kõige kallal töötan?" selgitas ta. "Ma tahan töötada ühe laheda asja kallal, mis mulle korda läheb."

Nii keskendus ta Leap Motionile, mis töötas välja riistvaraseadme käe liikumise jälgimiseks ja selle seadme sisendiks kasutamiseks. Ta juhtis ettevõtet kaksteist aastat ja sealt lahkudes töötas umbes 100 inimest.

Tema sõnul on keskteekond praegu üsna väike. "Meid on umbes 10 inimest," selgitas ta. "Oleme ise rahastanud. Meil pole investoreid. Me ei ole tegelikult rahaliselt motiveeritud. Oleme siin lihtsalt selleks, et töötada asjade kallal, mille vastu oleme kirglikud, ja lõbutseda. Ja me töötasime paljude erinevate projektidega.

Holz ütles, et AI tehnoloogilist aspekti ja selle paranemise ulatust on üsna lihtne ette näha. "Kuid selle inimlikke tagajärgi on nii raske ette kujutada," ütles ta. "Siin on midagi, mis on inimkonna ja tehnoloogia ristumiskohas. Et tõesti aru saada, mis see on ja mis see peaks olema, peame tõesti tegema palju katseid.

Tee ees

Tehisintellekti pilditehnoloogia rahutu olemus ilmneb erinevuses selliste tööriistade nagu Midjourney ja allalaaditava avatud lähtekoodiga graafikarakenduse (nt Blender) või kohalikult installitud kommertsrakenduse (nt Adobe Photoshop) vahel (enne kui sellest sai pilveteenus).

Keskteekond eksisteerib sotsiaalses kontekstis. Selle esiosa on vestlusteenus Discord. Uued kasutajad logivad sisse Discordi Midjourney serverisse ja saavad seejärel esitada tekstiviipasid, et luua pilte koos paljude teiste kasutajatega mis tahes algaja kanalis.

Saadud kujutised ilmuvad kõigi selle kanali kasutajate jaoks umbes minutiga, mis aitab tugevdada kogukonna mõistet. Need, kes otsustavad minna üle 10 dollarile kuus või 30 dollarile kuus, saavad Discordi rakenduses Midjourney robotile teksti saata privaatse otsesõnumina ja saada vastuseks pilte, ilma et teistelt kasutajatelt avalikus suhtluses oleks vaja ekraanil kerida. kanal. Loodud pildid jäävad aga vaikimisi avalikult vaadatavaks.

“Elav kogu surnud liblikatest”@images_ai, @ai_curio, #kesktee pic.twitter.com/OFKRJtJq5w

— Thomas Claburn (@ThomasClaburn) Juuni 10, 2022

Sotsiaalse rakendusena kehtivad Midjourney reeglid lubatud sisu kohta – mille pärast ei pea Blenderi või muude kohapeal installitud rakenduste kasutajad muretsema. Midjourney teenusetingimustes on kirjas: „Ei mingit täiskasvanutele mõeldud sisu ega veretust. Vältige visuaalselt šokeeriva või häiriva sisu tegemist. Blokeerime mõned tekstisisestused automaatselt.

DALL-E 2-le kehtivad sarnased, kuigi ulatuslikumad piirangud, nagu on kirjeldatud selles Sisupoliitika.

"Ma arvan, et kui me elaksime maailmas, kus poleks sotsiaalmeediat, poleks meil vaja mingeid piiranguid," ütles Holz. "...Kui Photoshop leiutati, avaldati selle kohta tegelikult ajakirjandus, kus öeldakse: "Oh, sa võid kõike võltsida ja see on natuke hirmutav." [Aga praegu] on sensatsioonihimuline olla palju tulusam kui varem.

"Tänapäeval võib igaüks olla sensatsiooniline ja sellest põhimõtteliselt kasu saada," ütles Holz. "Ja seega loob see turu draamale ja sensatsioonile. Sellepärast arvan, et peame olema veidi ettevaatlikumad, sest ühel hetkel ütlevad inimesed, et okei, ma võin sellest pilte teha, mis on kõige dramaatilisem, solvavam ja kohutavam värk. oskab teha?”

Pole lihtsaid vastuseid

Holz lubab, et sotsiaalsed platvormid saavad nende probleemide leevendamiseks teha asju, kuid ütleb, et lihtsaid vastuseid pole. "Kahjuks ei ole selle lahendamiseks selget viisi, välja arvatud ühiskonnana, et sensatsiooni eest vähem premeerida," ütles ta. "Mulle jääb aga mulje, et keegi ei ürita tegelikult sensatsioonilisuse vähendamiseks sotsiaalseid platvorme muuta, sest see teeb neile praegu raha."

Veelgi enam, kuna Midjourney eesmärk on olla sotsiaalne ruum kõigile üle 13-aastastele, on tema sõnul vajalikud reeglid äärmusliku või graafilise sisu vastu.

"Me ei taha tegelikult jagada ruume inimestele, kellele meeldib laipade tegemine või alastifotod," selgitas Holz. "Me lihtsalt ei taha sellega tegeleda. Me ei arva, et meil on praeguses etapis moraalne kohustus seda teha. Tahame ühte ilusat sotsiaalset ruumi, et inimesed saaksid koos asju teha, mitte solvuda ja end turvaliselt tunda.

Sel eesmärgil on ettevõttel umbes 40 moderaatorit, kes hoiavad kasutajate loodud piltidel silma peal.

Midjourney sotsiaalne aspekt hakkas hiljuti parandama pildikvaliteeti. Holz ütles, et ettevõtte insenerid tutvustasid hiljuti oma tarkvara kolmandat versiooni, mis esmakordselt sisaldas kasutaja tegevusel ja reageerimisel põhinevat tagasisideahelat.

"Kui vaadata v3 asju, on see tohutu paranemine," ütles ta. "See on hämmastavalt parem ja me ei pannud sellesse rohkem kunsti. Võtsime lihtsalt andmed selle kohta, millised pildid kasutajatele meeldisid ja kuidas nad neid kasutasid. Ja see muutis selle tegelikult paremaks."

Kui Holz küsiti Midjourney tehnikakogumi kohta, tõrjus ta. "Mingil hetkel teeme tõenäoliselt pressiteate konkreetselt selle kohta, milliseid tarnijaid me kasutame," ütles ta. "Ma võin öelda, et meil on need suured AI mudelid miljardite parameetritega. Nad on treenitud miljardite piltide jaoks.

Holz ütleb, et kasutajad teevad iga päev miljoneid ja miljoneid pilte, kasutades selleks rohelise energia arvutusteenuse pakkujaid – mis ei kitsenda tegelikult suuremate pilvandmetöötluse pakkujate valdkonda, kuna nad kõik väidavad, et nad on vähemalt süsinikuneutraalsed.

"Iga pilt võtab petaops," ütles ta, termin, mis tähendab 10^15 toimingut sekundis. "Nii 1000 triljonit operatsiooni. Ma ei tea täpselt, kas see on viis või 10 või 50. Aga pildi tegemiseks on vaja 1000 triljonit toimingut. See on ilmselt kõige kallim… kui helistate Midjourney’le, teenuseks – nagu te nimetaksite seda teenuseks või tooteks –, pole kahtlemata varem olnud teenust, kus tavainimene nii palju arvutit kasutaks.

Hoides meid toidus ja riietes

Siiski ei ole Midjourney teel tasuta teenusega kaasatud kliente tasulistesse tasanditesse müümise suunas ja seejärel hästi maksvate äriklientide meelitamist enne börsile minekut või omandamist.

"Me ei ole nagu idufirma, kes kogub palju raha ja pole siis kindel, mis on nende äri või toode, ning kaotab pikka aega raha," ütles Holz. „Oleme nagu omafinantseeritav uurimislabor. Võime kaotada teatud summa raha. Meil ei ole kaotada nagu 100 miljonit dollarit kellegi teise rahast. Ausalt öeldes oleme juba kasumlikud ja kõik on korras.

"See on üsna lihtne ärimudel, mis tähendab, kas inimesed naudivad selle kasutamist? Kui nad seda teevad, peavad nad maksma selle kasutamise kulud, sest töötlemata hind on tegelikult üsna kallis. Ja siis lisame sellele protsendi, millest loodetavasti piisab, et meid toita ja majutada. Ja nii me teemegi."

Mis puutub tulevikku, siis skaleerimine võib olla probleem. Holz ütles, et Midjourney kasutab teenust praegu sadu tuhandeid inimesi, mis nõuab umbes 10,000 XNUMX serverit.

"Kui oleks 10 miljonit inimest, kes prooviksid sellist tehnoloogiat kasutada," ütles ta, "ei ole tegelikult piisavalt arvuteid. Maailmas pole miljonit tasuta serverit tehisintellekti tegemiseks. Ma arvan, et maailmas saavad arvutid otsa enne, kui tehnoloogia jõuab kõigini, kes seda kasutada tahavad.

Milleks inimesed seda kasutavad? Noh, kui olete Midjourney kontole sisse logitud, näete, mida inimesed loovad Kogukonna voog lehel. See on pidev huvitavate, sageli jahmatavalt heade piltide voog.

Väike pilvemaja 2 #kesktee #aiartcommunity pic.twitter.com/uL9WlJDMC6

— poeetiline AI (@generated_paint) Juuli 24, 2022

"Enamik inimesi lihtsalt lõbutseb," ütles Holz. "Ma arvan, et see on suurim asi, sest see ei puuduta tegelikult kunsti, vaid kujutlusvõimet."

Professionaalne olemine

Kuid umbes 30 protsendi kasutajate jaoks on see professionaalne. Holz ütles, et paljud graafikud kasutavad Midjourneyt oma kontseptsiooni väljatöötamise töövoo osana. Nad loovad ideest mõned variatsioonid ja esitavad selle klientidele, et näha, millises suunas nad peaksid jätkama.

"Professionaalid kasutavad seda oma loomingulise või suhtlusprotsessi täiendamiseks, " selgitas Holz. "Ja siis paljud inimesed lihtsalt mängisid sellega."

Võib-olla 20 protsenti inimestest kasutab Midjourney’t selleks, mida Holz kirjeldab kunstiteraapiana. Näiteks koerapiltide loomine pärast nende koera surma. "Nad kasutavad seda emotsionaalse ja intellektuaalse peegeldava vahendina, " ütles ta. "Ja see on tõesti lahe."

Holzile ei meeldi mõte kasutada Midjourney'i võltsfotode loomiseks. "Selle toimetuslik kasutamine võltsfotode loomiseks on äärmiselt ohtlik," ütles ta. "Keegi ei tohiks seda teha." Kuid ta on Midjourneyle kui kaubandusliku illustratsiooni allikale avatum, märkides seda The Economist koostas Midjourney graafika juunil selle kaanel.

"Alles hiljuti lubasime inimestel seda äriliselt kasutada, " ütles Holz. "Pikka aega oli see ainult mitteäriline. Ja nii et üks asi, mida me teeme, on see, et me lihtsalt vaatame seda, mida inimesed teevad ja me võime otsustada, et me ei ole sellega rahul ja siis kehtestame reegli, mis ütleb teile. ei saa seda enam ainult nende asjade jaoks kasutada.

Holz ütles, et näeb, et tehisintellekti tööriistad, nagu Midjourney, muudavad kunstnikud oma tegemistes paremaks, selle asemel, et muuta kõik professionaalseks kunstnikuks. "Kunstnik, kes neid tööriistu kasutab, on alati parem kui tavaline inimene, kes neid tööriistu kasutab. Kas ühel hetkel võib tekkida surve nende tööriistade kasutamiseks, sest saate teha nii suurepäraseid asju? Ma arvan, et jah. Aga praegu ma arvan, et see pole veel päris käes. Kuid järgmise kahe aasta jooksul läheb see šokeerivalt paremaks.

Midjourney ja DALL-E 2 on juhtinud rohkem tähelepanu pikaajalisele murele selle üle, kas teosest autoriõiguse või konkreetsete litsentside alusel loodud suuri tehisintellekti mudeleid saab ühildada autoriõiguse seadusega ja sisuloojate endi arusaamaga, kuidas nende tööd tuleks kohelda.

Ameerika, kohtuasja maa

Mis puudutab Midjourney väljundit, siis praegune USA kohtupraktika eitab võimalust anda AI-ga loodud piltidele autoriõigusi. Veebruaris USA autoriõiguse ameti ülevaatusnõukogu tagasi [PDF] teine taotlus autoriõiguse andmiseks arvutiga loodud maastikule pealkirjaga "Hiljutine sissepääs paradiisi", kuna see loodi ilma inimese autoriteta.

Santa Clara ülikooli õigusosakonna professor Tyler Ochoa rääkis telefoniintervjuus Register, „USA autoriõiguse amet on öelnud, et [vastuvõetav] on see, kui kunstnik kasutab AI-d, et aidata neil teose loomisel abistada, kui sellega on seotud inimlik loovus. Kui sina lihtsalt kirjutad teksti ja tehisintellekt loob teose, siis ilmselgelt ei kuulu sellele kehtiva seaduse kohaselt autoriõiguse kaitse.

Midjourney teenusetingimustes on kirjas, et "teile kuuluvad kõik teenustega loodud varad", kuid ettevõte nõuab teenusega loodud sisu reprodutseerimiseks kasutajatelt autoriõiguse litsentsi – see on vajalik ettevaatusabinõu kasutajate piltide majutamiseks, isegi kui tundub kahtlane, et need Midjourney piltide tegemisel lihtsalt tekstisisestuse kaudu on edastamiseks või jõustamiseks mis tahes autoriõigused.

See ei pruugi alati nii olla. Ochoa ütles, et ta usub, et Steven Thaler, kes lõi "Hiljuti sissepääsu paradiisi", võib soovida vaidlustada autoriõiguse ameti poolt tehisintellektil põhineva autorluse tagasilükkamise kohtus, kuigi seda pole veel juhtunud.

Võimalikud autoriõigustega seotud probleemid tulenevad ka autoriõigustega kaitstud materjalile koolitatud tehisintellekti mudelitest. "Küsimus on selles, kas oleks õiglane kasutada neid pilte treenimiseks ja tehisintellektiks," ütles Ochoa. "Ja ma arvan, et õiglase kasutamise põhimõte on selles kontekstis üsna tugev."

Lisaks on võimalik vastutus nende eest, kes loovad olemasoleva autoriõigusega kaitstud materjaliga oluliselt sarnaseid pilte. "Kui teie treeningkomplekt pole piisavalt suur, võib tehisintellekti väljasülitav materjal tunduda väga sarnane sellega, mida ta neelas," selgitas Ochoa, märkides, et probleem on siis selles, kas see on autoriõiguste rikkumine. "Kaudselt arvan, et see võib olla väga tõenäoline."

Mis puudutab võimalikku juriidilist riski klientidele, kes kasutavad Midjourney loodud varasid, siis Ochoa arvab, et see on üsna madal. Kui tehisintellekti mudeli väljaõpe rikkus autoriõigusi, tehti seda enne kliendi kaasamist, selgitas ta. "Nii et kui klient ei sponsoreeri mingil viisil tehisintellekti loomist, ei usu ma, et [klient] vastutaks koolituskomplekti rikkumiste eest," ütles ta. "Ja see on siin kõige tugevam väide. Seega arvan, et kliendid on nende piltide kasutamisel üsna kindlal pinnal, eeldades, et see oli hästi tehtud.

Holz tõdeb, et õiguslikul olukorral puudub selgus.

"Praegu ei ole seaduses sellise asja kohta midagi ette nähtud," ütles ta. "Minu teada on iga suur tehisintellekti mudel põhiliselt koolitatud Internetis leiduvate asjadega. Ja see on okei, kohe. Spetsiaalselt selle kohta seadusi pole. Võib-olla tulevikus tuleb. Kuid see on omamoodi uudne valdkond, nagu GPL oli omamoodi uudne juriidiline asi programmeerimiskoodi ümber. Ja kulus 20 või 30 aastat, enne kui sellest sai tõesti midagi, mida õigussüsteem hakkab välja mõtlema.

Holz ütles, et tema arvates on praegu olulisem mõista, kuidas asjassepuutuvad osapooled selle tehnoloogia suhtes tunnevad. "Meil on palju artiste, kes kasutavad meie asju ja me uurime nendega pidevalt, nagu "kas tunnete end sellest hästi?"" ütles ta.

Holz ütles, et kui praeguse olukorraga on piisavalt rahulolematust, tasub tulevikus mõelda kunstnikele, kelle töö on seotud mudelite koolitusega. Kuid ta märkis, et panuse ulatuse hindamine on praegu keeruline. "Praegu seisneb selles, et pole selge, mis paneb tehisintellekti mudelid hästi tööle," ütles ta. "Kui ma panen sinna koera pildi, siis kui palju see tegelikult [AI mudelil] koerapilte teha aitab. Pole tegelikult selge, millised andmete osad annavad [mudelile] milliseid võimeid.

Küsimusele, mis annab Midjourneyle erilise esteetika, vastas Holz, et ta ei saa tegelikult võrrelda seda, mida Midjourney teeb DALL-E 2-ga, kuid üldiselt kipuvad AI-uurijad saama seda, mille jaoks nad optimeerivad. Kui nad panevad sõna "koer", tahavad nad tõenäoliselt koera pilti.

„Meie jaoks olime seda optimeerides ja tahtsime, et see näeks ilus välja ja ilus ei tähenda tingimata realistlikkust. … Kui midagi, siis tegelikult kaldume seda fotodest veidi eemale. … Ma tean, et seda tehnoloogiat saab kasutada sügava võltsitud supermasinana. Ja ma arvan, et maailm ei vaja rohkem võltsfotosid. Ma ei taha tegelikult olla maailmas võltsfotode allikas.

"Ma tunnen end kuidagi ebamugavalt, kui meie asjad teevad midagi, mis näeb välja nagu foto. Ja see ei tähenda, et me ei lase inimestel kunagi teha asju, mis on realistlikumad. Asjade realistlikumaks muutmiseks on õigustatud kasutusjuhtumeid. Siiski tunnen kindlalt, et kui keegi meie süsteemi kasutab, ei tohiks see vaikimisi teha võltsfotot.

"Kuid ma arvan, et maailm vajab rohkem ilu. Põhimõtteliselt, kui ma loon midagi, mis võimaldab inimestel teha ilusaid asju, ja maailmas on ilusamaid asju, siis ma tahan seda vaikimisi. ®

Ajatempel: August 1, 2022August 1, 2022