David Holz, tekoälyn taidegeneraattorin Midjourneyn perustaja PlatoBlockchain Data Intelligencen kuvantamisen tulevaisuudesta. Pystysuuntainen haku. Ai.

David Holz, AI-taidegeneraattorin Midjourneyn perustaja, kuvaa kuvantamisen tulevaisuutta

Haastatella Vuonna 2008 David Holz perusti Leap Motion -nimisen oheislaitteiden yrityksen. Hän johti sitä viime vuoteen asti, jolloin hän lähti luomaan Midjoureyn.

Keskimatka Nykyisessä muodossaan se on sosiaalinen verkosto tekoälyn luoman taiteen luomiseen tekstikehotteesta – kirjoita sana tai lause syöttökehotteeseen ja saat mielenkiintoisen tai ehkä upean kuvan näytölle noin minuutin laskennan jälkeen. Se on joissain suhteissa samanlainen kuin OpenAI DALL-E2.

Keskimatkan kuva taivaasta ja pilvistä, käyttäen tekstikehotetta "Kaikki tämä turha kauneus". Lähde: tuottanut Keskimatka

Molemmat ovat tulosta suurista tekoälymalleista, jotka on koulutettu suurelle määrälle kuvia. Mutta Midjourneylla on oma erottuva tyylinsä, kuten voidaan nähdä tämä Twitter-säie. Molemmat ovat viime päivinä tulleet julkiseen betatestaukseen (vaikka DALL-E 2 -käyttöoikeutta laajennetaan hitaasti).

Mahdollisuudesta luoda korkealaatuisia kuvia tekoälymalleista tekstinsyötön avulla tuli suosittu toiminta viime vuonna OpenAI:n julkaisun jälkeen. CLIP (Contrastive Language–Image Pre-training), jonka tarkoituksena oli arvioida, kuinka hyvin luodut kuvat sopivat yhteen tekstikuvausten kanssa. Julkaisunsa jälkeen taiteilija Ryan Murdock (@advadnoun Twitterissä) havaitsi, että prosessi voidaan kääntää päinvastaiseksi – antamalla tekstinsyötön, voit saada kuvatulosteen muiden AI-mallien avulla.

Sen jälkeen generatiivinen taideyhteisö aloitti kuumeisen tutkimisen jakson ja julkaisi Python-koodia kuvien luomiseksi erilaisilla malleilla ja tekniikoilla.

"Joskus viime vuonna näimme, että tietyt tekoälyn osa-alueet edistyivät todella mielenkiintoisella tavalla", Holz selitti haastattelussa. Rekisteri. "Yksi niistä oli tekoälyn kyky ymmärtää kieltä."

Holz viittasi muuntajiin, syväoppimismalliin, joka antaa tietoa CLIP:stä, ja diffuusiomalleista, jotka ovat vaihtoehto GANille. "Se, joka todella osui silmiini henkilökohtaisesti, oli CLIP-ohjattu diffuusio", hän sanoi, jonka on kehittänyt Katherine Crawson (tunnetaan Twitterissä nimellä @RiversHaveWings).

Ei stereotyyppinen Florida-mies

Holz varttui Floridassa, ja hänellä oli suunnitteluyritys lukiossa, jossa hän opiskeli matematiikkaa ja fysiikkaa. Hän työskenteli soveltavan matematiikan tohtorintutkinnon parissa ja otti virkavapaan vuonna 2008 aloittaakseen Leap Motionin. Seuraavana vuonna hän vietti vuoden opiskelijatutkijana Max Planck -instituutissa, jota seurasi kaksi vuotta NASA Langley Research Centerissä jatko-opiskelijatutkijana, joka työskenteli LiDAR-, Mars-tehtävien ja ilmakehän tieteen parissa.

"Minä ajattelin, miksi työskentelen kaiken tämän asian parissa?" hän selitti. "Haluan vain työskennellä yhden hienon asian parissa, josta välitän."

Joten hän keskittyi Leap Motioniin, joka kehitti laitteiston seuraamaan käden liikettä ja käyttämään sitä laitteen syöttämiseen. Hän johti yritystä kaksitoista vuotta, ja erottuaan sen palveluksessa oli noin 100 henkilöä.

Midjourney, hän sanoi, on tällä hetkellä melko pieni. "Meitä on noin 10 ihmistä", hän selitti. ”Olemme omarahoittaneet. Meillä ei ole sijoittajia. Emme todellakaan ole taloudellisesti motivoituneita. Olemme täällä vain tehdäksemme asioita, joista olemme intohimoisia, ja pitääksemme hauskaa. Ja työskentelimme monien erilaisten projektien parissa.

Holz sanoi, että tekoälyn tekninen puoli ja sen paranemisaste on melko helppo ennakoida. "Mutta sen inhimillisiä seurauksia on niin vaikea kuvitella", hän sanoi. "Täällä on jotain, joka on ihmiskunnan ja teknologian risteyksessä. Jotta voisimme todella selvittää, mikä tämä on ja mitä sen pitäisi olla, meidän on todella tehtävä paljon kokeita."

Tiestä

Tekoälykuvatekniikan epävakaa luonne näkyy erossa Midjourneyn kaltaisten työkalujen ja ladattavan avoimen lähdekoodin grafiikkasovelluksen, kuten Blenderin, tai paikallisesti asennetun kaupallisen sovelluksen, kuten Adobe Photoshopin (ennen kuin siitä tuli pilvipalvelu), välillä.

Keskimatka on olemassa sosiaalisessa kontekstissa. Sen käyttöliittymä on chat-palvelu Discord. Uudet käyttäjät kirjautuvat Discordin Midjourney-palvelimelle ja voivat sitten lähettää tekstikehotteita kuvien luomiseksi useiden muiden käyttäjien kanssa missä tahansa aloittelijakanavassa.

Tuloksena olevat kuvat kaikille kanavan käyttäjille ilmestyvät noin minuutissa, mikä auttaa vahvistamaan yhteisön käsitettä. Ne, jotka päättävät päivittää 10 $/kk tai 30 $/kk tilaukseen, voivat lähettää tekstiä Midjourney-botille Discord-sovelluksessa yksityisenä suoraviestinä ja vastaanottaa kuvia vastauksena ilman näyttöä vierittävää vuorovaikutuksen vesiputousta muilta käyttäjiltä julkisesti. kanava. Luodut kuvat ovat kuitenkin oletusarvoisesti julkisesti katseltavissa.

Sosiaalisena sovelluksena Midjourney on sallittua sisältöä koskevien sääntöjen alainen – mistä Blenderin tai muiden paikallisesti asennettujen sovellusten käyttäjien ei tarvitse huolehtia. Midjourneyn käyttöehdoissa sanotaan: "Ei aikuisille tarkoitettua sisältöä tai verta. Vältä visuaalisesti järkyttävää tai häiritsevää sisältöä. Estämme osan tekstin syötöstä automaattisesti."

DALL-E 2:een sovelletaan samanlaisia, vaikkakin laajempia rajoituksia, kuten siinä on kuvattu Sisältökäytäntö.

"Uskon, että jos eläisimme maailmassa, jossa ei olisi sosiaalista mediaa, meillä ei tarvitsisi olla rajoituksia", Holz sanoi. "…Kun Photoshop keksittiin, siitä todella puhuttiin, jossa sanottiin: "Voi, voit väärentää mitä tahansa ja se on vähän pelottavaa." [Mutta nyt] on paljon tuottoisampaa olla sensaatiomielinen kuin ennen.”

"Nykyään kuka tahansa voi olla sensaatiohakuinen ja periaatteessa hyötyä siitä", sanoi Holz. "Ja niin se mitä se tekee, on se, että se luo markkinoita draamalle ja sensaatiomaiselle. Siksi mielestäni meidän on oltava hieman varovaisempia, koska jossain vaiheessa ihmiset sanovat, että okei, voin tehdä kuvia tästä, mikä on dramaattisinta, loukkaavinta ja kauhistuttavinta. voi tehdä?'"

Ei helppoja vastauksia

Holz myöntää, että sosiaaliset alustat voivat tehdä asioita lievittääkseen näitä ongelmia, mutta sanoo, että yksinkertaisia ​​vastauksia ei ole. "Valitettavasti ei ole selkeää tapaa käsitellä sitä, paitsi yhteiskunnassa, palkita sensaatiohalu vähemmän", hän sanoi. "Minun vaikutelmani on kuitenkin, että kukaan ei todellakaan yritä muuttaa sosiaalisia alustoja vähentääkseen sensaatiohalua, koska se tekee heistä rahaa juuri nyt."

Hän sanoi, että koska Midjourneyn tavoitteena on olla sosiaalinen tila kaikille yli 13-vuotiaille, tarvitaan sääntöjä äärimmäistä tai graafista sisältöä vastaan.

"Emme todellakaan halua segmentoituja tiloja ihmisille, jotka pitävät ruumiiden tekemisestä tai alastonkuvista", Holz selitti. "Emme vain halua joutua käsittelemään sitä. Emme usko, että meillä on moraalinen velvollisuus tehdä niin tässä vaiheessa. Haluamme yhden kauniin sosiaalisen tilan, jossa ihmiset voivat tehdä asioita yhdessä eikä loukata periaatteessa ja tuntea olonsa turvalliseksi."

Tätä tarkoitusta varten yhtiöllä on noin 40 moderaattoria, jotka pitävät silmällä käyttäjien luomia kuvia.

Midjourneyn sosiaalinen puoli alkoi hiljattain parantaa kuvanlaatua. Holz sanoi, että yrityksen insinöörit esittelivät äskettäin ohjelmistonsa version kolme, joka sisälsi ensimmäistä kertaa käyttäjien toimintaan ja vastaukseen perustuvan palautesilmukan.

"Jos tarkastellaan v3-juttuja, siellä on valtava parannus", hän sanoi. ”Se on mielettömän parempi, emmekä varsinaisesti laittaneet siihen enempää taidetta. Otimme vain tiedot siitä, mistä kuvista käyttäjät pitivät ja miten he käyttivät niitä. Ja se itse asiassa teki siitä paremman."

Kysyttäessä Midjourney-teknologiasta, Holz vastusti. "Jossain vaiheessa aiomme todennäköisesti tehdä lehdistötiedotteen erityisesti siitä, mitä toimittajia käytämme", hän sanoi. ”Voin sanoa, että meillä on näitä suuria tekoälymalleja miljardeilla parametreilla. Heille on opetettu miljardeja kuvia."

Holz sanoo, että käyttäjät tekevät miljoonia ja miljoonia kuvia joka päivä ja tekevät niin käyttämällä vihreän energian laskentatoimittajia – mikä ei oikeastaan ​​kavenna suurten pilvipalveluntarjoajien alaa, koska ne kaikki väittävät olevansa vähintään hiilineutraaleja.

"Jokainen kuva ottaa petaopsia", hän sanoi, termi, joka tarkoittaa 10^15 operaatiota sekunnissa. "Siis 1000 biljoonaa toimintaa. En tiedä tarkalleen, onko se viisi vai 10 vai 50. Mutta kuvan tekeminen vaatii 1000 biljoonaa toimenpidettä. Se on luultavasti kallein… jos kutsut Midjourneyksi palvelua – kuten kutsuisit sitä palveluksi tai tuotteeksi – ei ole epäilemättä koskaan ollut palvelua, jossa tavallinen ihminen käyttäisi näin paljon laskentaa.”

Pitää meidät ruoassa ja vaatteissa

Midjourney ei kuitenkaan ole matkalla kohti maksuttoman palvelun tuomien asiakkaiden lisäämistä maksullisille tasoille ja houkuttelemaan sitten hyvin maksavia yritysasiakkaita ennen julkistamista tai hankkimista.

"Emme ole kuin startup, joka kerää paljon rahaa ja ei sitten ole varma, mikä heidän liiketoimintansa tai tuotteensa on, ja menettää rahaa pitkäksi aikaa", Holz sanoi. ”Olemme kuin omarahoitteinen tutkimuslaboratorio. Voimme menettää jonkin verran rahaa. Meillä ei ole kuin 100 miljoonaa dollaria jonkun muun rahasta menettävänä. Ollakseni rehellinen, olemme jo kannattavia, ja meillä on kaikki hyvin.

”Se on melko yksinkertainen liiketoimintamalli, eli pitävätkö ihmiset sen käyttämisestä? Sitten jos he tekevät, heidän on maksettava sen käyttökustannukset, koska raakakustannukset ovat itse asiassa melko kalliita. Ja sitten lisätään prosenttiosuus, joka toivottavasti riittää ruokkimaan ja majoittamaan meidät. Ja niin me teemme."

Mitä tulee tulevaisuuteen, skaalaus voi olla ongelma. Holzin mukaan Midjourneylla on tällä hetkellä satojatuhansia ihmisiä, jotka käyttävät palvelua, mikä vaatii noin 10,000 XNUMX palvelinta.

"Jos 10 miljoonaa ihmistä yrittäisi käyttää tällaista tekniikkaa", hän sanoi, "ei itse asiassa ole tarpeeksi tietokoneita. Maailmassa ei ole miljoonia ilmaisia ​​palvelimia tekoälyn tekemiseen. Uskon, että maailmasta loppuu tietokoneet ennen kuin tekniikka todella pääsee kaikkien saataville, jotka haluavat käyttää sitä."

Mihin ihmiset käyttävät sitä? No, jos olet kirjautunut sisään Midjourney-tilille, voit nähdä, mitä ihmiset luovat -palvelun kautta Yhteisön syöte sivu. Se on jatkuva mielenkiintoisten, usein hätkähdyttävän hyvien kuvien virta.

"Suurin osa ihmisistä vain pitää hauskaa", Holz sanoi. "Mielestäni se on suurin asia, koska kyse ei itse asiassa ole taiteesta, vaan mielikuvituksesta."

Ammattimainen oleminen

Mutta noin 30 prosentille käyttäjistä se on ammattimaista. Holz sanoi, että monet graafikot käyttävät Midjourneya osana konseptin kehittämistyönkulkuaan. He luovat ideasta muutamia muunnelmia ja esittelevät sen asiakkaille nähdäkseen, mihin suuntaan heidän tulisi edetä.

"Ammattilaiset käyttävät sitä tehostaakseen luovaa tai viestintäprosessiaan", Holz selitti. "Ja sitten monet ihmiset vain leikkivät sillä."

Ehkä 20 prosenttia ihmisistä käyttää Midjourneyta siihen, mitä Holz kuvailee taideterapiaksi. Esimerkiksi koirakuvien luominen koiran kuoltua. "He käyttävät sitä emotionaalisena ja älyllisenä heijastusvälineenä", hän sanoi. "Ja se on todella siistiä."

Holz ei pidä ajatuksesta käyttää Midjourneya väärennettyjen valokuvien luomiseen. "Sen käyttö toimituksellisesti väärennettyjen valokuvien luomiseen on erittäin vaarallista", hän sanoi. "Kenenkään ei pitäisi tehdä niin." Mutta hän on avoimempi Midjourneylle kaupallisen kuvituksen lähteenä, huomauttaen tämän The Economist julkaisi Midjourney-grafiikan sen kannessa kesäkuussa.

"Annoimme ihmisten käyttää sitä kaupallisesti vasta äskettäin", Holz sanoi. "Se oli pitkään vain ei-kaupallista. Ja yksi asia, mitä teemme, on, että me vain katsomme sitä, mitä ihmiset tekevät, ja saatamme päättää, ettemme ole mukavia joihinkin niistä, ja sitten laadimme säännön, jossa sanotaan, että ei voi enää käyttää sitä vain näihin asioihin."

Holz sanoi näkevänsä Midjourneyn kaltaisten tekoälytyökalujen tekevän taiteilijat paremmiksi siinä, mitä he tekevät, sen sijaan, että he tekisivät kaikista ammattitaiteilijoita. ”Näitä työkaluja käyttävä taiteilija on aina parempi kuin tavallinen näitä työkaluja käyttävä ihminen. Voiko jossain vaiheessa olla painetta käyttää näitä työkaluja, koska voit tehdä asioita, jotka ovat niin mahtavia? Mielestäni kyllä. Mutta tällä hetkellä en usko, että se on vielä aivan perillä. Mutta se tulee järkyttävän paremmaksi seuraavien kahden vuoden aikana.

Midjourney ja DALL-E 2 ovat kiinnittäneet enemmän huomiota pitkäaikaisiin huolenaiheisiin siitä, voidaanko teoksesta tekijänoikeudella tai erityisillä lisensseillä luotuja tekoälymalleja sovittaa yhteen tekijänoikeuslain ja sisällöntuottajien oman käsityksen kanssa siitä, miten heidän töitään tulisi kohdella.

Amerikka, oikeudenkäynnin maa

Midjourney-tulosteen suhteen Yhdysvaltain nykyinen oikeuskäytäntö kieltää mahdollisuuden myöntää tekijänoikeuksia tekoälyn luomille kuville. Helmikuussa Yhdysvaltain tekijänoikeusviraston arviointilautakunta hylätty [PDF] toinen pyyntö myöntää tekijänoikeudet tietokoneella luotuun maisemaan nimeltä "Äskettäinen sisäänkäynti paratiisiin", koska se luotiin ilman ihmisen tekijää.

Santa Claran yliopiston lakiosaston professori Tyler Ochoa kertoi puhelinhaastattelussa Rekisteri, "Yhdysvaltain tekijänoikeusvirasto on sanonut, että on [hyväksyttävää], jos taiteilija käyttää tekoälyä auttamaan häntä teoksen luomisessa, kunhan siihen liittyy inhimillistä luovuutta. Jos vain kirjoitat tekstiä ja tekoäly luo teoksen, se ei selvästikään kuulu nykyisen lain tekijänoikeussuojan piiriin."

Midjourneyn käyttöehdoissa sanotaan, että "omistat kaiken Palveluilla luomasi omaisuuden", mutta yritys vaatii käyttäjiltä tekijänoikeuslisenssin palvelun avulla luodun sisällön toistamiseen. Tämä on välttämätön varotoimenpide käyttäjien kuvien isännöimiseksi, vaikka vaikuttaisi epäilyttävältä, Midjourney-kuvien tekemisessä yksinkertaisesti tekstinsyötön avulla on tekijänoikeuksia välittää tai valvoa.

Näin ei välttämättä aina ole. Ochoa sanoi, että hän uskoo, että Steven Thaler, joka loi "Äskettäisen sisäänkäynnin paratiisiin", saattaa haluta haastaa tekijänoikeusviraston hylkäävän tekoälyyn perustuvan tekijän oikeudessa, vaikka niin ei ole vielä tapahtunut.

Tekijänoikeuslailla suojatulla materiaalilla koulutetut tekoälymallit voivat myös aiheuttaa tekijänoikeusongelmia. "Kysymys kuuluu, olisiko reilua käyttöä käyttää näitä kuvia koulutukseen ja tekoälyyn", sanoi Ochoa. "Ja mielestäni kohtuullisen käytön perusteet ovat tässä yhteydessä melko vahvat."

Lisäksi ne, jotka luovat kuvia, jotka ovat olennaisesti samanlaisia ​​kuin olemassa oleva tekijänoikeudella suojattu materiaali, voivat olla vastuussa. "Jos harjoitussarjasi ei ole tarpeeksi suuri, tekoälyn sylkemä sisältö saattaa näyttää hirveän paljon samalta, mitä se on syönyt", Ochoa selitti ja huomautti, että ongelmana on silloin, onko kyseessä tekijänoikeusrikkomus. "Epäsuorasti pidän sitä erittäin todennäköisenä."

Mitä tulee mahdolliseen oikeudelliseen riskiin asiakkaille, jotka käyttävät Midjourneyn luomaa omaisuutta, Ochoa sanoi, että se on hänen mielestään melko alhainen. Jos tekoälymallin koulutus loukkasi tekijänoikeuksia, se tehtiin ennen kuin asiakas oli mukana, hän selitti. "Joten, ellei asiakas sponsoroi tekoälyn luomista jollakin tavalla, en usko, että [asiakas] olisi vastuussa koulutussarjan rikkomisesta", hän sanoi. "Ja se on vahvin väite täällä. Joten uskon, että asiakkaat ovat melko vakaalla pohjalla näiden kuvien käytössä, olettaen, että se oli hyvin tehty."

Holz myöntää, että oikeudellinen tilanne on epäselvä.

"Tällä hetkellä laissa ei oikeastaan ​​ole mitään tällaisesta", hän sanoi. ”Tietäkseni jokainen suuri tekoälymalli on periaatteessa koulutettu internetissä oleviin asioihin. Ja se on okei, juuri nyt. Mitään erityistä lakia siitä ei ole. Ehkä tulevaisuudessa tulee olemaan. Mutta se on tavallaan uusi alue, kuten GPL oli tavallaan uusi laillinen asia ohjelmointikoodin ympärillä. Ja kesti 20 tai 30 vuotta, ennen kuin siitä todella tuli jotain, mitä oikeusjärjestelmä alkaa selvittää."

Holz sanoi, että hän uskoo, että tällä hetkellä on tärkeämpää ymmärtää, miten asianosaiset suhtautuvat tähän tekniikkaan. "Meillä on monia artisteja, jotka käyttävät juttujamme, ja tarkistamme jatkuvasti heidän kanssaan, kuten "tuntuuko sinusta hyvältä?"", hän sanoi.

Holz sanoi, että jos vallitsevaan tilanteeseen on tarpeeksi tyytymättömyyttä, saattaa olla syytä miettiä tulevaisuudessa jonkinlaista maksurakennetta taiteilijoille, joiden työ menee koulutusmalleihin. Mutta hän huomautti, että maksujen suuruuden arvioiminen on tällä hetkellä vaikeaa. "Tällaisten asioiden haasteena on nyt se, ettei ole varsinaisesti selvää, mikä saa tekoälymallit toimimaan hyvin", hän sanoi. "Jos laitan sinne kuvan koirasta, kuinka paljon se todella auttaa [AI-mallia] tekemään koirakuvia. Ei ole itse asiassa selvää, mitkä datan osat todella antavat [mallille] mitä kykyjä."

Kysyttäessä, mikä antaa Midjourneylle sen erottuvan esteettisen, Holz vastasi, ettei hän voi verrata Midjourneyn toimintaa DALL-E 2:een, mutta yleensä tekoälytutkijat saavat sen, mitä varten he optimoivat. Jos he laittavat sanan "koira", he todennäköisesti haluavat kuvan koirasta.

”Meille sitä optimoinnissa halusimme sen näyttävän kauniilta, eikä kaunis välttämättä tarkoita realistista. … Jos jotain, itse asiassa teemme sen puolueellisuuden hieman pois valokuvista. … Tiedän, että tätä tekniikkaa voidaan käyttää syvänä fake superkoneena. Ja en usko, että maailma tarvitsee lisää väärennettyjä kuvia. En todellakaan halua olla väärennettyjen valokuvien lähde maailmassa."

”Olen itse asiassa jotenkin epämukava, jos tavaramme tekee jotain, joka näyttää valokuvalta. Ja se ei tarkoita, että emme koskaan antaisi ihmisten tehdä asioita, jotka ovat realistisempia. On olemassa oikeutettuja käyttötapauksia, joissa yritetään tehdä asioista, jotka näyttävät realistisemmilta. Olen kuitenkin vahvasti sitä mieltä, että oletuksena, kun joku käyttää järjestelmäämme, sen ei pitäisi tehdä väärennettyä valokuvaa."

"Mutta mielestäni maailma tarvitsee enemmän kauneutta. Periaatteessa, jos luon jotain, jonka avulla ihmiset voivat tehdä kauniita asioita, ja maailmassa on kauniimpia asioita, sen haluan oletuksena." ®

Aikaleima:

Lisää aiheesta Rekisteri