David Holz, fondatorul generatorului de artă AI Midjourney, despre viitorul imagistică PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

David Holz, fondatorul generatorului de artă AI Midjourney, despre viitorul imaginii

Interviu În 2008, David Holz a co-fondat o firmă de periferice hardware numită Leap Motion. A condus-o până anul trecut când a plecat să creeze Midjourey.

Mijlocul călătoriei în forma sa actuală, este o rețea socială pentru crearea de artă generată de AI dintr-un prompt text – tastați un cuvânt sau o expresie la promptul de intrare și veți primi o imagine interesantă sau poate minunată pe ecran după aproximativ un minut de calcul. Este similar în unele privințe cu OpenAI DALL-E2.

Imagine de la mijlocul călătoriei a cerului și norilor, folosind mesajul text „Toată această frumusețe inutilă”. Sursa: generat de Mijlocul călătoriei

Ambele sunt rezultatul unor modele AI mari, antrenate pe un număr mare de imagini. Dar Midjourney are propriul stil distinctiv, așa cum se poate vedea din acest fir de Twitter. Ambele au intrat în ultimele zile în testarea publică beta (deși accesul DALL-E 2 este extins încet).

Capacitatea de a crea imagini de înaltă calitate din modele AI folosind introducerea textului a devenit o activitate populară anul trecut, după lansarea programului OpenAI. CLIP (Contrastive Language–Image Pre-training), care a fost conceput pentru a evalua cât de bine se aliniază imaginile generate cu descrierile textului. După lansare, artistul Ryan Murdock (@advadnoun pe Twitter) a constatat că procesul ar putea fi inversat - prin introducerea textului, puteți obține imagini cu ajutorul altor modele AI.

După aceea, comunitatea de artă generativă a început o perioadă de explorare febrilă, publicând cod Python pentru a crea imagini folosind o varietate de modele și tehnici.

„Anul trecut, am văzut că au existat anumite domenii ale IA care progresau în moduri cu adevărat interesante”, a explicat Holz într-un interviu cu Registrul. „Unul dintre ele a fost capacitatea AI de a înțelege limbajul.”

Holz a subliniat evoluții precum transformatoarele, un model de învățare profundă care informează CLIP și modelele de difuzie, o alternativă la GAN. „Cea care mi-a frapat cu adevărat ochiul personal a fost difuzarea ghidată de CLIP”, a spus el, dezvoltată de Katherine Crawson (cunoscută pe Twitter ca @RiversHaveWings).

Nu bărbatul stereotip din Florida

Holz a crescut în Florida și a avut o afacere de design în liceu, unde a studiat matematica și fizica. El lucra la un doctorat în matematică aplicată și și-a luat concediu în 2008 pentru a începe Leap Motion. În anul următor, a petrecut un an ca student cercetător la Institutul Max Planck, urmat de doi ani la NASA Langley Research Center, ca cercetător absolvent care lucrează la LiDAR, misiunile pe Marte și știința atmosferică.

„M-am gândit, de ce lucrez la toate chestiile astea?” a explicat. „Vreau doar să lucrez la un lucru tare la care îmi pasă.”

Așa că s-a concentrat pe Leap Motion, care a dezvoltat un dispozitiv hardware pentru a urmări mișcarea mâinii și a-l folosi pentru introducerea dispozitivului. A condus compania timp de doisprezece ani, iar când a părăsit-o avea aproximativ 100 de angajați.

Mijlocul călătoriei, a spus el, este destul de mic acum. „Suntem cam 10 oameni”, a explicat el. „Suntem autofinanțați. Nu avem investitori. Nu suntem cu adevărat motivați financiar. Suntem aici ca să lucrăm la lucruri care ne pasionează și să ne distrăm. Și lucram la o mulțime de proiecte diferite.”

Holz a spus că aspectul tehnologic al AI și măsura în care se va îmbunătăți este destul de ușor de prevăzut. „Dar ramificațiile umane ale acestui lucru sunt atât de greu de imaginat”, a spus el. „Există ceva aici care se află la intersecția umanității și tehnologiei. Pentru a ne da seama cu adevărat ce este și ce ar trebui să fie, trebuie să facem o mulțime de experimente.”

Drumul înainte

Natura nestabilită a tehnologiei de imagine AI este evidentă în diferența dintre instrumente precum Midjourney și o aplicație grafică open source descărcabilă precum Blender sau o aplicație comercială instalată local precum Adobe Photoshop (înainte de a deveni un serviciu cloud).

Mijlocul de călătorie există într-un context social. Frontend-ul său este serviciul de chat Discord. Utilizatorii noi se conectează la serverul Discord Midjourney și pot trimite apoi solicitări text pentru a genera imagini alături de mulți alți utilizatori pe oricare dintre diferitele canale pentru începători.

Imaginile rezultate pentru toți utilizatorii din acel canal apar în aproximativ un minut, ceea ce ajută la întărirea noțiunii de comunitate. Cei care decid să facă upgrade la un abonament de 10 USD/lună sau 30 USD/lună pot trimite text către botul Midjourney în aplicația Discord ca mesaj direct privat și pot primi imagini ca răspuns fără cascada de derulare a ecranului a interacțiunii de la alți utilizatori într-un spațiu public. canal. Imaginile generate rămân totuși vizibile public în mod implicit.

Ca aplicație socială, Midjourney face obiectul unor reguli cu privire la conținutul permis - ceva despre care utilizatorii Blender sau alte aplicații instalate local nu trebuie să-și facă griji. Termenii și condițiile Midjourney precizează: „Fără conținut pentru adulți sau sângerări. Vă rugăm să evitați să creați conținut șocant sau deranjant. Vom bloca automat unele introduceri de text.”

DALL-E 2 este supus unor limitări similare, dar mai extinse, așa cum este descris în documentul său Politica de conținut.

„Cred că dacă am trăi într-o lume care nu ar avea rețele sociale, atunci nu ar fi nevoie să avem nicio restricție”, a spus Holz. „... Când a fost inventat Photoshop, a existat de fapt o presă despre asta, unde se spunea: „Oh, ai putea preface orice și este puțin înfricoșător”. [Dar acum], este mult mai profitabil să fii senzațional decât înainte.”

„În ziua de azi, oricine poate fi senzaționalist și, practic, poate profita de pe urma asta, știi”, a spus Holz. „Și, așadar, ceea ce face este că creează o piață pentru drama și senzaționalism. De aceea cred că trebuie să fim puțin mai atenți, pentru că la un moment dat, ceea ce vor face oamenii este că vor spune: „Bine, pot să fac poze cu asta, care sunt cele mai dramatice, ofensive și îngrozitoare lucruri pe care le-am poate face?'"

Nu există răspunsuri ușoare

Holz admite că există lucruri pe care platformele sociale le pot face pentru a atenua aceste probleme, dar spune că nu există răspunsuri simple. „Din păcate, nu există o modalitate clară de a aborda problema, cu excepția ca societate, pentru a recompensa mai puțin senzaționalismul”, a spus el. „Cu toate acestea, impresia mea este că nimeni nu încearcă cu adevărat să schimbe platformele sociale pentru a reduce senzaționalismul, pentru că asta îi face bani chiar acum.”

Mai mult, a spus el, pentru că Midjourney își propune să fie un spațiu social pentru oricine de peste 13 ani, este necesar să existe reguli împotriva conținutului extrem sau grafic.

„Nu vrem să avem spații segmentate pentru oamenii cărora le place să facă cadavre sau le plac fotografiile nud”, a explicat Holz. „Doar că nu vrem să avem de-a face cu asta. Nu credem că avem o obligație morală să facem asta în această etapă. Ne dorim un spațiu social frumos pentru ca oamenii să facă lucruri împreună și să nu fie jignit, practic, și să se simtă în siguranță.”

În acest scop, compania are aproximativ 40 de moderatori care urmăresc imaginile pe care le creează utilizatorii.

Aspectul social al Midjourney a început recent să îmbunătățească calitatea imaginii. Holz a spus că inginerii companiei au introdus recent versiunea a treia a software-ului său, care a încorporat pentru prima dată o buclă de feedback bazată pe activitatea și răspunsul utilizatorului.

„Dacă te uiți la chestiile v3, există o îmbunătățire uriașă”, a spus el. „Este uluitor de mai bine și nu am mai pus artă în el. Am luat doar datele despre imaginile care le-au plăcut utilizatorilor și cum le foloseau. Și asta chiar a făcut-o mai bună.”

Întrebat despre stiva de tehnologie Midjourney, Holz a refuzat. „La un moment dat, probabil că vom face un comunicat de presă în legătură cu furnizorii pe care îi folosim”, a spus el. „Ce pot să spun este că avem aceste modele mari de IA cu miliarde de parametri. Sunt antrenați peste miliarde de imagini.”

Holz spune că utilizatorii realizează milioane și milioane de imagini în fiecare zi și fac acest lucru folosind furnizori de calcul cu energie ecologică – ceea ce nu restrânge cu adevărat domeniul de activitate al furnizorilor importanți de cloud computing, deoarece toți pretind că sunt cel puțin neutri în carbon.

„Fiecare imagine ia petaops”, a spus el, un termen care înseamnă 10^15 operații pe secundă. „Deci 1000 de trilioane de operațiuni. Nu știu exact dacă sunt cinci sau 10 sau 50. Dar sunt 1000 de trilioane de operațiuni pentru a face o imagine. Este probabil cel mai scump... dacă suni la Midjourney, un serviciu – așa cum l-ai numi un serviciu sau un produs – fără îndoială, nu a existat niciodată până acum un serviciu în care o persoană obișnuită să folosească atât de mult calcul.”

Ținându-ne în mâncare și haine

Cu toate acestea, Midjourney nu este pe calea spre a-și vândui clienții aduși de un serviciu gratuit la niveluri plătite și apoi atragerea clienților întreprinderi bine plătiți înainte de a deveni public sau de a fi achiziționați.

„Nu suntem ca un startup care strânge mulți bani și apoi nu este sigur care este afacerea sau produsul lor și pierde bani pentru o lungă perioadă de timp”, a spus Holz. „Suntem ca un laborator de cercetare autofinanțat. Putem pierde o sumă de bani. Nu avem de pierdut 100 de milioane de dolari din banii altcuiva. Sincer să fiu, suntem deja profitabili și suntem bine.”

„Este un model de afaceri destul de simplu, și anume, oamenilor le place să-l folosească? Apoi, dacă o fac, trebuie să plătească costul utilizării, deoarece costul brut este de fapt destul de scump. Și apoi adăugăm un procent pe deasupra, care sperăm că este suficient pentru a ne hrăni și a ne adăposti. Și asta este ceea ce facem.”

În ceea ce privește viitorul, scalarea ar putea fi o problemă. Holz a spus că Midjourney are în prezent sute de mii de oameni care folosesc serviciul, ceea ce necesită aproximativ 10,000 de servere.

„Dacă ar fi 10 milioane de oameni care încearcă să folosească o astfel de tehnologie”, a spus el, „de fapt, nu sunt suficiente computere. Nu există un milion de servere gratuite pentru a face AI în lume. Cred că lumea va rămâne fără computere înainte ca tehnologia să ajungă efectiv la toți cei care doresc să o folosească.”

Pentru ce îl folosesc oamenii? Ei bine, dacă sunteți conectat la un cont Midjourney, puteți vedea ce creează oamenii prin intermediul Feed comunitar pagină. Este un flux constant de imagini interesante, adesea uimitoare, bune.

„Majoritatea oamenilor doar se distrează”, a spus Holz. „Cred că acesta este cel mai mare lucru pentru că nu este vorba de fapt despre artă, ci despre imaginație.”

A fi profesionist

Dar pentru aproximativ 30 la sută dintre utilizatori, este profesional. Holz a spus că mulți artiști grafici folosesc Midjourney ca parte a fluxului lor de lucru de dezvoltare a conceptului. Ei generează câteva variații ale unei idei și o prezintă clienților pentru a vedea în ce direcție ar trebui să urmeze.

„Profesioniștii îl folosesc pentru a-și supraalimenta procesul creativ sau de comunicare”, a explicat Holz. „Și atunci mulți oameni s-au jucat cu el.”

Poate 20% dintre oameni folosesc Midjourney pentru ceea ce Holz descrie drept terapie prin artă. De exemplu, crearea de imagini cu câini după ce câinele lor a murit. „Ei îl folosesc ca un instrument de reflexie emoțional și intelectual”, a spus el. „Și asta e foarte tare.”

Lui Holz nu-i place ideea de a folosi Midjourney pentru a crea fotografii false. „Folosirea editorială pentru a crea fotografii false este extrem de periculoasă”, a spus el. „Nimeni nu ar trebui să facă asta.” Dar el este mai deschis către Midjourney ca sursă de ilustrare comercială, remarcând că The Economist a realizat un grafic Midjourney pe coperta sa în iunie.

„Abia recent am permis oamenilor să-l folosească comercial”, a spus Holz. „De mult timp, a fost doar necomercial. Și așa că unul dintre lucrurile pe care le facem este că ne uităm doar la asta, ceea ce fac oamenii și am putea decide că nu ne simțim confortabil cu o parte din asta și apoi vom pune o regulă care spune că nu o mai pot folosi doar pentru acele lucruri.”

Holz a spus că vede că instrumentele AI precum Midjourney îi fac pe artiști mai buni în ceea ce fac, mai degrabă decât să facă pe toată lumea un artist profesionist. „Un artist care folosește aceste instrumente este întotdeauna mai bun decât o persoană obișnuită care folosește aceste instrumente. La un moment dat, ar putea exista presiune pentru a utiliza aceste instrumente pentru că poți face lucruri atât de grozave? Cred ca da. Dar acum, nu cred că este încă acolo. Dar se va îmbunătăți șocant în următorii doi ani.”

Midjourney și DALL-E 2 au atras mai multă atenție asupra preocupărilor de lungă durată cu privire la faptul dacă modelele mari de IA, create din lucrări sub drepturi de autor sau licențe specifice, pot fi reconciliate cu legea drepturilor de autor și cu simțul creatorilor de conținut asupra modului în care ar trebui tratată munca lor.

America, pământul procesului

În ceea ce privește rezultatele Midjourney, jurisprudența actuală din SUA neagă posibilitatea de a acorda drepturi de autor imaginilor generate de AI. În februarie, Consiliul de examinare al Oficiului pentru Drepturi de Autor din SUA respins [PDF] o a doua cerere de a acorda drepturi de autor unui peisaj generat de computer intitulat „O intrare recentă în Paradis”, deoarece a fost creat fără autor uman.

Într-un interviu telefonic, a spus Tyler Ochoa, profesor la departamentul de Drept de la Universitatea Santa Clara Registrul, „Oficiul pentru Drepturi de Autor din SUA a spus că este [acceptabil] dacă un artist folosește inteligența artificială pentru a-l ajuta să creeze o lucrare, atâta timp cât este implicată o creativitate umană. Dacă sunteți pur și simplu să introduceți text și AI generează o lucrare, aceasta nu este supusă protecției dreptului de autor conform legislației actuale.”

Termenii și condițiile Midjourney menționează „dețineți toate activele pe care le creați cu serviciile”, dar compania solicită o licență de drepturi de autor de la utilizatori pentru a reproduce conținutul creat cu serviciul – o precauție necesară pentru a găzdui imaginile utilizatorilor, chiar dacă pare îndoielnic că aceștia realizarea imaginilor Midjourney pur și simplu prin introducerea textului să aibă drepturi de autor de transmis sau aplicat.

S-ar putea să nu fie întotdeauna cazul. Ochoa a spus că crede că Steven Thaler, care a creat „A Recent Entrance to Paradise”, ar putea dori să conteste în instanță respingerea de către Oficiul pentru Drepturi de Autor a autorului bazat pe inteligență artificială, deși acest lucru nu s-a întâmplat încă.

Există, de asemenea, potențiale probleme legate de drepturile de autor care decurg din modelele AI instruite pe materiale protejate prin drepturi de autor. „Întrebarea este dacă ar fi sau nu o utilizare corectă să folosim acele imagini pentru antrenament și AI”, a spus Ochoa. „Și cred că argumentele pentru utilizarea loială în acest context sunt destul de puternice.”

În plus, există o potențială răspundere pentru cei care generează imagini care sunt substanțial similare cu materialele existente protejate prin drepturi de autor. „Dacă setul tău de antrenament nu este suficient de mare, ceea ce scuipă AI ar putea să semene foarte mult cu ceea ce a ingerat”, a explicat Ochoa, observând că atunci problema este dacă aceasta este o încălcare a drepturilor de autor. „Indirect, cred că foarte probabil ar putea fi.”

În ceea ce privește riscul legal potențial pentru clienții care folosesc activele generate de Midjourney, Ochoa a spus că crede că este destul de scăzut. Dacă antrenamentul unui model AI a încălcat drepturile de autor, asta a fost făcut înainte ca clientul să fie implicat, a explicat el. „Deci, dacă clientul nu a sponsorizat crearea AI într-un fel, nu cred că [clientul] ar fi răspunzător pentru vreo încălcare a setului de antrenament”, a spus el. „Și aceasta este cea mai puternică afirmație aici. Așa că cred că clienții sunt pe un teren destul de solid în utilizarea acestor imagini, presupunând că a fost bine făcut.”

Holz recunoaște că situația juridică este lipsită de claritate.

„În acest moment, legea nu are nimic despre acest gen de lucruri”, a spus el. „Din cunoștințele mele, fiecare model mare de inteligență artificială este, practic, antrenat pe lucruri care se găsesc pe internet. Și e în regulă, chiar acum. Nu există legi în mod specific despre asta. Poate că în viitor, va exista. Dar este un fel de zonă nouă, cum ar fi GPL-ul a fost un fel de lucru legal nou în jurul codului de programare. Și a durat cam 20 sau 30 de ani până să devină cu adevărat ceva pe care sistemul juridic începe să-și dea seama.”

Holz a spus că consideră că este mai important în acest moment să înțelegem ce simt părțile preocupate despre această tehnologie. „Avem o mulțime de artiști care ne folosesc lucrurile și îi verificăm în mod constant, cum ar fi: „Te simți bine în privința asta?”, a spus el.

Holz a spus că, dacă există suficientă nemulțumire față de status quo-ul, ar putea merita să ne gândim la un fel de structură de plată în viitor pentru artiștii a căror activitate se îndreaptă spre modele de formare. Dar el a observat că evaluarea amplorii contribuțiilor este dificilă în prezent. „Provocarea pentru așa ceva în acest moment este că nu este clar ce face ca modelele AI să funcționeze bine”, a spus el. „Dacă pun o poză cu un câine acolo, cât de mult ajută [modelul AI] să facă poze cu câini. De fapt, nu este clar ce părți ale datelor oferă de fapt [modelului] ce abilități.”

Întrebat ce îi conferă lui Midjourney estetica sa distinctivă, Holz a spus că nu poate compara cu adevărat ceea ce face Midjourney cu DALL-E 2, dar că, în general, cercetătorii AI tind să obțină ceea ce optimizează. Dacă au introdus cuvântul „câine”, atunci probabil că vor o poză cu un câine.

„Pentru noi, eram când îl optimizam, ne doream să arate frumos, iar frumos nu înseamnă neapărat realist. … În orice caz, de fapt o părăsim puțin mai departe de fotografii. … Știu că această tehnologie poate fi folosită ca o super-mașină falsă. Și nu cred că lumea are nevoie de mai multe fotografii false. Nu vreau să fiu o sursă de fotografii false în lume.”

„De fapt, mă simt cam inconfortabil dacă lucrurile noastre fac ceva care arată ca o fotografie. Și asta nu înseamnă că nu vom lăsa niciodată oamenii să facă lucruri mai realiste. Există cazuri de utilizare legitime pentru a încerca să faceți lucruri care să pară mai realiste. Cu toate acestea, cred cu tărie că, în mod implicit, atunci când cineva folosește sistemul nostru, nu ar trebui să facă o fotografie falsă.”

„Dar cred că lumea are nevoie de mai multă frumusețe. Practic, dacă creez ceva care le permite oamenilor să facă lucruri frumoase și există lucruri mai frumoase pe lume, asta îmi doresc implicit.” ®

Timestamp-ul:

Mai mult de la Registrul