David Holz, a Midjourney mesterséges intelligencia-generátor alapítója a PlatoBlockchain Data Intelligence képalkotás jövőjéről. Függőleges keresés. Ai.

David Holz, a Midjourney mesterséges intelligencia-generátor alapítója a képalkotás jövőjéről

Interjú 2008-ban David Holz társalapítója a Leap Motion nevű hardver-perifériával foglalkozó cégnek. Egészen tavalyig vezette, amikor elhagyta a Midjoureyt.

középút jelenlegi formájában egy olyan közösségi hálózat, amely mesterséges intelligencia által generált alkotásokat készít szöveges promptból – írjon be egy szót vagy kifejezést a beviteli promptba, és körülbelül egy perc számítás után egy érdekes vagy talán csodálatos kép jelenik meg a képernyőn. Bizonyos tekintetben hasonló az OpenAI-hoz DALL-E2.

Útközbeni kép az égboltról és a felhőkről, a „Minden haszontalan szépség” szöveggel. Forrás: generálta középút

Mindkettő nagyméretű mesterséges intelligencia-modellek eredménye, amelyeket rengeteg képre képeztek ki. De a Midjourney-nek megvan a maga jellegzetes stílusa, amint az látható ezt a Twitter szálat. Az elmúlt napokban mindkettő nyilvános bétatesztelésbe került (bár a DALL-E 2 hozzáférése lassan bővül).

Az OpenAI megjelenését követően tavaly népszerű tevékenységgé vált az a lehetőség, hogy mesterséges intelligencia modellekből szövegbevitellel jó minőségű képeket készítsenek. CLIP (Kontrasztív nyelv–kép-előképzés), amelynek célja annak értékelése, hogy a generált képek mennyire illeszkednek a szöveges leírásokhoz. Megjelenése után, Ryan Murdock művész (@advadnoun a Twitteren) úgy találta, hogy a folyamat megfordítható – szövegbevitellel más mesterséges intelligencia modellek segítségével képkimenetet kaphat.

Ezt követően a generatív művészközösség lázas feltárás időszakába kezdett, és Python-kódot publikált, hogy különféle modellekkel és technikákkal képeket alkosson.

"Valamikor tavaly láttuk, hogy az AI bizonyos területei nagyon érdekes módon fejlődtek" - magyarázta Holz egy interjúban. A regisztráció. „Az egyik az AI nyelvértési képessége volt.”

Holz olyan fejlesztésekre mutatott rá, mint a transzformátorok, egy mély tanulási modell, amely tájékoztatja a CLIP-et, és a diffúziós modellek, amelyek a GAN-ok alternatívája. „A CLIP-vezérelt diffúzió volt az, ami igazán megütötte a szemem” – mondta Katherine Crawson (a Twitteren @RiversHaveWings néven ismert) fejlesztette ki.

Nem az a sztereotip floridai férfi

Holz Floridában nőtt fel, és a középiskolában tervezői vállalkozása volt, ahol matematikát és fizikát tanult. Az alkalmazott matematika doktori fokozatán dolgozott, és 2008-ban szabadságot vett ki, hogy elindítsa a Leap Motiont. A következő évben egy évet töltött hallgatói kutatóként a Max Planck Intézetben, majd két évet a NASA Langley Kutatóközpontban, mint végzős hallgatói kutatóként a LiDAR-on, a Mars-missziókon és a légkörtudományon dolgozott.

„Azt gondoltam, miért dolgozom ezen a sok dolgon?” elmagyarázta. „Csak egy remek dolgon szeretnék dolgozni, ami érdekel.”

Ezért a Leap Motionra összpontosított, amely egy hardvereszközt fejlesztett ki a kéz mozgásának nyomon követésére és az eszköz bevitelére. Tizenkét évig vezette a céget, és amikor kilépett, körülbelül 100 embert foglalkoztatott.

A Midjourney, mondta, most elég kicsi. „Körülbelül 10 ember vagyunk” – magyarázta. „Önfinanszírozók vagyunk. Nincsenek befektetőink. Nem igazán vagyunk anyagilag motiváltak. Csak azért vagyunk itt, hogy olyan dolgokon dolgozzunk, amelyekért szenvedélyesek vagyunk, és jól érezzük magunkat. És nagyon sok különböző projekten dolgoztunk.”

Holz elmondta, hogy az AI technológiai vonatkozásait és azt, hogy milyen mértékben fog fejlődni, meglehetősen könnyű előre látni. „De ennek emberi következményeit olyan nehéz elképzelni” – mondta. „Van itt valami, ami az emberiség és a technológia metszéspontjában van. Ahhoz, hogy valóban rájöjjünk, mi ez, és minek kellene lennie, valóban sok kísérletet kell végeznünk.”

Az előttünk lévő út

A mesterséges intelligencia képtechnológiájának nyugtalansága nyilvánvaló az olyan eszközök, mint a Midjourney és a letölthető, nyílt forráskódú grafikus alkalmazások, például a Blender, vagy a helyileg telepített kereskedelmi alkalmazások, például az Adobe Photoshop (mielőtt felhőszolgáltatás lett volna) között.

A középút társadalmi kontextusban létezik. Az előtét a Discord chatszolgáltatás. Az új felhasználók bejelentkeznek a Discord's Midjourney szerverére, majd szöveges üzeneteket küldhetnek be, hogy képeket generáljanak számos más felhasználó mellett a különböző kezdő csatornákon.

Az eredményül kapott képek a csatorna összes felhasználója számára körülbelül egy perc alatt megjelennek, ami segít megerősíteni a közösség fogalmát. Azok, akik úgy döntenek, hogy havi 10 dolláros vagy havi 30 dolláros előfizetésre frissítenek, szöveget küldhetnek be a Discord alkalmazás Midjourney botjába privát közvetlen üzenetként, és válaszként képeket kaphatnak anélkül, hogy a képernyőn görgető vízesés kellene a többi felhasználótól nyilvánosan. csatorna. A generált képek azonban alapértelmezés szerint nyilvánosan megtekinthetők.

Közösségi alkalmazásként a Midjourneyre a megengedett tartalomra vonatkozó szabályok vonatkoznak – ami miatt a Blender vagy más helyileg telepített alkalmazások felhasználóinak nem kell aggódniuk. A Midjourney Általános Szerződési Feltételei a következőket írják: „Nincs felnőtt tartalom vagy véres. Kérjük, ne készítsen vizuálisan sokkoló vagy zavaró tartalmat. Néhány szövegbevitelt automatikusan letiltunk."

A DALL-E 2-re hasonló, bár kiterjedtebb korlátozások vonatkoznak, amint azt a cikkben leírtuk Tartalmi irányelvek.

„Azt hiszem, ha olyan világban élnénk, amelyben nem lenne közösségi média, akkor nem kellene semmilyen korlátozás” – mondta Holz. „…A Photoshop feltalálásakor valóban volt róla sajtó, ahol az volt, hogy „ó, bármit meghamisíthatsz, és ez egy kicsit ijesztő”. [De most] sokkal jövedelmezőbb szenzációhajhásznak lenni, mint korábban.”

„Ma már bárki lehet szenzációhajhász, és alapvetően ebből profitálhat” – mondta Holz. „És tehát, amit csinál, az az, hogy piacot teremt a dráma és a szenzációhajhász számára. Ezért gondolom, hogy egy kicsit óvatosabbnak kell lennünk, mert egy ponton az emberek azt fogják tenni, hogy „oké, tudok róla képeket csinálni, mi a legdrámaibb, legsértőbb és legborzasztóbb dolog tud csinálni?'"

Nincs könnyű válasz

Holz megengedi, hogy vannak dolgok, amelyeket a közösségi platformok tehetnek a problémák enyhítésére, de azt mondja, hogy nincsenek egyszerű válaszok. "Sajnos nincs egyértelmű módja ennek kezelésére, kivéve társadalomként, hogy kevésbé jutalmazzuk a szenzációhajhászást" - mondta. "Azonban az a benyomásom, hogy valójában senki sem próbálja megváltoztatni a közösségi platformokat a szenzációhajhász csökkentése érdekében, mert ez most pénzt hoz neki."

Mi több – mondta –, mivel a Midjourney célja, hogy 13 éven felüliek közösségi terévé váljon, ezért szükség van az extrém vagy megrázó tartalmak elleni szabályokra.

„Nem igazán szeretnénk szegmentált tereket kialakítani azoknak, akik szeretnek holttesteket készíteni vagy meztelen fotókat készíteni” – magyarázta Holz. „Csak nem akarunk ezzel foglalkozni. Nem gondoljuk, hogy ebben a szakaszban erkölcsi kötelességünk lenne ezt megtenni. Egy gyönyörű közösségi teret akarunk, ahol az emberek együtt alkothatnak dolgokat, és alapvetően nem sértődnek meg, és biztonságban érezhetik magukat.”

Ennek érdekében a vállalatnak körülbelül 40 moderátora van, akik figyelemmel kísérik a felhasználók által készített képeket.

A Midjourney közösségi oldala nemrégiben elkezdte javítani a képminőséget. Holz elmondta, hogy a vállalat mérnökei a közelmúltban bemutatták szoftverének harmadik verzióját, amely először tartalmazott visszacsatolási hurkot a felhasználói aktivitáson és válaszokon alapulóan.

„Ha megnézzük a v3-as cuccokat, akkor óriási fejlődés tapasztalható” – mondta. „Elképesztően jobb, és valójában nem tettünk bele több művészetet. Csak arról vettük az adatokat, hogy milyen képek tetszettek a felhasználóknak, és hogyan használták azokat. És ettől valóban jobb lett.”

A Midjourney tech stackre vonatkozó kérdésre Holz tiltakozott. "Valószínűleg valamikor sajtóközleményt fogunk készíteni arról, hogy mely szállítókat használjuk" - mondta. „Azt mondhatom, hogy vannak ezek a nagy mesterségesintelligencia-modellek, több milliárd paraméterrel. Több milliárd képre képezték ki őket.”

Holz szerint a felhasználók nap mint nap milliók és milliók képet készítenek, és ezt zöld energia számítástechnikai szolgáltatók segítségével teszik – ami nem igazán szűkíti le a nagy számítási felhő szolgáltatók körét, mivel mindannyian azt állítják, hogy legalább szén-dioxid-semlegesek.

„Minden kép petaop-ot vesz” – mondta, ez a kifejezés másodpercenként 10^15 műveletet jelent. „Tehát 1000 billió művelet. Nem tudom pontosan, hogy öt vagy 10 vagy 50. De egy kép elkészítéséhez több ezer billió művelet szükséges. Valószínűleg ez a legdrágább… ha a Midjourney-t hívja, egy szolgáltatás – ahogyan szolgáltatásnak vagy terméknek nevezné – kétségtelenül még soha nem volt olyan szolgáltatás, ahol egy átlagos ember ennyi számítást használna.”

Élelmiszerben és ruhában tart minket

A Midjourney mégsem azon az úton halad, hogy az ingyenes szolgáltatás által fizetős szintekre behozott ügyfeleket felkeltse, majd jól fizető vállalati ügyfeleket vonzzon a tőzsdére lépés vagy felvásárlás előtt.

„Nem vagyunk olyanok, mint egy startup, amely sok pénzt gyűjt, de aztán nem tudja, mi a vállalkozása vagy a terméke, és sokáig pénzt veszít” – mondta Holz. „Olyanok vagyunk, mint egy önfinanszírozott kutatólaboratórium. Elveszíthetünk némi pénzt. Nincs 100 millió dollárt elveszítenünk valaki más pénzéből. Őszintén szólva, már nyereségesek vagyunk, és jól vagyunk.”

„Ez egy meglehetősen egyszerű üzleti modell, vagyis az emberek élvezik a használatát? Aztán ha megteszik, ki kell fizetniük a használat költségeit, mert a nyers költség valójában meglehetősen drága. És akkor adunk hozzá egy százalékot, ami remélhetőleg elég ahhoz, hogy étkezzünk és ellássunk. És hát ezt csináljuk.”

Ami a jövőt illeti, a méretezés problémát jelenthet. Holz elmondta, hogy a Midjourney-nál jelenleg több százezer ember használja a szolgáltatást, amihez körülbelül 10,000 XNUMX szerverre van szükség.

„Ha 10 millió ember próbálna ilyen technológiát használni – mondta –, akkor valójában nem lenne elég számítógép. A világon nincs egymillió ingyenes szerver a mesterséges intelligenciára. Úgy gondolom, hogy a világ kifogy a számítógépekből, mielőtt a technológia valóban eljut mindenkihez, aki használni akarja.”

Mire használják az emberek? Nos, ha be van jelentkezve egy Midjourney fiókba, láthatja, hogy az emberek mit hoznak létre a következőn keresztül Közösségi hírcsatorna oldalon. Érdekes, sokszor megdöbbentő jó képek folyamatos áramlása.

„Az emberek többsége csak szórakozik” – mondta Holz. "Szerintem ez a legnagyobb dolog, mert valójában nem a művészetről, hanem a képzeletről van szó."

Profi lenni

De a felhasználók körülbelül 30 százaléka számára ez professzionális. Holz elmondta, hogy sok grafikus használja a Midjourney-t koncepciófejlesztési munkafolyamata részeként. Létrehoznak néhány variációt egy ötletről, és bemutatják az ügyfeleknek, hogy lássák, melyik irányba kell haladniuk.

„A szakemberek kreatív vagy kommunikációs folyamatuk felpörgetésére használják” – magyarázta Holz. – Aztán sokan csak játszottak vele.

Talán az emberek 20 százaléka használja a Midjourney-t arra, amit Holz művészetterápiaként ír le. Például kutyaképek létrehozása, miután a kutyája elpusztult. „Érzelmi és intellektuális reflektáló eszközként használják” – mondta. – És ez nagyon klassz.

Holznak nem tetszik az ötlet, hogy a Midjourney-t hamis fényképek készítésére használják. „Szerkesztői felhasználása hamis fotók készítésére rendkívül veszélyes” – mondta. – Senkinek sem szabad ilyet tennie. De ő nyitottabb a Midjourney-ra, mint kereskedelmi illusztrációk forrására, megjegyezve ezt Az Economist Midjourney grafikát készített borítóján júniusban.

„Csak a közelmúltban engedélyeztük, hogy az emberek kereskedelmi céllal használják” – mondta Holz. „Sokáig csak nem kereskedelmi célú volt. Így az egyik dolog, amit csinálunk, az, hogy csak nézzük, mit csinálnak az emberek, és úgy dönthetünk, hogy nem vagyunk elégedettek ezzel, és akkor bevezetünk egy szabályt, amely szerint már nem használhatja csak ezekre a dolgokra."

Holz azt mondta, úgy látja, hogy az olyan mesterséges intelligencia eszközök, mint a Midjourney, jobbá teszik a művészeket abban, amit csinálnak, ahelyett, hogy mindenkiből profi művészt csinálnának. „Egy művész, aki ezeket az eszközöket használja, mindig jobb, mint egy átlagos ember, aki ezeket az eszközöket használja. Lehet, hogy valamikor nyomás nehezedik arra, hogy ezeket az eszközöket használja, mert olyan nagyszerű dolgokat készíthet? Azt hiszem, igen. De most azt hiszem, hogy még nincs teljesen ott. De a következő két évben megdöbbentően jobb lesz.”

A Midjourney és a DALL-E 2 jobban felhívta a figyelmet azokra a régóta fennálló aggodalmakra, hogy a műből szerzői jog vagy specifikus licencek alapján létrehozott nagy mesterséges intelligencia-modellek összeegyeztethetők-e a szerzői jogi törvényekkel és a tartalomkészítők saját véleményével, hogy miként kell kezelni munkájukat.

Amerika, a per földje

Ami a Midjourney kimenetet illeti, a jelenlegi amerikai joggyakorlat tagadja annak lehetőségét, hogy a mesterséges intelligencia által generált képek szerzői jogát biztosítsák. Februárban az Egyesült Államok Szerzői Jogi Hivatalának felülvizsgálati bizottsága elutasított [PDF] egy második kérés, hogy biztosítsanak szerzői jogot egy számítógéppel generált tájhoz, melynek címe „A Paradicsom legutóbbi bejárata”, mivel azt emberi szerzőség nélkül hozták létre.

Tyler Ochoa, a Santa Clara Egyetem jogi tanszékének professzora elmondta egy telefonos interjúban A regisztráció, „Az Egyesült Államok Szerzői Jogi Hivatala azt mondta, hogy [elfogadható], ha egy művész mesterséges intelligencia segítségével segíti őket a mű elkészítésében, mindaddig, amíg benne van némi emberi kreativitás. Ha egyszerűen csak szöveget ír be, és az MI létrehoz egy művet, akkor az nyilvánvalóan nem tartozik a szerzői jogi védelem hatálya alá a jelenlegi törvények értelmében.”

A Midjourney Általános Szerződési Feltételei kimondják, hogy „Ön birtokolja a Szolgáltatásokkal létrehozott összes eszközt”, de a vállalat szerzői jogi engedélyt kér a felhasználóktól a szolgáltatással létrehozott tartalom reprodukálásához – ez a szükséges óvintézkedés a felhasználók képeinek tárolására, még akkor is, ha kétségesnek tűnik, hogy a Midjourney képek egyszerűen szövegbevitellel történő elkészítéséhez bármilyen szerzői jog közvetíteni vagy érvényesíteni kell.

Lehet, hogy ez nem mindig van így. Ochoa elmondta, hogy úgy véli, Steven Thaler, aki létrehozta az „A Recent Entrance to Paradise” című filmet, bíróságon akarhatja megtámadni a Szerzői Jogi Hivatal elutasítását a mesterséges intelligencia-alapú szerzőségről, bár ez még nem történt meg.

Lehetséges szerzői jogi aggályok is felmerülhetnek a szerzői jog által védett anyagokon kiképzett mesterséges intelligencia modellekből. „A kérdés az, hogy tisztességes lenne-e ezeket a képeket edzésre és mesterséges intelligenciára használni” – mondta Ochoa. "És úgy gondolom, hogy ebben az összefüggésben a méltányos használat érve meglehetősen erős."

Ezen túlmenően, fennáll a felelőssége azoknak, akik olyan képeket készítenek, amelyek lényegében hasonlóak a meglévő szerzői jog által védett anyagokhoz. "Ha az oktatókészleted nem elég nagy, akkor az MI által kiköpött anyag borzasztóan hasonlít ahhoz, amit beszívott" - magyarázta Ochoa, megjegyezve, hogy a kérdés az, hogy ez sérti-e a szerzői jogokat. – Közvetve nagyon valószínűnek tartom, hogy az lehet.

Ami a Midjourney által generált eszközöket használó ügyfeleket érintő lehetséges jogi kockázatot illeti, Ochoa azt mondta, hogy szerinte ez meglehetősen alacsony. Ha egy mesterséges intelligencia modell kiképzése sértette a szerzői jogokat, azt az ügyfél bevonása előtt tették meg – magyarázta. "Tehát hacsak az ügyfél nem támogatja valamilyen módon az MI létrehozását, nem hiszem, hogy [az ügyfél] lenne felelős a képzési készlet bármilyen megsértéséért" - mondta. – És ez itt a legerősebb állítás. Úgy gondolom tehát, hogy az ügyfelek elég szilárd talajon állnak ezeknek a képeknek a felhasználásában, feltételezve, hogy jól sikerült.”

Holz elismeri, hogy a jogi helyzet nem egyértelmű.

„Jelenleg a törvény nem igazán szól az ilyesmiről” – mondta. „Tudomásom szerint minden egyes nagy mesterséges intelligencia-modell alapvetően az interneten található dolgokra van kiképezve. És ez most rendben van. Nincsenek kifejezetten erre vonatkozó törvények. Talán a jövőben lesz. De ez egyfajta új terület, mint a GPL egyfajta új jogi dolog a programozási kód körül. És körülbelül 20-30 évnek kellett eltelnie ahhoz, hogy valóban olyanná váljon, amit a jogrendszer kezd kitalálni.”

Holz úgy véli, hogy jelenleg sokkal fontosabb annak megértése, hogy az érintett felek hogyan vélekednek erről a technológiáról. „Sok művészünk használja a dolgainkat, és folyamatosan ellenőrizzük őket, hogy „jól érzed magad ezzel?” – mondta.

Holz szerint ha kellő elégedetlenség mutatkozik a status quóval kapcsolatban, érdemes lehet a jövőben valamilyen fizetési struktúrán elgondolkodni azon művészek számára, akiknek a munkája a képzési modellekre irányul. Megjegyezte azonban, hogy jelenleg nehéz felmérni a hozzájárulások mértékét. "Jelenleg az a kihívás, hogy az AI modellek jól működjenek" - mondta. „Ha berakok egy képet egy kutyáról, az mennyit segít [az AI-modellnek] kutyaképek készítésében. Valójában nem világos, hogy az adatok mely részei milyen képességeket adnak [a modellnek].

Arra a kérdésre, hogy mi adja a Midjourney jellegzetes esztétikáját, Holz azt mondta, nem igazán tudja összehasonlítani azt, amit a Midjourney csinál a DALL-E 2-vel, de általában az AI-kutatók általában azt kapják, amire optimalizálnak. Ha beírják a „kutya” szót, akkor valószínűleg egy kutya képet szeretnének.

„Számunkra az volt, amikor optimalizáltuk, azt akartuk, hogy szép legyen, és a szép nem feltétlenül jelenti azt, hogy valósághű. … Ha valami, akkor valójában egy kicsit eltoljuk a fényképektől. … Tudom, hogy ez a technológia mély hamis szupergépként használható. És szerintem a világnak nincs szüksége több hamis fotóra. Nem igazán akarok hamis fotók forrása lenni a világon.”

„Tulajdonképpen kényelmetlenül érzem magam, ha a cuccaink valami fotóhoz hasonlót készítenek. És ez nem azt jelenti, hogy soha nem hagyjuk, hogy az emberek valósághűbb dolgokat készítsenek. Vannak törvényes felhasználási esetek, amikor megpróbálják valósághűbbé tenni a dolgokat. Határozottan úgy érzem azonban, hogy ha valaki a rendszerünket használja, alapértelmezés szerint nem szabad hamis fotót készítenie.”

„De szerintem a világnak több szépségre van szüksége. Alapvetően, ha létrehozok valamit, ami lehetővé teszi az emberek számára, hogy gyönyörű dolgokat készítsenek, és vannak ennél szebb dolgok is a világon, akkor alapértelmezés szerint ezt akarom.” ®

Időbélyeg:

Még több A regisztráció