David Holz, założyciel generatora sztuki AI Midjourney, o przyszłości obrazowania PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

David Holz, założyciel AI Art Generator Midjourney, o przyszłości obrazowania

Wywiad W 2008 roku David Holz był współzałożycielem firmy peryferyjnej o nazwie Leap Motion. Prowadził ją do zeszłego roku, kiedy odszedł, aby stworzyć Midjourey.

W połowie drogi w obecnej formie to sieć społecznościowa do tworzenia grafiki generowanej przez sztuczną inteligencję z monitu tekstowego – wpisz słowo lub frazę w wierszu wprowadzania, a po około minucie obliczeń otrzymasz interesujący lub być może wspaniały obraz na ekranie. Pod pewnymi względami jest podobny do OpenAI DALL-E2.

Obraz nieba i chmur w trakcie podróży, przy użyciu monitu tekstowego „Całe to bezużyteczne piękno”. Źródło: wygenerowane przez W połowie drogi

Oba są wynikiem dużych modeli sztucznej inteligencji wyszkolonych na ogromnej liczbie obrazów. Ale Midjourney ma swój własny, charakterystyczny styl, co widać na przykładzie ten wątek na Twitterze. Oba w ostatnich dniach weszły do ​​publicznych testów beta (choć dostęp DALL-E 2 jest powoli rozszerzany).

Możliwość tworzenia wysokiej jakości obrazów z modeli AI za pomocą wprowadzania tekstu stała się popularną czynnością w zeszłym roku po wydaniu OpenAI CLIP (Contrastive Language – Image Pre-training), który został zaprojektowany w celu oceny, jak dobrze wygenerowane obrazy pasują do opisów tekstowych. Po wydaniu artysta Ryan Murdock (@advadnoun na Twitterze) stwierdził, że proces można odwrócić – wprowadzając tekst, można uzyskać obraz za pomocą innych modeli AI.

Następnie społeczność sztuki generatywnej rozpoczęła okres gorączkowych poszukiwań, publikując kod Pythona do tworzenia obrazów przy użyciu różnych modeli i technik.

„Kiedyś w zeszłym roku widzieliśmy, że istnieją pewne obszary sztucznej inteligencji, które rozwijają się w naprawdę interesujący sposób” – wyjaśnił Holz w wywiadzie dla Rejestr. „Jednym z nich była zdolność AI do rozumienia języka”.

Holz wskazał na takie rozwiązania, jak transformatory, model głębokiego uczenia, który wykorzystuje technologię CLIP, oraz modele dyfuzji, będące alternatywą dla GAN. „Tym, który naprawdę rzucił mi się w oczy, była dyfuzja sterowana CLIP”, powiedział, opracowany przez Katherine Crawson (znaną na Twitterze jako @RiversHaveWings).

Nie stereotypowy mężczyzna z Florydy

Holz dorastał na Florydzie i prowadził firmę projektową w liceum, gdzie studiował matematykę i fizykę. Pracował nad doktoratem z matematyki stosowanej i wziął urlop w 2008 r., aby rozpocząć Leap Motion. W następnym roku spędził rok jako student naukowy w Instytucie Maxa Plancka, a następnie przez dwa lata w NASA Langley Research Center jako doktorant pracujący nad LiDAR, misjami marsjańskimi i nauką o atmosferze.

„Pomyślałem, dlaczego pracuję nad tym wszystkim?” wyjaśnił. „Chcę tylko popracować nad jedną fajną rzeczą, na której mi zależy”.

Skupił się więc na Leap Motion, który opracował urządzenie sprzętowe do śledzenia ruchu dłoni i używania go do wprowadzania danych przez urządzenie. Prowadził firmę przez dwanaście lat, a kiedy ją opuścił zatrudniał około 100 osób.

Powiedział, że środek podróży jest teraz dość mały. „Jesteśmy jak około 10 osób” – wyjaśnił. „Jesteśmy samofinansujący. Nie mamy inwestorów. Nie jesteśmy zmotywowani finansowo. Jesteśmy tu po prostu po to, by pracować nad rzeczami, którymi się pasjonujemy i dobrze się bawić. Pracowaliśmy przy wielu różnych projektach”.

Holz powiedział, że technologiczny aspekt sztucznej inteligencji i stopień, w jakim się ulepszy, jest dość łatwy do przewidzenia. „Ale ludzkie konsekwencje tego są tak trudne do wyobrażenia” – powiedział. „Jest tu coś, co znajduje się na przecięciu ludzkości i technologii. Aby naprawdę dowiedzieć się, co to jest i jak powinno być, naprawdę musimy przeprowadzić wiele eksperymentów”.

Droga przed nami

Niepewny charakter technologii obrazu AI jest widoczny w różnicy między narzędziami, takimi jak Midjourney i dostępnymi do pobrania aplikacjami graficznymi typu open source, takimi jak Blender, lub lokalnie zainstalowaną aplikacją komercyjną, taką jak Adobe Photoshop (zanim stała się usługą w chmurze).

Midjourney istnieje w kontekście społecznym. Jego front-end to usługa czatu Discord. Nowi użytkownicy logują się do serwera Discord Midjourney, a następnie mogą przesyłać monity tekstowe, aby generować obrazy wraz z wieloma innymi użytkownikami w dowolnym z różnych kanałów dla początkujących.

Uzyskane obrazy dla wszystkich użytkowników tego kanału pojawiają się w ciągu około minuty, co pomaga wzmocnić pojęcie społeczności. Ci, którzy zdecydują się na subskrypcję za 10 USD miesięcznie lub 30 USD miesięcznie, mogą przesyłać tekst do bota Midjourney w aplikacji Discord jako prywatną wiadomość bezpośrednią i otrzymywać obrazy w odpowiedzi bez przewijania ekranu wodospadu interakcji od innych użytkowników w miejscach publicznych kanał. Wygenerowane obrazy są jednak domyślnie widoczne publicznie.

Jako aplikacja społecznościowa Midjourney podlega zasadom dotyczącym dozwolonych treści – o co użytkownicy Blendera lub innych lokalnie zainstalowanych aplikacji nie muszą się martwić. Warunki korzystania z usługi Midjourney stanowią: „Brak treści dla dorosłych lub krwi. Unikaj tworzenia wizualnie szokujących lub niepokojących treści. Niektóre wejścia tekstowe zostaną automatycznie zablokowane.”

DALL-E 2 podlega podobnym, choć bardziej rozległym ograniczeniom, jak opisano w jego Polityka treści.

„Myślę, że gdybyśmy żyli w świecie, w którym nie byłoby mediów społecznościowych, nie musielibyśmy mieć żadnych ograniczeń” – powiedział Holz. „…Kiedy wynaleziono Photoshopa, była o nim prasa, która mówiła: „Och, możesz sfałszować wszystko i to jest trochę przerażające”. [Ale teraz] o wiele bardziej opłacalne jest bycie sensacją niż wcześniej”.

„W dzisiejszych czasach każdy może być sensacją i w zasadzie czerpać z tego korzyści” – powiedział Holz. „A więc tworzy rynek dla dramatów i sensacji. Dlatego myślę, że musimy być trochę bardziej ostrożni, ponieważ w pewnym momencie ludzie powiedzą: „OK, mogę zrobić zdjęcia tego, co jest najbardziej dramatyczne, obraźliwe i przerażające, może zrobić?'"

Brak łatwych odpowiedzi

Holz przyznaje, że są rzeczy, które platformy społecznościowe mogą zrobić, aby złagodzić te problemy, ale twierdzi, że nie ma prostych odpowiedzi. „Niestety nie ma jasnego sposobu rozwiązania tego problemu, chyba że jako społeczeństwo, aby mniej wynagradzać sensację” – powiedział. „Mam jednak wrażenie, że nikt tak naprawdę nie próbuje zmieniać platform społecznościowych, aby zmniejszyć sensację, ponieważ dzięki temu są teraz pieniądze”.

Co więcej, powiedział, ponieważ Midjourney ma być przestrzenią społecznościową dla każdego, kto ukończył 13 lat, konieczne jest wprowadzenie reguł przeciwko ekstremalnym lub graficznym treściom.

„Tak naprawdę nie chcemy mieć podzielonych przestrzeni dla ludzi, którzy lubią robić zwłoki lub lubią nagie zdjęcia” – wyjaśnił Holz. „Po prostu nie chcemy mieć z tym do czynienia. Nie uważamy, że na tym etapie mamy do tego moralny obowiązek. Chcemy jednej pięknej przestrzeni społecznej, w której ludzie mogą wspólnie tworzyć rzeczy i nie obrażać się, w zasadzie i czuć się bezpiecznie”.

W tym celu firma ma około 40 moderatorów, którzy mają oko na obrazy tworzone przez użytkowników.

Społeczny aspekt Midjourney zaczął ostatnio poprawiać jakość obrazu. Holz powiedział, że inżynierowie firmy niedawno wprowadzili trzecią wersję oprogramowania, która po raz pierwszy zawierała pętlę sprzężenia zwrotnego opartą na aktywności i odpowiedzi użytkownika.

„Jeśli spojrzysz na rzeczy v3, widać ogromną poprawę” – powiedział. „Jest oszałamiająco lepszy i właściwie nie włożyliśmy w to więcej sztuki. Po prostu zebraliśmy dane o tym, jakie obrazy podobały się użytkownikom i jak z nich korzystali. I to faktycznie sprawiło, że było lepiej”.

Zapytany o stos technologii Midjourney, Holz odmówił. „W pewnym momencie prawdopodobnie opublikujemy komunikat prasowy dotyczący konkretnych dostawców, z których korzystamy” – powiedział. „Mogę powiedzieć, że mamy te duże modele AI z miliardami parametrów. Zostały przeszkolone na miliardach obrazów”.

Holz mówi, że użytkownicy robią miliony obrazów każdego dnia i robią to przy użyciu dostawców zielonej energii – co tak naprawdę nie zawęża pola głównych dostawców przetwarzania w chmurze, ponieważ wszyscy twierdzą, że są co najmniej neutralni pod względem emisji dwutlenku węgla.

„Każdy obraz robi petaopy”, powiedział, termin oznaczający 10^15 operacji na sekundę. „A więc tysiące bilionów operacji. Nie wiem dokładnie, czy to pięć, dziesięć, czy 1000. Ale wykonanie obrazu to tysiące bilionów operacji. To prawdopodobnie najdroższe… jeśli zadzwonisz do Midjourney, usługa – tak jakbyś to nazwał usługą lub produktem – bez wątpienia, nigdy wcześniej nie było usługi, w której zwykła osoba korzystałaby z tak dużej mocy obliczeniowej”.

Trzymają nas w jedzeniu i ubraniach

Jednak Midjourney nie jest na dobrej drodze do zwiększania sprzedaży klientów pozyskanych dzięki bezpłatnej usłudze do płatnych poziomów, a następnie przyciągania dobrze płatnych klientów korporacyjnych przed wejściem na giełdę lub przejęciem.

„Nie jesteśmy jak startup, który zbiera dużo pieniędzy, a potem nie jest pewien, jaki jest ich biznes lub produkt i przez długi czas traci pieniądze”, powiedział Holz. „Jesteśmy jak samofinansujące się laboratorium badawcze. Możemy stracić trochę pieniędzy. Nie mamy do stracenia jak 100 milionów dolarów cudzych pieniędzy. Szczerze mówiąc, już przynosimy zyski i wszystko w porządku”.

„To dość prosty model biznesowy, czyli czy ludzie lubią go używać? Jeśli tak, to muszą ponieść koszty korzystania z niego, ponieważ surowy koszt jest w rzeczywistości dość wysoki. A potem dodajemy do tego procent, który, miejmy nadzieję, wystarczy, aby nas wyżywić i pomieścić. I to właśnie robimy”.

Jeśli chodzi o przyszłość, skalowanie może stanowić problem. Holz powiedział, że Midjourney ma obecnie setki tysięcy osób korzystających z usługi, która wymaga około 10,000 XNUMX serwerów.

„Gdyby 10 milionów ludzi próbowało korzystać z takiej technologii”, powiedział, „w rzeczywistości nie ma wystarczającej liczby komputerów. Na świecie nie ma miliona darmowych serwerów do sztucznej inteligencji. Myślę, że na świecie zabraknie komputerów, zanim technologia dotrze do każdego, kto chce z niej korzystać”.

Do czego ludzie go używają? Cóż, jeśli jesteś zalogowany na konto Midjourney, możesz zobaczyć, co ludzie tworzą za pośrednictwem Kanał społeczności strona. To ciągły przepływ ciekawych, często zaskakująco dobrych obrazów.

„Większość ludzi po prostu dobrze się bawi” – ​​powiedział Holz. „Myślę, że to najważniejsza rzecz, ponieważ tak naprawdę nie chodzi o sztukę, ale o wyobraźnię”.

Bycie profesjonalnym

Ale dla około 30 procent użytkowników jest profesjonalny. Holz powiedział, że wielu grafików używa Midjourney w ramach procesu opracowywania koncepcji. Generują kilka wariacji na temat pomysłu i przedstawiają go klientom, aby zobaczyć, w jakim kierunku powinni podążać.

„Profesjonaliści używają go do usprawnienia procesu twórczego lub komunikacyjnego” – wyjaśnił Holz. „A potem wielu ludzi po prostu się tym bawiło”.

Może 20 procent ludzi używa Midjourney do tego, co Holz opisuje jako arteterapię. Na przykład tworzenie obrazów psów po śmierci psa. „Używają go jako emocjonalnego i intelektualnego narzędzia refleksji” – powiedział. „I to jest naprawdę fajne”.

Holzowi nie podoba się pomysł wykorzystania Midjourney do tworzenia fałszywych zdjęć. „Wykorzystywanie go w celach redakcyjnych do tworzenia fałszywych zdjęć jest niezwykle niebezpieczne” – powiedział. „Nikt nie powinien tego robić”. Ale jest bardziej otwarty na Midjourney jako źródło ilustracji komercyjnych, zauważając, że The Economist przeprowadził grafikę Midjourney na okładce w czerwcu.

„Dopiero niedawno pozwoliliśmy ludziom używać go komercyjnie” – powiedział Holz. „Przez długi czas było to tylko niekomercyjne. A więc jedną z rzeczy, które robimy, jest to, że po prostu oglądamy to, co robią ludzie, i możemy zdecydować, że nie jest nam z tym dobrze, a następnie wprowadzimy regułę mówiącą, że nie mogę go już używać tylko do tych rzeczy”.

Holz powiedział, że widzi narzędzia sztucznej inteligencji, takie jak Midjourney, które czynią artystów lepszymi w tym, co robią, a nie czynią każdego profesjonalnym artystą. „Artysta używający tych narzędzi jest zawsze lepszy niż zwykła osoba używająca tych narzędzi. Czy w pewnym momencie może pojawić się presja, aby korzystać z tych narzędzi, ponieważ możesz tworzyć rzeczy, które są tak wspaniałe? Myślę, że tak. Ale w tej chwili nie sądzę, że jeszcze tam jest. Ale w ciągu najbliższych dwóch lat będzie szokująco lepiej”.

Midjourney i DALL-E 2 zwróciły większą uwagę na długotrwałe obawy dotyczące tego, czy duże modele sztucznej inteligencji, stworzone na podstawie prac objętych prawami autorskimi lub określonymi licencjami, można pogodzić z prawem autorskim i własnym wyobrażeniem twórców treści o tym, jak ich praca powinna być traktowana.

Ameryka, kraj procesu

Jeśli chodzi o wyniki Midjourney, obecne orzecznictwo USA zaprzecza możliwości przyznania praw autorskich do obrazów generowanych przez sztuczną inteligencję. W lutym Komisja Rewizyjna Urzędu ds. Praw Autorskich USA odrzucone [PDF] drugi wniosek o przyznanie praw autorskich do krajobrazu wygenerowanego komputerowo, zatytułowany „Ostatnie wejście do raju”, ponieważ został stworzony bez autorstwa człowieka.

W rozmowie telefonicznej Tyler Ochoa, profesor wydziału prawa na Uniwersytecie Santa Clara, powiedział: Rejestr, „Urząd ds. praw autorskich Stanów Zjednoczonych powiedział, że [dopuszczalne] jest, jeśli artysta używa sztucznej inteligencji, aby pomóc mu w tworzeniu dzieła, o ile jest w to zaangażowana ludzka kreatywność. Jeśli po prostu wpisujesz tekst, a sztuczna inteligencja generuje dzieło, to wyraźnie nie podlega ochronie praw autorskich zgodnie z obowiązującym prawem”.

Warunki korzystania z usługi Midjourney stwierdzają, że „jesteś właścicielem wszystkich zasobów, które tworzysz za pomocą usług”, ale firma wymaga od użytkowników licencji praw autorskich do powielania treści utworzonych za pomocą usługi – jest to niezbędny środek ostrożności w celu hostowania obrazów użytkowników, nawet jeśli wydaje się to wątpliwe, aby te tworzenie obrazów Midjourney po prostu poprzez wprowadzanie tekstu ma jakiekolwiek prawa autorskie do przekazania lub egzekwowania.

Nie zawsze tak jest. Ochoa powiedział, że wierzy, że Steven Thaler, który stworzył „A Recent Entrance to Paradise”, może chcieć zakwestionować w sądzie odrzucenie przez Urząd Praw Autorskich autorstwa opartego na sztucznej inteligencji, chociaż tak się jeszcze nie stało.

Istnieją również potencjalne obawy dotyczące praw autorskich wynikające z modeli sztucznej inteligencji wyszkolonych na materiałach chronionych prawem autorskim. „Pytanie brzmi, czy wykorzystanie tych obrazów do treningu i sztucznej inteligencji byłoby uczciwe” – powiedział Ochoa. „I myślę, że argumenty za dozwolonym użytkowaniem w tym kontekście są dość mocne”.

Ponadto istnieje potencjalna odpowiedzialność osób, które generują obrazy, które są zasadniczo podobne do istniejących materiałów chronionych prawem autorskim. „Jeśli twój zestaw treningowy nie jest wystarczająco duży, to, co wypluwa sztuczna inteligencja, może wyglądać bardzo podobnie do tego, co pochłonęła”, wyjaśnił Ochoa, zauważając, że problem polega na tym, czy jest to naruszenie praw autorskich. „Pośrednio uważam, że to bardzo prawdopodobne”.

Jeśli chodzi o potencjalne ryzyko prawne dla klientów korzystających z aktywów generowanych w Midjourney, Ochoa powiedział, że uważa, że ​​jest ono dość niskie. Wyjaśnił, że jeśli szkolenie modelu AI naruszało prawa autorskie, odbywało się to przed zaangażowaniem klienta. „Więc jeśli klient nie sponsorował w jakiś sposób tworzenia sztucznej inteligencji, nie sądzę, aby [klient] ponosił odpowiedzialność za jakiekolwiek naruszenie zestawu szkoleniowego” – powiedział. „I to jest tutaj najsilniejsze twierdzenie. Myślę więc, że klienci mają dość solidne podstawy do korzystania z tych obrazów, zakładając, że zostało to dobrze zrobione”.

Holz przyznaje, że sytuacja prawna jest niejasna.

„W tej chwili prawo tak naprawdę nie ma nic na ten temat” – powiedział. „Według mojej wiedzy, każdy duży model sztucznej inteligencji jest w zasadzie szkolony na rzeczach dostępnych w Internecie. I to jest w porządku, w tej chwili. Nie ma konkretnych przepisów dotyczących tego. Może w przyszłości będzie. Ale to trochę nowy obszar, tak jak GPL była czymś w rodzaju nowej legalnej sprawy dotyczącej kodu programistycznego. I zajęło to 20 lub 30 lat, aby naprawdę stało się czymś, co system prawny zaczyna rozumieć”.

Holz powiedział, że uważa, że ​​w tej chwili ważniejsze jest zrozumienie, co zainteresowane strony myślą o tej technologii. „Mamy wielu artystów, którzy korzystają z naszych materiałów i ciągle sprawdzamy z nimi, czy czujesz się z tym w porządku?”, powiedział.

Holz powiedział, że jeśli jest wystarczająco dużo niezadowolenia ze status quo, może warto pomyśleć o jakiejś strukturze płatności w przyszłości dla artystów, których praca dotyczy modeli szkoleniowych. Zauważył jednak, że ocena wysokości składek jest obecnie trudna. „Wyzwaniem dla czegoś takiego w tej chwili jest to, że nie jest jasne, co sprawia, że ​​modele AI działają dobrze” – powiedział. „Jeśli umieszczę tam zdjęcie psa, na ile to faktycznie pomaga [model AI] w robieniu zdjęć psów. Właściwie nie jest jasne, które części danych faktycznie dają [modelowi] jakie zdolności.”

Zapytany o to, co nadaje Midjourney charakterystyczną estetykę, Holz powiedział, że tak naprawdę nie może porównać tego, co Midjourney robi z DALL-E 2, ale ogólnie rzecz biorąc, naukowcy zajmujący się sztuczną inteligencją mają tendencję do uzyskiwania tego, do czego optymalizują. Jeśli wstawią słowo „pies”, prawdopodobnie chcą mieć zdjęcie psa.

„Dla nas byliśmy, gdy go optymalizowaliśmy, chcieliśmy, aby wyglądał pięknie, a piękny niekoniecznie oznacza realistyczny. … Jeśli już, to właściwie odsuwamy to trochę od zdjęć. … Wiem, że ta technologia może być używana jako głęboka fałszywa super maszyna. I nie sądzę, że świat potrzebuje więcej fałszywych zdjęć. Tak naprawdę nie chcę być źródłem fałszywych zdjęć na świecie”.

„Właściwie czuję się nieswojo, jeśli nasze rzeczy tworzą coś, co wygląda jak zdjęcie. I to nie znaczy, że nigdy nie pozwolimy ludziom tworzyć rzeczy bardziej realistycznych. Istnieją uzasadnione przypadki użycia, w których próbuje się sprawić, by rzeczy wyglądały bardziej realistycznie. Jestem jednak przekonany, że domyślnie, gdy ktoś korzysta z naszego systemu, nie powinien robić fałszywego zdjęcia.”

„Ale myślę, że świat potrzebuje więcej piękna. Zasadniczo, jeśli tworzę coś, co pozwala ludziom tworzyć piękne rzeczy, a na świecie jest więcej pięknych rzeczy, domyślnie tego chcę”. ®

Znak czasu:

Więcej z Rejestr