Девід Хольц, засновник арт-генератора штучного інтелекту Midjourney, про майбутнє обробки зображень PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Девід Хольц, засновник арт-генератора штучного інтелекту Midjourney, про майбутнє зображень

інтерв'ю У 2008 році Девід Хольц став співзасновником фірми Leap Motion, що займається периферійним обладнанням. Він керував ним до минулого року, коли пішов, щоб створити Midjourey.

Серед подорожі у своїй нинішній формі це соціальна мережа для створення мистецтва, створеного штучним інтелектом, із текстової підказки – введіть слово чи фразу у вікні введення, і приблизно через хвилину обчислень ви отримаєте цікаве або, можливо, чудове зображення на екрані. У деяких аспектах він схожий на OpenAI ВІД-Є 2.

Проміжне зображення неба та хмар із використанням текстової підказки «Вся ця марна краса». Джерело: створено Серед подорожі

Обидва є результатом великих моделей AI, навчених на величезній кількості зображень. Але Midjourney має свій характерний стиль, як це видно з цю тему в Twitter. Останнім часом обидва вийшли на публічне бета-тестування (хоча доступ до DALL-E 2 розширюється повільно).

Можливість створювати високоякісні зображення з моделей ШІ за допомогою введення тексту стала популярною діяльністю минулого року після випуску OpenAI CLIP (Попередня підготовка контрастної мови до зображення), яка була розроблена, щоб оцінити, наскільки добре створені зображення відповідають текстовим описам. Після випуску художник Раян Мердок (@advadnoun у Твіттері) виявив, що процес можна обернути — забезпечивши введення тексту, ви можете отримати зображення за допомогою інших моделей ШІ.

Після цього спільнота генеративного мистецтва розпочала період гарячкових досліджень, опублікувавши код Python для створення зображень із використанням різноманітних моделей і технік.

«Десь минулого року ми побачили, що є певні сфери штучного інтелекту, які прогресують справді цікавими способами», — пояснив Хольц в інтерв’ю виданню Реєстр. «Одним із них була здатність ШІ розуміти мову».

Хольц вказав на такі розробки, як трансформатори, модель глибокого навчання, яка інформує CLIP, і дифузійні моделі, альтернатива GAN. «Те, що справді вразило мене особисто, — це дифузія, керована CLIP», — сказав він, розроблена Кетрін Кроусон (відома в Twitter як @RiversHaveWings).

Не стереотипний чоловік із Флориди

Хольц виріс у Флориді та займався дизайном у середній школі, де вивчав математику та фізику. Він працював над докторською дисертацією з прикладної математики та взяв відпустку у 2008 році, щоб розпочати Leap Motion. Наступного року він провів рік як студент-дослідник в Інституті Макса Планка, а потім два роки в дослідницькому центрі NASA Langley як аспірант, працюючи над LiDAR, місіями на Марс і наукою про атмосферу.

«Я думав, чому я працюю над усім цим?» — пояснив він. «Я просто хочу працювати над однією цікавою річчю, яка мене хвилює».

Тож він зосередився на Leap Motion, яка розробила апаратний пристрій для відстеження рухів руки та використання його для введення з пристрою. Він керував компанією протягом дванадцяти років, і коли він пішов, у ній працювало близько 100 людей.

Проміжний час, за його словами, зараз досить малий. «Нас приблизно 10 осіб», – пояснив він. «Ми самофінансуємося. У нас немає інвесторів. Ми не дуже мотивовані фінансово. Ми тут лише для того, щоб працювати над тим, чим ми захоплені, і веселитися. І ми працювали над багатьма різними проектами».

Хольц сказав, що технологічний аспект ШІ та ступінь його вдосконалення досить легко передбачити. «Але людські наслідки цього так важко уявити», — сказав він. «Тут є щось, що знаходиться на перетині людяності та технологій. Щоб зрозуміти, що це таке і яким воно має бути, нам дійсно потрібно провести багато експериментів».

Дорога попереду

Неврегульованість технології зображень штучного інтелекту очевидна в різниці між такими інструментами, як Midjourney, і завантажуваним графічним додатком із відкритим кодом, таким як Blender, або локально встановленим комерційним додатком, таким як Adobe Photoshop (до того, як він став хмарним сервісом).

Midjourney існує в соціальному контексті. Його інтерфейсом є чат-сервіс Discord. Нові користувачі входять на сервер Discord Midjourney і можуть надсилати текстові підказки для створення зображень разом із багатьма іншими користувачами в будь-якому з різноманітних каналів новачків.

Отримані зображення для всіх користувачів у цьому каналі з’являються приблизно через хвилину, що допомагає зміцнити поняття спільноти. Ті, хто вирішить оновити підписку до $10/місяць або $30/місяць, можуть надіслати текст боту Midjourney у додатку Discord у вигляді приватного прямого повідомлення та отримати зображення у відповідь без прокручування екрану водоспадом взаємодії з іншими користувачами в публічному доступі. канал. Проте створені зображення за замовчуванням залишаються загальнодоступними.

Як соціальна програма, Midjourney підпорядковується правилам щодо дозволеного вмісту – те, про що користувачам Blender або інших локально встановлених програм не варто турбуватися. Умови використання Midjourney стверджують: «Жодного вмісту для дорослих або крові. Будь ласка, не створюйте візуально шокуючий або тривожний вміст. Ми автоматично заблокуємо деякі введення тексту».

DALL-E 2 підлягає подібним, але більш широким обмеженням, як описано в його Політика щодо вмісту.

«Я думаю, що якби ми жили у світі, де не було б соціальних медіа, то нам не потрібно було б мати жодних обмежень», — сказав Хольц. «...Коли був винайдений Photoshop, у пресі про нього говорили: «О, ти можеш підробити будь-що, і це трохи лякає». [Але зараз] бути сенсаційним набагато вигідніше, ніж це було раніше».

«Нині будь-хто може бути сенсаційним і в основному отримувати з цього прибуток», — сказав Хольц. «І отже, це створює ринок для драми та сенсацій. Ось чому я думаю, що ми повинні бути трохи обережнішими, тому що в якийсь момент люди скажуть: «Добре, я можу це фотографувати, що є найдраматичнішим, найобразливішим і жахливішим, що я може зробити?'»

Немає простих відповідей

Хольц припускає, що соціальні платформи можуть дещо зробити, щоб пом’якшити ці проблеми, але каже, що простих відповідей немає. «На жаль, немає чіткого способу вирішити цю проблему, крім як суспільство, щоб менше винагороджувати сенсаційність», – сказав він. «Однак у мене враження таке, що насправді ніхто не намагається змінити соціальні платформи, щоб зменшити сенсаційність, тому що це приносить їм гроші прямо зараз».

Більше того, сказав він, оскільки Midjourney прагне бути соціальним простором для тих, хто старше 13 років, необхідно мати правила проти екстремального або відразливого вмісту.

«Ми не дуже хочемо мати сегментовані простори для людей, які люблять робити трупи або оголені фотографії», — пояснив Хольц. «Ми просто не хочемо з цим мати справу. Ми не думаємо, що маємо моральний обов’язок робити це на даному етапі. Ми хочемо мати один гарний соціальний простір, де люди могли б щось робити разом і не ображатися, по суті, і почуватися в безпеці».

З цією метою компанія має близько 40 модераторів, які стежать за зображеннями, які створюють користувачі.

Соціальний аспект Midjourney нещодавно почав покращувати якість зображення. Гольц сказав, що інженери компанії нещодавно представили третю версію свого програмного забезпечення, яке вперше включило цикл зворотного зв’язку на основі активності та відповіді користувача.

«Якщо ви подивитеся на матеріал версії 3, то побачите величезне покращення», — сказав він. «Це приголомшливо краще, і ми фактично не вкладали в нього більше мистецтва. Ми просто взяли дані про те, які зображення подобалися користувачам і як вони їх використовували. І це фактично покращило його».

На запитання про стек технологій Midjourney Хольц заперечив. «У якийсь момент ми, ймовірно, збираємось опублікувати прес-реліз конкретно про те, яких постачальників ми використовуємо», — сказав він. «Що я можу сказати, так це те, що у нас є великі моделі ШІ з мільярдами параметрів. Вони навчені мільярдам зображень».

Хольц каже, що користувачі створюють мільйони і мільйони зображень щодня, і роблять це за допомогою постачальників обчислювальних послуг з екологічно чистої енергії, що насправді не звужує коло великих постачальників хмарних обчислень, оскільки всі вони стверджують, що принаймні нейтральні вуглецю.

«Кожне зображення виконує petaops», — сказав він, термін, який означає 10^15 операцій на секунду. «Отже, 1000 трильйонів операцій. Я точно не знаю, чи це п’ять, чи 10, чи 50. Але це тисячі трильйонів операцій, щоб створити зображення. Це, мабуть, найдорожчий… якщо ви зателефонуєте до служби Midjourney – як ви б назвали це послугою чи продуктом – без сумніву, ніколи раніше не було служби, де звичайна людина використовувала б стільки обчислень».

Тримаючи нас у їжі та одязі

Проте Midjourney не на шляху до підвищення цін на платні клієнти, яких залучила безкоштовна послуга, а потім залучення добре оплачуваних корпоративних клієнтів до виходу на біржу або придбання.

«Ми не схожі на стартап, який збирає багато грошей, а потім не впевнений, що таке їхній бізнес чи продукт, і втрачає гроші протягом тривалого часу», — сказав Хольц. «Ми як самофінансована дослідницька лабораторія. Ми можемо втратити певну суму грошей. У нас немає 100 мільйонів доларів чужих грошей, які можна втратити. Чесно кажучи, ми вже прибуткові, і у нас все гаразд».

«Це досить проста бізнес-модель, яка полягає в тому, чи подобається людям користуватися нею? Тоді, якщо вони це зроблять, вони повинні сплатити вартість його використання, тому що вартість сировини насправді досить висока. А потім ми додаємо до цього відсоток, якого, сподіваємось, вистачить, щоб нас прогодувати та розмістити. Ось що ми робимо».

Що стосується майбутнього, масштабування може бути проблемою. Хольц сказав, що сервісом Midjourney зараз користуються сотні тисяч людей, для чого потрібно приблизно 10,000 XNUMX серверів.

«Якби 10 мільйонів людей намагалися використовувати подібні технології, — сказав він, — то насправді не вистачило б комп’ютерів. У світі немає мільйона безкоштовних серверів для штучного інтелекту. Я думаю, що у світі закінчаться комп’ютери, перш ніж ця технологія потрапить до всіх, хто захоче нею користуватися».

Для чого люди його використовують? Добре, якщо ви ввійшли в обліковий запис Midjourney, ви можете побачити, що люди створюють через Стрічка спільноти сторінки. Це постійний потік цікавих, часто вражаючих хороших зображень.

«Більшість людей просто розважаються», — сказав Хольц. «Я вважаю, що це найбільша річ, тому що насправді йдеться не про мистецтво, а про уяву».

Бути професіоналом

Але приблизно для 30 відсотків користувачів це професійно. Гольц сказав, що багато художників-графіків використовують Midjourney як частину робочого процесу розробки концепції. Вони створюють кілька варіацій ідеї та представляють її клієнтам, щоб зрозуміти, у якому напрямку їм слід рухатися.

«Професіонали використовують це, щоб посилити свій творчий або комунікаційний процес», — пояснив Хольц. «І тоді багато людей просто гралися з цим».

Можливо, 20 відсотків людей використовують Midjourney для того, що Хольц описує як арт-терапію. Наприклад, створення зображень собаки після смерті собаки. «Вони використовують це як інструмент емоційного та інтелектуального рефлексії», — сказав він. «І це справді круто».

Хольцу не подобається ідея використовувати Midjourney для створення підроблених фотографій. «Використовувати його в редакції для створення підроблених фотографій надзвичайно небезпечно», — сказав він. «Ніхто не повинен цього робити». Але він більш відкритий до Midjourney як джерела комерційної ілюстрації, зауважуючи це The Economist опублікував графік Midjourney на його обкладинці в червні.

«Ми лише нещодавно дозволили людям використовувати його в комерційних цілях», — сказав Хольц. «Довгий час це було лише некомерційне. І тому одна з речей, які ми робимо, це те, що ми просто спостерігаємо за тим, що роблять люди, і ми можемо вирішити, що щось із цього нас не влаштовує, і тоді ми збираємося ввести правило, згідно з яким ви більше не можу використовувати його лише для тих речей».

Хольц сказав, що бачить такі інструменти штучного інтелекту, як Midjourney, які роблять художників кращими в тому, що вони роблять, а не роблять кожного професійним художником. «Митець, який використовує ці інструменти, завжди кращий, ніж звичайна людина, яка використовує ці інструменти. У якийсь момент може виникнути тиск використовувати ці інструменти, тому що ви можете створювати такі чудові речі? Я вважаю, що так. Але зараз, я думаю, що це ще не зовсім там. Але протягом наступних двох років ситуація значно покращиться».

Midjourney і DALL-E 2 привернули більше уваги до давніх сумнівів щодо того, чи можна узгодити великі моделі штучного інтелекту, створені з робіт за авторським правом або спеціальними ліцензіями, із законом про авторське право та власним уявленням творців контенту про те, як слід ставитися до їхньої роботи.

Америка, земля судового процесу

Що стосується результатів Midjourney, поточна судова практика США заперечує можливість надання авторських прав на зображення, створені ШІ. У лютому Рада з перегляду Бюро авторських прав США відхилені [PDF] другий запит щодо надання авторських прав на створений комп’ютером пейзаж під назвою «Нещодавній в’їзд до раю», оскільки він був створений без авторства людини.

У телефонному інтерв’ю Тайлер Очоа, професор юридичного факультету Університету Санта-Клари, розповів Реєстр, «Бюро захисту авторських прав США заявило, що [прийнятно], якщо художник використовує штучний інтелект для допомоги у створенні твору, якщо в ньому задіяна людська творчість. Якщо ви просто набираєте текст, а штучний інтелект генерує твір, це цілком очевидно, що не підлягає захисту авторських прав згідно з чинним законодавством».

В Умовах надання послуг Midjourney зазначено, що «ви володієте всіма ресурсами, створеними за допомогою Сервісів», але компанія вимагає від користувачів ліцензії на авторське право для відтворення вмісту, створеного за допомогою сервісу – необхідний запобіжний захід для розміщення зображень користувачів, навіть якщо виглядає сумнівно, що вони створення зображень Midjourney просто за допомогою введення тексту має будь-які авторські права для передачі чи дотримання.

Це не завжди так. Очоа сказав, що він вважає, що Стівен Талер, який створив «Нещодавній вхід до раю», може оскаржити в суді відмову Бюро авторських прав щодо авторства на основі ШІ, хоча цього ще не сталося.

Існують також потенційні проблеми з авторським правом, пов’язані з моделями ШІ, навченими на захищеному авторським правом матеріалі. «Питання в тому, чи було б добросовісним використання цих зображень для навчання та ШІ», — сказав Очоа. «Я вважаю, що аргументи на користь добросовісного використання в цьому контексті досить вагомі».

Крім того, існує потенційна відповідальність для тих, хто створює зображення, суттєво подібні до існуючого захищеного авторським правом матеріалу. «Якщо ваш навчальний набір недостатньо великий, те, що видає штучний інтелект, може бути дуже схожим на те, що він проковтнув», — пояснив Очоа, зазначивши, що проблема полягає в тому, чи є це порушенням авторських прав. «Побічно, я думаю, що це дуже ймовірно».

Що стосується потенційного правового ризику для клієнтів, які використовують активи, створені Midjourney, Очоа сказав, що він вважає його досить низьким. Якщо навчання моделі ШІ порушувало авторські права, це було зроблено до залучення клієнта, пояснив він. «Отже, якщо клієнт якимось чином не спонсорував створення штучного інтелекту, я не думаю, що [клієнт] нестиме відповідальність за будь-які порушення навчального набору», — сказав він. «І це найвагоміша претензія тут. Тож я вважаю, що клієнти досить твердо використовують ці зображення, припускаючи, що це було добре зроблено».

Хольц визнає, що правовій ситуації бракує ясності.

«На даний момент у законі насправді немає нічого про такі речі», - сказав він. «Наскільки мені відомо, кожна велика модель штучного інтелекту в основному навчається на матеріалах, які є в Інтернеті. І це нормально, прямо зараз. Конкретно законів про це немає. Можливо, в майбутньому вони будуть. Але це щось на кшталт нової сфери, подібно до того, як GPL була новою правовою річчю щодо програмного коду. І знадобилося приблизно 20 чи 30 років, щоб це дійсно стало чимось, що юридична система починає з’ясовувати».

Хольц сказав, що вважає, що зараз важливіше зрозуміти, як зацікавлені сторони ставляться до цієї технології. «У нас є багато артистів, які використовують наші речі, і ми постійно запитуємо їх, наприклад, «чи почуваєшся ти добре з цього приводу?», — сказав він.

Гольц сказав, що якщо є достатньо невдоволення статус-кво, можливо, варто подумати про певну структуру оплати в майбутньому для художників, чия робота йде на навчання моделей. Але він зазначив, що зараз важко оцінити розмір внесків. «Проблема для чогось подібного зараз полягає в тому, що насправді неясно, чому моделі ШІ працюють добре», — сказав він. «Якщо я поміщу туди зображення собаки, наскільки це насправді допоможе [моделі AI] створювати зображення собак. Насправді незрозуміло, які частини даних насправді надають [моделі] які можливості».

Відповідаючи на запитання, що надає Midjourney такої характерної естетики, Хольц відповів, що не може порівняти те, що робить Midjourney з DALL-E 2, але загалом дослідники ШІ прагнуть отримати те, для чого вони оптимізують. Якщо вони введуть слово «собака», то, мабуть, хочуть зображення собаки.

«Коли ми оптимізували його, ми хотіли, щоб він виглядав красиво, а красиве не обов’язково означає реалістичне. … У будь-якому разі, насправді ми трошки віддаляємо це від фотографій. … Я знаю, що цю технологію можна використовувати як глибоку фейкову супермашину. І я не думаю, що світові потрібно більше фейкових фотографій. Я насправді не хочу бути джерелом фальшивих фотографій у світі».

«Я справді відчуваю себе некомфортно, якщо наші речі створюють щось схоже на фотографію. І це не означає, що ми ніколи не дозволимо людям створювати речі, які є більш реалістичними. Існують законні випадки використання для того, щоб зробити речі, які виглядають більш реалістичними. Однак я переконаний, що за замовчуванням, коли хтось використовує нашу систему, вона не повинна створювати підроблену фотографію».

«Але я вважаю, що світу потрібно більше краси. По суті, якщо я створюю щось, що дозволяє людям робити прекрасні речі, а в світі є прекрасніші речі, це те, що я хочу за замовчуванням». ®

Часова мітка:

Більше від Реєстр