Дэвид Хольц, основатель генератора искусственного интеллекта Midjourney, о будущем визуализации данных PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Дэвид Хольц, основатель ИИ-генератора изображений Midjourney, о будущем изображений

Интервью В 2008 году Дэвид Хольц стал соучредителем компании Leap Motion, занимающейся производством аппаратных периферийных устройств. Он руководил ею до прошлого года, когда ушел, чтобы создать Midjurey.

Середина пути в его нынешнем виде это социальная сеть для создания произведений искусства с помощью ИИ из текстовой подсказки — введите слово или фразу в подсказке ввода, и вы получите интересное или, возможно, прекрасное изображение на экране примерно через минуту вычислений. В некотором отношении он похож на OpenAI. ДАЛЛ-Э 2.

Изображение неба и облаков в пути с использованием текстовой подсказки «Вся эта бесполезная красота». Источник: сгенерировано Середина пути

Оба являются результатом больших моделей ИИ, обученных на огромном количестве изображений. Но Midjourney имеет свой особый стиль, как видно из Эта тема. Оба в последние дни вошли в публичное бета-тестирование (хотя доступ к DALL-E 2 расширяется медленно).

Возможность создавать высококачественные изображения из моделей ИИ с помощью ввода текста стала популярной в прошлом году после выпуска OpenAI. CLIP (Contrastive Language — Image Pre-training), который был разработан для оценки того, насколько хорошо сгенерированные изображения соответствуют текстовым описаниям. После его выпуска, художник Райан Мердок (@advadnoun в Твиттере) обнаружил, что этот процесс может быть обратным — вводя текст, вы можете получать изображение с помощью других моделей ИИ.

После этого сообщество генеративного искусства приступило к лихорадочному исследованию, публикуя код Python для создания изображений с использованием различных моделей и методов.

«Где-то в прошлом году мы увидели, что некоторые области ИИ развиваются действительно интересным образом, — объяснил Хольц в интервью изданию. Регистр. «Одним из них была способность ИИ понимать язык».

Хольц указал на такие разработки, как преобразователи, модель глубокого обучения, которая информирует CLIP, и модели распространения, альтернативу GAN. «Лично мне бросилось в глаза диффузия под управлением CLIP», — сказал он, разработанная Кэтрин Кроусон (известная в Твиттере как @RiversHaveWings).

Не стереотипный мужчина из Флориды

Хольц вырос во Флориде и в старшей школе занимался дизайном, где изучал математику и физику. Он работал над докторской диссертацией по прикладной математике и в 2008 году взял отпуск, чтобы основать Leap Motion. В следующем году он провел год в качестве студента-исследователя в Институте Макса Планка, а затем два года в Исследовательском центре НАСА в Лэнгли в качестве аспиранта-исследователя, работающего над LiDAR, марсианскими миссиями и атмосферными исследованиями.

«Я думал, почему я работаю над всем этим?» он объяснил. «Я просто хочу поработать над одной классной вещью, которая мне небезразлична».

Поэтому он сосредоточился на Leap Motion, которая разработала аппаратное устройство для отслеживания движения руки и использования его для ввода данных с устройства. Он руководил компанией двенадцать лет, а когда ушел, в ней работало около 100 человек.

По его словам, Midjourney сейчас довольно мала. «Нас около 10 человек, — объяснил он. «Мы самофинансируемся. У нас нет инвесторов. Мы не очень финансово мотивированы. Мы просто здесь, чтобы работать над вещами, которыми мы увлечены, и получать удовольствие. И мы работали над множеством разных проектов».

Хольц сказал, что технологический аспект ИИ и степень его улучшения довольно легко предвидеть. «Но человеческие последствия этого так трудно представить», — сказал он. «Здесь есть что-то, что находится на пересечении человечества и технологий. Чтобы действительно понять, что это такое и каким оно должно быть, нам действительно нужно провести много экспериментов».

Дорога впереди

Неурегулированный характер технологии изображений ИИ проявляется в разнице между такими инструментами, как Midjourney, и загружаемым графическим приложением с открытым исходным кодом, таким как Blender, или локально установленным коммерческим приложением, таким как Adobe Photoshop (до того, как оно стало облачным сервисом).

Midjourney существует в социальном контексте. Его интерфейсом является чат-сервис Discord. Новые пользователи входят на сервер Discord Midjourney, а затем могут отправлять текстовые подсказки для создания изображений вместе с множеством других пользователей на любом из различных каналов для новичков.

Полученные изображения для всех пользователей этого канала появляются примерно через минуту, что помогает укрепить представление о сообществе. Те, кто решит перейти на подписку за 10 или 30 долларов в месяц, могут отправлять текст боту Midjourney в приложении Discord в качестве частного прямого сообщения и получать изображения в ответ без водопада взаимодействия с прокруткой экрана от других пользователей в общедоступном канал. Однако сгенерированные изображения по умолчанию остаются общедоступными для просмотра.

Как социальное приложение, Midjourney подчиняется правилам о разрешенном контенте — о чем пользователям Blender или других локально установленных приложений не нужно беспокоиться. В Условиях использования Midjourney говорится: «Никакого контента для взрослых или крови. Пожалуйста, избегайте визуально шокирующего или тревожного контента. Мы автоматически заблокируем ввод некоторых текстов».

DALL-E 2 подвержен аналогичным, хотя и более обширным ограничениям, как описано в его Политика в отношении содержания.

«Я думаю, что если бы мы жили в мире, в котором не было бы социальных сетей, нам бы не понадобились какие-либо ограничения», — сказал Хольц. «…Когда был изобретен Photoshop, в прессе об этом говорили: «О, вы можете подделать что угодно, и это немного страшно». [Но сейчас] заниматься сенсациями гораздо выгоднее, чем раньше».

«В наши дни любой может заниматься сенсациями и получать от этого прибыль», — сказал Хольц. «И вот что он делает, так это создает рынок для драмы и сенсаций. Вот почему я думаю, что мы должны быть немного более осторожными, потому что в какой-то момент люди скажут: «Хорошо, я могу сфотографировать это, что является самым драматичным, оскорбительным и ужасающим из того, что я может сделать?»

Нет простых ответов

Хольц допускает, что социальные платформы могут решить эти проблемы, но говорит, что простых ответов нет. «К сожалению, нет четкого способа решить эту проблему, кроме как как общество, чтобы меньше вознаграждать сенсационность», — сказал он. «Однако у меня сложилось впечатление, что никто на самом деле не пытается изменить социальные платформы, чтобы уменьшить сенсационность, потому что прямо сейчас это приносит им деньги».

Более того, сказал он, поскольку Midjourney стремится стать социальным пространством для всех, кому исполнилось 13 лет, необходимо иметь правила, запрещающие экстремальный или графический контент.

«На самом деле мы не хотим иметь сегментированные пространства для людей, которые любят делать трупы или любят фотографировать обнаженных людей», — объяснил Хольц. «Мы просто не хотим иметь с этим дело. Мы не думаем, что на данном этапе у нас есть моральное обязательство делать это. Мы хотим одно красивое социальное пространство, где люди могли бы делать что-то вместе и не обижаться, по сути, и чувствовать себя в безопасности».

С этой целью в компании работает около 40 модераторов, следящих за изображениями, которые создают пользователи.

Социальный аспект Midjourney недавно начал улучшать качество изображения. Хольц сказал, что инженеры компании недавно представили третью версию своего программного обеспечения, которое впервые включает цикл обратной связи, основанный на действиях и ответах пользователей.

«Если вы посмотрите на материал v3, вы увидите огромное улучшение, — сказал он. «Это ошеломляюще лучше, и мы на самом деле не добавили в него больше искусства. Мы просто взяли данные о том, какие изображения понравились пользователям и как они их использовали. И это действительно сделало его лучше».

На вопрос о технологическом стеке Midjourney Хольц возразил. «В какой-то момент мы, вероятно, выпустим пресс-релиз, посвященный поставщикам, которых мы используем», — сказал он. «Что я могу сказать, так это то, что у нас есть большие модели ИИ с миллиардами параметров. Их обучают на миллиардах изображений».

Хольц говорит, что пользователи создают миллионы и миллионы изображений каждый день, и делают это с помощью поставщиков вычислительных ресурсов с экологически чистой энергией, что на самом деле не сужает поле деятельности крупных поставщиков облачных вычислений, поскольку все они утверждают, что они как минимум углеродно-нейтральны.

«Каждое изображение требует петаопов», — сказал он, что означает 10^15 операций в секунду. «Итак, тысячи триллионов операций. Я точно не знаю, пять ли это, или 1000, или 10. Но для создания изображения нужны тысячи триллионов операций. Это, вероятно, самый дорогой… если вы называете Midjourney услугой — как вы бы назвали это услугой или продуктом — без сомнения, никогда раньше не было услуги, в которой обычный человек использует столько вычислительных ресурсов».

Держит нас в еде и одежде

Тем не менее, Midjourney не находится на пути к повышению продаж клиентов, привлеченных бесплатным сервисом, на платные уровни, а затем к привлечению хорошо платящих корпоративных клиентов, прежде чем стать публичной или быть поглощенной.

«Мы не похожи на стартап, который собирает много денег, а затем не уверен, в чем состоит их бизнес или продукт, и теряет деньги в течение длительного времени», — сказал Хольц. «Мы как самофинансируемая исследовательская лаборатория. Мы можем потерять некоторую сумму денег. У нас нет 100 миллионов долларов чужих денег, которые мы можем потерять. Честно говоря, мы уже прибыльны, и у нас все в порядке».

«Это довольно простая бизнес-модель, то есть нравится ли людям ее использовать? Затем, если они это сделают, им придется оплатить стоимость его использования, потому что исходная стоимость на самом деле довольно высока. А затем мы добавляем к этому процент, которого, надеюсь, достаточно, чтобы накормить и приютить нас. Вот чем мы и занимаемся».

Что касается будущего, масштабирование может стать проблемой. Хольц сказал, что в настоящее время сервисом Midjourney пользуются сотни тысяч человек, для чего требуется около 10,000 XNUMX серверов.

«Если бы 10 миллионов человек пытались использовать подобные технологии, — сказал он, — то на самом деле не хватило бы компьютеров. В мире нет миллиона бесплатных серверов для ИИ. Я думаю, что в мире закончатся компьютеры, прежде чем технологии станут доступны всем, кто захочет ими пользоваться».

Для чего люди его используют? Ну, если вы вошли в учетную запись Midjourney, вы можете видеть, что люди создают через Лента сообщества страница. Это постоянный поток интересных, часто поразительно хороших образов.

«Большинство людей просто развлекаются, — сказал Хольц. «Я думаю, что это самое важное, потому что на самом деле речь идет не об искусстве, а о воображении».

Быть профессионалом

Но примерно для 30 процентов пользователей это профессионал. Хольц сказал, что многие художники-графики используют Midjourney как часть рабочего процесса разработки концепции. Они генерируют несколько вариантов идеи и представляют ее клиентам, чтобы понять, в каком направлении им следует двигаться.

«Профессионалы используют его для ускорения своего творческого или коммуникативного процесса», — объяснил Хольц. «А потом многие люди просто играли с этим».

Примерно 20 процентов людей используют Midjourney для того, что Хольц называет арт-терапией. Например, создание изображений собак после того, как их собака умерла. «Они используют его как эмоциональный и интеллектуальный инструмент для размышлений», — сказал он. — И это действительно круто.

Хольцу не нравится идея использовать Midjourney для создания поддельных фотографий. «Использовать его в редакционных целях для создания поддельных фотографий чрезвычайно опасно», — сказал он. «Никто не должен этого делать». Но он более открыт для Midjourney как источника коммерческой иллюстрации, отмечая, что The Economist опубликовал график Midjourney на обложке в июне.

«Только недавно мы разрешили людям использовать его в коммерческих целях», — сказал Хольц. «Долгое время он был только некоммерческим. Итак, одна из вещей, которую мы делаем, это то, что мы просто наблюдаем за тем, что делают люди, и мы можем решить, что нас что-то не устраивает, и тогда мы введем правило, говорящее, что вы больше не может использовать его только для этих целей».

Хольц сказал, что, по его мнению, такие инструменты искусственного интеллекта, как Midjourney, делают художников лучше в том, что они делают, а не делают всех профессиональными художниками. «Художник, использующий эти инструменты, всегда лучше, чем обычный человек, использующий эти инструменты. В какой-то момент может возникнуть необходимость использовать эти инструменты, потому что вы можете делать такие замечательные вещи? Я думаю да. Но сейчас, я думаю, это еще не совсем так. Но в ближайшие два года ситуация станет намного лучше».

Midjourney и DALL-E 2 привлекли больше внимания к давним опасениям по поводу того, могут ли большие модели ИИ, созданные на основе произведения, защищенного авторскими правами или конкретными лицензиями, быть согласованы с законом об авторском праве и с собственным пониманием создателей контента того, как следует относиться к их работе.

Америка, земля судебного процесса

Что касается продукции Midjourney, текущая судебная практика США отрицает возможность предоставления авторских прав на изображения, созданные ИИ. В феврале Наблюдательный совет Бюро регистрации авторских прав США отклонены [PDF] второй запрос на предоставление авторских прав на созданный компьютером ландшафт под названием «Недавний вход в рай», поскольку он был создан без участия человека.

В телефонном интервью Тайлер Очоа, профессор юридического факультета Университета Санта-Клары, сказал: Регистр, «Бюро авторских прав США заявило, что [приемлемо], если художник использует ИИ для помощи в создании произведения, если в нем задействовано некоторое человеческое творчество. Если вы просто набираете текст, а ИИ создает работу, то это явно не подлежит защите авторских прав в соответствии с действующим законодательством».

В Условиях обслуживания Midjourney говорится, что «все активы, которые вы создаете с помощью Сервисов, принадлежат вам», но компания требует от пользователей лицензии на авторское право для воспроизведения контента, созданного с помощью сервиса — необходимая мера предосторожности для размещения изображений пользователей, даже если кажется сомнительным, что эти создание изображений Midjourney просто посредством ввода текста имеет какие-либо авторские права на передачу или обеспечение соблюдения.

Так может быть не всегда. Очоа сказал, что, по его мнению, Стивен Талер, создавший «Недавний вход в рай», может захотеть оспорить отказ Бюро регистрации авторских прав от авторства на основе ИИ в суде, хотя этого еще не произошло.

Существуют также потенциальные проблемы с авторскими правами, возникающие из-за моделей ИИ, обученных на материалах, защищенных авторским правом. «Вопрос в том, будет ли справедливо использовать эти изображения для обучения и ИИ», — сказал Очоа. «И я думаю, что доводы в пользу добросовестного использования в этом контексте довольно веские».

Кроме того, существует потенциальная ответственность для тех, кто создает изображения, которые по существу аналогичны существующим материалам, защищенным авторским правом. «Если ваш тренировочный набор недостаточно велик, то, что выдает ИИ, может очень сильно походить на то, что он проглотил», — объяснил Очоа, отметив, что проблема заключается в том, является ли это нарушением авторских прав. «Косвенно, я думаю, что это очень вероятно».

Что касается потенциального правового риска для клиентов, использующих активы, созданные Midjourney, Очоа сказал, что он считает его довольно низким. Он объяснил, что если обучение модели ИИ нарушало авторские права, это было сделано до того, как был привлечен клиент. «Поэтому, если клиент каким-либо образом не спонсировал создание ИИ, я не думаю, что [клиент] будет нести ответственность за любое нарушение обучающего набора», — сказал он. «И это самое сильное утверждение здесь. Так что я думаю, что клиенты имеют достаточно твердую почву для использования этих изображений, если предположить, что они были сделаны хорошо».

Хольц признает, что правовой ситуации не хватает ясности.

«На данный момент в законе ничего не говорится о таких вещах», — сказал он. «Насколько мне известно, каждая большая модель ИИ в основном обучается на вещах, которые есть в Интернете. И это нормально, прямо сейчас. Специально законов по этому поводу нет. Возможно, в будущем будут. Но это своего рода новая область, как GPL была чем-то вроде новой юридической вещи в программировании кода. И потребовалось 20 или 30 лет, чтобы это действительно стало тем, что начинает понимать правовая система».

Хольц сказал, что, по его мнению, на данный момент более важно понять, как заинтересованные стороны относятся к этой технологии. «У нас есть много артистов, которые используют наши материалы, и мы постоянно спрашиваем их: «Вы хорошо себя чувствуете по этому поводу?», — сказал он.

Хольц сказал, что если будет достаточно неудовлетворенности статус-кво, возможно, стоит подумать о какой-то структуре оплаты в будущем для художников, чья работа идет на обучение моделей. Но он заметил, что в настоящее время трудно оценить объем взносов. «Проблема для всего подобного прямо сейчас заключается в том, что на самом деле неясно, что заставляет модели ИИ работать хорошо», — сказал он. «Если я помещу туда изображение собаки, насколько это на самом деле поможет [модели ИИ] создавать изображения собак. На самом деле неясно, какие части данных на самом деле дают [модели] какие возможности».

На вопрос, что придает Midjourney особую эстетику, Хольц ответил, что не может сравнивать то, что делает Midjourney, с DALL-E 2, но в целом исследователи ИИ обычно получают то, для чего оптимизируют. Если они добавляют слово «собака», то, вероятно, хотят изображение собаки.

«Для нас, когда мы его оптимизировали, мы хотели, чтобы он выглядел красиво, а красиво не обязательно означает реалистично. … Во всяком случае, на самом деле мы немного отклоняемся от фотографий. … Я знаю, что эту технологию можно использовать как супермашину глубокой подделки. И я не думаю, что миру нужно больше поддельных фотографий. Я действительно не хочу быть источником поддельных фотографий в мире».

«На самом деле я чувствую себя неловко, если наши вещи делают что-то похожее на фотографию. И это не значит, что мы никогда не позволим людям делать вещи более реалистичными. Существуют законные варианты использования для попытки сделать вещи более реалистичными. Однако я твердо убежден, что по умолчанию, когда кто-то использует нашу систему, она не должна делать поддельные фотографии».

«Но я действительно думаю, что миру нужно больше красоты. По сути, если я создаю что-то, что позволяет людям делать красивые вещи, а в мире есть еще более красивые вещи, это то, чего я хочу по умолчанию». ®

Отметка времени:

Больше от Регистр