David Holz, fundador do gerador de arte de IA Midjourney, sobre o futuro da geração de imagens PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

David Holz, fundador do gerador de arte de IA Midjourney, sobre o futuro da imagem

Interview Em 2008, David Holz co-fundou uma empresa de periféricos de hardware chamada Leap Motion. Ele a administrou até o ano passado, quando saiu para criar a Midjourey.

Meio da jornada em sua forma atual, é uma rede social para criar arte gerada por IA a partir de um prompt de texto - digite uma palavra ou frase no prompt de entrada e você receberá uma imagem interessante ou talvez maravilhosa na tela após cerca de um minuto de computação. É semelhante em alguns aspectos ao OpenAI DALL-E2.

Imagem no meio da jornada do céu e nuvens, usando o prompt de texto “Toda essa beleza inútil”. Fonte: gerado por Meio da jornada

Ambos são o resultado de grandes modelos de IA treinados em um grande número de imagens. Mas Midjourney tem seu próprio estilo distinto, como pode ser visto este tópico do Twitter. Ambos nos últimos dias entraram em testes beta públicos (embora o acesso DALL-E 2 esteja sendo expandido lentamente).

A capacidade de criar imagens de alta qualidade a partir de modelos de IA usando entrada de texto se tornou uma atividade popular no ano passado após o lançamento do OpenAI CLIP (Contrastive Language–Image Pre-training), que foi projetado para avaliar o quão bem as imagens geradas se alinham com as descrições de texto. Após seu lançamento, artista Ryan Murdock (@advadnoun no Twitter) descobriu que o processo pode ser revertido – fornecendo entrada de texto, você pode obter saída de imagem com a ajuda de outros modelos de IA.

Depois disso, a comunidade de arte generativa embarcou em um período de exploração febril, publicando código Python para criar imagens usando uma variedade de modelos e técnicas.

“Em algum momento do ano passado, vimos que havia certas áreas de IA que estavam progredindo de maneiras realmente interessantes”, explicou Holz em entrevista ao O registro. “Um deles foi a capacidade da IA ​​de entender a linguagem.”

Holz apontou para desenvolvimentos como transformadores, um modelo de aprendizado profundo que informa o CLIP e modelos de difusão, uma alternativa aos GANs. “O que realmente chamou minha atenção pessoalmente foi a difusão guiada pelo CLIP”, disse ele, desenvolvido por Katherine Crawson (conhecida no Twitter como @RiversHaveWings).

Não o homem estereotipado da Flórida

Holz cresceu na Flórida e teve um negócio de design no ensino médio, onde estudou matemática e física. Ele estava trabalhando em um doutorado em matemática aplicada e tirou uma licença em 2008 para iniciar a Leap Motion. No ano seguinte, ele passou um ano como estudante pesquisador no Instituto Max Planck, seguido por dois anos no NASA Langley Research Center como estudante de pós-graduação, trabalhando em LiDAR, missões a Marte e ciência atmosférica.

“Eu estava tipo, por que estou trabalhando em todas essas coisas?” ele explicou. “Eu só quero trabalhar em uma coisa legal com a qual eu me importo.”

Então ele se concentrou na Leap Motion, que desenvolveu um dispositivo de hardware para rastrear o movimento da mão e usá-lo para entrada do dispositivo. Ele dirigiu a empresa por doze anos e, quando saiu, empregava cerca de 100 pessoas.

Midjourney, ele disse, é bem pequeno agora. “Somos cerca de 10 pessoas”, explicou. “Somos autofinanciados. Não temos investidores. Nós não estamos realmente motivados financeiramente. Estamos apenas aqui para trabalhar em coisas pelas quais somos apaixonados e nos divertir. E estávamos trabalhando em muitos projetos diferentes.”

Holz disse que o aspecto tecnológico da IA ​​e até que ponto ela melhorará é bastante fácil de prever. “Mas as ramificações humanas disso são tão difíceis de imaginar”, disse ele. “Há algo aqui que está na interseção entre humanidade e tecnologia. Para realmente descobrir o que é isso e o que deveria ser, realmente precisamos fazer muitos experimentos.”

O caminho pela frente

A natureza instável da tecnologia de imagem de IA é evidente na diferença entre ferramentas como Midjourney e um aplicativo gráfico de código aberto para download como o Blender, ou um aplicativo comercial instalado localmente como o Adobe Photoshop (antes de se tornar um serviço em nuvem).

Midjourney existe em um contexto social. Seu front-end é o serviço de bate-papo Discord. Novos usuários fazem login no servidor Midjourney do Discord e podem enviar prompts de texto para gerar imagens junto com vários outros usuários em qualquer um dos vários canais para iniciantes.

As imagens resultantes para todos os usuários desse canal aparecem em cerca de um minuto, o que ajuda a reforçar a noção de comunidade. Aqueles que decidem atualizar para uma assinatura de $ 10/mês ou $ 30/mês podem enviar texto para o bot Midjourney no aplicativo Discord como uma mensagem direta privada e receber imagens em resposta sem a cascata de interação de outros usuários em um público canal. As imagens geradas, no entanto, permanecem publicamente visíveis por padrão.

Como um aplicativo social, o Midjourney está sujeito a regras sobre conteúdo permitido – algo com o qual os usuários do Blender ou outros aplicativos instalados localmente não precisam se preocupar. Os Termos de Serviço da Midjourney declaram: “Nenhum conteúdo adulto ou sangue. Evite criar conteúdo visualmente chocante ou perturbador. Vamos bloquear algumas entradas de texto automaticamente.”

DALL-E 2 está sujeito a limitações semelhantes, embora mais extensas, conforme descrito em seu Política de Conteúdo.

“Acho que se vivêssemos em um mundo que não tivesse mídia social, não precisaríamos ter restrições”, disse Holz. “…Quando o Photoshop foi inventado, houve na verdade a imprensa sobre isso, onde era como, 'oh, você pode fingir qualquer coisa e é um pouco assustador.' [Mas agora], é muito mais lucrativo ser sensacionalista do que era antes.”

“Hoje em dia, qualquer um pode ser sensacionalista e basicamente lucrar com isso, você sabe”, disse Holz. “E então o que isso faz é criar um mercado para drama e sensacionalismo. É por isso que acho que temos que ser um pouco mais cuidadosos, porque em algum momento, o que as pessoas vão fazer é dizer, 'ok, eu posso fazer fotos disso, qual é a coisa mais dramática, ofensiva e horrível que eu pode fazer?'"

Sem respostas fáceis

Holz admite que há coisas que as plataformas sociais podem fazer para mitigar esses problemas, mas diz que não há respostas simples. “Infelizmente, não há uma maneira clara de lidar com isso, exceto como sociedade, para recompensar menos o sensacionalismo”, disse ele. “No entanto, minha impressão é que ninguém está realmente tentando mudar as plataformas sociais para reduzir o sensacionalismo, porque isso lhes dá dinheiro agora.”

Além disso, disse ele, como Midjourney pretende ser um espaço social para maiores de 13 anos, é necessário ter regras contra conteúdo extremo ou gráfico.

“Nós realmente não queremos ter espaços segmentados para pessoas que gostam de fazer cadáveres ou gostam de fotos nuas”, explicou Holz. “Nós simplesmente não queremos ter que lidar com isso. Não achamos que temos uma obrigação moral de fazer isso neste estágio. Queremos um belo espaço social para as pessoas fazerem coisas juntas e não se ofenderem, basicamente, e se sentirem seguras.”

Para isso, a empresa conta com cerca de 40 moderadores de olho nas imagens que os usuários criam.

O aspecto social do Midjourney recentemente começou a melhorar a qualidade da imagem. Holz disse que os engenheiros da empresa introduziram recentemente a versão três de seu software, que pela primeira vez incorporou um ciclo de feedback baseado na atividade e resposta do usuário.

"Se você olhar para as coisas da v3, há uma grande melhoria", disse ele. “É incrivelmente melhor e nós não colocamos mais arte nele. Nós apenas pegamos os dados sobre quais imagens os usuários gostaram e como eles estavam usando. E isso realmente o tornou melhor.”

Questionado sobre a pilha de tecnologia de Midjourney, Holz hesitou. “Em algum momento, provavelmente faremos um comunicado à imprensa especificamente sobre quais fornecedores estamos usando”, disse ele. “O que posso dizer é que temos esses grandes modelos de IA com bilhões de parâmetros. Eles são treinados em bilhões de imagens.”

Holz diz que os usuários estão fazendo milhões e milhões de imagens todos os dias, e fazendo isso usando provedores de computação de energia verde - o que realmente não restringe o campo dos principais provedores de computação em nuvem, pois todos afirmam ser pelo menos neutros em carbono.

“Toda imagem está levando petaops”, disse ele, um termo que significa 10^15 operações por segundo. “Então, milhares de trilhões de operações. Não sei exatamente se são cinco ou 1000 ou 10. Mas são milhares de trilhões de operações para fazer uma imagem. É provavelmente o mais caro… se você ligar para Midjourney, um serviço – como você chamaria de serviço ou produto – sem dúvida, nunca houve um serviço antes em que uma pessoa comum estivesse usando tanta computação.”

Mantendo-nos em comida e roupas

No entanto, a Midjourney não está no caminho de fazer upselling de clientes trazidos por um serviço gratuito para níveis pagos e, em seguida, atrair clientes corporativos bem pagos antes de abrir o capital ou ser adquirido.

“Não somos como uma startup que levanta muito dinheiro e depois não tem certeza de qual é seu negócio ou produto e perde dinheiro por muito tempo”, disse Holz. “Somos como um laboratório de pesquisa autofinanciado. Podemos perder algum dinheiro. Não temos US$ 100 milhões do dinheiro de outra pessoa para perder. Para ser honesto, já somos lucrativos e estamos bem.”

“É um modelo de negócios bastante simples, ou seja, as pessoas gostam de usá-lo? Então, se o fizerem, eles terão que pagar o custo de usá-lo, porque o custo bruto é realmente muito caro. E então adicionamos uma porcentagem em cima disso, o que esperamos que seja suficiente para nos alimentar e nos abrigar. E então é isso que estamos fazendo.”

Quanto ao futuro, o dimensionamento pode ser um problema. Holz disse que Midjourney atualmente tem centenas de milhares de pessoas usando o serviço, que requer algo como 10,000 servidores.

“Se houvesse 10 milhões de pessoas tentando usar uma tecnologia como essa”, disse ele, “na verdade, não haveria computadores suficientes. Não há um milhão de servidores gratuitos para fazer IA no mundo. Acho que o mundo ficará sem computadores antes que a tecnologia chegue a todos que queiram usá-la.”

Para que as pessoas estão usando? Bem, se você estiver conectado a uma conta Midjourney, poderá ver o que as pessoas estão criando por meio do Feed da comunidade página. É um fluxo constante de imagens interessantes, muitas vezes surpreendentemente boas.

“A maioria das pessoas está apenas se divertindo”, disse Holz. “Acho que isso é o mais importante porque não é realmente sobre arte, é sobre imaginação.”

Ser profissional

Mas para cerca de 30% dos usuários, é profissional. Holz disse que muitos artistas gráficos usam Midjourney como parte de seu fluxo de trabalho de desenvolvimento de conceito. Eles geram algumas variações de uma ideia e a apresentam aos clientes para ver qual direção eles devem seguir.

“Os profissionais estão usando isso para turbinar seu processo criativo ou de comunicação”, explicou Holz. “E então muitas pessoas estavam apenas brincando com isso.”

Talvez 20% das pessoas usem Midjourney para o que Holz descreve como arteterapia. Por exemplo, criar imagens de cães após a morte do cão. "Eles estão usando isso como uma ferramenta de reflexão emocional e intelectual", disse ele. “E isso é muito legal.”

Holz não gosta da ideia de usar Midjourney para criar fotografias falsas. “Usá-lo editorialmente para criar fotos falsas é extremamente perigoso”, disse ele. “Ninguém deveria fazer isso.” Mas ele está mais aberto a Midjourney como fonte de ilustração comercial, observando que The Economist publicou um gráfico Midjourney em sua capa em junho.

“Só recentemente permitimos que as pessoas o usassem comercialmente”, disse Holz. “Durante muito tempo, era apenas não comercial. E então uma das coisas que estamos fazendo é que estamos apenas observando, o que as pessoas estão fazendo, e podemos decidir que não estamos confortáveis ​​com isso e então vamos colocar uma regra dizendo que você não pode mais usá-lo apenas para essas coisas.”

Holz disse que vê ferramentas de IA como o Midjourney tornando os artistas melhores no que fazem, em vez de tornar todos artistas profissionais. “Um artista usando essas ferramentas é sempre melhor do que uma pessoa comum usando essas ferramentas. Em algum momento, pode haver pressão para usar essas ferramentas porque você pode fazer coisas tão boas? Acho que sim. Mas agora, eu não acho que está lá ainda. Mas vai ficar surpreendentemente melhor nos próximos dois anos.”

Midjourney e DALL-E 2 chamaram mais atenção para preocupações de longa data sobre se grandes modelos de IA, criados a partir do trabalho sob direitos autorais ou licenças específicas, podem ser reconciliados com a lei de direitos autorais e com o próprio senso dos criadores de conteúdo de como seu trabalho deve ser tratado.

América, terra do processo

Em termos de produção de Midjourney, a atual jurisprudência dos EUA nega a possibilidade de conceder direitos autorais a imagens geradas por IA. Em fevereiro, o Conselho de Revisão do Escritório de Direitos Autorais dos EUA rejeitado [PDF] um segundo pedido para conceder direitos autorais a uma paisagem gerada por computador intitulada “Uma entrada recente para o paraíso” porque foi criada sem autoria humana.

Em uma entrevista por telefone, Tyler Ochoa, professor do departamento de Direito da Universidade de Santa Clara, disse O registro, “O Escritório de Direitos Autorais dos EUA disse que é [aceitável] que um artista use IA para ajudá-lo a criar um trabalho, desde que haja alguma criatividade humana envolvida. Se é simplesmente você digitando um texto e a IA gera um trabalho, isso claramente não está sujeito à proteção de direitos autorais sob a lei atual.”

Os Termos de Serviço da Midjourney declaram que "você possui todos os Ativos que você cria com os Serviços", mas a empresa exige uma licença de direitos autorais dos usuários para reproduzir o conteúdo criado com o serviço - uma precaução necessária para hospedar imagens dos usuários, mesmo que pareça duvidoso que esses fazer imagens de Midjourney simplesmente por meio de entrada de texto tem quaisquer direitos autorais para transmitir ou fazer cumprir.

Isso pode não ser sempre o caso. Ochoa disse que acredita que Steven Thaler, que criou “A Recent Entrance to Paradise”, pode querer contestar a rejeição do Copyright Office à autoria baseada em IA no tribunal, embora isso ainda não tenha acontecido.

Há também possíveis preocupações com direitos autorais decorrentes de modelos de IA treinados em material protegido por direitos autorais. “A questão é se seria ou não um uso justo usar essas imagens para treinamento e IA”, disse Ochoa. “E acho que o uso justo nesse contexto é bastante forte.”

Além disso, há responsabilidade potencial para aqueles que geram imagens que são substancialmente semelhantes ao material protegido por direitos autorais existente. “Se o seu conjunto de treinamento não for grande o suficiente, o que a IA cospe pode parecer muito com o que ela ingeriu”, explicou Ochoa, observando que o problema é se isso é uma violação de direitos autorais. “Indiretamente, acho muito provável que seja.”

Quanto ao potencial risco legal para clientes que usam ativos gerados pela Midjourney, Ochoa disse que acha bastante baixo. Se o treinamento de um modelo de IA infringiu direitos autorais, isso foi feito antes que o cliente estivesse envolvido, explicou ele. “Então, a menos que o cliente tenha patrocinado a criação da IA ​​de alguma forma, não acho que [o cliente] seria responsável por qualquer violação do conjunto de treinamento”, disse ele. “E essa é a afirmação mais forte aqui. Então, acho que os clientes estão em um terreno bastante sólido ao usar essas imagens, supondo que foi bem feito.”

Holz reconhece que a situação jurídica carece de clareza.

"No momento, a lei realmente não tem nada sobre esse tipo de coisa", disse ele. “Que eu saiba, todo grande modelo de IA é basicamente treinado em coisas que estão na internet. E tudo bem, agora. Não há leis específicas sobre isso. Talvez no futuro, haverá. Mas é uma área nova, como se a GPL fosse uma coisa legal nova em torno do código de programação. E levou 20 ou 30 anos para que realmente se tornasse algo que o sistema jurídico está começando a descobrir.”

Holz disse acreditar que é mais importante no momento entender como as partes interessadas se sentem em relação a essa tecnologia. “Temos muitos artistas que usam nossas coisas, e estamos constantemente checando com eles, 'você se sente bem com isso?'”, disse ele.

Holz disse que se houver insatisfação suficiente com o status quo, pode valer a pena pensar em algum tipo de estrutura de pagamento no futuro para artistas cujo trabalho vai para modelos de treinamento. Mas ele observou que avaliar a extensão das contribuições é difícil atualmente. “O desafio para qualquer coisa assim agora é que não está realmente claro o que está fazendo os modelos de IA funcionarem bem”, disse ele. “Se eu colocar uma foto de um cachorro lá, quanto isso realmente ajuda [o modelo de IA] a fazer fotos de cachorros. Na verdade, não está claro quais partes dos dados estão realmente dando [ao modelo] quais habilidades.”

Questionado sobre o que dá a Midjourney sua estética distinta, Holz disse que não poderia realmente comparar o que Midjourney está fazendo com DALL-E 2, mas que, em geral, os pesquisadores de IA tendem a obter o que otimizam. Se eles colocarem a palavra “cachorro”, provavelmente querem uma foto de um cachorro.

“Para nós, estávamos quando estávamos otimizando, queríamos que ficasse bonito, e bonito não significa necessariamente realista. … Se alguma coisa, na verdade, nós tendemos um pouco para longe das fotos. … Eu sei que essa tecnologia pode ser usada como uma supermáquina falsa e profunda. E não acho que o mundo precise de mais fotos falsas. Eu realmente não quero ser uma fonte de fotos falsas no mundo.”

“Na verdade, eu me sinto desconfortável se nossas coisas fazem algo que parece uma foto. E isso não quer dizer que nunca deixaremos as pessoas fazerem coisas mais realistas. Existem casos de uso legítimos para tentar tornar as coisas mais realistas. No entanto, sinto fortemente que, por padrão, quando alguém usa nosso sistema, não deve fazer uma foto falsa.”

“Mas acho que o mundo precisa de mais beleza. Basicamente, se eu criar algo que permita que as pessoas façam coisas bonitas, e há coisas mais bonitas no mundo, é isso que eu quero por padrão.” ®

Carimbo de hora:

Mais de O registro