OpenAI: Impossível treinar IA de alto nível e evitar direitos autorais

OpenAI: Impossível treinar IA de alto nível e evitar direitos autorais

OpenAI: Impossível treinar IA de alto nível e evitar direitos autorais PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

A OpenAI disse que seria “impossível” construir redes neurais de alto nível que atendam às necessidades atuais sem usar o trabalho das pessoas protegido por direitos autorais. O laboratório apoiado pela Microsoft, que acredita estar coletando legalmente esse conteúdo para treinar seus modelos, disse que o uso de material de domínio público sem direitos autorais resultaria em software de IA abaixo da média.

Esta afirmação surge num momento em que o mundo da aprendizagem automática está a bater de cabeça na parede de tijolos que é a lei dos direitos de autor. Ainda esta semana, um relatório do IEEE concluiu que o Midjourney e o DALL-E 3 da OpenAI, dois dos principais serviços de IA para transformar prompts de texto em imagens, podem recriar cenas protegidas por direitos autorais de filmes e videogames com base em seus dados de treinamento.

A estudo, de coautoria de Gary Marcus, especialista e crítico em IA, e Reid Southen, ilustrador digital, documenta vários casos de “resultados plágios” nos quais OpenAI e DALL-E 3 renderizam versões substancialmente semelhantes de cenas de filmes, fotos de famosos atores e conteúdo de videogame.

Marcus e Southen dizem que é quase certo que Midjourney e OpenAI treinaram seus respectivos modelos de geração de imagens de IA em material protegido por direitos autorais.

Se isso é legal e se os fornecedores de IA ou seus clientes correm o risco de serem responsabilizados, permanece uma questão controversa. No entanto, as conclusões do relatório podem apoiar aqueles que estão processando a Midjourney e a OpenAI, fabricante do DALL-E, por violação de direitos autorais.

Os usuários podem não saber, quando produzem uma imagem, se estão infringindo

“Tanto a OpenAI quanto a Midjourney são totalmente capazes de produzir materiais que parecem infringir direitos autorais e marcas registradas”, escreveram eles. “Esses sistemas não informam os usuários quando o fazem. Eles não fornecem nenhuma informação sobre a procedência das imagens que produzem. Os usuários podem não saber, quando produzem uma imagem, se estão infringindo.”

Nenhuma das empresas divulgou totalmente os dados de treinamento usados ​​para criar seus modelos de IA.

Não é apenas artistas digitais desafiando empresas de IA. O New York Times recentemente processou a OpenAI porque seu modelo de texto ChatGPT produzirá cópias quase literais dos artigos com acesso pago do jornal. Autores de livros apresentaram reivindicações semelhantes, assim como desenvolvedores de software.

Prévio pesquisa indicou que o ChatGPT da OpenAI pode ser persuadido a reproduzir o texto de treinamento. E aqueles que estão processando a Microsoft e o GitHub afirmam que o modelo de assistente de codificação do Copilot reproduzirá o código mais ou menos literalmente.

Southen observou que a Midjourney está cobrando dos clientes que criam conteúdo infrator e lucram com a receita de assinaturas. “Os usuários do MJ [Midjourney] não precisam vender as imagens para que potencialmente ocorra violação de direitos autorais, MJ já lucra com sua criação”, ele opinou, ecoando um argumento apresentado no relatório do IEEE.

A OpenAI também cobra uma taxa de assinatura e, portanto, lucra da mesma forma. Nem a OpenAI nem a Midjourney responderam aos pedidos de comentários.

No entanto, a OpenAI publicou na segunda-feira um no blog abordando o processo do New York Times, que o vendedor de IA disse não ter mérito. Surpreendentemente, o laboratório disse que se suas redes neurais gerassem conteúdo infrator, isso seria um “bug”.

No total, a novata argumentou hoje que: Colabora ativamente com organizações de notícias; o treinamento em dados protegidos por direitos autorais qualifica-se para a defesa do uso justo sob a lei de direitos autorais; “‘regurgitação’ é um bug raro que estamos trabalhando para reduzir a zero”; e o New York Times escolheu exemplos de reprodução de texto que não representam um comportamento típico.

A lei decidirá

Tyler Ochoa, professor do departamento jurídico da Universidade de Santa Clara, na Califórnia, disse O registro que embora as conclusões do relatório do IEEE possam ajudar os litigantes com reivindicações de direitos de autor, não o deveriam fazer – porque os autores do artigo, na sua opinião, deturparam o que está a acontecer.

“Eles escrevem: ‘Os modelos de geração de imagens podem ser induzidos a produzir resultados plágios baseados em materiais protegidos por direitos autorais? … [Descobrimos] que a resposta é claramente sim, mesmo sem solicitar diretamente resultados de plágio.'”

Ochoa questionou essa conclusão, argumentando que as instruções inseridas pelos autores do relatório “demonstram que estão, de fato, solicitando diretamente resultados plágios. Cada prompt menciona o título de um filme específico, especifica a proporção e, em todos os casos, exceto um, as palavras 'filme' e 'captura de tela' ou 'captura de tela'. (A única exceção descreve a imagem que eles queriam replicar. )”

O professor de direito disse que a questão da lei de direitos autorais é determinar quem é o responsável por esses resultados plágios: os criadores do modelo de IA ou as pessoas que solicitaram ao modelo de IA para reproduzir uma cena popular.

“O modelo generativo de IA é capaz de produzir resultados originais e também de reproduzir cenas que se assemelham a cenas de entradas protegidas por direitos autorais quando solicitado”, explicou Ochoa. “Isso deve ser analisado como um caso de infração contributiva: a pessoa que deu origem ao modelo é o infrator principal, e os criadores do modelo são responsáveis ​​apenas se tiverem conhecimento da infração primária e não tomarem medidas razoáveis ​​para impedir isto."

Ochoa disse que os modelos generativos de IA têm maior probabilidade de reproduzir imagens específicas quando há múltiplas instâncias dessas imagens em seu conjunto de dados de treinamento.

“Neste caso, é altamente improvável que os dados de treinamento incluíssem filmes inteiros; é muito mais provável que os dados de treinamento incluíssem imagens estáticas dos filmes que foram distribuídas como imagens publicitárias do filme”, disse ele. “Essas imagens foram reproduzidas diversas vezes nos dados de treinamento porque os meios de comunicação foram incentivados a distribuir essas imagens para fins publicitários e o fizeram.

“Seria fundamentalmente injusto para um proprietário de direitos autorais encorajar a ampla disseminação de imagens estáticas para fins publicitários e depois reclamar que essas imagens estão sendo imitadas por uma IA porque os dados de treinamento incluíam múltiplas cópias dessas mesmas imagens.”

Ochoa disse que existem medidas para limitar tal comportamento nos modelos de IA. “A questão é se eles deveriam ter que fazer isso, quando a pessoa que digitou o prompt claramente queria que a IA reproduzisse uma imagem reconhecível, e os estúdios de cinema que produziram as imagens estáticas originais claramente queriam que essas imagens estáticas fossem amplamente distribuídas. ," ele disse.

“Uma pergunta melhor seria: com que frequência isso acontece quando a mensagem não menciona um filme específico ou descreve um personagem ou cena específica? Acho que um pesquisador imparcial provavelmente descobriria que a resposta é raramente (talvez quase nunca).”

No entanto, o conteúdo protegido por direitos autorais parece ser um combustível essencial para o bom funcionamento desses modelos.

OpenAI se defende dos Lordes

Em resposta aos um inquérito sobre os riscos e oportunidades dos modelos de IA pelo Comitê Digital e de Comunicações da Câmara dos Lordes do Reino Unido, a OpenAI apresentou um submissão [PDF] avisando que seus modelos não funcionarão sem treinamento em conteúdo protegido por direitos autorais.

“Como os direitos autorais hoje cobrem praticamente todo tipo de expressão humana – incluindo postagens em blogs, fotografias, postagens em fóruns, fragmentos de código de software e documentos governamentais – seria impossível treinar os principais modelos de IA da atualidade sem usar materiais protegidos por direitos autorais”, disse o superlaboratório. .

“Limitar os dados de formação a livros e desenhos de domínio público criados há mais de um século poderia render uma experiência interessante, mas não forneceria sistemas de IA que atendessem às necessidades dos cidadãos de hoje.”

A AI biz disse acreditar que cumpre a lei de direitos autorais e que o treinamento em material protegido por direitos autorais é legal, embora permita que “ainda haja trabalho a ser feito para apoiar e capacitar os criadores”.

Esse sentimento, que soa como um reconhecimento diplomático de preocupações éticas sobre a compensação pelo discutível uso justo de trabalho protegido por direitos autorais, deveria ser considerado em conjunto com a afirmação do relatório do IEEE de que “descobrimos evidências de que um engenheiro de software sênior da Midjourney participou de uma conversa em fevereiro de 2022 sobre como contornar a lei de direitos autorais ‘lavando’ dados ‘por meio de um códice bem ajustado’”.

Marcus, coautor do relatório IEEE, expressou ceticismo em relação ao esforço da OpenAI para obter luz verde regulatória no Reino Unido para suas práticas comerciais atuais.

“Tradução aproximada: não ficaremos fabulosamente ricos se você não nos deixar roubar, então, por favor, não faça do roubo um crime!” ele escreveu em uma mídia social postar. “Não nos faça pagar licenciamento taxas também! Claro que a Netflix pode pagar bilhões por ano em taxas de licenciamento, mas we não deveria! Mais dinheiro para nós, moar!

OpenAI se ofereceu para indenizar clientes corporativos ChatGPT e API contra reivindicações de direitos autorais, embora não se o cliente ou os usuários finais do cliente “sabia ou deveria saber que o Resultado estava violando ou provavelmente violaria” ou se o cliente ignorou os recursos de segurança, entre outras limitações. Assim, pedir ao DALL-E 3 para recriar uma cena de filme famosa – que os usuários devem saber que provavelmente está protegida por direitos autorais – não se qualificaria para indenização.

Midjourney adotou a abordagem oposta, prometendo caçar e processar clientes envolvidos em infrações para recuperar custos legais decorrentes de reclamações relacionadas.

“Se você infringir conscientemente a propriedade intelectual de outra pessoa, e isso nos custar dinheiro, iremos procurá-lo e cobrar esse dinheiro de você”, disse Midjourney. Termos de Serviço estado. “Também podemos fazer outras coisas, como tentar conseguir que um tribunal obrigue você a pagar nossos honorários advocatícios. Não faça isso. ®

Carimbo de hora:

Mais de O registro