Por que o processo de direitos autorais de IA do New York Times será difícil de defender

Por que o processo de direitos autorais de IA do New York Times será difícil de defender

Por que o processo de direitos autorais de IA do New York Times será complicado para defender a inteligência de dados PlatoBlockchain. Pesquisa vertical. Ai.

The New York Times' (NYT) procedimentos legais contra a OpenAI e a Microsoft abriu uma nova fronteira nos atuais desafios legais trazidos pelo uso de dados protegidos por direitos autorais para “treinar” ou melhorar a IA generativa.

Já existem vários processos judiciais contra empresas de IA, incluindo um movido por Getty Images contra IA de estabilidade, que torna o gerador de texto para imagem online Stable Diffusion. Os autores George RR Martin e John Grisham também abriram processos judiciais contra o proprietário do ChatGPT, OpenAI, por reivindicações de direitos autorais. Mas o caso do NYT não é “mais do mesmo” porque acrescenta novos argumentos interessantes à mistura.

A ação judicial se concentra em o valor dos dados de formação e uma nova questão relativa aos danos à reputação. É uma combinação poderosa de marcas registradas e direitos autorais que pode testar as defesas de uso justo normalmente utilizadas.

Será, sem dúvida, observado de perto pelas organizações de comunicação social que procuram desafiar a abordagem habitual “vamos pedir perdão, não permissão” aos dados de formação. Os dados de treinamento são usados ​​para melhorar o desempenho dos sistemas de IA e geralmente consistem em informações do mundo real, muitas vezes extraídas da Internet.

O processo também apresenta um argumento novo – não apresentado por outros casos semelhantes – que está relacionado a algo chamado “alucinações”, onde os sistemas de IA geram informações falsas ou enganosas, mas as apresentam como fatos. Este argumento poderia de fato ser um dos mais poderosos do caso.

O caso do NYT, em particular, levanta três abordagens interessantes sobre a abordagem habitual. Primeiro, devido à sua reputação de notícias e informações confiáveis, o conteúdo do NYT aumentou o valor e a conveniência como dados de treinamento para uso em IA.

Em segundo lugar, devido ao acesso pago do NYT, a reprodução de artigos mediante solicitação é comercialmente prejudicial. Terceiro, que ChatGPT alucinações estão causando danos à reputação do New York Times através, efetivamente, de falsas atribuições.

Esta não é apenas mais uma disputa generativa de direitos autorais de IA. O primeiro argumento apresentado pelo NYT é que os dados de treinamento utilizados pela OpenAI são protegidos por direitos autorais, e por isso afirmam que a fase de treinamento do ChatGPT violou os direitos autorais. Vimos esse tipo de argumento correr antes em outras disputas.

Uso justo?

O desafio deste tipo de ataque é a escudo de uso justo. Nos EUA, o uso justo é uma doutrina legal que permite o uso de material protegido por direitos autorais em determinadas circunstâncias, como em reportagens, trabalhos acadêmicos e comentários.

Resposta da OpenAI até agora tem sido muito cauteloso, mas um princípio fundamental num comunicado divulgado pela empresa é que o uso de dados online se enquadra de fato no princípio do “uso justo”.

Antecipando algumas das dificuldades que tal defesa do uso justo poderia potencialmente causar, o NYT adoptou um ângulo ligeiramente diferente. Em particular, procura diferenciar os seus dados dos dados padrão. O NYT pretende usar o que afirma ser a precisão, a confiabilidade e o prestígio de suas reportagens. Alega que isto cria um conjunto de dados particularmente desejável.

Argumenta que, como fonte respeitável e confiável, seus artigos têm peso e confiabilidade adicionais no treinamento de IA generativa e fazem parte de um subconjunto de dados que recebe peso adicional nesse treinamento.

Argumenta que, ao reproduzir amplamente os artigos mediante solicitação, o ChatGPT é capaz de negar o NYT, que tem acesso pago, visitantes e receitas que de outra forma receberia. Esta introdução de algum aspecto da concorrência comercial e da vantagem comercial parece ter a intenção de evitar a habitual defesa do uso justo comum a estas reivindicações.

Será interessante ver se a afirmação de uma ponderação especial nos dados de treino tem impacto. Se o fizer, abrirá caminho para que outras organizações de comunicação social contestem a utilização das suas reportagens nos dados de formação sem autorização.

O elemento final da afirmação do NYT apresenta um novo ângulo para o desafio. Isso sugere que estão sendo causados ​​danos à marca do NYT por meio do material que o ChatGPT produz. Embora quase apresentada como uma reflexão tardia na reclamação, ainda pode ser a afirmação que causa mais dificuldades à OpenAI.

Este é o argumento relacionado às alucinações de IA. O NYT argumenta que isso é agravado porque o ChatGPT apresenta as informações como provenientes do NYT.

O jornal sugere ainda que o consumidor possa agir com base no resumo fornecido pelo ChatGPT, pensando que a informação vem do NYT e é confiável. O dano à reputação é causado porque o jornal não tem controle sobre o que o ChatGPT produz.

Este é um desafio interessante para concluir. A alucinação é um problema reconhecido nas respostas geradas pela IA, e o NYT argumenta que o dano à reputação pode não ser fácil de corrigir.

A alegação do NYT abre uma série de novas linhas de ataque que mudam o foco dos direitos autorais para a forma como os dados protegidos por direitos autorais são apresentados aos usuários pelo ChatGPT e o valor desses dados para o jornal. Isso é muito mais complicado para a OpenAI defender.

Este caso será observado de perto por outros editores de mídia, especialmente aqueles por trás de acessos pagos, e com particular atenção à forma como interage com a defesa usual do uso justo.

Se o conjunto de dados do NYT for reconhecido como tendo o “valor acrescido” que afirma ter, poderá abrir caminho para a monetização desse conjunto de dados na formação de IA, em vez da abordagem de “perdão, não permissão” hoje prevalecente.

Este artigo foi republicado a partir de A Conversação sob uma licença Creative Commons. Leia o artigo original.

Crédito de imagem: Visão Absoluta / Unsplash 

Carimbo de hora:

Mais de Singularity Hub