Gigantes da tecnologia evitam perguntas sobre regras de direitos autorais do LLM

Gigantes da tecnologia evitam perguntas sobre regras de direitos autorais do LLM

Gigantes da tecnologia evitam perguntas sobre as regras de direitos autorais do LLM PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

No Parlamento do Reino Unido esta semana, a Microsoft e a Meta evitaram a questão de saber se os criadores deveriam ser pagos quando o seu material protegido por direitos autorais é usado para treinar grandes modelos de linguagem.

Os titãs da tecnologia, com receitas combinadas bem superiores a 200 mil milhões de dólares, estavam a ser grelhado pelo Comitê Digital e de Comunicações da Câmara dos Lordes quando a questão dos direitos autorais entrou em foco.

Em setembro, o Authors' Guild, uma associação comercial de escritores publicados, e 17 autores entrou com uma ação coletiva nos EUA sobre o uso de seu material pela OpenAI para criar seus serviços baseados em LLM.

Desde então, o CEO da OpenAI, Sam Altman, disse que a empresa cobriria os custos legais de seus clientes em processos de violação de direitos autorais, em vez de remover o material de seus conjuntos de treinamento.

A Microsoft tem investido US$ 13 bilhões em OpenAI. Possui uma parceria estendida com o desenvolvedor de aprendizado de máquina, alimentando suas cargas de trabalho na plataforma de nuvem Azure e usando seus modelos para executar o assistente automatizado Copilot.

Falando ontem aos Lordes, Owen Larter, diretor de políticas públicas do Office of Responsible AI da Microsoft, disse: “É importante compreender o que é um grande modelo de linguagem. É um grande modelo treinado em dados de texto, aprendendo as associações entre diferentes ideias. Não está necessariamente sugando nada por baixo.”

Ele disse que deveria haver uma “estrutura” para fornecer alguma proteção para material protegido por direitos autorais e que a Microsoft assumiria a responsabilidade por qualquer violação por seus sistemas baseados em LLM. Mas ele também disse que a Microsoft apoia o recente Relatório de valência na lei de IA “pró-inovação” no Reino Unido, que defende exceções de texto e dados em modelos de treinamento.

Mas Donald Michael, Lord Foster de Bath, pressionou Larter sobre se ele aceitaria que, se uma empresa usasse material protegido por direitos autorais para construir um LLM com fins lucrativos, o proprietário dos direitos autorais deveria ser reembolsado.

O diretor da Microsoft disse: “É realmente importante entender que você precisa treinar esses grandes modelos de linguagem em grandes conjuntos de dados se quiser que eles funcionem de maneira eficaz, se quiser permitir que eles sejam seguros e protegidos… Existem também algumas questões de concorrência [para garantir] que o treinamento de grandes modelos esteja disponível para todos. Se você for longe demais em um caminho onde é muito difícil obter dados para treinar modelos, então, de repente, a capacidade de fazer isso será reservada apenas a empresas muito grandes.”

O litígio já está em andamento para abordar como os conjuntos de dados de treinamento Livros1, Books2 e Books3, que efetivamente pirateiam material protegido por direitos autorais, têm sido usados ​​para ajudar a construir LLMs populares.

Meta está por trás do Lhama 2 LLM, que escala até 70 bilhões de parâmetros. A gigante das redes sociais promoveu o modelo como código aberto, embora os puristas do FOSS apontem para algumas ressalvas na sua abordagem.

Falando aos Lordes, Rob Sherman, vice-presidente e vice-diretor de política de privacidade da Meta, disse que a empresa cumpriria a lei.

Mas acrescentou que “manter o amplo acesso à informação na Internet e à informação, inclusive para utilização em inovações como esta, é muito importante. Apoio a concessão aos titulares de direitos da capacidade de gerir a forma como as suas informações são utilizadas.

“Sou um pouco cauteloso quanto à ideia de forçar as empresas que estão a construir IA a celebrar acordos personalizados com detentores de direitos individuais ou a uma ordem de pagamento por conteúdo que não tem valor económico para eles.”

Na semana passada, Dan Conway, CEO da Associação de Editores do Reino Unido, disse ao comitê que grandes modelos de linguagem estavam infringindo conteúdo protegido por direitos autorais em “escala absolutamente massiva”.

“Sabemos disso na indústria editorial por causa do banco de dados Books3, que lista 120,000 mil títulos de livros piratas, que sabemos terem sido ingeridos por grandes modelos de linguagem”, disse ele. “Sabemos que o conteúdo está sendo ingerido em escala absolutamente massiva por grandes modelos de linguagem. Os LLMs infringem os direitos autorais em várias partes do processo em termos de quando coletam essas informações, como as armazenam e como as tratam. A lei de direitos autorais está sendo violada em grande escala.”

Na mesma audiência, a Dra. Hayleigh Bosher, leitora de direito de propriedade intelectual na Brunel University London, disse que não representava empresas de tecnologia ou criadores de conteúdo e ofereceu uma perspectiva neutra.

“O princípio de quando você precisa de uma licença e quando não precisa é claro”, disse ela, “e fazer uma reprodução de uma obra protegida por direitos autorais sem permissão exigiria uma licença ou seria uma violação. É isso que a IA faz em diferentes etapas do processo: a ingestão, a execução do programa e, potencialmente, até mesmo a saída.

“Alguns desenvolvedores de IA e tecnologia estão defendendo uma interpretação diferente da lei. Não represento nenhum desses lados. Sou um especialista em direitos autorais e, da minha posição, entendendo o que os direitos autorais devem alcançar e como eles o alcançam, você precisaria de uma licença para essa atividade.” ®

Carimbo de hora:

Mais de O registro