Autores abrem processo de direitos autorais para torpedear o NeMo da Nvidia

Autores abrem processo de direitos autorais para torpedear o NeMo da Nvidia

Os autores abrem processo de direitos autorais para torpedear o NeMo PlatoBlockchain Data Intelligence da Nvidia. Pesquisa vertical. Ai.

A Nvidia é a mais recente gigante da tecnologia a enfrentar alegações de que usou obras protegidas por direitos autorais para treinar modelos de IA sem obter a permissão dos autores.

Uma ação de classe proposta ação judicial [PDF] movido contra o supremo da GPU em São Francisco na sexta-feira, 8 de março, afirma que a empresa usou material protegido por direitos autorais para treinar grandes modelos de linguagem na biblioteca Megatron para seu Estrutura de IA generativa NeMo.

A denúncia foi apresentada por três autores, Abdi Nazemian, Brian Keene e Stewart O'Nan, que afirmam que os livros que escreveram estavam entre o material usado para treinar os LLMs Megatron.

A partir do processo judicial, parece que a Nvidia não é acusada de copiar abertamente o trabalho dos próprios autores, mas sim de usar um conjunto de dados para treinar os modelos Megatron que eram conhecidos por conter uma série de trabalhos protegidos por direitos autorais não licenciados.

A ação refere-se especificamente aos modelos lançados pela Nvidia em setembro de 2022, nomeadamente NeMo Megatron-GPT 1.3B, NeMo Megatron-GPT 5B, NeMo Megatron-GPT 20B e NeMo Megatron-T5 3B.

Eles estão hospedados no site operado pela AI outfit Abraçando o rosto, juntamente com informações sobre cada modelo, incluindo seu conjunto de dados de treinamento. Neste caso, a informação afirma que os modelos foram treinados no conjunto de dados “The Pile” preparado pela EleutherAI.

A Pilha é descrita como “um conjunto de dados de 800 GB de textos diversos para modelagem de linguagem”, e uma de suas partes constituintes é uma coleção de livros chamada Books3, que contém o conteúdo de cerca de 196,640 livros, incluindo aqueles criados pelos três autores.

De acordo com o processo judicial, o conjunto de dados Books3 estava disponível separadamente no Hugging Face até outubro de 2023, quando foi removido porque “está extinto e não está mais acessível devido a denúncia de violação de direitos autorais”.

Os autores querem que o caso prossiga como uma ação coletiva, servindo eles próprios como representantes da classe, e pedem um julgamento com júri e indenização pelas supostas violações de seus direitos autorais.

Em uma declaração enviada para O registro, um porta-voz da Nvidia disse: “Respeitamos os direitos de todos os criadores de conteúdo e acreditamos que criamos o NeMo em total conformidade com a lei de direitos autorais”.

Este não é o primeiro caso de uma empresa de IA sendo processada por acusações de violação de direitos autorais relacionadas aos dados usados ​​para treinar modelos de IA. Em dezembro do ano passado, o The New York Times lançou um caso contra Microsoft e OpenAI sobre alegações de que a dupla usou seus artigos sem permissão para construir ChatGPT e modelos semelhantes.

Esse caso talvez tenha ficado mais interessante com a afirmação da OpenAI em janeiro de que seria “impossível” construir redes neurais de alto nível que atendam às necessidades atuais sem usar obras protegidas por direitos autorais.

Enquanto isso, a Nvidia ainda está preparando a IA com o anúncio de uma nova certificação profissional em IA generativa para ajudar os desenvolvedores a estabelecer credibilidade técnica nesta área.

Programado para ficar disponível para coincidir com o evento GTC da gigante com sede em Santa Clara no final deste mês, o programa de certificação profissional oferecerá dois credenciamentos de IA generativa em nível de associado, com foco na proficiência em grandes modelos de idiomas e habilidades de fluxo de trabalho multimodal. ®

Carimbo de hora:

Mais de O registro