Les auteurs intentent une action en justice pour droits d'auteur pour torpiller le NeMo de Nvidia

Les auteurs intentent une action en justice pour droits d'auteur pour torpiller le NeMo de Nvidia

Les auteurs intentent une action en justice pour droits d'auteur pour torpiller NeMo PlatoBlockchain Data Intelligence de Nvidia. Recherche verticale. Aï.

Nvidia est le dernier géant de la technologie à faire face à des allégations selon lesquelles il aurait utilisé des œuvres protégées par le droit d'auteur pour former des modèles d'IA sans obtenir l'autorisation des auteurs.

Un recours collectif proposé procès [PDF] déposé contre le GPU Supremo à San Francisco le vendredi 8 mars, affirme que la société a utilisé du matériel protégé par le droit d'auteur pour former de grands modèles de langage dans la bibliothèque Megatron pour son Cadre d'IA générative NeMo.

La plainte a été déposée par trois auteurs, Abdi Nazemian, Brian Keene et Stewart O'Nan, qui affirment que les livres qu'ils ont écrits faisaient partie du matériel utilisé pour former les LLM Megatron.

D'après le dossier judiciaire, il apparaît que Nvidia n'est pas accusé d'avoir ouvertement copié le travail des auteurs lui-même, mais plutôt d'avoir utilisé un ensemble de données pour entraîner les modèles Megatron, connu pour contenir un certain nombre d'œuvres protégées par le droit d'auteur sans licence.

Le procès fait spécifiquement référence aux modèles que Nvidia a lancés en septembre 2022, à savoir NeMo Megatron-GPT 1.3B, NeMo Megatron-GPT 5B, NeMo Megatron-GPT 20B et NeMo Megatron-T5 3B.

Ceux-ci sont hébergés sur le site Web exploité par AI Outfit Étreindre le visage, ainsi que des informations sur chaque modèle, y compris son ensemble de données d'entraînement. Dans ce cas, les informations indiquent que les modèles ont été formés sur l'ensemble de données « The Pile » préparé par EleutherAI.

La Pile est décrite comme « un ensemble de données de 800 Go de textes divers pour la modélisation linguistique » et l’un de ses éléments constitutifs est une collection de livres appelée Books3, qui contient le contenu d’environ 196,640 XNUMX livres, y compris ceux créés par les trois auteurs.

Selon le dossier judiciaire, l'ensemble de données Books3 était disponible séparément sur Hugging Face jusqu'en octobre 2023, date à laquelle il a été supprimé car il « est obsolète et n'est plus accessible en raison d'une violation du droit d'auteur signalée ».

Les auteurs souhaitent que l'affaire soit traitée comme un recours collectif, avec eux-mêmes agissant en tant que représentants du groupe, et demandent un procès devant jury et des dommages-intérêts pour les violations présumées de leurs droits d'auteur.

Dans une déclaration envoyée à Le registre, un porte-parole de Nvidia a déclaré : « Nous respectons les droits de tous les créateurs de contenu et pensons que nous avons créé NeMo en totale conformité avec la loi sur le droit d'auteur. »

Ce n'est pas le premier cas d'une entreprise d'IA poursuivie en justice pour violation du droit d'auteur concernant les données utilisées pour entraîner des modèles d'IA. En décembre de l'année dernière, le New York Times a lancé une affaire contre Microsoft et OpenAI en raison des allégations selon lesquelles la paire avait utilisé ses articles sans autorisation pour créer ChatGPT et des modèles similaires.

Cette affaire a peut-être été rendue plus intéressante par l'affirmation d'OpenAI en janvier selon laquelle ce serait « impossible » de construire des réseaux de neurones de premier plan qui répondent aux besoins d'aujourd'hui sans utiliser les œuvres protégées par le droit d'auteur des gens.

Pendant ce temps, Nvidia continue d'amorcer la pompe de l'IA avec l'annonce d'une nouvelle certification professionnelle en IA générative pour aider les développeurs à établir une crédibilité technique dans ce domaine.

Devrait être disponible pour coïncider avec l'événement GTC du géant basé à Santa Clara plus tard ce mois-ci, le programme de certification professionnelle offrira deux accréditations d'IA générative de niveau associé, axées sur la maîtrise des grands modèles de langage et les compétences en matière de flux de travail multimodal. ®

Horodatage:

Plus de Le registre