Gli autori intentano una causa sul copyright per silurare NeMo di Nvidia

Gli autori intentano una causa sul copyright per silurare NeMo di Nvidia

Gli autori intentano una causa sul copyright per silurare NeMo PlatoBlockchain Data Intelligence di Nvidia. Ricerca verticale. Ai.

Nvidia è l'ultimo colosso della tecnologia ad affrontare le accuse di aver utilizzato opere protette da copyright per addestrare modelli di intelligenza artificiale senza ottenere il permesso degli autori.

Una proposta di class action querela [PDF] ha presentato una denuncia contro il supremo della GPU a San Francisco venerdì 8 marzo sostenendo che la società ha utilizzato materiale protetto da copyright per addestrare modelli linguistici di grandi dimensioni nella libreria Megatron per i suoi Framework di intelligenza artificiale generativa NeMo.

La denuncia è stata presentata da tre autori, Abdi Nazemian, Brian Keene e Stewart O'Nan, i quali affermano che i libri da loro scritti facevano parte del materiale utilizzato per addestrare i Megatron LLM.

Dalla documentazione del tribunale, sembra che Nvidia non sia accusata di copiare apertamente il lavoro degli autori stessi, ma di utilizzare invece un set di dati per addestrare i modelli Megatron che era noto contenere una serie di opere protette da copyright senza licenza.

La causa si riferisce specificamente ai modelli che Nvidia ha rilasciato nel settembre 2022, vale a dire NeMo Megatron-GPT 1.3B, NeMo Megatron-GPT 5B, NeMo Megatron-GPT 20B e NeMo Megatron-T5 3B.

Questi sono ospitati sul sito Web gestito da AI outfit Abbracciare il viso, insieme alle informazioni su ciascun modello, incluso il relativo set di dati di addestramento. In questo caso, le informazioni affermano che i modelli sono stati addestrati sul set di dati “The Pile” preparato da EleutherAI.

The Pile è descritto come "un set di dati da 800 GB di testi diversi per la modellazione linguistica" e una delle sue parti costitutive è una raccolta di libri chiamata Books3, che contiene il contenuto di circa 196,640 libri, compresi quelli creati dai tre autori.

Secondo la dichiarazione del tribunale, il set di dati di Books3 era disponibile separatamente su Hugging Face fino all'ottobre 2023, quando è stato rimosso perché "è defunto e non più accessibile a causa di una segnalata violazione del copyright".

Gli autori vogliono che il caso proceda come un'azione collettiva, con loro stessi in qualità di rappresentanti di classe, e chiedono un processo con giuria e il risarcimento dei danni per le presunte violazioni dei loro diritti d'autore.

In una dichiarazione inviata a Il registro, un portavoce di Nvidia ha dichiarato: "Rispettiamo i diritti di tutti i creatori di contenuti e crediamo di aver creato NeMo nel pieno rispetto della legge sul copyright".

Questo non è il primo caso in cui un'azienda di intelligenza artificiale viene citata in giudizio per accuse di violazione del copyright riguardante i dati utilizzati per addestrare i modelli di intelligenza artificiale. Nel dicembre dello scorso anno, il New York Times ha lanciato un caso contro Microsoft e OpenAI per le affermazioni secondo cui la coppia aveva utilizzato i suoi articoli senza autorizzazione per creare ChatGPT e modelli simili.

Quel caso è stato forse reso più interessante dall’affermazione di OpenAI a gennaio che lo sarebbe stato “impossibile” costruire reti neurali di alto livello che soddisfano le esigenze odierne senza utilizzare le opere protette da copyright delle persone.

Nel frattempo, Nvidia sta ancora innescando la pompa dell’intelligenza artificiale con l’annuncio di una nuova certificazione professionale nell’intelligenza artificiale generativa per aiutare gli sviluppatori a stabilire credibilità tecnica in quest’area.

Sarà disponibile in concomitanza con l'evento GTC del gigante con sede a Santa Clara alla fine di questo mese programma di certificazione professionale offrirà due accreditamenti di intelligenza artificiale generativa a livello associato, concentrandosi sulla competenza in modelli linguistici di grandi dimensioni e sulle capacità di flusso di lavoro multimodale. ®

Timestamp:

Di più da Il registro