Il vincitore del Premio Pulitzer e altri fanno causa a OpenAI

Il vincitore del Premio Pulitzer e altri fanno causa a OpenAI

Il romanziere statunitense vincitore del Premio Pulitzer Michael Chabon e molti altri scrittori hanno presentato una proposta di azione collettiva accusando OpenAI di violazione del copyright per aver presumibilmente inserito il loro lavoro nei set di dati utilizzati per addestrare i modelli dietro ChatGPT.

La causa afferma che OpenAI “ha gettato un’ampia rete su Internet” per catturare l’insieme più completo di contenuti disponibili per addestrare meglio i suoi modelli GPT, presumibilmente portandolo “necessariamente” a catturare, scaricare e copiare opere scritte, riproduzioni e contenuti protetti da copyright. articoli”.

Una delle parti più interessanti della causa è un'accusa su come gli autori credono che il business dell'intelligenza artificiale abbia messo le mani su "due corpora di libri basati su Internet", a cui fa notare che OpenAI si riferisce semplicemente come "Libri1" e "Libri2". Il documento sostiene che nel documento di luglio 2020 che introduce GPT-3, "I modelli linguistici sono pochi studenti", OpenAI ha rivelato che oltre ai set di dati delle pagine web "Common Crawl" e "WebText", "il 16% del set di dati di formazione GPT3 proviene da... 'Libri1' e 'Libri2'."

La causa degli autori prosegue affermando che ci sono solo pochi posti sull'Internet pubblica che contengono così tanto materiale, sostenendo che il set di dati Books1 di OpenAI "è basato sullo Standardized Project Gutenberg Corpus o sullo stesso Project Gutenberg" e accusando il business dell'intelligenza artificiale di approvvigionamento di Libri2 da:

famigerati siti web di "biblioteche ombra", come Library Genesis ("LibGen"), Z-Library, Sci-Hub e Bibliotik, che ospitano enormi raccolte di libri piratati, documenti di ricerca e altri materiali basati su testo. I materiali aggregati da questi siti Web sono stati disponibili anche in blocco tramite sistemi torrent.

Nella causa è incluso anche il vincitore del Tony e del Grammy Award David Henry Hwang, il drammaturgo e sceneggiatore dietro M. Butterfly, Chinglish, Faccia Giallae La danza e la ferrovia; Vincitore di Peabody e Amore e altre imprese impossibili l'autrice Ayelet Waldman; Donne che abbiamo seppellito l'autrice Rachel Louise Snyder; E Chi è Ricco? lo scriba Matthew Klam.

Gli autori sostengono che, poiché "quando viene richiesto ChatGPT, genera non solo riassunti, ma analisi approfondite dei temi presenti nelle opere protette da copyright dei querelanti", gli autori ritengono che "il modello GPT sottostante sia stato addestrato utilizzando [i] lavori dei querelanti" .”

Gli avvocati degli scrittori sostengono inoltre che quando viene loro chiesto di scrivere un paragrafo nello stile di Le incredibili avventure di Kavalier & Clay, il libro che ha valso al romanziere americano Chabon il suo Pulitzer, ChatGPT ha generato un passaggio che imita il suo stile di scrittura e include riferimenti ai personaggi che affrontano "il peso del mondo in guerra".

Screenshot della denuncia, reperto A

Screenshot del reclamo, allegato A (fare clic per ingrandire)

Il abito [PDF] è stato depositato presso la corte federale della California alla fine della scorsa settimana e ieri è stato assegnato al giudice magistrato di San Francisco Peter H. Kang.

OpenAI sta affrontando numerose cause legali sul copyright, tra cui due a San Francisco intentate dai romanzieri Paul Tremblay e Mona Awad e, separatamente, dalla comica Sarah Silverman e dai romanzieri Christopher Golden e Richard Kadrey. I suoi avvocati hanno sostenuto in questi casi che il business dell'intelligenza artificiale non ha violato le leggi sul copyright, sostenendo che i LLM di ChatGPT sono protetti dalla dottrina statunitense del "fair use". La loro tesi è che il modo in cui l'azienda utilizza il testo è conforme a quello statunitense la legge sul copyright, che consente un'eccezione al fair use per i cosiddetti "usi trasformativi" dell'opera, ovvero un remix dell'originale che serve a uno scopo o a un pubblico diverso.

Lo è il Copyright Office degli Stati Uniti attualmente in cerca di commenti su uno studio sulla legge sul copyright e sulle questioni politiche sollevate dai sistemi di intelligenza artificiale.

La difesa di OpenAI non ha ancora presentato una risposta alla denuncia di Chabon. Abbiamo chiesto a OpenAI un commento.

Le accuse nel caso includono violazione diretta e indiretta del copyright, rimozione illegale delle informazioni sulla gestione del copyright, concorrenza sleale e arricchimento senza causa. Chiedono un'ingiunzione contro la violazione dei loro diritti d'autore e un risarcimento di danni non specificati.

Il boss di OpenAI, Sam Altman, la scorsa settimana ha segnato il primo gol in assoluto dell'Indonesia visto d'oro – il che significa che ora può vivere nella nazione arcipelagica per un massimo di 10 anni – in riconoscimento del suo potenziale di “generare investimenti in entrata”. ®

Timestamp:

Di più da Il registro