Perché la causa sul copyright dell'intelligenza artificiale del New York Times sarà difficile da difendere

Perché la causa sul copyright dell'intelligenza artificiale del New York Times sarà difficile da difendere

Perché la causa sul copyright dell'IA promossa dal New York Times sarà complicata per difendere la Data Intelligence di PlatoBlockchain. Ricerca verticale. Ai.

Il New York Times (NYT) azioni legali contro OpenAI e Microsoft ha aperto una nuova frontiera nelle continue sfide legali portate avanti dall’uso di dati protetti da copyright per “addestrare” o migliorare l’IA generativa.

Esistono già diverse cause legali contro le società di intelligenza artificiale, inclusa una intentata da Getty Images contro l'intelligenza artificiale per la stabilità, che rende il generatore online di testo in immagine Stable Diffusion. Anche gli autori George RR Martin e John Grisham hanno intentato cause legali contro OpenAI, proprietario di ChatGPT, per rivendicazioni sul copyright. Ma il caso del NYT non è “più o meno lo stesso” perché introduce nuovi argomenti interessanti nel mix.

L'azione legale si concentra su il valore dei dati formativi e una nuova questione relativa al danno reputazionale. Si tratta di un potente mix di marchi commerciali e diritto d'autore che potrebbe mettere alla prova le difese del fair use su cui normalmente si fa affidamento.

Sarà, senza dubbio, osservato da vicino dalle organizzazioni dei media che cercano di sfidare il solito approccio “chiediamo perdono, non permesso” ai dati di addestramento. I dati di addestramento vengono utilizzati per migliorare le prestazioni dei sistemi di intelligenza artificiale e generalmente consistono in informazioni del mondo reale, spesso tratte da Internet.

La causa presenta anche un argomento nuovo, non avanzato da altri casi simili, correlato a qualcosa chiamato “allucinazioni”, dove i sistemi di intelligenza artificiale generano informazioni false o fuorvianti ma le presentano come fatti. Questo argomento potrebbe infatti essere uno dei più potenti nel caso.

Il caso del NYT, in particolare, solleva tre interessanti interpretazioni dell’approccio consueto. In primo luogo, grazie alla loro reputazione di notizie e informazioni affidabili, i contenuti del NYT hanno aumentato il valore e l’appetibilità come dati di formazione da utilizzare nell’intelligenza artificiale.

In secondo luogo, a causa del paywall del NYT, la riproduzione di articoli su richiesta è commercialmente dannosa. Terzo, quello ChatGPT le allucinazioni stanno causando danni alla reputazione del New York Times attraverso, di fatto, false attribuzioni.

Questa non è solo l’ennesima disputa sul copyright dell’IA generativa. Il primo argomento presentato dal NYT è che i dati di addestramento utilizzati da OpenAI sono protetti da copyright, quindi sostengono che la fase di addestramento di ChatGPT abbia violato il copyright. Abbiamo visto questo tipo di argomenti correre prima in altre controversie.

Giusto uso?

La sfida per questo tipo di attacco è la scudo del fair use. Negli Stati Uniti, il fair use è una dottrina giuridica che consente l'uso di materiale protetto da copyright in determinate circostanze, ad esempio nelle notizie, nel lavoro accademico e nei commenti.

La risposta di OpenAI finora è stato molto cauto, ma un principio chiave in una dichiarazione rilasciata dalla società è che il loro utilizzo dei dati online rientra effettivamente nel principio del “fair use”.

Anticipando alcune delle difficoltà che una simile difesa del fair use potrebbe potenzialmente causare, il NYT ha adottato un punto di vista leggermente diverso. In particolare, cerca di differenziare i propri dati dai dati standard. Il NYT intende utilizzare ciò che sostiene essere l'accuratezza, l'affidabilità e il prestigio dei suoi rapporti. Afferma che ciò crea un set di dati particolarmente desiderabile.

Sostiene che, essendo una fonte attendibile e affidabile, i suoi articoli hanno ulteriore peso e affidabilità nella formazione dell’IA generativa e fanno parte di un sottoinsieme di dati a cui viene assegnato un peso aggiuntivo in tale formazione.

Sostiene che riproducendo in gran parte articoli su richiesta, ChatGPT è in grado di negare il NYT, che è a pagamento, visitatori ed entrate che altrimenti riceverebbe. Questa introduzione di alcuni aspetti della concorrenza commerciale e del vantaggio commerciale sembra intesa a contrastare la consueta difesa del fair use comune a queste affermazioni.

Sarà interessante vedere se l’affermazione di una ponderazione speciale nei dati di addestramento avrà un impatto. In tal caso, si apre la strada ad altre organizzazioni mediatiche per contestare l’uso dei loro report nei dati di addestramento senza autorizzazione.

L'elemento finale dell'affermazione del NYT presenta una nuova prospettiva alla sfida. Ciò suggerisce che si sta arrecando danno al marchio NYT attraverso il materiale prodotto da ChatGPT. Sebbene presentata quasi come un ripensamento nella denuncia, potrebbe essere l'affermazione a causare maggiori difficoltà a OpenAI.

Questo è l'argomento relativo alle allucinazioni dell'IA. Il NYT sostiene che ciò è aggravato dal fatto che ChatGPT presenta le informazioni come provenienti dal NYT.

Il giornale suggerisce inoltre che i consumatori potrebbero agire in base al riepilogo fornito da ChatGPT, ritenendo che le informazioni provengano dal NYT e siano affidabili. Il danno reputazionale è causato dal fatto che il giornale non ha alcun controllo su ciò che produce ChatGPT.

Questa è una sfida interessante con cui concludere. L’allucinazione è un problema riconosciuto con le risposte generate dall’intelligenza artificiale e il NYT sostiene che il danno alla reputazione potrebbe non essere facile da correggere.

L’affermazione del NYT apre una serie di nuove linee di attacco che spostano l’attenzione dal copyright al modo in cui i dati protetti da copyright vengono presentati agli utenti da ChatGPT e al valore di tali dati per il giornale. Questo è molto più complicato da difendere per OpenAI.

Questo caso sarà osservato da vicino da altri editori di media, in particolare quelli dietro i paywall, e con particolare riguardo a come interagisce con la consueta difesa del fair use.

Se il set di dati del NYT fosse riconosciuto come dotato del “valore migliorato” che dichiara, potrebbe aprire la strada alla monetizzazione di quel set di dati nell’addestramento dell’intelligenza artificiale piuttosto che all’approccio del “perdono, non del permesso” prevalente oggi.

Questo articolo è ripubblicato da The Conversation sotto una licenza Creative Commons. Leggi il articolo originale.

Immagine di credito: AbsolutVision / Unsplash 

Timestamp:

Di più da Hub di singolarità