OpenAI: impossibile addestrare un'intelligenza artificiale di alto livello ed evitare il copyright

OpenAI: impossibile addestrare un'intelligenza artificiale di alto livello ed evitare il copyright

OpenAI: impossibile addestrare un'intelligenza artificiale di alto livello ed evitare il copyright PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

OpenAI ha affermato che sarebbe “impossibile” costruire reti neurali di alto livello che soddisfino le esigenze odierne senza utilizzare il lavoro protetto da copyright delle persone. Il laboratorio sostenuto da Microsoft, che ritiene di raccogliere legalmente tali contenuti per addestrare i suoi modelli, ha affermato che l’utilizzo di materiale di dominio pubblico non protetto da copyright comporterebbe un software AI inferiore alla media.

Questa affermazione arriva in un momento in cui il mondo dell’apprendimento automatico si sta lanciando a capofitto contro il muro di mattoni rappresentato dalla legge sul copyright. Proprio questa settimana un rapporto IEEE ha concluso che Midjourney e DALL-E 3 di OpenAI, due dei principali servizi di intelligenza artificiale per trasformare le istruzioni di testo in immagini, possono ricreare scene protette da copyright di film e videogiochi in base ai dati di addestramento.

Il studio, scritto da Gary Marcus, un esperto e critico di intelligenza artificiale, e Reid Southen, un illustratore digitale, documenta molteplici casi di "output plagiari" in cui OpenAI e DALL-E 3 rendono versioni sostanzialmente simili di scene di film, immagini di personaggi famosi attori e contenuti di videogiochi.

Marcus e Southen affermano che è quasi certo che Midjourney e OpenAI abbiano addestrato i rispettivi modelli di generazione di immagini IA su materiale protetto da copyright.

Se ciò sia legale e se i fornitori di intelligenza artificiale o i loro clienti rischino di essere ritenuti responsabili, rimane una questione controversa. Tuttavia, i risultati del rapporto potrebbero rafforzare coloro che hanno citato in giudizio Midjourney e OpenAI, produttore di DALL-E, per violazione del copyright.

Gli utenti potrebbero non sapere, quando producono un'immagine, se stanno violando

"Sia OpenAI che Midjourney sono pienamente in grado di produrre materiali che sembrano violare il diritto d'autore e i marchi", hanno scritto. “Questi sistemi non informano gli utenti quando lo fanno. Non forniscono alcuna informazione sulla provenienza delle immagini che producono. Gli utenti potrebbero non sapere, quando producono un'immagine, se stanno violando."

Nessuna delle due aziende ha divulgato completamente i dati di addestramento utilizzati per realizzare i propri modelli di intelligenza artificiale.

Non è solo artisti digitali sfidare le aziende di intelligenza artificiale. Il New York Times di recente citato in giudizio OpenAI perché il suo modello di testo ChatGPT sputerà copie quasi letterali degli articoli protetti da paywall del giornale. Autori di libri hanno presentato richieste simili, come hanno fatto gli sviluppatori di software.

Precedente riparazioni ha indicato che il ChatGPT di OpenAI può essere indotto a riprodurre il testo di addestramento. E coloro che fanno causa a Microsoft e GitHub sostengono che il modello di assistente alla codifica Copilot riprodurrà il codice più o meno alla lettera.

Southen ha osservato che Midjourney addebita costi ai clienti che creano contenuti illeciti e traggono profitto dalle entrate degli abbonamenti. "Gli utenti di MJ [Midjourney] non devono vendere le immagini perché si sia verificata una potenziale violazione del copyright, MJ trae già profitto dalla sua creazione", ha opinato, facendo eco a un'argomentazione avanzata nel rapporto IEEE.

OpenAI addebita anche una quota di abbonamento e quindi guadagna allo stesso modo. Né OpenAI né Midjourney hanno risposto alle richieste di commento.

Tuttavia, OpenAI lunedì ha pubblicato a post sul blog affrontando la causa del New York Times, che secondo il venditore di intelligenza artificiale mancava di merito. Sorprendentemente, il laboratorio ha affermato che se le sue reti neurali generavano contenuti in violazione, si trattava di un “bug”.

In totale, il nuovo arrivato oggi ha sostenuto che: collabora attivamente con le testate giornalistiche; la formazione sui dati protetti da copyright si qualifica per la difesa del fair use ai sensi della legge sul copyright; “Il ‘rigurgito’ è un bug raro che stiamo lavorando per ridurre a zero”; e il New York Times ha selezionato esempi di riproduzione del testo che non rappresentano un comportamento tipico.

La legge deciderà

Lo ha detto Tyler Ochoa, professore del dipartimento di diritto dell'Università di Santa Clara in California Il registro che, sebbene i risultati del rapporto IEEE possano aiutare le parti in causa con le rivendicazioni sul copyright, non dovrebbero, perché gli autori dell’articolo, a suo avviso, hanno travisato ciò che sta accadendo.

“Scrivono: ‘I modelli che generano immagini possono essere indotti a produrre output plagi basati su materiali protetti da copyright? … [Abbiamo] scoperto che la risposta è chiaramente sì, anche senza sollecitare direttamente pubblicazioni plagiarie.'”

Ochoa ha messo in dubbio questa conclusione, sostenendo che le richieste inserite dagli autori del rapporto “dimostrano che stanno, in effetti, sollecitando direttamente risultati plagistici. Ogni singolo messaggio menziona il titolo di un film specifico, specifica le proporzioni e, in tutti i casi tranne un, le parole "film" e "screenshot" o "screencap" (l'unica eccezione descrive l'immagine che si voleva replicare. )”

Il professore di legge ha affermato che la questione per la legge sul copyright è determinare chi è responsabile di questi risultati plagiari: i creatori del modello di intelligenza artificiale o le persone che hanno chiesto al modello di intelligenza artificiale di riprodurre una scena popolare.

"Il modello di intelligenza artificiale generativa è in grado di produrre output originale ed è anche in grado di riprodurre scene che assomigliano a scene provenienti da input protetti da copyright quando richiesto", ha spiegato Ochoa. “Questo dovrebbe essere analizzato come un caso di concorso in violazione: la persona che ha suggerito il modello è il principale contravventore, e i creatori del modello sono responsabili solo se sono stati informati della violazione principale e non hanno adottato misure ragionevoli per fermare Esso."

Ochoa ha affermato che i modelli di intelligenza artificiale generativa hanno maggiori probabilità di riprodurre immagini specifiche quando sono presenti più istanze di tali immagini nel set di dati di addestramento.

“In questo caso, è altamente improbabile che i dati di addestramento includessero interi film; è molto più probabile che i dati di addestramento includessero immagini fisse dei film distribuite come foto pubblicitarie per il film", ha affermato. “Quelle immagini sono state riprodotte più volte nei dati di addestramento perché i media sono stati incoraggiati a distribuire quelle immagini per scopi pubblicitari e lo hanno fatto.

"Sarebbe fondamentalmente ingiusto per un titolare di copyright incoraggiare un'ampia diffusione di immagini fisse per scopi pubblicitari e poi lamentarsi del fatto che quelle immagini vengono imitate da un'intelligenza artificiale perché i dati di addestramento includevano più copie di quelle stesse immagini."

Ochoa ha affermato che esistono misure per limitare tale comportamento da parte dei modelli di intelligenza artificiale. "La domanda è se dovrebbero farlo, quando la persona che ha inserito il prompt voleva chiaramente che l'intelligenza artificiale riproduca un'immagine riconoscibile, e gli studi cinematografici che hanno prodotto le immagini fisse originali volevano chiaramente che quelle immagini fisse fossero ampiamente distribuite ," Egli ha detto.

“Una domanda migliore sarebbe: quanto spesso accade questo quando il suggerimento non menziona un film specifico o descrive un personaggio o una scena specifici? Penso che un ricercatore imparziale probabilmente scoprirebbe che la risposta è raramente (forse quasi mai).”

Tuttavia, i contenuti protetti da copyright sembrano essere il carburante essenziale per il buon funzionamento di questi modelli.

OpenAI si difende dai Signori

In risposta a un'inchiesta sui rischi e sulle opportunità dei modelli di intelligenza artificiale da parte del Comitato per le comunicazioni e il digitale della Camera dei Lord del Regno Unito, OpenAI ha presentato un sottomissione [PDF] avverte che i suoi modelli non funzioneranno senza essere formati sui contenuti protetti da copyright.

"Poiché il copyright oggi copre praticamente ogni tipo di espressione umana - inclusi post di blog, fotografie, post di forum, frammenti di codice software e documenti governativi - sarebbe impossibile addestrare i principali modelli di intelligenza artificiale di oggi senza utilizzare materiali protetti da copyright", ha affermato il super laboratorio. .

“Limitare i dati di addestramento ai libri e ai disegni di pubblico dominio creati più di un secolo fa potrebbe produrre un esperimento interessante, ma non fornirebbe sistemi di intelligenza artificiale in grado di soddisfare le esigenze dei cittadini di oggi”.

Il business dell'intelligenza artificiale ha affermato di ritenere di rispettare la legge sul copyright e che la formazione su materiale protetto da copyright sia legale, sebbene consenta che "c'è ancora lavoro da fare per supportare e responsabilizzare i creatori".

Questo sentimento, che suona come un riconoscimento diplomatico delle preoccupazioni etiche riguardo al compenso per il discutibile uso corretto del lavoro protetto da copyright, dovrebbe essere considerato insieme all’affermazione del rapporto IEEE secondo cui “abbiamo scoperto prove che un ingegnere informatico senior di Midjourney ha preso parte a una conversazione nel febbraio 2022 su come eludere la legge sul copyright “riciclando” i dati “attraverso un codice messo a punto”.

Marcus, coautore del rapporto IEEE, ha espresso scetticismo nei confronti dello sforzo di OpenAI di ottenere il via libera normativo nel Regno Unito per le sue attuali pratiche commerciali.

"Traduzione approssimativa: non diventeremo favolosamente ricchi se non ci lasci rubare, quindi per favore non rendere il furto un crimine!" ha scritto su un social media settimana. “Non farci pagare licenza neanche le tasse! Sicuramente Netflix potrebbe pagare miliardi all’anno in costi di licenza, ma we non dovrebbe essere necessario! Più soldi per noi, moor!”

OpenAI si è offerta di indennizzare i clienti aziendali ChatGPT e API contro le rivendicazioni sul copyright, ma non se il cliente o gli utenti finali del cliente "sapevano o avrebbero dovuto sapere che l'Output violava o era suscettibile di violare" o se il cliente ignorava le funzionalità di sicurezza, tra le altre limitazioni. Pertanto, chiedere a DALL-E 3 di ricreare una famosa scena di un film – che gli utenti dovrebbero sapere è probabilmente coperta da copyright – non darebbe diritto a un indennizzo.

Midjourney ha adottato l'approccio opposto, promettendo di scovare e citare in giudizio i clienti coinvolti nella violazione per recuperare le spese legali derivanti dai relativi reclami.

"Se violi consapevolmente la proprietà intellettuale di qualcun altro, e questo ci costa denaro, verremo a trovarti e raccoglieremo quei soldi da te", Midjourney's Termini di Servizio stato. “Potremmo anche fare altre cose, come cercare di convincere un tribunale a farti pagare le nostre spese legali. Non farlo. ®

Timestamp:

Di più da Il registro