Hvorfor New York Times' AI Copyright-søksmål vil være vanskelig å forsvare

Hvorfor New York Times' AI Copyright-søksmål vil være vanskelig å forsvare

Why the New York Times' AI Copyright Lawsuit Will Be Tricky to Defend PlatoBlockchain Data Intelligence. Vertical Search. Ai.

The New York Times (NYT) juridisk prosedyre mot OpenAI og Microsoft har åpnet en ny grense i de pågående juridiske utfordringene som oppstår ved bruk av opphavsrettsbeskyttede data for å "trene" eller forbedre generativ AI.

Det er allerede en rekke søksmål mot AI-selskaper, inkludert en anlagt av Getty Images mot Stability AI, som gjør Stable Diffusion online tekst-til-bilde-generator. Forfatterne George RR Martin og John Grisham har også reist rettssaker mot ChatGPT-eier OpenAI på grunn av opphavsrettskrav. Men NYT-saken er ikke "mer av det samme" fordi den kaster interessante nye argumenter inn i blandingen.

Rettssaken fokuserer på verdien av treningsdataene og et nytt spørsmål knyttet til skade på omdømmet. Det er en sterk blanding av varemerker og opphavsrett og en som kan teste rettferdig bruk-forsvaret man vanligvis stoler på.

Det vil uten tvil bli fulgt nøye av medieorganisasjoner som ønsker å utfordre den vanlige "la oss be om tilgivelse, ikke tillatelse" tilnærmingen til treningsdata. Treningsdata brukes til å forbedre ytelsen til AI-systemer og består vanligvis av informasjon fra den virkelige verden, ofte hentet fra internett.

Søksmålet presenterer også et nytt argument – ​​ikke fremmet av andre, lignende saker – som er relatert til noe som kalles "hallusinasjoner", der AI-systemer genererer falsk eller villedende informasjon, men presenterer den som fakta. Dette argumentet kan faktisk være et av de mest potente i saken.

Spesielt NYT-saken reiser tre interessante synspunkter på den vanlige tilnærmingen. For det første at på grunn av deres rykte for pålitelige nyheter og informasjon, har NYT-innhold økt verdi og ønskelighet som treningsdata for bruk i AI.

For det andre, at på grunn av NYTs betalingsmur, er reproduksjon av artikler på forespørsel kommersielt skadelig. For det tredje, det ChatGPT hallusinasjoner forårsaker skade på omdømmet til New York Times gjennom, effektivt, falsk attribusjon.

Dette er ikke bare enda en generativ AI-opphavsrettstvist. Det første argumentet som presenteres av NYT er at treningsdataene som brukes av OpenAI er beskyttet av opphavsrett, og derfor hevder de at opplæringsfasen til ChatGPT krenker opphavsretten. Vi har sett denne typen argumentasjon løp før i andre tvister.

Fair bruk?

Utfordringen for denne typen angrep er rettferdig bruk skjold. I USA er rettferdig bruk en doktrine i loven som tillater bruk av opphavsrettsbeskyttet materiale under visse omstendigheter, for eksempel i nyhetsrapportering, akademisk arbeid og kommentarer.

OpenAIs svar så langt har vært veldig forsiktige, men en sentral grunnsetning i en uttalelse utgitt av selskapet er at deres bruk av nettdata faktisk faller inn under prinsippet om "rettferdig bruk."

I påvente av noen av vanskelighetene som et slikt forsvar for rettferdig bruk potensielt kan forårsake, har NYT inntatt en litt annen vinkel. Spesielt søker den å skille sine data fra standarddata. NYT har til hensikt å bruke det de hevder å være nøyaktigheten, påliteligheten og prestisje av sin rapportering. Den hevder at dette skaper et spesielt ønskelig datasett.

Den hevder at som en anerkjent og pålitelig kilde, har artiklene dens ekstra vekt og pålitelighet i trening av generativ AI og er en del av et dataundersett som tillegges vekt i den treningen.

Den hevder at ved i stor grad å reprodusere artikler etter oppfordring, er ChatGPT i stand til å nekte NYT, som er betalingsmur, besøkende og inntekter den ellers ville fått. Denne introduksjonen av et aspekt av kommersiell konkurranse og kommersielle fordeler ser ut til å avverge det vanlige forsvaret for rettferdig bruk som er felles for disse påstandene.

Det blir interessant å se om påstanden om spesiell vekting i treningsdataene har betydning. Hvis den gjør det, setter det en vei for andre medieorganisasjoner til å utfordre bruken av deres rapportering i treningsdataene uten tillatelse.

Det siste elementet i NYTs påstand presenterer en ny vinkel på utfordringen. Det antyder at det gjøres skade på NYT-merket gjennom materialet som ChatGPT produserer. Selv om det nesten er presentert som en ettertanke i klagen, kan det likevel være påstanden som forårsaker OpenAI de største vanskelighetene.

Dette er argumentet knyttet til AI-hallusinasjoner. NYT hevder at dette er sammensatt fordi ChatGPT presenterer informasjonen som å ha kommet fra NYT.

Avisen foreslår videre at forbrukere kan handle basert på sammendraget gitt av ChatGPT, og tror at informasjonen kommer fra NYT og er til å stole på. Omdømmeskaden er forårsaket fordi avisen ikke har kontroll over hva ChatGPT produserer.

Dette er en interessant utfordring å avslutte med. Hallusinasjon er et anerkjent problem med AI-genererte svar, og NYT hevder at omdømmeskaden kanskje ikke er lett å rette opp.

NYT-påstanden åpner for en rekke nye angrepslinjer som flytter fokus fra opphavsrett til hvordan opphavsrettsbeskyttede data presenteres for brukere av ChatGPT og verdien av disse dataene til avisen. Dette er mye vanskeligere for OpenAI å forsvare.

Denne saken vil bli fulgt nøye av andre medieutgivere, spesielt de som står bak betalingsmurer, og med særlig hensyn til hvordan den samhandler med det vanlige forsvaret for rimelig bruk.

Hvis NYT-datasettet er anerkjent for å ha den "forbedrede verdien" det hevder å ha, kan det bane vei for inntektsgenerering av det datasettet i trening av AI i stedet for "tilgivelse, ikke tillatelse"-tilnærmingen som er utbredt i dag.

Denne artikkelen er publisert fra Den Conversation under en Creative Commons-lisens. Les opprinnelige artikkelen.

Bilde Credit: AbsolutVision / Unsplash 

Tidstempel:

Mer fra Singularity Hub