Hvorfor New York Times' AI-ophavsretssag vil være vanskelig at forsvare

Hvorfor New York Times' AI-ophavsretssag vil være vanskelig at forsvare

Why the New York Times' AI Copyright Lawsuit Will Be Tricky to Defend PlatoBlockchain Data Intelligence. Vertical Search. Ai.

The New York Times' (NYT) retslige processer mod OpenAI og Microsoft har åbnet en ny grænse i de igangværende juridiske udfordringer, som brugen af ​​ophavsretligt beskyttede data til at "træne" eller forbedre generativ AI.

Der er allerede en række retssager mod AI-virksomheder, herunder en anlagt af Getty Images mod Stability AI, som gør Stable Diffusion online tekst-til-billede generator. Forfatterne George RR Martin og John Grisham har også anlagt retssager mod ChatGPT-ejeren OpenAI på grund af ophavsretskrav. Men NYT-sagen er ikke "mere af det samme", fordi den kaster interessante nye argumenter ind i blandingen.

Retssagen fokuserer på værdien af ​​træningsdataene og et nyt spørgsmål vedrørende skade på omdømmet. Det er en potent blanding af varemærker og ophavsret og en, der kan teste de forsvar for rimelig brug, man typisk stoler på.

Det vil uden tvivl blive fulgt nøje af medieorganisationer, der ønsker at udfordre den sædvanlige "lad os bede om tilgivelse, ikke tilladelse" tilgang til træningsdata. Træningsdata bruges til at forbedre ydeevnen af ​​AI-systemer og består generelt af oplysninger fra den virkelige verden, ofte hentet fra internettet.

Retssagen præsenterer også et nyt argument - ikke fremført af andre lignende sager - der er relateret til noget, der hedder "hallucinationer", hvor AI-systemer genererer falsk eller vildledende information, men præsenterer den som kendsgerning. Dette argument kunne faktisk være et af de mest potente i sagen.

Især NYT-sagen rejser tre interessante bud på den sædvanlige tilgang. For det første, at NYT-indhold på grund af deres ry for pålidelige nyheder og informationer har øget værdi og ønskværdighed som træningsdata til brug i AI.

For det andet, at på grund af NYT's betalingsmur er reproduktion af artikler på anmodning kommercielt skadelig. For det tredje, det ChatGPT hallucinationer forårsager omdømmeskade til New York Times gennem, effektivt, falsk tilskrivning.

Dette er ikke bare endnu en generativ AI-ophavsretstvist. Det første argument fremlagt af NYT er, at de træningsdata, der bruges af OpenAI, er beskyttet af ophavsret, og derfor hævder de, at træningsfasen af ​​ChatGPT krænker ophavsretten. Vi har set denne type argumentation løb før i andre tvister.

Fair brug?

Udfordringen for denne type angreb er fair-use skjold. I USA er fair use en doktrin i lovgivningen, der tillader brug af ophavsretligt beskyttet materiale under visse omstændigheder, såsom i nyhedsrapportering, akademisk arbejde og kommentarer.

OpenAI's svar hidtil har været meget forsigtige, men en central grundsætning i en erklæring udgivet af virksomheden er, at deres brug af onlinedata faktisk falder ind under princippet om "fair use."

Foregribelse af nogle af de vanskeligheder, som et sådant forsvar for rimelig brug potentielt kan forårsage, har NYT anlagt en lidt anden vinkel. Det søger især at differentiere sine data fra standarddata. NYT har til hensigt at bruge, hvad det hævder at være nøjagtigheden, troværdigheden og prestigen i sin rapportering. Den hævder, at dette skaber et særligt ønskværdigt datasæt.

Den hævder, at som en velrenommeret og pålidelig kilde har dens artikler yderligere vægt og pålidelighed i træning af generativ AI og er en del af et dataundersæt, der tillægges yderligere vægtning i den træning.

Det hævder, at ChatGPT ved stort set at gengive artikler efter opfordring er i stand til at nægte NYT, som er betalingsmur, besøgende og indtægter, den ellers ville modtage. Denne introduktion af et eller andet aspekt af kommerciel konkurrence og kommerciel fordel ser ud til at afværge det sædvanlige forsvar for rimelig brug, der er fælles for disse påstande.

Det bliver interessant at se, om påstanden om særlig vægtning i træningsdataene har betydning. Hvis det gør det, sætter det en vej for andre medieorganisationer til at udfordre brugen af ​​deres rapportering i træningsdataene uden tilladelse.

Det sidste element i NYT's påstand præsenterer en ny vinkel på udfordringen. Det tyder på, at der sker skade på NYT-mærket gennem det materiale, som ChatGPT producerer. Selvom det nærmest præsenteres som en eftertanke i klagen, kan det alligevel være påstanden, der volder OpenAI de største vanskeligheder.

Dette er argumentet relateret til AI-hallucinationer. NYT hævder, at dette er sammensat, fordi ChatGPT præsenterer oplysningerne som værende fra NYT.

Avisen foreslår endvidere, at forbrugere kan handle baseret på opsummeringen fra ChatGPT, idet de tror, ​​at oplysningerne kommer fra NYT og er til at stole på. Omdømmeskaden er forårsaget, fordi avisen ikke har kontrol over, hvad ChatGPT producerer.

Det er en interessant udfordring at afslutte med. Hallucination er et anerkendt problem med AI-genererede svar, og NYT hævder, at skaden på omdømmet måske ikke er let at rette op på.

NYT-påstanden åbner en række nye angrebslinjer, som flytter fokus fra ophavsret til, hvordan de ophavsretligt beskyttede data præsenteres for brugerne af ChatGPT og værdien af ​​disse data til avisen. Dette er meget vanskeligere for OpenAI at forsvare.

Denne sag vil blive overvåget nøje af andre medieudgivere, især dem bag betalingsmure, og med særlig hensyn til, hvordan den interagerer med det sædvanlige fair-use forsvar.

Hvis NYT-datasættet anerkendes for at have den "forbedrede værdi", det hævder, kan det bane vejen for indtægtsgenerering af dette datasæt i træning af AI snarere end den "tilgivelse, ikke tilladelse"-tilgang, der er fremherskende i dag.

Denne artikel er genudgivet fra The Conversation under en Creative Commons-licens. Læs oprindelige artikel.

Billede Credit: AbsolutVision / Unsplash 

Tidsstempel:

Mere fra Singularitet Hub