Authors Guild saksøker OpenAI for å ha brukt bøker til å trene ChatGPT

Authors Guild saksøker OpenAI for å ha brukt bøker til å trene ChatGPT

Authors Guild saksøker OpenAI for å ha brukt bøker til å trene ChatGPT PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Authors Guild, en bransjeforening for publiserte forfattere, og 17 forfattere har sluppet løs dragene på OpenAI på grunn av den påståtte bruken av verkene deres for å trene chatbotene.

Navngitte saksøkere i gruppesøksmålet for brudd på opphavsrett – anlagt i Southern District of New York for opphavsrett – inkluderer David Baldacci, Mary Bly, Michael Connelly, Sylvia Day, Jonathan Franzen, John Grisham, Elin Hilderbrand, Christina Baker Kline, Maya Shanbhag Lang , Victor LaValle, George RR Martin, Jodi Picoult, Douglas Preston, Roxana Robinson, George Saunders, Scott Turow og Rachel Vail.

De klage [PDF] hevder at OpenAIs tjenester «setter skjønnlitterære forfatteres evne til å tjene til livets opphold, ved at de store språkmodellene lar hvem som helst generere – automatisk og fritt (eller veldig billig) – tekster som de ellers ville betalt forfattere for å lage.»

De skriftlærde er misfornøyde med at OpenAI ikke bare trente modellene sine på arbeidet deres uten tillatelse, men at AI-systemene på urettferdig vis kopierte skriftene deres når de svarte på folks forespørsler, eller så er det påstått.

Klagen påpeker at ChatGPT har blitt bedt om å lage en "detaljert oversikt for en forhåndsbok til Et spill av troner … ved å bruke de samme karakterene fra Martins eksisterende bøker i serien En sang av is og ild." Lignende resultater var mulig for de andre forfatterne som har sluttet seg til saken.

ChatGPTs evne til å gjøre det er problematisk, gitt forfatterne sa at de ikke autoriserte OpenAI til å få tilgang til verkene deres ettersom det ser ut til å ha gjort det. Forfatterne mener at når AI-laboratoriet matet arbeidet deres inn i modellen under trening, utgjorde dette uautorisert kopiering og at GPT-modellene produserer ulovlige derivater av opphavsrettsbeskyttet arbeid.

«Kjernen i disse algoritmene er systematisk tyveri i masseskala», hevdes det i søksmålet.

Klagen sier at OpenAI har innrømmet å bruke datasett kalt «Books1» og «Books2» for å trene opp sine store språkmodeller, men har ikke avslørt innholdet. Saksøkerne mistenker at piratbøker har kommet seg inn i OpenAI-treningsdata.

"Veksten i kraft og sofistikert fra GPT-3 til GPT-4 antyder en korrelativ vekst i størrelsen på 'trenings'-datasettene, noe som øker slutningen om at en eller flere svært store kilder til piratkopierte e-bøker diskutert ovenfor må ha blitt brukt til ' train' GPT-4," argumenterer klagen, og legger til "Det er ingen annen måte OpenAI kunne ha oppnådd volumet av bøker som kreves for å 'trene' en kraftig LLM som GPT-4."

Faktisk nevner klagen en annen måte: å betale for innholdet som brukes til å trene ChatGPT. Men søksmålet hevder at OpenAI aldri har tenkt å gjøre det, og siterer administrerende direktør Sam Altmans vitnesbyrd til kongressen om at han tror på opphavsrett og har betalt for noen treningsdata.

"For skjønnlitterære forfattere er OpenAIs uautoriserte bruk av arbeidet deres identitetstyveri i stor skala," sa Authors Guild-sjef Mary Rasenberger.

"Skjønnlitterære forfattere skaper helt nye verdener fra fantasien deres - de skaper stedene, menneskene og hendelsene i historiene deres," la hun til, før hun beklaget: "Folk distribuerer allerede innhold generert av versjoner av GPT som etterligner eller bruker originale forfattere ' karakterer og historier. Bedrifter selger meldinger som lar deg "entre verden" av en forfatters bøker. Dette er klare brudd på immaterielle rettigheter til de opprinnelige skaperne.»

Saksøkerne ønsker «erstatning for den tapte muligheten til å lisensiere verkene deres, og for markedsranet tiltalte [OpenAI] har muliggjort ved å gjøre saksøkerne uvillige medskyldige i sin egen erstatning; og et permanent påbud for å forhindre at disse skadene gjentar seg.»

Registeret har bedt OpenAI om kommentar og vil oppdatere denne historien hvis vi får et betydelig svar. ®

Tidstempel:

Mer fra Registeret