Avtorski ceh toži OpenAI zaradi uporabe knjig za usposabljanje ChatGPT

Ponovno objavil Platon

Spremljevalci: 0

Authors Guild sues OpenAI for using books to train ChatGPT PlatoBlockchain Data Intelligence. Vertical Search. Ai.

The Authors Guild, poklicno združenje objavljenih pisateljev, in 17 avtorjev je spustilo zmaje na OpenAI zaradi domnevne uporabe njihovih del za usposabljanje svojih chatbotov.

Imenovani tožniki v skupinski tožbi zaradi kršitve avtorskih pravic – vloženi v južnem okrožju New Yorka zaradi avtorskih pravic – so David Baldacci, Mary Bly, Michael Connelly, Sylvia Day, Jonathan Franzen, John Grisham, Elin Hilderbrand, Christina Baker Kline, Maya Shanbhag Lang , Victor LaValle, George RR Martin, Jodi Picoult, Douglas Preston, Roxana Robinson, George Saunders, Scott Turow in Rachel Vail.

O pritožba [PDF] trdi, da storitve OpenAI »ogrožajo zmožnost preživetja pisateljev leposlovja, saj veliki jezikovni modeli omogočajo vsakomur, da ustvari – samodejno in brezplačno (ali zelo poceni) – besedila, za katera bi pisateljem sicer plačali, da jih ustvarijo.«

The scribes are unhappy that not only did OpenAI train its models on their work without permission, but that the AI systems unfairly copy their writing when responding to people’s requests, or so it’s alleged.

Pritožba poudarja, da je bil ChatGPT uspešno pozvan, da ustvari »podroben oris za predzgodbo knjige Igra prestolov ... z uporabo istih likov iz Martinovih obstoječih knjig v seriji Pesem ledu in ognja.” Podobni rezultati so bili mogoči za druge avtorje, ki so se pridružili tožbi.

ChatGPT’s ability to do so is problematic, given the authors said they did not authorize OpenAI to access their works as it appears to have done so. The writers believe that when the AI lab fed their work into the model during training, this amounted to unauthorized copying and that the GPT models output unlawful derivatives of copyrighted work.

“At the heart of these algorithms is systematic theft on a mass scale,” the lawsuit paperwork alleges.

Pritožba navaja, da je OpenAI priznal uporabo naborov podatkov z imenom »Books1« in »Books2« za usposabljanje svojih velikih jezikovnih modelov, vendar ni razkril njihove vsebine. Tožniki sumijo, da so se piratske knjige prebile v podatke o usposabljanju OpenAI.

»Rast moči in prefinjenosti od GPT-3 do GPT-4 kaže na sorazmerno rast velikosti naborov podatkov za 'usposabljanje', kar daje sklep, da je moral biti eden ali več zelo velikih virov piratskih e-knjig, o katerih smo govorili zgoraj, uporabljeni za ' train' GPT-4,« trdi pritožba in dodaja: »Ni drugega načina, da bi OpenAI pridobil toliko knjig, ki so potrebne za 'usposabljanje' zmogljivega LLM-ja, kot je GPT-4.«

Actually, the complaint does mention one other way: paying for the content used to train ChatGPT. But the suit alleges OpenAI never thought to do so, and quotes CEO Sam Altman’s testimony to Congress that he believes in copyright and has paid for some training data.

»Za pisce leposlovja je nepooblaščena uporaba njihovega dela s strani OpenAI kraja identitete v velikem obsegu,« je izjavila izvršna direktorica Authors Guild Mary Rasenberger.

“Fiction authors create entirely new worlds from their imaginations – they create the places, the people, and the events in their stories,” she added, before lamenting: “People are already distributing content generated by versions of GPT that mimic or use original authors’ characters and stories. Companies are selling prompts that allow you to ‘enter the world’ of an author’s books. These are clear infringements upon the intellectual property rights of the original creators.”

Tožniki želijo »odškodnino za izgubljeno priložnost licenciranja svojih del in za uzurpacijo trga, ki so jo tožene stranke [OpenAI] omogočile tako, da so tožnike naredile nehote sostorilce pri lastni zamenjavi; in trajno prepoved, da se te škode ne bi ponovile.«

Register je zaprosil OpenAI za komentar in bo to zgodbo posodobil, če prejmemo obsežen odgovor. ®