Authors Guild sagsøger OpenAI for at bruge bøger til at træne ChatGPT

Authors Guild sagsøger OpenAI for at bruge bøger til at træne ChatGPT

Authors Guild sues OpenAI for using books to train ChatGPT PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Authors Guild, en brancheforening for publicerede forfattere, og 17 forfattere har sluppet dragerne løs på OpenAI over dets påståede brug af deres værker til at træne sine chatbots.

Navngivne sagsøgere i gruppesøgsmålet om krænkelse af ophavsretten – anlagt i det sydlige distrikt i New York for ophavsret – omfatter David Baldacci, Mary Bly, Michael Connelly, Sylvia Day, Jonathan Franzen, John Grisham, Elin Hilderbrand, Christina Baker Kline, Maya Shanbhag Lang , Victor LaValle, George RR Martin, Jodi Picoult, Douglas Preston, Roxana Robinson, George Saunders, Scott Turow og Rachel Vail.

klage [PDF] hævder, at OpenAIs tjenester "truer skønlitterære forfatteres mulighed for at tjene til livets ophold, idet de store sprogmodeller tillader enhver at generere – automatisk og gratis (eller meget billigt) - tekster, som de ellers ville betale forfattere for at skabe."

The scribes are unhappy that not only did OpenAI train its models on their work without permission, but that the AI systems unfairly copy their writing when responding to people’s requests, or so it’s alleged.

Klagen påpeger, at ChatGPT med succes er blevet bedt om at oprette en "detaljeret skitse til en prequel-bog til Et spil af troner … ved at bruge de samme karakterer fra Martins eksisterende bøger i serien En sang af is og ild." Lignende resultater var mulige for de andre forfattere, der har tilsluttet sig jakkesættet.

ChatGPT’s ability to do so is problematic, given the authors said they did not authorize OpenAI to access their works as it appears to have done so. The writers believe that when the AI lab fed their work into the model during training, this amounted to unauthorized copying and that the GPT models output unlawful derivatives of copyrighted work.

“At the heart of these algorithms is systematic theft on a mass scale,” the lawsuit paperwork alleges.

Klagen anfører, at OpenAI har indrømmet at bruge datasæt kaldet "Books1" og "Books2" til at træne sine store sprogmodeller, men har ikke afsløret deres indhold. Sagsøgerne formoder, at piratbøger har fundet vej til OpenAI-træningsdata.

"Væksten i kraft og sofistikering fra GPT-3 til GPT-4 antyder en korrelativ vækst i størrelsen af ​​'trænings'-datasættene, hvilket rejser den konklusion, at en eller flere meget store kilder til piratkopierede e-bøger diskuteret ovenfor må være blevet brugt til at ' train' GPT-4," argumenterer klagen og tilføjer "Der er ingen anden måde, OpenAI kunne have opnået den mængde bøger, der kræves for at 'træne' en kraftfuld LLM som GPT-4."

Actually, the complaint does mention one other way: paying for the content used to train ChatGPT. But the suit alleges OpenAI never thought to do so, and quotes CEO Sam Altman’s testimony to Congress that he believes in copyright and has paid for some training data.

"For skønlitterære forfattere er OpenAIs uautoriserede brug af deres arbejde identitetstyveri i stor skala," udtalte Authors Guilds administrerende direktør Mary Rasenberger.

“Fiction authors create entirely new worlds from their imaginations – they create the places, the people, and the events in their stories,” she added, before lamenting: “People are already distributing content generated by versions of GPT that mimic or use original authors’ characters and stories. Companies are selling prompts that allow you to ‘enter the world’ of an author’s books. These are clear infringements upon the intellectual property rights of the original creators.”

Sagsøgerne ønsker "erstatning for den mistede mulighed for at licensere deres værker, og for den markedsangreb, som sagsøgte [OpenAI] har muliggjort ved at gøre sagsøgere uvillige medskyldige i deres egen erstatning; og et permanent påbud for at forhindre, at disse skader gentager sig."

Registret har bedt OpenAI om en kommentar og vil opdatere denne historie, hvis vi modtager et væsentligt svar. ®

Tidsstempel:

Mere fra Registret