Winnaar van de Pulitzerprijs en anderen klagen OpenAI aan

Winnaar van de Pulitzerprijs en anderen klagen OpenAI aan

De Amerikaanse schrijver Michael Chabon, winnaar van de Pulitzerprijs, en verschillende andere schrijvers hebben een voorgestelde class action ingediend waarin ze OpenAI beschuldigen van inbreuk op het auteursrecht omdat ze naar verluidt hun werk in de datasets hebben opgenomen die worden gebruikt om de modellen achter ChatGPT te trainen.

De rechtszaak beweert dat OpenAI “een breed net over het internet heeft verspreid” om de meest uitgebreide set inhoud vast te leggen die beschikbaar is om zijn GPT-modellen beter te trainen, waardoor het “noodzakelijkerwijs” ertoe zou leiden “auteursrechtelijk beschermde geschreven werken, toneelstukken en films vast te leggen, te downloaden en te kopiëren”. Lidwoord."

Een van de interessantere delen van de rechtszaak is een aantijging over hoe de auteurs denken dat de AI-business ‘twee op internet gebaseerde boekencorpora’ in handen heeft gekregen, waarvan OpenAI opmerkt dat het eenvoudigweg ‘Boeken1’ en ‘Boeken2’ noemt. De indiening beweert dat OpenAI in het artikel uit juli 2020 waarin GPT-3 werd geïntroduceerd, “Language Models are Few-Shot Learners”, onthulde dat naast de datasets “Common Crawl” en “WebText” webpagina-datasets “16 procent van de GPT3-trainingsdataset kwam van… 'Boeken1' en 'Boeken2'.”

De rechtszaak van de schrijvers gaat verder met te beweren dat er maar een paar plaatsen op het openbare internet zijn die zoveel materiaal bevatten, waarbij wordt beweerd dat OpenAI's Books1-dataset “gebaseerd is op het gestandaardiseerde Project Gutenberg Corpus of op Project Gutenberg zelf” en de AI-biz wordt beschuldigd van Boeken2 betrekken van:

beruchte “schaduwbibliotheek”-websites, zoals Library Genesis (“LibGen”), Z-Library, Sci-Hub en Bibliotik, die enorme collecties illegale boeken, onderzoekspapers en ander op tekst gebaseerd materiaal hosten. Het door deze websites verzamelde materiaal is ook in bulk beschikbaar via torrent-systemen.

Ook in de rechtszaak zit Tony en Grammy Award-winnaar David Henry Hwang, de toneelschrijver en scenarioschrijver erachter M. Butterfly, Chinglish, Geel gezicht en De dans en de spoorweg; Peabody-winnaar en Liefde en andere onmogelijke bezigheden auteur Ayelet Waldman; Vrouwen die we hebben begraven auteur Rachel Louise Snyder; En Wie is rijk? schrijver Matthew Klam.

De schrijvers beweren dat, omdat "wanneer ChatGPT wordt gevraagd, het niet alleen samenvattingen genereert, maar ook diepgaande analyses van de thema's die aanwezig zijn in de auteursrechtelijk beschermde werken van eisers", de schrijvers geloven dat "het onderliggende GPT-model is getraind met behulp van de werken van [de] eisers". .”

De advocaten van de schrijvers beweren ook dat wanneer hen wordt gevraagd een paragraaf in de stijl van te schrijven De geweldige avonturen van Kavalier & Clay, het boek dat de Amerikaanse schrijver Chabon zijn Pulitzer bezorgde, genereerde ChatGPT een passage die zijn schrijfstijl imiteerde en verwijzingen bevatte naar de personages die te maken hadden met ‘het gewicht van de wereld in oorlog’.

Screenshot van de klacht, productie A

Screenshot van de klacht, productie A (klik om te vergroten)

De pak [PDF] werd eind vorige week ingediend bij de federale rechtbank van Californië en werd gisteren toegewezen aan magistraatrechter Peter H. Kang uit San Francisco.

OpenAI wordt geconfronteerd met meerdere rechtszaken rond auteursrecht – waaronder twee in San Francisco, aangespannen door romanschrijvers Paul Tremblay en Mona Awad, en afzonderlijk door cabaretier Sarah Silverman en romanschrijvers Christopher Golden en Richard Kadrey. De advocaten voerden in die zaken aan dat de AI-biz de auteursrechtwetten niet heeft overtreden en beweerden dat de LLM’s van ChatGPT beschermd zijn onder de Amerikaanse doctrine van ‘fair use’. Hun argument is dat de manier waarop het bedrijf de tekst gebruikt, in overeenstemming is met de Amerikaanse wetgeving auteursrecht, die een uitzondering op redelijk gebruik toestaat voor zogenaamd ‘transformatief gebruik’ van werk – een remix van het origineel die een ander doel of een ander publiek dient.

Het Amerikaanse Copyright Office is dat wel momenteel op zoek naar commentaar op een onderzoek naar de auteursrechtwetgeving en beleidskwesties die door kunstmatige intelligentiesystemen worden opgeworpen.

Defense for OpenAI heeft nog geen reactie ingediend op de Chabon-klacht. We hebben OpenAI om commentaar gevraagd.

De beschuldigingen in de zaak omvatten directe en indirecte schending van het auteursrecht, illegale verwijdering van informatie over auteursrechtbeheer, oneerlijke concurrentie en ongerechtvaardigde verrijking. Ze eisen een gerechtelijk bevel tegen de inbreuk op hun auteursrechten en een niet-gespecificeerde schadevergoeding.

OpenAI-baas Sam Altman scoorde vorige week de allereerste van Indonesië gouden visum – wat betekent dat hij nu maximaal tien jaar in de archipel kan wonen – als erkenning voor zijn potentieel om ‘inkomende investeringen te genereren’. ®

Tijdstempel:

Meer van Het register