Le lauréat du prix Pulitzer et d'autres poursuivent OpenAI en justice

Le lauréat du prix Pulitzer et d'autres poursuivent OpenAI en justice

Le romancier américain Michael Chabon, lauréat du prix Pulitzer, et plusieurs autres écrivains ont déposé une proposition de recours collectif accusant OpenAI de violation du droit d'auteur pour avoir prétendument intégré leur travail dans les ensembles de données utilisés pour former les modèles derrière ChatGPT.

La poursuite affirme qu'OpenAI « a ratissé un large réseau sur Internet » pour capturer l'ensemble de contenu le plus complet disponible afin de mieux former ses modèles GPT, le conduisant prétendument « nécessairement » à « capturer, télécharger et copier des œuvres écrites, des pièces de théâtre et des œuvres protégées par le droit d'auteur ». des articles."

L’une des parties les plus intéressantes du procès est une allégation selon laquelle les auteurs pensent que le secteur de l’IA a mis la main sur « deux corpus de livres sur Internet », qu’OpenAI appelle simplement « Livres1 » et « Livres2 ». Le dossier allègue que dans l'article de juillet 2020 introduisant GPT-3, « Language Models are Few-Shot Learners », OpenAI a révélé qu'en plus des ensembles de données de pages Web « Common Crawl » et « WebText », « 16 % de l'ensemble de données de formation GPT3 vient de… « Livres1 » et « Livres2 ».

Le procès des auteurs continue en alléguant qu'il n'y a que quelques endroits sur l'Internet public qui contiennent autant de matériel, affirmant que l'ensemble de données Books1 d'OpenAI « est basé soit sur le corpus standardisé du projet Gutenberg, soit sur le projet Gutenberg lui-même » et accusant le secteur de l'IA de recherche de Books2 auprès de :

les tristement célèbres sites Web de « bibliothèques fantômes », comme Library Genesis (« LibGen »), Z-Library, Sci-Hub et Bibliotik, qui hébergent d’énormes collections de livres piratés, de documents de recherche et d’autres documents textuels. Les documents regroupés par ces sites Web ont également été disponibles en masse via des systèmes torrent.

Le procès comprend également David Henry Hwang, lauréat des prix Tony et Grammy, le dramaturge et scénariste derrière M. Butterfly, Chinglish, Visage jauneet une La danse et le chemin de fer; Gagnant Peabody et Amour et autres poursuites impossibles l'auteur Ayelet Waldman ; Les femmes que nous avons enterrées l'auteur Rachel Louise Snyder; et Qui est riche ? le scribe Matthieu Klam.

Les auteurs affirment que parce que « lorsque ChatGPT est invité, il génère non seulement des résumés, mais aussi des analyses approfondies des thèmes présents dans les œuvres protégées par le droit d'auteur des plaignants », les auteurs estiment que « le modèle GPT sous-jacent a été formé à l'aide des œuvres des plaignants. .»

Les avocats des auteurs affirment également que lorsqu'on leur demande d'écrire un paragraphe dans le style de Les incroyables aventures de Kavalier et Clay, le livre qui a valu au romancier américain Chabon son Pulitzer, ChatGPT a généré un passage imitant son style d'écriture et incluant des références aux personnages traitant du « poids du monde en guerre ».

Capture d'écran de la plainte, pièce A

Capture d'écran de la plainte, pièce A (cliquez pour agrandir)

La costume [PDF] a été déposé devant un tribunal fédéral de Californie à la fin de la semaine dernière et a été attribué hier au juge d'instance de San Francisco, Peter H. Kang.

OpenAI fait face à plusieurs poursuites concernant le droit d'auteur, dont deux à San Francisco déposées par les romanciers Paul Tremblay et Mona Awad et, séparément, par la comédienne Sarah Silverman et les romanciers Christopher Golden et Richard Kadrey. Ses avocats ont fait valoir dans ces affaires que le secteur de l'IA n'avait pas violé les lois sur le droit d'auteur, affirmant que les LLM de ChatGPT étaient protégés par la doctrine américaine du « fair use ». Leur argument est que la manière dont l'entreprise utilise le texte est conforme aux normes américaines. le droit d'auteur, qui autorise une exception d'usage équitable pour les utilisations dites « transformatrices » de l'œuvre – un remix de l'original qui sert un objectif ou un public différent.

Le Bureau américain du droit d'auteur est actuellement, en ce moment sollicitant des commentaires sur une étude de la loi sur le droit d’auteur et des questions politiques soulevées par les systèmes d’intelligence artificielle.

La défense d'OpenAI n'a pas encore déposé de réponse à la plainte Chabon. Nous avons demandé des commentaires à OpenAI.

Les allégations dans cette affaire incluent la violation directe et indirecte du droit d'auteur, la suppression illégale d'informations sur la gestion des droits d'auteur, la concurrence déloyale et l'enrichissement sans cause. Ils demandent une injonction contre la violation de leurs droits d'auteur ainsi que des dommages-intérêts non précisés.

Le patron d'OpenAI, Sam Altman, a marqué la semaine dernière le tout premier score de l'Indonésie visa d'or – ce qui signifie qu’il peut désormais vivre dans la nation archipel jusqu’à 10 ans – en reconnaissance de son potentiel à « générer des investissements entrants ». ®

Horodatage:

Plus de Le registre