Pourquoi le procès pour droits d'auteur sur l'IA du New York Times sera difficile à défendre

Pourquoi le procès pour droits d'auteur sur l'IA du New York Times sera difficile à défendre

Pourquoi le procès pour droits d'auteur sur l'IA du New York Times sera difficile pour défendre PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Le New York Times (NYT) poursuite judiciaire contre OpenAI et Microsoft a ouvert une nouvelle frontière dans les défis juridiques en cours provoqués par l’utilisation de données protégées par le droit d’auteur pour « entraîner » ou améliorer l’IA générative.

Il existe déjà diverses poursuites contre les sociétés d’IA, dont une intentée par Getty Images contre l’IA de stabilité, qui crée le générateur de texte-image en ligne Stable Diffusion. Les auteurs George RR Martin et John Grisham ont également intenté des poursuites judiciaires contre le propriétaire de ChatGPT, OpenAI, pour réclamations en matière de droits d'auteur. Mais l’affaire du New York Times n’est pas « plus ou moins la même » car elle apporte de nouveaux arguments intéressants.

L'action en justice se concentre sur la valeur des données de formation et une nouvelle question relative à l’atteinte à la réputation. Il s’agit d’un puissant mélange de marques déposées et de droits d’auteur qui peut tester les défenses d’utilisation équitable généralement invoquées.

Il sera sans aucun doute surveillé de près par les médias qui cherchent à remettre en question l'approche habituelle « demandons pardon, pas la permission » en matière de formation des données. Les données de formation sont utilisées pour améliorer les performances des systèmes d’IA et consistent généralement en des informations du monde réel, souvent tirées d’Internet.

Le procès présente également un nouvel argument – ​​non avancé par d'autres affaires similaires – qui est lié à ce qu'on appelle "hallucinations" où les systèmes d’IA génèrent des informations fausses ou trompeuses mais les présentent comme des faits. Cet argument pourrait en fait être l’un des plus puissants dans cette affaire.

Le cas du New York Times en particulier soulève trois points de vue intéressants sur l’approche habituelle. Premièrement, en raison de leur réputation d’actualités et d’informations fiables, le contenu du NYT a accru sa valeur et son attrait en tant que données de formation destinées à être utilisées dans l’IA.

Deuxièmement, en raison du paywall du New York Times, la reproduction d'articles sur demande est commercialement préjudiciable. Troisièmement, cela ChatGPT Les hallucinations nuisent à la réputation du New York Times, en réalité à travers de fausses attributions.

Il ne s’agit pas simplement d’un autre conflit sur les droits d’auteur de l’IA générative. Le premier argument présenté par le NYT est que les données de formation utilisées par OpenAI sont protégées par le droit d'auteur, et ils prétendent donc que la phase de formation de ChatGPT a violé le droit d'auteur. Nous avons vu ce type d'argument courir avant dans d'autres litiges.

Utilisation équitable?

Le défi de ce type d'attaque est le bouclier d'utilisation équitable. Aux États-Unis, l'utilisation équitable est une doctrine juridique qui autorise l'utilisation de matériel protégé par le droit d'auteur dans certaines circonstances, comme dans le cadre de reportages d'actualité, de travaux universitaires et de commentaires.

La réponse d'OpenAI Jusqu’à présent, l’entreprise a été très prudente, mais l’un des principes clés d’un communiqué publié par l’entreprise est que son utilisation des données en ligne relève effectivement du principe de « l’utilisation équitable ».

Anticipant certaines des difficultés qu’une telle défense d’utilisation équitable pourrait potentiellement causer, le New York Times a adopté un angle légèrement différent. Elle cherche notamment à différencier ses données des données standards. Le New York Times a l’intention d’utiliser ce qu’il prétend être l’exactitude, la fiabilité et le prestige de ses reportages. Il prétend que cela crée un ensemble de données particulièrement souhaitable.

Il fait valoir qu’en tant que source réputée et fiable, ses articles ont un poids et une fiabilité supplémentaires dans la formation de l’IA générative et font partie d’un sous-ensemble de données auquel une pondération supplémentaire est accordée dans cette formation.

Il fait valoir qu'en reproduisant largement les articles sur demande, ChatGPT est en mesure de nier le New York Times, qui est payant, les visiteurs et les revenus qu'il recevrait autrement. Cette introduction d’un certain aspect de la concurrence commerciale et de l’avantage commercial semble destinée à contrecarrer la défense habituelle d’utilisation équitable commune à ces allégations.

Il sera intéressant de voir si l’affirmation d’une pondération spéciale dans les données d’entraînement a un impact. Si tel est le cas, cela ouvre la voie à d’autres organisations médiatiques pour contester l’utilisation de leurs reportages dans les données de formation sans autorisation.

Le dernier élément de la revendication du New York Times présente un nouvel angle du défi. Cela suggère que des dommages sont causés à la marque NYT à travers le matériel produit par ChatGPT. Bien qu’elle soit presque présentée après coup dans la plainte, c’est peut-être l’affirmation qui pose le plus de difficultés à OpenAI.

C’est l’argument lié aux hallucinations de l’IA. Le NYT fait valoir que cela est aggravé par le fait que ChatGPT présente les informations comme provenant du NYT.

Le journal suggère en outre que les consommateurs peuvent agir sur la base du résumé donné par ChatGPT, pensant que les informations proviennent du New York Times et sont dignes de confiance. L'atteinte à la réputation est causée par le fait que le journal n'a aucun contrôle sur ce que produit ChatGPT.

C’est un défi intéressant pour conclure. L’hallucination est un problème reconnu lié aux réponses générées par l’IA, et le New York Times fait valoir que le préjudice porté à la réputation n’est peut-être pas facile à réparer.

La réclamation du New York Times ouvre un certain nombre de nouvelles lignes d'attaque qui déplacent l'attention du droit d'auteur vers la manière dont les données protégées par le droit d'auteur sont présentées aux utilisateurs par ChatGPT et la valeur de ces données pour le journal. C’est beaucoup plus difficile à défendre pour OpenAI.

Cette affaire sera suivie de près par d’autres éditeurs de médias, en particulier ceux derrière des paywalls, et en particulier en ce qui concerne la manière dont elle interagit avec la défense habituelle de l’usage équitable.

Si l’ensemble de données du New York Times est reconnu comme ayant la « valeur améliorée » qu’il prétend, cela pourrait ouvrir la voie à la monétisation de cet ensemble de données dans la formation de l’IA plutôt qu’à l’approche du « pardon, pas de la permission » qui prévaut aujourd’hui.

Cet article est republié de The Conversation sous une licence Creative Commons. Lis le article original.

Crédit image: Vision absolue / Unsplash 

Horodatage:

Plus de Singularity Hub