Les géants de la technologie évitent les questions sur les règles de droit d'auteur du LLM

Les géants de la technologie évitent les questions sur les règles de droit d'auteur du LLM

Les géants de la technologie évitent les questions sur les règles de droit d'auteur du LLM PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Cette semaine, au Parlement britannique, Microsoft et Meta ont éludé la question de savoir si les créateurs devraient être payés lorsque leur matériel protégé par le droit d'auteur est utilisé pour former de grands modèles linguistiques.

Les titans de la technologie, dont les revenus combinés dépassaient largement les 200 milliards de dollars, étaient menacés. grillé par la commission des communications et du numérique de la Chambre des Lords lorsque la question du droit d'auteur est apparue.

En septembre, la Authors’ Guild, une association professionnelle d’écrivains publiés, et 17 auteurs a déposé un recours collectif aux États-Unis concernant l'utilisation par OpenAI de leur matériel pour créer ses services basés sur LLM.

Le PDG d'OpenAI, Sam Altman, a depuis déclaré que la société couvrirait les frais juridiques de ses clients pour les poursuites pour violation du droit d'auteur plutôt que de supprimer le matériel de ses ensembles de formation.

Microsoft a investi 13 milliards de dollars en OpenAI. Il dispose d'un partenariat étendu avec le développeur d'apprentissage automatique, alimentant ses charges de travail sur la plate-forme cloud Azure et utilisant ses modèles pour exécuter l'assistant automatisé Copilot.

S'adressant aux Lords hier, Owen Larter, directeur des politiques publiques au Bureau de l'IA responsable de Microsoft, a déclaré : « Il est important de comprendre ce qu'est un grand modèle linguistique. Il s’agit d’un grand modèle entraîné sur des données textuelles, apprenant les associations entre différentes idées. Il ne s’agit pas nécessairement d’aspirer quoi que ce soit par en dessous.

Il a déclaré qu'il devrait y avoir un « cadre » pour fournir une certaine protection au matériel protégé par le droit d'auteur et que Microsoft assumerait la responsabilité de toute violation par ses systèmes basés sur LLM. Mais il a également déclaré que Microsoft soutenait la récente Rapport de cantonnière au Royaume-Uni, une loi sur l’IA « pro-innovation » qui préconise des exceptions aux textes et aux données dans les modèles de formation.

Mais Donald Michael, Lord Foster of Bath, a demandé à Larter s'il accepterait que si une entreprise utilise du matériel protégé par le droit d'auteur pour construire un LLM à but lucratif, le titulaire du droit d'auteur devrait être remboursé.

Le directeur de Microsoft a déclaré : « Il est vraiment important de comprendre que vous devez former ces grands modèles de langage sur de grands ensembles de données si vous voulez qu'ils fonctionnent efficacement, si vous voulez leur permettre d'être sûrs et sécurisés… Il existe également des problèmes de concurrence [pour s'assurer] que la formation des grands modèles soit accessible à tous. Si vous allez trop loin dans une voie où il est très difficile d’obtenir des données pour entraîner des modèles, alors tout d’un coup, la capacité de le faire ne sera que l’apanage des très grandes entreprises.

Un litige est déjà en cours pour aborder la façon dont les ensembles de données de formation Livres1, Books2 et Books3, qui piratent efficacement du matériel protégé par le droit d'auteur, ont été utilisés pour aider à créer des LLM populaires.

Meta est derrière le Lama 2 LLM, qui s'étend jusqu'à 70 milliards de paramètres. Le géant des médias sociaux a promu le modèle comme étant open source, bien que les puristes du FOSS soulignent certaines réserves quant à son approche.

S'adressant aux Lords, Rob Sherman, vice-président et directeur adjoint de la politique de confidentialité chez Meta, a déclaré que l'entreprise se conformerait à la loi.

Mais il a ajouté que « maintenir un large accès à l’information sur Internet et à l’information, notamment pour une utilisation dans des innovations comme celle-ci, est très important. Je suis favorable à ce que les titulaires de droits aient la possibilité de gérer la manière dont leurs informations sont utilisées.

"Je suis un peu prudent à l'idée de forcer les entreprises qui développent l'IA à conclure des accords sur mesure avec des titulaires de droits individuels ou à leur ordonner de payer pour un contenu qui n'a pas de valeur économique pour eux."

La semaine dernière, Dan Conway, PDG de l’Association des éditeurs du Royaume-Uni, a déclaré au comité que les grands modèles linguistiques violaient le contenu protégé par le droit d’auteur à une « échelle absolument massive ».

"Nous le savons dans le secteur de l'édition grâce à la base de données Books3 qui répertorie 120,000 XNUMX titres de livres piratés, dont nous savons qu'ils ont été ingérés par de grands modèles linguistiques", a-t-il déclaré. « Nous savons que le contenu est ingéré à une échelle absolument massive par de grands modèles linguistiques. Les LLM enfreignent le droit d'auteur à plusieurs étapes du processus en termes de moment où ils collectent ces informations, comment ils stockent ces informations et comment ils les traitent. La loi sur le droit d’auteur est violée à grande échelle.»

Lors de la même audience, le Dr Hayleigh Bosher, professeur de droit de la propriété intellectuelle à l'Université Brunel de Londres, a déclaré qu'elle ne représentait pas les entreprises technologiques ou les créateurs de contenu et a offert un point de vue neutre.

« Le principe selon lequel vous avez besoin d’une licence et quand vous n’en avez pas besoin est clair », a-t-elle déclaré, « et faire une reproduction d’une œuvre protégée par le droit d’auteur sans autorisation nécessiterait une licence ou constituerait une contrefaçon. C’est ce que fait l’IA à différentes étapes du processus : l’ingestion, l’exécution du programme et potentiellement même la sortie.

« Certains développeurs d’IA et de technologies défendent une interprétation différente de la loi. Je ne représente aucun de ces côtés. Je suis un expert en droit d’auteur et, compte tenu de ma position et de la compréhension de ce que le droit d’auteur est censé réaliser et de la manière dont il y parvient, vous auriez besoin d’une licence pour cette activité. ®

Horodatage:

Plus de Le registre