Tech-Giganten weichen Fragen zu LLM-Urheberrechten aus

Tech-Giganten weichen Fragen zu LLM-Urheberrechten aus

Technologiegiganten weichen Fragen zu den LLM-Urheberrechtsregeln PlatoBlockchain Data Intelligence aus. Vertikale Suche. Ai.

Im britischen Parlament haben Microsoft und Meta diese Woche der Frage ausgewichen, ob Urheber bezahlt werden sollten, wenn ihr urheberrechtlich geschütztes Material zum Trainieren großer Sprachmodelle verwendet wird.

Die Tech-Titanen mit einem Gesamtumsatz von weit über 200 Milliarden US-Dollar waren dabei gegrillt vom House of Lords Communications and Digital Committee, als die Urheberrechtsfrage in den Fokus geriet.

Im September versammelten sich die Authors' Guild, ein Berufsverband für veröffentlichte Autoren, und 17 Autoren reichte eine Sammelklage ein in den USA wegen der Verwendung ihres Materials durch OpenAI zur Erstellung seiner LLM-basierten Dienste.

Sam Altman, CEO von OpenAI, hat seitdem erklärt, dass das Unternehmen die Rechtskosten seiner Kunden für Klagen wegen Urheberrechtsverletzungen übernehmen würde, anstatt das Material aus seinen Trainingssätzen zu entfernen.

Microsoft hat investiert 13 Milliarden US-Dollar in OpenAI. Das Unternehmen verfügt über eine erweiterte Partnerschaft mit dem Entwickler für maschinelles Lernen, betreibt seine Arbeitslasten auf der Azure-Cloud-Plattform und nutzt seine Modelle, um den automatisierten Assistenten Copilot auszuführen.

Owen Larter, Direktor für öffentliche Ordnung im Office of Responsible AI von Microsoft, sagte gestern in seiner Rede vor den Lords: „Es ist wichtig zu verstehen, was ein großes Sprachmodell ist.“ Es handelt sich um ein großes Modell, das auf Textdaten trainiert wird und die Zusammenhänge zwischen verschiedenen Ideen lernt. Es saugt nicht unbedingt etwas von unten auf.“

Er sagte, es sollte einen „Rahmen“ geben, der einen gewissen Schutz für urheberrechtlich geschütztes Material bietet, und Microsoft würde die Verantwortung für etwaige Verstöße durch seine LLM-basierten Systeme übernehmen. Er sagte aber auch, dass Microsoft die jüngste unterstützt Valance-Bericht in ein „innovationsfreundliches“ KI-Gesetz im Vereinigten Königreich, das sich für Text- und Datenausnahmen in Trainingsmodellen einsetzt.

Aber Donald Michael, Lord Foster von Bath, drängte Larter, ob er akzeptieren würde, dass, wenn ein Unternehmen urheberrechtlich geschütztes Material verwendet, um ein LLM mit Gewinn zu bauen, der Urheberrechtsinhaber entschädigt werden sollte.

Der Microsoft-Direktor sagte: „Es ist wirklich wichtig zu verstehen, dass man diese großen Sprachmodelle auf große Datenmengen trainieren muss, wenn man sie zu einer effektiven Leistung bringen will, wenn man ihnen ermöglichen will, dass sie sicher und geschützt sind … Es gibt auch einige Wettbewerbsprobleme, um sicherzustellen, dass das Training großer Modelle für jedermann zugänglich ist. Wenn man zu sehr den Weg einschlägt, bei dem es sehr schwierig ist, Daten zum Trainieren von Modellen zu erhalten, dann wird die Fähigkeit dazu plötzlich nur noch sehr großen Unternehmen vorbehalten sein.“

Der Rechtsstreit ist bereits im Gange um zu untersuchen, wie Trainingsdatensätze erstellt werden Bücher1, Books2 und Books3, die praktisch urheberrechtlich geschütztes Material raubkopieren, wurden verwendet, um beim Aufbau beliebter LLMs zu helfen.

Meta steckt dahinter Lama 2 LLM, das auf bis zu 70 Milliarden Parameter skaliert. Der Social-Media-Riese hat das Modell als Open Source beworben, obwohl FOSS-Puristen auf einige Vorbehalte in seinem Ansatz hinweisen.

Im Gespräch mit den Lords sagte Rob Sherman, Vizepräsident und stellvertretender Chief Privacy Officer für Richtlinien bei Meta, dass das Unternehmen das Gesetz einhalten werde.

Aber er fügte hinzu, dass „die Aufrechterhaltung eines breiten Zugangs zu Informationen im Internet und zu Informationen, auch für die Nutzung bei Innovationen wie dieser, sehr wichtig ist.“ Ich unterstütze es, Rechteinhabern die Möglichkeit zu geben, die Verwendung ihrer Informationen zu verwalten.

„Ich bin etwas vorsichtig, wenn es darum geht, Unternehmen, die KI entwickeln, zu zwingen, maßgeschneiderte Vereinbarungen mit einzelnen Rechteinhabern zu treffen oder für Inhalte zu zahlen, die für sie keinen wirtschaftlichen Wert haben.“

Letzte Woche sagte Dan Conway, CEO der britischen Publishers Association, dem Ausschuss, dass große Sprachmodelle in „absolut massivem Ausmaß“ urheberrechtlich geschützte Inhalte verletzten.

„In der Verlagsbranche wissen wir das aufgrund der Books3-Datenbank, die 120,000 Raubkopien von Buchtiteln auflistet, von denen wir wissen, dass sie von großen Sprachmodellen übernommen wurden“, sagte er. „Wir wissen, dass der Inhalt in absolut großem Umfang von großen Sprachmodellen aufgenommen wird. LLMs verletzen das Urheberrecht an mehreren Stellen des Prozesses, und zwar in Bezug darauf, wann sie diese Informationen sammeln, wie sie diese Informationen speichern und wie sie damit umgehen. Das Urheberrecht wird massiv gebrochen.“

Bei der gleichen Anhörung sagte Dr. Hayleigh Bosher, Dozentin für geistiges Eigentum an der Brunel University London, sie vertrete keine Technologiefirmen oder Content-Ersteller und vertrat eine neutrale Perspektive.

„Das Prinzip, wann man eine Lizenz braucht und wann nicht, ist klar“, sagte sie, „und die Vervielfältigung eines urheberrechtlich geschützten Werks ohne Erlaubnis würde eine Lizenz erfordern oder auf andere Weise einen Verstoß darstellen.“ Das ist es, was KI in verschiedenen Schritten des Prozesses tut: der Aufnahme, der Ausführung des Programms und möglicherweise sogar der Ausgabe.

„Einige KI- und Technologieentwickler vertreten eine andere Auslegung des Gesetzes. Ich vertrete keine dieser Seiten. Ich bin ein Urheberrechtsexperte, und da ich weiß, was das Urheberrecht bewirken soll und wie es es erreicht, würde man für diese Tätigkeit eine Lizenz benötigen.“ ®

Zeitstempel:

Mehr von Das Register