Tekniske giganter dukker opp spørsmål om opphavsrettsregler for LLM

Tekniske giganter dukker opp spørsmål om opphavsrettsregler for LLM

Tekniske giganter dukker opp spørsmål om LLM opphavsrettsregler PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

I Storbritannias parlament denne uken dukket Microsoft og Meta bort spørsmålet om hvorvidt skapere skal betales når deres opphavsrettsbeskyttede materiale brukes til å trene store språkmodeller.

De teknologiske titanene, med samlede inntekter godt i overkant av 200 milliarder dollar, var i ferd med å bli grillet av House of Lords Communications and Digital Committee da opphavsrettsspørsmålet kom i fokus.

I september kom Forfatterlauget, en bransjeforening for publiserte forfattere, og 17 forfattere anlagt en gruppesøksmål i USA over OpenAIs bruk av materialet deres for å lage sine LLM-baserte tjenester.

OpenAI-sjef Sam Altman har siden sagt at selskapet ville dekke sine klienters juridiske kostnader for brudd på opphavsrettssaker i stedet for å fjerne materialet fra opplæringssettene.

Microsoft har investert 13 milliarder dollar i OpenAI. Den har et utvidet partnerskap med maskinlæringsutvikleren, som driver arbeidsbelastningen på Azure-skyplattformen og bruker modellene til å kjøre den automatiske Copilot-assistenten.

I en tale til Lords i går sa Owen Larter, direktør for offentlig politikk ved Microsofts Office of Responsible AI: «Det er viktig å sette pris på hva en stor språkmodell er. Det er en stor modell trent på tekstdata, og lærer assosiasjonene mellom ulike ideer. Det er ikke nødvendigvis å suge opp noe nedenfra.»

Han sa at det burde være et "rammeverk" for å gi en viss beskyttelse for opphavsrettsbeskyttet materiale, og Microsoft ville påta seg ansvaret for enhver krenkelse av dets LLM-baserte systemer. Men han sa også at Microsoft støtter det siste Valance rapport inn i "pro-innovation" AI-lov i Storbritannia som tar til orde for tekst- og dataunntak i treningsmodeller.

Men Donald Michael, Lord Foster of Bath, presset Larter på om han ville akseptere at hvis et selskap bruker opphavsrettsbeskyttet materiale til å bygge en LLM for profitt, bør opphavsrettseieren få tilbakebetaling.

Microsoft-direktøren sa: "Det er veldig viktig å forstå at du må trene disse store språkmodellene på store datasett hvis du skal få dem til å fungere effektivt, hvis du skal la dem være trygge og sikre ... Det er også noen konkurranseproblemer [ved å sørge for] at trening av store modeller er tilgjengelig for alle. Hvis du går for langt ned på en vei hvor det er veldig vanskelig å skaffe data for å trene modeller, vil plutselig muligheten til å gjøre det bare være forbeholdt svært store selskaper.»

Rettssaker er allerede i gang for å adressere hvordan treningsdatasett Bøker 1, Books2 og Books3, som effektivt piratkopierer opphavsrettsbeskyttet materiale, har blitt brukt til å bygge populære LLM-er.

Meta står bak Lama 2 LLM, som skalerer opp til 70 milliarder parametere. Den sosiale mediegiganten har promotert modellen som åpen kildekode, selv om FOSS-purister peker på noen forbehold i sin tilnærming.

Rob Sherman, visepresident og viseadministrerende personvernansvarlig for politikk i Meta, sa til Lords at selskapet ville overholde loven.

Men han la til at "å opprettholde bred tilgang til informasjon på internett og informasjon inkludert for bruk i innovasjon som dette er ganske viktig. Jeg støtter å gi rettighetshavere muligheten til å administrere hvordan informasjonen deres brukes.

"Jeg er litt forsiktig med ideen om å tvinge selskaper som bygger AI til å inngå skreddersydde avtaler med individuelle rettighetshavere eller en ordre om å betale for innhold som ikke har økonomisk verdi for dem."

Forrige uke fortalte Dan Conway, administrerende direktør i Storbritannias Publishers Association, komiteen at store språkmodeller krenket opphavsrettsbeskyttet innhold i «absolutt massiv skala».

"Vi vet dette i forlagsbransjen på grunn av Books3-databasen som viser 120,000 XNUMX piratkopierte boktitler, som vi vet har blitt inntatt av store språkmodeller," sa han. «Vi vet at innholdet blir inntatt i en absolutt massiv skala av store språkmodeller. LLM-er krenker opphavsretten i flere deler av prosessen når det gjelder når de samler inn denne informasjonen, hvordan de lagrer denne informasjonen og hvordan de håndterer den. Opphavsrettsloven blir brutt i massiv skala.»

I samme høring sa Dr Hayleigh Bosher, leser i immaterialrett ved Brunel University London, at hun ikke representerte teknologifirmaer eller innholdsskapere og ga et nøytralt perspektiv.

"Prinsippet om når du trenger en lisens og når du ikke trenger det er klart," sa hun, "og å lage en reproduksjon av et opphavsrettsbeskyttet verk uten tillatelse ville kreve en lisens eller ville på annen måte være krenkelse. Det er det AI gjør på forskjellige trinn i prosessen: Inntak, kjøring av programmet og potensielt til og med utdata.

"Noen AI- og teknologiutviklere argumenterer for en annen tolkning av loven. Jeg representerer ikke noen av disse sidene. Jeg er en opphavsrettsekspert, og fra min posisjon, forståelse av hva opphavsrett er ment å oppnå og hvordan den oppnår det, vil du kreve en lisens for den aktiviteten.» ®

Tidstempel:

Mer fra Registeret