Tekniska jättar undviker frågor om LLM upphovsrättsregler

Tekniska jättar undviker frågor om LLM upphovsrättsregler

Tekniska jättar undviker frågor om LLM upphovsrättsregler PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

I Storbritanniens parlament i veckan undrade Microsoft och Meta frågan om kreatörer ska få betalt när deras upphovsrättsskyddade material används för att träna stora språkmodeller.

De tekniska titanerna, med sammanlagda intäkter långt över 200 miljarder dollar, var på väg grillad av House of Lords Communications and Digital Committee när upphovsrättsfrågan hamnade i fokus.

I september startade Författargillet, en branschorganisation för publicerade författare, och 17 författare in en grupptalan i USA över OpenAI:s användning av deras material för att skapa sina LLM-baserade tjänster.

OpenAI VD Sam Altman har sedan dess sagt att företaget skulle täcka sina kunders juridiska kostnader för upphovsrättsintrång snarare än att ta bort materialet från sina utbildningsset.

Microsoft har investerat 13 miljarder dollar i OpenAI. Den har ett utökat partnerskap med maskininlärningsutvecklaren, driver sina arbetsbelastningar på Azure-molnplattformen och använder sina modeller för att köra den automatiska Copilot-assistenten.

Owen Larter, chef för offentlig politik vid Microsofts Office of Responsible AI, sa till Lords i går: "Det är viktigt att inse vad en stor språkmodell är. Det är en stor modell som tränas på textdata och lär sig sambanden mellan olika idéer. Det är inte nödvändigtvis att suga upp något underifrån.”

Han sa att det borde finnas ett "ramverk" för att ge visst skydd för upphovsrättsskyddat material och Microsoft skulle ta ansvar för alla intrång från dess LLM-baserade system. Men han sa också att Microsoft stöder den senaste tiden Valance rapport till "pro-innovation" AI-lag i Storbritannien som förespråkar text- och dataundantag i träningsmodeller.

Men Donald Michael, Lord Foster of Bath, tryckte på Larter om han skulle acceptera att om ett företag använder upphovsrättsskyddat material för att bygga en LLM i vinstsyfte, så ska upphovsrättsägaren få ersättning.

Microsoft-direktören sa: "Det är verkligen viktigt att förstå att du behöver träna dessa stora språkmodeller på stora datamängder om du ska få dem att fungera effektivt, om du ska tillåta dem att vara säkra och säkra ... Det finns också vissa tävlingsproblem [att se till att] utbildning av stora modeller är tillgänglig för alla. Om du går för långt ner på en väg där det är väldigt svårt att skaffa data för att träna modeller, så kommer helt plötsligt bara mycket stora företag att kunna göra det.”

Rättegång pågår redan för att ta itu med hur träningsdatauppsättningar Böcker 1, Books2 och Books3, som effektivt piratkopierar upphovsrättsskyddat material, har använts för att hjälpa till att bygga populära LLM:s.

Meta ligger bakom Lama 2 LLM, som skalar upp till 70 miljarder parametrar. Den sociala mediejätten har främjat modellen som öppen källkod, även om FOSS-purister pekar på några förbehåll i sitt tillvägagångssätt.

På tal till Lords sa Rob Sherman, vicepresident och biträdande chief privacy officer för policy på Meta, att företaget skulle följa lagen.

Men han tillade att "upprätthålla bred tillgång till information på internet och information inklusive för användning i innovation som denna är ganska viktigt. Jag stöder att rättighetsinnehavare ska kunna hantera hur deras information används.

"Jag är lite försiktig med tanken på att tvinga företag som bygger AI att ingå skräddarsydda avtal med individuella rättighetsinnehavare eller en order att betala för innehåll som inte har ekonomiskt värde för dem."

Förra veckan berättade Dan Conway, VD för Storbritanniens Publishers Association, för kommittén att stora språkmodeller gjorde intrång i upphovsrättsskyddat innehåll i "absolut massiv skala."

"Vi vet detta inom förlagsbranschen på grund av Books3-databasen som listar 120,000 XNUMX piratkopierade boktitlar, som vi vet har tagits in av stora språkmodeller," sade han. "Vi vet att innehållet intas i en absolut massiv skala av stora språkmodeller. LLM:er gör intrång i upphovsrätten i flera delar av processen när det gäller när de samlar in denna information, hur de lagrar denna information och hur de hanterar den. Upphovsrättslagen bryts i massiv skala.”

Vid samma utfrågning sa Dr Hayleigh Bosher, läsare i immaterialrätt vid Brunel University London, att hon inte representerade teknikföretag eller innehållsskapare och erbjöd ett neutralt perspektiv.

"Principen om när du behöver en licens och när du inte behöver det är tydlig", sa hon, "och att göra en reproduktion av ett upphovsrättsskyddat verk utan tillstånd skulle kräva en licens eller annars skulle det vara intrång. Det är vad AI gör i olika steg av processen: intag, körning av programmet och potentiellt även utdata.

"Vissa AI- och teknikutvecklare argumenterar för en annan tolkning av lagen. Jag representerar inte någon av de sidorna. Jag är en upphovsrättsexpert, och utifrån min ståndpunkt, förståelse för vad upphovsrätten ska uppnå och hur den uppnår den, skulle du kräva en licens för den aktiviteten." ®

Tidsstämpel:

Mer från Registret