Tech Giants Ducki küsimused LLM-i autoriõiguse reeglite kohta

Taasavaldanud Platon

järgijaid: 0

Tehnikahiiglased esitavad küsimusi LLM-i autoriõiguse reeglite kohta PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Sel nädalal lükkasid Microsoft ja Meta Ühendkuningriigi parlamendis kõrvale küsimuse, kas loojatele tuleks maksta, kui nende autoriõigustega kaitstud materjali kasutatakse suurte keelemudelite koolitamiseks.

Tehnilised titaanid, kelle kogutulu ületas tublisti 200 miljardit dollarit, tegutsesid grillitud House of Lordsi kommunikatsiooni- ja digitaalkomitee poolt, kui autoriõiguse küsimus kerkis fookusesse.

Septembris publitseeritud kirjanike ametiühing Autorite Gild ja 17 autorit esitas klassihagi USA-s seoses OpenAI kasutamisega nende materjalidega oma LLM-põhiste teenuste loomiseks.

OpenAI tegevjuht Sam Altman on sellest ajast peale öelnud, et ettevõte katab oma klientide õiguskulud autoriõiguste rikkumise hagide eest, selle asemel et eemaldada materjal oma koolituskomplektidest.

Microsoft on investeerinud OpenAI-s 13 miljardit dollarit. Sellel on laiendatud partnerlus masinõppe arendajaga, pakkudes oma töökoormust Azure'i pilvplatvormil ja kasutades selle mudeleid Copiloti automatiseeritud assistendi käitamiseks.

Microsofti vastutustundliku tehisintellekti büroo avaliku poliitika direktor Owen Larter ütles eile Lordsiga rääkides: "Oluline on mõista, mis on suur keelemudel. See on suur mudel, mis on treenitud tekstiandmetel ja mis õpib seoseid erinevate ideede vahel. See ei pruugi tingimata midagi alt üles imeda.

Ta ütles, et autoriõigusega kaitstud materjalide kaitseks peaks olema "raamistik" ja Microsoft võtab vastutuse oma LLM-põhiste süsteemide rikkumiste eest. Kuid ta ütles ka, et Microsoft toetab viimast Valance aruanne Ühendkuningriigi "innovatsiooni pooldava" tehisintellekti seadusesse, mis toetab teksti- ja andmete erandeid koolitusmudelites.

Kuid Donald Michael, Bathi lord Foster, avaldas Larterile survet, kas ta nõustuks sellega, et kui ettevõte kasutab autoriõigustega kaitstud materjali LLM-i loomiseks kasumi eesmärgil, tuleks autoriõiguse omanikule hüvitada.

Microsofti direktor ütles: "On tõesti oluline mõista, et peate neid suuri keelemudeleid õpetama suurte andmehulkade jaoks, kui soovite, et need toimiksid tõhusalt, kui soovite, et need oleksid ohutud ja turvalised... Samuti on konkurentsiprobleeme [tagamaks], et suurte modellide koolitus oleks kõigile kättesaadav. Kui lähete liiga kaugele teele, kus mudelite koolitamiseks on väga raske andmeid hankida, jääb järsku selle võimalus ainult väga suurte ettevõtete pärusmaaks.

Kohtuvaidlus juba käib koolitusandmete kogumite käsitlemiseks Raamatud 1, Books2 ja Books3, mis tõhusalt piraat autoriõigustega kaitstud materjale, on kasutatud populaarsete LLM-ide loomisel.

Meta on taga Laama 2 LLM, mis skaleerib kuni 70 miljardit parameetrit. Sotsiaalmeedia hiiglane on reklaaminud mudelit avatud lähtekoodiga, kuigi FOSS-i puristid viitavad oma lähenemisviisis mõningatele hoiatustele.

Meta asepresident ja privaatsusjuhi asetäitja Rob Sherman ütles Lordidega rääkides, et ettevõte järgib seadusi.

Kuid ta lisas, et "laialdase juurdepääsu säilitamine Internetis leiduvale teabele ja teabele, sealhulgas sellisel innovatsioonil kasutamiseks, on üsna oluline. Toetan, et õiguste omanikele antakse võimalus hallata, kuidas nende teavet kasutatakse.

"Olen veidi ettevaatlik idee suhtes, mis sunnib tehisintellekti ehitavaid ettevõtteid sõlmima individuaalsete õiguste omanikega eritellimusel kokkuleppeid või korraldust maksta sisu eest, millel pole nende jaoks majanduslikku väärtust."

Eelmisel nädalal ütles Ühendkuningriigi kirjastajate assotsiatsiooni tegevjuht Dan Conway komiteele, et suured keelemudelid rikuvad autoriõigustega kaitstud sisu "absoluutselt massiliselt".

"Me teame seda kirjastustööstuses tänu andmebaasile Books3, mis sisaldab 120,000 XNUMX piraatraamatu pealkirja, mis on meile teadaolevalt suurte keelemudelite poolt sisse võetud," ütles ta. "Me teame, et suured keelemudelid võtavad sisu sisse absoluutselt massiliselt. LLM-id rikuvad autoriõigusi protsessi mitmes osas seoses sellega, millal nad seda teavet koguvad, kuidas nad seda teavet säilitavad ja kuidas nad seda käsitlevad. Autoriõiguse seadust rikutakse massiliselt.

Samal ärakuulamisel ütles Londoni Bruneli ülikooli intellektuaalomandiõiguse lugeja dr Hayleigh Bosher, et ta ei esinda tehnoloogiafirmasid ega sisuloojaid ning pakkus välja neutraalse vaatenurga.

"Põhimõte, millal on vaja litsentsi ja millal mitte, on selge," ütles ta, "ning autoriõigusega kaitstud teose loata reprodutseerimine nõuaks litsentsi või oleks muul viisil rikkumine. Seda teeb AI protsessi erinevatel etappidel: allaneelamine, programmi käitamine ja potentsiaalselt isegi väljund.

"Mõned tehisintellekti ja tehnoloogiaarendajad vaidlevad seaduse erineva tõlgendamise üle. Ma ei esinda kumbagi poolt. Olen autoriõiguse ekspert ja minu positsioonist lähtudes, kui ma saan aru, mida autoriõigus peaks saavutama ja kuidas see saavutab, vajate selle tegevuse jaoks litsentsi. ®