Giganci technologiczni unikają pytań na temat zasad praw autorskich LLM

Giganci technologiczni unikają pytań na temat zasad praw autorskich LLM

Giganci technologiczni unikają pytań na temat zasad praw autorskich LLM PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

W tym tygodniu w brytyjskim parlamencie Microsoft i Meta uchyliły się od odpowiedzi na pytanie, czy twórcom należy płacić, gdy ich materiały chronione prawem autorskim są wykorzystywane do szkolenia dużych modeli językowych.

Byli to technologiczni tytani, których łączne przychody znacznie przekraczały 200 miliardów dolarów grillowany przez Komisję ds. Komunikacji i Cyfryzacji Izby Lordów, gdy w centrum uwagi znalazła się kwestia praw autorskich.

We wrześniu Gildia Autorów, stowarzyszenie branżowe zrzeszające autorów publikacji, i 17 autorów złożył pozew zbiorowy w USA w związku z wykorzystaniem ich materiałów przez OpenAI do tworzenia usług opartych na LLM.

Dyrektor generalny OpenAI, Sam Altman, powiedział od tego czasu, że zamiast usuwać materiały ze swoich zestawów szkoleniowych, firma pokryje koszty prawne swoich klientów w związku z pozwami o naruszenie praw autorskich.

Microsoft ma zainwestowany 13 miliardów dolarów na OpenAI. Ma rozszerzoną współpracę z programistą zajmującym się uczeniem maszynowym, obsługując swoje obciążenia na platformie chmurowej Azure i wykorzystując jej modele do uruchamiania automatycznego asystenta Copilot.

Wczoraj przemawiając do Lordów, Owen Larter, dyrektor ds. polityki publicznej w biurze ds. odpowiedzialnej sztucznej inteligencji firmy Microsoft, powiedział: „Ważne jest, aby docenić model wielojęzyczny. To duży model wyszkolony na danych tekstowych, uczący się powiązań między różnymi pomysłami. Niekoniecznie chodzi o zasysanie czegokolwiek od spodu.

Powiedział, że powinny istnieć „ramy” zapewniające pewną ochronę materiałów chronionych prawem autorskim, a Microsoft przejmie odpowiedzialność za wszelkie naruszenia dokonane przez jej systemy oparte na LLM. Ale powiedział też, że Microsoft wspiera najnowsze Raport Valance’a do „proinnowacyjnego” prawa dotyczącego sztucznej inteligencji w Wielkiej Brytanii, które opowiada się za wyjątkami dotyczącymi tekstów i danych w modelach szkoleniowych.

Jednak Donald Michael, lord Foster z Bath, naciskał na Lartera, czy zgodzi się na to, że jeśli firma wykorzysta materiały chronione prawem autorskim do zbudowania LLM w celach zarobkowych, właściciel praw autorskich powinien otrzymać zwrot kosztów.

Dyrektor Microsoftu powiedział: „Naprawdę ważne jest, aby zrozumieć, że musisz trenować te duże modele językowe na dużych zbiorach danych, jeśli chcesz, aby działały efektywnie i jeśli chcesz zapewnić im bezpieczeństwo… Istnieją również pewne problemy związane z konkurencją [w zapewnieniu], że szkolenie dużych modeli jest dostępne dla każdego. Jeśli pójdziesz za daleko ścieżką, w której bardzo trudno jest uzyskać dane do uczenia modeli, nagle możliwość tego będzie dostępna wyłącznie dla bardzo dużych firm.

Postępowanie sądowe jest już w toku aby zająć się sposobem uczenia zbiorów danych Książki1, Books2 i Books3, które faktycznie stanowią pirackie materiały chronione prawem autorskim, zostały wykorzystane do pomocy w tworzeniu popularnych LLM.

Meta stoi za Lama 2 LLM, który skaluje się do 70 miliardów parametrów. Gigant mediów społecznościowych promował ten model jako open source, choć puryści FOSS wskazują na pewne zastrzeżenia w jego podejściu.

W rozmowie z Izbą Lordów Rob Sherman, wiceprezes i zastępca dyrektora ds. polityki prywatności w Meta, powiedział, że firma będzie przestrzegać prawa.

Dodał jednak, że „utrzymanie szerokiego dostępu do informacji w Internecie i informacji, w tym do wykorzystania w tego typu innowacjach, jest dość ważne. Popieram zapewnienie posiadaczom praw możliwości zarządzania sposobem wykorzystania ich informacji.

„Jestem nieco ostrożny, jeśli chodzi o pomysł zmuszania firm tworzących sztuczną inteligencję do zawierania dostosowanych do indywidualnych potrzeb umów z indywidualnymi posiadaczami praw lub nakazu zapłaty za treści, które nie mają dla nich wartości ekonomicznej”.

W zeszłym tygodniu Dan Conway, dyrektor generalny Brytyjskiego Stowarzyszenia Wydawców, powiedział komisji, że duże modele językowe naruszają treści chronione prawem autorskim na „absolutnie masową skalę”.

„Wiemy o tym w branży wydawniczej dzięki bazie danych Books3, która zawiera listę 120,000 XNUMX pirackich tytułów książek, o których wiemy, że zostały przejęte przez duże modele językowe” – powiedział. „Wiemy, że treści są przetwarzane na absolutnie masową skalę przez duże modele językowe. Firmy LLM rzeczywiście naruszają prawa autorskie na wielu etapach procesu, jeśli chodzi o to, kiedy zbierają te informacje, w jaki sposób je przechowują i jak sobie z nimi radzą. Prawo autorskie jest łamane na masową skalę.”

Podczas tego samego przesłuchania dr Hayleigh Bosher, wykładowczyni prawa własności intelektualnej na Uniwersytecie Brunel w Londynie, oświadczyła, że ​​nie reprezentuje firm technologicznych ani twórców treści i przedstawiła neutralną perspektywę.

„Zasada określająca, kiedy potrzebna jest licencja, a kiedy nie, jest jasna” – powiedziała – „a reprodukcja dzieła chronionego prawem autorskim bez pozwolenia wymagałaby licencji lub w przeciwnym razie stanowiłaby naruszenie. To właśnie robi sztuczna inteligencja na różnych etapach procesu: przyjmowanie, uruchamianie programu i potencjalnie nawet wynik.

„Niektórzy twórcy sztucznej inteligencji i technologii opowiadają się za inną interpretacją prawa. Nie reprezentuję żadnej ze stron. Jestem ekspertem w dziedzinie praw autorskich i z mojego punktu widzenia, rozumiejąc, czemu prawa autorskie mają służyć i w jaki sposób to osiągają, wymagana byłaby licencja na tę działalność. ®

Znak czasu:

Więcej z Rejestr