OpenAI: Nie da się wyszkolić najwyższej klasy sztucznej inteligencji i uniknąć praw autorskich

OpenAI: Nie da się wyszkolić najwyższej klasy sztucznej inteligencji i uniknąć praw autorskich

OpenAI: niemożliwe jest wyszkolenie najwyższej klasy sztucznej inteligencji i uniknięcie praw autorskich PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

OpenAI stwierdziło, że „niemożliwe” byłoby zbudowanie najwyższej klasy sieci neuronowych spełniających dzisiejsze potrzeby bez wykorzystania dzieł chronionych prawem autorskim. Laboratorium wspierane przez Microsoft, które uważa, że ​​zgodnie z prawem zbiera wspomniane treści do szkolenia swoich modeli, stwierdziło, że wykorzystywanie materiałów należących do domeny publicznej nieobjętych prawami autorskimi spowoduje, że oprogramowanie AI będzie kiepskiej jakości.

To stwierdzenie pojawia się w momencie, gdy świat uczenia maszynowego rzuca się na ceglany mur, jakim jest prawo autorskie. Tylko w tym tygodniu w raporcie IEEE stwierdzono, że Midjourney i DALL-E 3 firmy OpenAI, dwie główne usługi AI umożliwiające przekształcanie podpowiedzi tekstowych w obrazy, potrafią odtwarzać chronione prawem autorskim sceny z filmów i gier wideo na podstawie danych szkoleniowych.

Połączenia „The Puzzle of Monogamous Marriage” , którego współautorami są Gary Marcus, ekspert i krytyk AI, oraz Reid Southen, ilustrator cyfrowy, dokumentuje wiele przypadków „plagiatowych wyników”, w których OpenAI i DALL-E 3 renderują zasadniczo podobne wersje scen z filmów, zdjęć słynnych aktorzy i zawartość gier wideo.

Marcus i Southen twierdzą, że jest prawie pewne, że Midjourney i OpenAI wyszkoliły swoje modele generowania obrazów AI na materiałach chronionych prawem autorskim.

Kwestia, czy jest to legalne i czy dostawcy sztucznej inteligencji lub ich klienci ryzykują pociągnięcie do odpowiedzialności, pozostaje kwestią sporną. Jednak ustalenia zawarte w raporcie mogą wzmocnić pozycję tych, którzy pozywają OpenAI Midjourney i DALL-E za naruszenie praw autorskich.

Tworząc obraz, użytkownicy mogą nie wiedzieć, czy naruszają prawo

„Zarówno OpenAI, jak i Midjourney są w pełni zdolne do tworzenia materiałów, które wydają się naruszać prawa autorskie i znaki towarowe” – napisali. „Te systemy nie informują użytkowników, kiedy to robią. Nie podają żadnych informacji na temat pochodzenia tworzonych przez siebie obrazów. Tworząc obraz, użytkownicy mogą nie wiedzieć, czy naruszają prawo.”

Żadna z firm nie ujawniła w pełni danych szkoleniowych wykorzystywanych do tworzenia modeli sztucznej inteligencji.

To nie tylko artyści cyfrowi wymagające firmy zajmujące się sztuczną inteligencją. Niedawno „The New York Times”. pozwał OpenAI ponieważ jego model tekstowy ChatGPT będzie wypluwał niemal dosłowne kopie płatnych artykułów gazety. Autorzy książek złożyli podobne roszczenia, podobnie jak to uczynili programiści.

Wcześniejszy Badania naukowe wskazał, że ChatGPT OpenAI można nakłonić do odtwarzania tekstu szkoleniowego. A ci, którzy pozywają Microsoft i GitHub, twierdzą, że model asystenta kodowania Copilot będzie odtwarzał kod mniej więcej dosłownie.

Firma Southen zauważyła, że ​​Midjourney pobiera opłaty od klientów, którzy tworzą treści naruszające prawa autorskie i czerpią korzyści z przychodów z subskrypcji. „Użytkownicy MJ [Midjourney] nie muszą sprzedawać obrazów, aby mogło dojść do potencjalnego naruszenia praw autorskich, MJ już czerpie zyski z ich tworzenia” – stwierdził. opiniował, powtarzając argument przedstawiony w raporcie IEEE.

OpenAI również pobiera opłatę abonamentową i tym samym zarabia w ten sam sposób. Ani OpenAI, ani Midjourney nie odpowiedziały na prośby o komentarz.

Jednak w poniedziałek OpenAI opublikowało plik blogu odnosząc się do pozwu New York Timesa, który zdaniem sprzedawcy sztucznej inteligencji był bezpodstawny. Co zaskakujące, laboratorium stwierdziło, że jeśli jego sieci neuronowe generowały treści naruszające prawa, był to „błąd”.

W sumie nowicjusz dzisiaj argumentował, że: aktywnie współpracuje z organizacjami informacyjnymi; szkolenie dotyczące danych chronionych prawem autorskim kwalifikuje się do obrony w ramach dozwolonego użytku w świetle prawa autorskiego; „Zarzucanie niedomykalności to rzadki błąd, nad którym pracujemy, aby wyeliminować go”; a New York Times wybrał wybrane przykłady reprodukcji tekstu, które nie reprezentują typowego zachowania.

Zadecyduje prawo

– powiedział Tyler Ochoa, profesor na wydziale prawa Uniwersytetu Santa Clara w Kalifornii Rejestr że chociaż ustalenia raportu IEEE prawdopodobnie pomogą stronom sporu w sprawie roszczeń dotyczących praw autorskich, nie powinny – ponieważ jego zdaniem autorzy artykułu błędnie przedstawili to, co się dzieje.

„Piszą: «Czy można nakłonić modele generujące obrazy do tworzenia plagiatowych wyników w oparciu o materiały chronione prawem autorskim? … [Odkryliśmy], że odpowiedź jest zdecydowanie „tak”, nawet bez bezpośredniego namawiania do plagiatów”.

Ochoa zakwestionowała ten wniosek, argumentując, że podpowiedzi wprowadzone przez autorów raportu „pokazują, że w rzeczywistości bezpośrednio zabiegają o plagiat. W każdym pojedynczym pytaniu wymieniony jest tytuł konkretnego filmu, określane są proporcje obrazu, a we wszystkich przypadkach z wyjątkiem jednego słowa „film” i „zrzut ekranu” lub „zrzut ekranu”. (Jedyny wyjątek opisuje obraz, który chcieli odtworzyć. )”

Profesor prawa powiedział, że kwestią prawa autorskiego jest określenie, kto jest odpowiedzialny za plagiat: twórcy modelu AI czy osoby, które poprosiły model AI o odtworzenie popularnej sceny.

„Model generatywnej sztucznej inteligencji jest w stanie wygenerować oryginalny wynik, a także po wyświetleniu monitu może odtwarzać sceny przypominające sceny z materiałów objętych prawami autorskimi” – wyjaśnił Ochoa. „Należy to rozpatrywać jako przypadek współnaruszenia: osoba, która zaproponowała model, jest głównym sprawcą naruszenia, a twórcy modelu ponoszą odpowiedzialność tylko wtedy, gdy zostali poinformowani o naruszeniu pierwotnym i nie podjęli rozsądnych kroków, aby powstrzymać To."

Ochoa powiedział, że generatywne modele sztucznej inteligencji z większym prawdopodobieństwem odtwarzają określone obrazy, jeśli w zestawie danych szkoleniowych znajduje się wiele wystąpień tych obrazów.

„W tym przypadku jest bardzo mało prawdopodobne, aby dane szkoleniowe obejmowały całe filmy; znacznie bardziej prawdopodobne jest, że dane szkoleniowe obejmowały zdjęcia z filmów, które były rozpowszechniane jako fotosy reklamowe filmu” – stwierdził. „Te obrazy były wielokrotnie powielane w danych szkoleniowych, ponieważ zachęcano media do rozpowszechniania tych obrazów w celach reklamowych i tak też zrobiły.

„Byłoby zasadniczo niesprawiedliwe, gdyby właściciel praw autorskich zachęcał do szerokiego rozpowszechniania nieruchomych obrazów w celach reklamowych, a następnie narzekał, że obrazy te są imitowane przez sztuczną inteligencję, ponieważ dane szkoleniowe obejmowały wiele kopii tych samych obrazów”.

Ochoa powiedziała, że ​​istnieją kroki, aby ograniczyć takie zachowanie w modelach AI. „Pytanie brzmi, czy powinni to robić, skoro osoba, która wprowadziła monit, wyraźnie chciała, aby sztuczna inteligencja odtworzyła rozpoznawalny obraz, a studia filmowe, które wyprodukowały oryginalne nieruchome obrazy, wyraźnie chciały, aby te nieruchome obrazy były szeroko rozpowszechniane ," powiedział.

„Lepsze pytanie brzmiałoby: jak często się to zdarza, gdy zachęta nie wspomina o konkretnym filmie ani nie opisuje konkretnej postaci lub sceny? Myślę, że bezstronny badacz prawdopodobnie stwierdziłby, że odpowiedź brzmi rzadko (być może prawie nigdy).

Niemniej jednak treści chronione prawem autorskim wydają się być niezbędnym paliwem, aby te modele dobrze funkcjonowały.

OpenAI broni się przed Lordami

W odpowiedzi na zapytanie na temat zagrożeń i możliwości modeli sztucznej inteligencji przez brytyjską Komisję ds. Komunikacji i Cyfryzacji Izby Lordów, OpenAI przedstawiło uległość [PDF] ostrzeżenie, że jego modele nie będą działać bez przeszkolenia w zakresie treści chronionych prawem autorskim.

„Ponieważ prawa autorskie obejmują dziś praktycznie każdy rodzaj ludzkiej ekspresji – w tym wpisy na blogach, zdjęcia, wpisy na forach, fragmenty kodu oprogramowania i dokumenty rządowe – nie byłoby możliwe wytrenowanie wiodących obecnie modeli sztucznej inteligencji bez użycia materiałów chronionych prawem autorskim” – stwierdziło super laboratorium .

„Ograniczenie danych szkoleniowych do książek i rysunków należących do domeny publicznej, utworzonych ponad sto lat temu, mogłoby zaowocować interesującym eksperymentem, ale nie zapewniłoby systemów sztucznej inteligencji spełniających potrzeby dzisiejszych obywateli”.

AI biz stwierdziło, że wierzy, że jest zgodne z prawem autorskim i że szkolenia dotyczące materiałów chronionych prawem autorskim są zgodne z prawem, choć pozwala na stwierdzenie, że „nadal pozostaje wiele do zrobienia, aby wspierać twórców i wzmacniać ich pozycję”.

To zdanie, które brzmi jak dyplomatyczne uznanie obaw etycznych dotyczących rekompensaty za dyskusyjne uczciwe wykorzystanie dzieła chronionego prawem autorskim, należy rozpatrywać w połączeniu ze twierdzeniem zawartym w raporcie IEEE, że „odkryliśmy dowody na to, że starszy inżynier oprogramowania w Midjourney brał udział w konwersacja w lutym 2022 r. o tym, jak obejść prawo autorskie poprzez „pranie” danych „za pomocą dopracowanego kodeksu”.

Marcus, współautor raportu IEEE, wyraził sceptycyzm wobec wysiłków OpenAI mających na celu uzyskanie zielonego światła regulacyjnego w Wielkiej Brytanii dla jej obecnych praktyk biznesowych.

„Z grubsza: nie będziemy bajecznie bogaci, jeśli nie pozwolicie nam kraść, więc proszę, nie czyńcie kradzieży przestępstwem!” – napisał w mediach społecznościowych pisać. „Nie każ nam płacić koncesjonowanie opłaty też! Jasne, Netflix może płacić miliardy rocznie z tytułu opłat licencyjnych, ale we nie powinien! Więcej pieniędzy dla nas, Moar!”

OpenAI zaoferowało zabezpieczenie klientom korporacyjnym ChatGPT i API przed roszczeniami dotyczącymi praw autorskich, ale nie w przypadku, gdy klient lub użytkownicy końcowi klienta „wiedzieli lub powinni byli wiedzieć, że Dane wyjściowe naruszają lub mogą naruszać prawa” lub jeśli klient ominął zabezpieczenia, wśród innych ograniczeń. Zatem zwrócenie się do DALL-E 3 o odtworzenie słynnej sceny filmowej – o której użytkownicy powinni wiedzieć, że prawdopodobnie podlega prawom autorskim – nie kwalifikuje się do odszkodowania.

Firma Midjourney przyjęła odwrotne podejście, obiecując ścigać i pozywać klientów zaangażowanych w naruszenie w celu odzyskania kosztów prawnych wynikających z powiązanych roszczeń.

„Jeśli świadomie naruszysz czyjąś własność intelektualną, a to będzie nas kosztować, przyjedziemy cię znaleźć i odebrać od Ciebie te pieniądze” – Midjourney’s Regulamin państwo. „Możemy też zrobić inne rzeczy, na przykład zwrócić się do sądu o nakłonienie Cię do pokrycia naszych kosztów prawnych. Nie rób tego. ®

Znak czasu:

Więcej z Rejestr