OpenAI: imposibil de antrenat AI de nivel superior și de a evita drepturile de autor

OpenAI: imposibil de antrenat AI de nivel superior și de a evita drepturile de autor

OpenAI: Impossible to train top-tier AI and avoid copyright PlatoBlockchain Data Intelligence. Vertical Search. Ai.

OpenAI a spus că ar fi „imposibil” să construim rețele neuronale de top care să răspundă nevoilor actuale fără a utiliza lucrările cu drepturi de autor ale oamenilor. Laboratorul susținut de Microsoft, care consideră că recoltează în mod legal conținutul menționat pentru antrenamentul modelelor sale, a spus că folosirea de materiale din domeniul public fără drepturi de autor ar avea ca rezultat un software de AI sub egal.

Această afirmație vine într-un moment în care lumea învățării automate sprintează cu capul întâi la zidul de cărămidă care este legea drepturilor de autor. Chiar săptămâna aceasta, un raport IEEE a concluzionat că Midjourney și DALL-E 3 de la OpenAI, două dintre cele mai importante servicii AI pentru a transforma mesajele text în imagini, pot recrea scene protejate prin drepturi de autor din filme și jocuri video pe baza datelor lor de antrenament.

studiu, în colaborare cu Gary Marcus, expert în inteligență artificială și critic, și Reid Southen, ilustrator digital, documentează mai multe cazuri de „ieșiri plagiate” în care OpenAI și DALL-E 3 redă versiuni substanțial similare ale scenelor din filme, imagini ale celebrului actori și conținut de jocuri video.

Marcus și Southen spun că este aproape sigur că Midjourney și OpenAI și-au antrenat modelele respective de generare de imagini AI pe material protejat prin drepturi de autor.

Indiferent dacă acest lucru este legal și dacă furnizorii de AI sau clienții lor riscă să fie trași la răspundere, rămâne o întrebare controversată. Cu toate acestea, constatările raportului îi pot încuraja pe cei care îi dau în judecată Midjourney și producătorul DALL-E OpenAI pentru încălcarea drepturilor de autor.

Este posibil ca utilizatorii să nu știe, atunci când produc o imagine, dacă încalcă drepturile

„Atât OpenAI, cât și Midjourney sunt pe deplin capabili să producă materiale care par să încalce drepturile de autor și mărcile comerciale”, au scris aceștia. „Aceste sisteme nu informează utilizatorii atunci când fac acest lucru. Nu oferă nicio informație despre proveniența imaginilor pe care le produc. Este posibil ca utilizatorii să nu știe, atunci când produc o imagine, dacă încalcă drepturile.”

Nicio companie nu a dezvăluit pe deplin datele de antrenament utilizate pentru a-și realiza modelele AI.

Nu este doar artiștii digitali provocând companiile AI. The New York Times recent a dat în judecată OpenAI deoarece modelul său de text ChatGPT va scuipa copii aproape textuale ale articolelor ziarului. Autorii de carte au depus cereri similare, la fel ca și dezvoltatorii de software.

anterior cercetare a indicat că ChatGPT al OpenAI poate fi convins să reproducă textul de antrenament. Iar cei care dau în judecată Microsoft și GitHub susțin că modelul asistent de codare Copilot va reproduce codul mai mult sau mai puțin textual.

Southen a observat că Midjourney taxează clienții care creează conținut care încalcă drepturile de autor și profită prin venituri din abonament. „Utilizatorii MJ [Midjourney] nu trebuie să vândă imaginile pentru că ar fi posibil să se fi produs încălcarea drepturilor de autor, MJ profită deja din crearea sa”, el opined, făcând ecou un argument formulat în raportul IEEE.

OpenAI percepe și o taxă de abonament și astfel profită în același mod. Nici OpenAI, nici Midjourney nu au răspuns solicitărilor de comentarii.

Cu toate acestea, OpenAI a publicat luni un blog abordând procesul New York Times, despre care vânzătorul de inteligență artificială a spus că nu are merit. În mod surprinzător, laboratorul a spus că, dacă rețelele sale neuronale au generat conținut care încalcă drepturile, a fost o „bucă”.

În total, parvenitul de astăzi a susținut că: Colaborează activ cu organizațiile de știri; instruirea privind datele protejate prin drepturi de autor se califică pentru apărarea utilizării loiale conform legii dreptului de autor; „‘regurgitația’ este o eroare rară pe care ne străduim să o ducem la zero”; iar New York Times are exemple de reproducere a textului alese cu frumusețe care nu reprezintă un comportament tipic.

Legea va decide

A spus Tyler Ochoa, profesor la departamentul de drept de la Universitatea Santa Clara din California Registrul că, deși concluziile raportului IEEE ar putea ajuta justițiabilii cu pretenții de drepturi de autor, ele nu ar trebui - pentru că autorii articolului, în opinia sa, au denaturat ceea ce se întâmplă.

„Ei scriu: „Pot fi induse modelele generatoare de imagini să producă rezultate plagiatice bazate pe materialele drepturi de autor? … [Am descoperit că răspunsul este în mod clar da, chiar și fără a solicita direct rezultate plagiatice.”

Ochoa a pus la îndoială această concluzie, argumentând că solicitările introduse de autorii raportului „demonstrează că, într-adevăr, solicită direct rezultate plagiatice. Fiecare prompt menționează titlul unui anumit film, specifică raportul de aspect și, în toate cazurile, cu excepția unuia, cuvintele „film” și „captură de ecran” sau „captură de ecran.” (Una excepție descrie imaginea pe care au vrut să o reproducă. )”

Profesorul de drept a spus că problema pentru legea drepturilor de autor este determinarea cine este responsabil pentru aceste rezultate plagiatoare: creatorii modelului AI sau persoanele care au cerut modelului AI să reproducă o scenă populară.

„Modelul AI generativ este capabil să producă rezultate originale și, de asemenea, este capabil să reproducă scene care seamănă cu scene din intrări protejate prin drepturi de autor atunci când vi se solicită”, a explicat Ochoa. „Acest lucru ar trebui analizat ca un caz de încălcare contributivă: persoana care a determinat modelul este principalul contravenient, iar creatorii modelului sunt răspunzători numai dacă au fost informați cu privire la încălcarea principală și nu au luat măsuri rezonabile pentru a opri. aceasta."

Ochoa a spus că modelele AI generative sunt mai susceptibile de a reproduce imagini specifice atunci când există mai multe cazuri ale acestor imagini în setul lor de date de antrenament.

„În acest caz, este foarte puțin probabil ca datele de antrenament să includă filme întregi; este mult mai probabil ca datele de antrenament să includă imagini statice din filme care au fost distribuite ca fotografii publicitare pentru film”, a spus el. „Acele imagini au fost reproduse de mai multe ori în datele de instruire, deoarece instituțiile media au fost încurajate să distribuie acele imagini în scopuri publicitare și au făcut acest lucru.

„Ar fi fundamental nedrept ca un proprietar de drepturi de autor să încurajeze diseminarea largă a imaginilor statice în scopuri publicitare și apoi să se plângă că acele imagini sunt imitate de o IA, deoarece datele de instruire au inclus mai multe copii ale acelorași imagini.”

Ochoa a spus că există pași pentru a limita un astfel de comportament din modelele AI. „Întrebarea este dacă ar trebui să facă acest lucru, atunci când persoana care a introdus promptul a dorit clar ca AI să reproducă o imagine recunoscută, iar studiourile de film care au produs imaginile statice originale au dorit în mod clar ca acele imagini statice să fie distribuite pe scară largă. ," el a spus.

„O întrebare mai bună ar fi: Cât de des se întâmplă acest lucru atunci când solicitarea nu menționează un anumit film sau descrie un anumit personaj sau scenă? Cred că un cercetător imparțial ar descoperi probabil că răspunsul este rar (poate aproape niciodată).”

Cu toate acestea, conținutul protejat prin drepturi de autor pare a fi un combustibil esențial pentru ca aceste modele să funcționeze bine.

OpenAI se apără în fața lorzilor

Ca raspuns la o ancheta asupra riscurilor și oportunităților modelelor de inteligență artificială de către Comitetul de comunicare și digital al Camerei Lorzilor din Marea Britanie, OpenAI a prezentat un supunere [PDF] avertizând că modelele sale nu vor funcționa fără a fi instruiți cu privire la conținutul protejat prin drepturi de autor.

„Deoarece astăzi drepturile de autor acoperă practic orice fel de expresie umană – inclusiv postări pe blog, fotografii, postări pe forum, fragmente de cod software și documente guvernamentale – ar fi imposibil să antrenezi modelele de inteligență artificială de astăzi fără a utiliza materiale protejate prin drepturi de autor”, a spus super-laboratorul. .

„Limitarea datelor de instruire la cărți și desene de domeniul public create cu mai bine de un secol în urmă ar putea produce un experiment interesant, dar nu ar oferi sisteme AI care să răspundă nevoilor cetățenilor de astăzi.”

AI biz a spus că consideră că respectă legea drepturilor de autor și că instruirea privind materialele protejate prin drepturi de autor este legală, deși permite că „mai mai este de lucru pentru a sprijini și a împuternici creatorii”.

Acest sentiment, care sună ca o recunoaștere diplomatică a preocupărilor etice cu privire la compensarea pentru utilizarea echitabilă discutabilă a lucrărilor protejate prin drepturi de autor, ar trebui luat în considerare împreună cu afirmația raportului IEEE conform căreia, „am descoperit dovezi că un inginer de software senior de la Midjourney a participat la o conversatie în februarie 2022 despre cum să eludați legea dreptului de autor prin „spălarea” datelor „printr-un codex reglat.””

Marcus, coautor al raportului IEEE, și-a exprimat scepticismul față de efortul OpenAI de a obține undă verde de reglementare în Regatul Unit pentru practicile sale de afaceri actuale.

„Traducere brută: Nu ne vom îmbogăți fabulos dacă nu ne lași să furăm, așa că te rog să nu faci din furat o crimă!” a scris el pe o rețea de socializare post. „Nu ne puneți să plătim de acordare a licențelor taxe, fie! Sigur că Netflix ar putea plăti miliarde pe an în taxe de licență, dar we nu ar trebui! Mai mulți bani pentru noi, moar!”

OpenAI s-a oferit să despăgubească clienții companiei ChatGPT și API împotriva revendicărilor de drepturi de autor, deși nu dacă clientul sau utilizatorii finali ai clientului „știau sau ar fi trebuit să știe că Ieșirea încalcă sau ar putea încălca” sau dacă clientul a ocolit funcțiile de siguranță, printre alte limitări. Astfel, solicitarea lui DALL-E 3 să recreeze o scenă de film celebră – despre care utilizatorii ar trebui să știe că este probabil acoperită de drepturi de autor – nu ar fi calificată pentru despăgubire.

Midjourney a adoptat o abordare opusă, promițând să vâneze și să dea în judecată clienții implicați în încălcarea dreptului pentru a recupera costurile legale care decurg din revendicări aferente.

„Dacă încalci cu bună știință proprietatea intelectuală a altcuiva și asta ne costă bani, vom veni să te găsim și să colectăm banii de la tine”, spune Midjourney. Termeni şi Condiții stat. „S-ar putea să facem și alte lucruri, cum ar fi să încercăm să obținem o instanță care să te oblige să plătești taxele noastre juridice. Nu o face.” ®

Timestamp-ul:

Mai mult de la Registrul