OpenAI: Umuligt at træne top-tier AI og undgå ophavsret

OpenAI: Umuligt at træne top-tier AI og undgå ophavsret

OpenAI: Impossible to train top-tier AI and avoid copyright PlatoBlockchain Data Intelligence. Vertical Search. Ai.

OpenAI har sagt, at det ville være "umuligt" at bygge top-tier neurale netværk, der opfylder nutidens behov uden at bruge folks ophavsretligt beskyttede arbejde. Det Microsoft-støttede laboratorium, som mener, at det lovligt høster nævnte indhold til træning af dets modeller, sagde, at brug af materiale, der ikke er ophavsretligt beskyttet af det offentlige domæne, ville resultere i subparativ AI-software.

Denne påstand kommer på et tidspunkt, hvor maskinlæringsverdenen sprinter med hovedet først mod muren, som er lov om ophavsret. I denne uge konkluderede en IEEE-rapport Midjourney, og OpenAIs DALL-E 3, to af de store AI-tjenester til at omdanne tekstprompts til billeder, kan genskabe ophavsretligt beskyttede scener fra film og videospil baseret på deres træningsdata.

studere, medforfatter af Gary Marcus, en AI-ekspert og kritiker, og Reid Southen, en digital illustrator, dokumenterer flere tilfælde af "plagiaristiske output", hvor OpenAI og DALL-E 3 gengiver i det væsentlige lignende versioner af scener fra film, billeder af berømte skuespillere og videospilindhold.

Marcus og Southen siger, at det er næsten sikkert, at Midjourney og OpenAI trænede deres respektive AI-billedgenereringsmodeller på ophavsretligt beskyttet materiale.

Hvorvidt det er lovligt, og om AI-leverandører eller deres kunder risikerer at blive holdt ansvarlige, er stadig et omstridt spørgsmål. Men rapportens resultater kan styrke dem, der sagsøger Midjourney og DALL-E-producenten OpenAI for krænkelse af ophavsretten.

Brugere ved muligvis ikke, når de producerer et billede, om de krænker

"Både OpenAI og Midjourney er fuldt ud i stand til at producere materialer, der ser ud til at krænke ophavsret og varemærker," skrev de. "Disse systemer informerer ikke brugerne, når de gør det. De giver ingen oplysninger om herkomsten af ​​de billeder, de producerer. Brugere ved måske ikke, når de producerer et billede, om de krænker ophavsretten."

Ingen af ​​biz har fuldt ud afsløret de træningsdata, der blev brugt til at lave deres AI-modeller.

Det er ikke bare digitale kunstnere udfordrende AI-virksomheder. New York Times for nylig sagsøgte OpenAI fordi dens ChatGPT-tekstmodel vil spytte næsten ordret kopier af avisens betalingsvæggede artikler ud. Bogforfattere har fremsat lignende krav, som har softwareudviklere.

Forud forskning har indikeret, at OpenAIs ChatGPT kan lokkes til at gengive træningstekst. Og dem, der sagsøger Microsoft og GitHub, hævder, at Copilot-kodningsassistentmodellen vil gengive kode mere eller mindre ordret.

Southen bemærkede, at Midjourney opkræver kunder, der skaber krænkende indhold og profiterer via abonnementsindtægter. "MJ [Midjourney]-brugere behøver ikke at sælge billederne for at krænke ophavsretten for potentielt at have fundet sted, MJ tjener allerede på dets oprettelse," han mente, som gentager et argument fremsat i IEEE-rapporten.

OpenAI opkræver også et abonnementsgebyr og tjener dermed på samme måde. Hverken OpenAI og Midjourney reagerede ikke på anmodninger om kommentarer.

Men OpenAI offentliggjorde mandag en blogindlæg adressering af New York Times retssagen, som AI-sælgeren sagde manglede fortjeneste. Forbløffende nok sagde laboratoriet, at hvis dets neurale netværk genererede krænkende indhold, var det en "fejl".

I alt argumenterede opkomlingen i dag, at: Den samarbejder aktivt med nyhedsorganisationer; træning i ophavsretsligt beskyttede data kvalificerer til forsvaret for rimelig brug i henhold til loven om ophavsret; "'regurgitation' er en sjælden fejl, som vi arbejder på at køre til nul"; og New York Times har kirsebærplukkede eksempler på tekstgengivelse, der ikke repræsenterer typisk adfærd.

Loven vil afgøre

Tyler Ochoa, en professor i juraafdelingen ved Santa Clara University i Californien, fortalte Registret at selv om IEEE-rapportens resultater sandsynligvis vil hjælpe sagsøgere med ophavsretskrav, så burde de ikke – fordi forfatterne til artiklen efter hans opfattelse har misrepræsenteret, hvad der sker.

"De skriver: 'Kan billedgenererende modeller induceres til at producere plagiaristiske output baseret på copyright-materiale? … [vi] fandt ud af, at svaret klart er ja, selv uden direkte at anmode om plagiat.'

Ochoa satte spørgsmålstegn ved denne konklusion og argumenterede for, at de prompter, som rapportens forfattere gik ind på, "viser, at de faktisk direkte anmoder om plagiaristiske output. Hver enkelt prompt nævner titlen på en specifik film, specificerer billedformatet, og i alle tilfælde undtagen ét, ordene 'film' og 'skærmbillede' eller 'skærmbillede'. (Den ene undtagelse beskriver det billede, som de ønskede at replikere. )"

Lovprofessoren sagde, at spørgsmålet om ophavsretslovgivningen afgør, hvem der er ansvarlig for disse plagiaristiske output: Skaberne af AI-modellen eller de mennesker, der bad AI-modellen om at gengive en populær scene.

"Den generative AI-model er i stand til at producere originalt output, og den er også i stand til at gengive scener, der ligner scener fra ophavsretligt beskyttede input, når du bliver bedt om det," forklarede Ochoa. "Dette bør analyseres som et tilfælde af medvirkende krænkelse: Den person, der foranledigede modellen, er den primære krænker, og skaberne af modellen er kun ansvarlige, hvis de blev gjort opmærksomme på den primære krænkelse, og de ikke tog rimelige skridt for at stoppe det."

Ochoa sagde, at generative AI-modeller er mere tilbøjelige til at reproducere specifikke billeder, når der er flere forekomster af disse billeder i deres træningsdatasæt.

"I dette tilfælde er det højst usandsynligt, at træningsdataene omfattede hele film; det er langt mere sandsynligt, at træningsdataene inkluderede stillbilleder fra filmene, der blev distribueret som reklame-stills til filmen,” sagde han. "Disse billeder blev gengivet flere gange i træningsdataene, fordi medierne blev opfordret til at distribuere disse billeder til reklameformål og gjorde det.

"Det ville være grundlæggende uretfærdigt for en copyright-ejer at tilskynde til bred spredning af stillbilleder til reklameformål og derefter klage over, at disse billeder bliver efterlignet af en AI, fordi træningsdataene omfattede flere kopier af de samme billeder."

Ochoa sagde, at der er trin til at begrænse sådan adfærd fra AI-modeller. "Spørgsmålet er, om de skal gøre det, når den person, der gik ind i prompten, tydeligvis ønskede at få AI'en til at gengive et genkendeligt billede, og filmstudierne, der producerede de originale stillbilleder, klart ønskede, at disse stillbilleder skulle distribueres bredt. ," han sagde.

"Et bedre spørgsmål ville være: Hvor ofte sker dette, når prompten ikke nævner en bestemt film eller beskriver en bestemt karakter eller scene? Jeg tror, ​​at en upartisk forsker sandsynligvis ville finde ud af, at svaret sjældent er (måske næsten aldrig).

Ikke desto mindre ser ophavsretligt beskyttet indhold ud til at være afgørende brændstof for at få disse modeller til at fungere godt.

OpenAI forsvarer sig over for Lords

Som reaktion på en forespørgsel ind i risici og muligheder ved AI-modeller af Det Forenede Kongeriges Overhus for Kommunikations- og Digitalkomité, præsenterede OpenAI en indsendelse [PDF] advarsel om, at dets modeller ikke vil fungere uden at være uddannet i ophavsretligt beskyttet indhold.

"Fordi ophavsret i dag dækker stort set alle slags menneskelige udtryk - inklusive blogindlæg, fotografier, forumindlæg, stumper af softwarekode og offentlige dokumenter - ville det være umuligt at træne nutidens førende AI-modeller uden at bruge ophavsretligt beskyttet materiale," sagde superlaboratoriet. .

"At begrænse træningsdata til offentlige bøger og tegninger skabt for mere end et århundrede siden kan give et interessant eksperiment, men det ville ikke give AI-systemer, der opfylder behovene hos nutidens borgere."

AI biz sagde, at det mener, at det overholder loven om ophavsret, og at træning i ophavsretsbeskyttet materiale er lovligt, selvom det tillader, at "at der stadig er arbejde at gøre for at støtte og styrke skabere."

Denne følelse, der lyder som en diplomatisk anerkendelse af etiske betænkeligheder vedrørende kompensation for diskutabel rimelig brug af ophavsretligt beskyttet værk, bør overvejes i sammenhæng med IEEE-rapportens påstand om, at "vi har opdaget beviser for, at en senior softwareingeniør hos Midjourney deltog i en samtale i februar 2022 om, hvordan man unddrager sig loven om ophavsret ved at 'hvidvaske' data 'gennem en finjusteret codex'."

Marcus, medforfatter af IEEE-rapporten, udtrykte skepsis over for OpenAIs bestræbelser på at opnå et lovgivningsmæssigt grønt lys i Storbritannien for dets nuværende forretningspraksis.

"Run oversættelse: Vi bliver ikke fabelagtig rige, hvis du ikke lader os stjæle, så lad være med at gøre tyveri til en forbrydelse!" skrev han i et socialt medie indlæg. "Få os ikke til at betale licensering gebyrer, enten! Selvfølgelig betaler Netflix måske milliarder om året i licensafgifter, men we skal ikke! Flere penge til os, mor!"

OpenAI har tilbudt at skadesløsholde Enterprise ChatGPT- og API-kunder mod ophavsretlige krav, dog ikke hvis kunden eller kundens slutbrugere "vidste eller burde have vidst, at outputtet krænkede eller sandsynligvis ville krænke", eller hvis kunden omgik sikkerhedsfunktioner, blandt andre begrænsninger. At bede DALL-E 3 om at genskabe en berømt filmscene – som brugere burde vide er sandsynligvis omfattet af copyright – ville således ikke kvalificere sig til skadesløsholdelse.

Midjourney har taget den modsatte tilgang og lovet at jage og sagsøge kunder, der er involveret i krænkelse, for at få dækket de sagsomkostninger, der er opstået fra relaterede krav.

"Hvis du bevidst krænker en andens intellektuelle ejendom, og det koster os penge, kommer vi og finder dig og henter pengene hos dig," sagde Midjourney's. Servicevilkår stat. "Vi kan også gøre andre ting, som at prøve at få en domstol til at få dig til at betale vores advokatsalærer. Gør det ikke." ®

Tidsstempel:

Mere fra Registret