OpenAI: Umulig å trene toppnivå AI og unngå opphavsrett

OpenAI: Umulig å trene toppnivå AI og unngå opphavsrett

OpenAI: Umulig å trene topp-tier AI og unngå copyright PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

OpenAI har sagt at det ville være "umulig" å bygge nevrale nettverk av toppnivå som oppfyller dagens behov uten å bruke folks opphavsrettsbeskyttede arbeid. Det Microsoft-støttede laboratoriet, som mener det lovlig høster nevnte innhold for å trene modellene sine, sa at bruk av materiale som ikke er opphavsrettslig beskyttet av det offentlige domene, vil resultere i AI-programvare som ikke er underordnet.

Denne påstanden kommer på et tidspunkt da den maskinlærende verdenen sprinter med hodet først mot murveggen som er lov om opphavsrett. Bare denne uken konkluderte en IEEE-rapport Midjourney og OpenAIs DALL-E 3, to av de viktigste AI-tjenestene for å gjøre tekstmeldinger om til bilder, kan gjenskape opphavsrettsbeskyttede scener fra filmer og videospill basert på treningsdataene deres.

De studere, medforfatter av Gary Marcus, en AI-ekspert og kritiker, og Reid Southen, en digital illustratør, dokumenterer flere tilfeller av "plagiaristiske utdata" der OpenAI og DALL-E 3 gjengir vesentlig lignende versjoner av scener fra filmer, bilder av kjente skuespillere og videospillinnhold.

Marcus og Southen sier det er nesten sikkert at Midjourney og OpenAI trente sine respektive AI-bildegenereringsmodeller på opphavsrettsbeskyttet materiale.

Hvorvidt det er lovlig, og om AI-leverandører eller deres kunder risikerer å bli holdt ansvarlige, er fortsatt et omstridt spørsmål. Rapportens funn kan imidlertid styrke de som saksøker Midjourney og DALL-E-produsenten OpenAI for brudd på opphavsretten.

Brukere vet kanskje ikke, når de produserer et bilde, om de krenker

"Både OpenAI og Midjourney er fullt i stand til å produsere materiale som ser ut til å krenke opphavsrett og varemerker," skrev de. "Disse systemene informerer ikke brukerne når de gjør det. De gir ingen informasjon om herkomsten til bildene de produserer. Brukere vet kanskje ikke, når de produserer et bilde, om de krenker.»

Ingen av biz har fullstendig avslørt treningsdataene som ble brukt til å lage deres AI-modeller.

Det er ikke bare digitale kunstnere utfordrende AI-selskaper. New York Times nylig saksøkte OpenAI fordi ChatGPT-tekstmodellen vil spytte ut nesten ordrett kopier av avisens artikler med betalingsmur. Bokforfattere har fremmet lignende krav, som har programvareutviklere.

Før forskning har indikert at OpenAIs ChatGPT kan lokkes til å reprodusere treningstekst. Og de som saksøker Microsoft og GitHub hevder at Copilot-kodeassistentmodellen vil reprodusere koden mer eller mindre ordrett.

Southen observerte at Midjourney belaster kunder som lager krenkende innhold og tjener på abonnementsinntekter. «MJ [Midjourney]-brukere trenger ikke å selge bildene for at brudd på opphavsretten potensielt skal ha skjedd, MJ tjener allerede på opprettelsen,» mente, som gjenspeiler et argument i IEEE-rapporten.

OpenAI tar også en abonnementsavgift og tjener dermed på samme måte. Verken OpenAI og Midjourney svarte ikke på forespørsler om kommentarer.

Imidlertid publiserte OpenAI mandag en blogginnlegg adressert New York Times-søksmålet, som AI-selgeren sa manglet fortjeneste. Forbløffende nok sa laboratoriet at hvis dets nevrale nettverk genererte krenkende innhold, var det en "feil".

Totalt argumenterte oppkomlingen i dag at: Den samarbeider aktivt med nyhetsorganisasjoner; opplæring i opphavsrettsbeskyttet data kvalifiserer for forsvaret for rettferdig bruk i henhold til lov om opphavsrett; "'oppstøt' er en sjelden feil som vi jobber med å kjøre til null"; og New York Times har kirsebærplukkede eksempler på tekstgjengivelse som ikke representerer typisk oppførsel.

Loven vil avgjøre

Tyler Ochoa, en professor i jussavdelingen ved Santa Clara University i California, fortalte Registeret at selv om funnene i IEEE-rapporten sannsynligvis vil hjelpe rettssaker med opphavsrettskrav, bør de ikke gjøre det – fordi forfatterne av artikkelen etter hans syn har gitt en feilaktig fremstilling av hva som skjer.

"De skriver: 'Kan bildegenererende modeller bli indusert til å produsere plagiaristiske utdata basert på opphavsrettslig materiale? … [Vi fant ut at svaret er klart ja, selv uten direkte å oppfordre til plagiat.'»

Ochoa stilte spørsmål ved denne konklusjonen, og argumenterte med at rapportens forfattere skrev inn viser at de faktisk ber direkte om plagiat. Hver enkelt melding nevner tittelen på en bestemt film, spesifiserer sideforholdet, og i alle unntatt ett tilfelle, ordene "film" og "skjermbilde" eller "skjermbilde." (Det ene unntaket beskriver bildet de ønsket å gjenskape. )"

Lovprofessoren sa at spørsmålet om opphavsrettslovgivning avgjør hvem som er ansvarlig for disse plagiaristiske utdataene: Skaperne av AI-modellen eller menneskene som ba AI-modellen om å reprodusere en populær scene.

"Den generative AI-modellen er i stand til å produsere original utgang, og den er også i stand til å reprodusere scener som ligner scener fra opphavsrettsbeskyttede innganger når du blir bedt om det," forklarte Ochoa. "Dette bør analyseres som et tilfelle av medvirkende krenkelse: Personen som anmodet modellen er den primære krenkeren, og skaperne av modellen er ansvarlige bare hvis de ble gjort oppmerksomme på den primære krenkelsen og de ikke tok rimelige skritt for å stoppe den."

Ochoa sa at generative AI-modeller er mer sannsynlig å reprodusere spesifikke bilder når det er flere forekomster av disse bildene i treningsdatasettet deres.

«I dette tilfellet er det svært usannsynlig at treningsdataene inkluderte hele filmer; det er langt mer sannsynlig at treningsdataene inkluderte stillbilder fra filmene som ble distribuert som reklamestillbilder for filmen, sa han. "Disse bildene ble gjengitt flere ganger i treningsdataene fordi media ble oppfordret til å distribuere disse bildene for publisitetsformål og gjorde det.

"Det ville være grunnleggende urettferdig for en opphavsrettseier å oppmuntre til bred spredning av stillbilder for publisitetsformål, og deretter klage over at disse bildene blir imitert av en AI fordi treningsdataene inkluderte flere kopier av de samme bildene."

Ochoa sa at det er skritt for å begrense slik oppførsel fra AI-modeller. "Spørsmålet er om de burde være nødt til å gjøre det, når personen som gikk inn i forespørselen tydelig ønsket å få AI til å reprodusere et gjenkjennelig bilde, og filmstudioene som produserte de originale stillbildene tydelig ønsket at disse stillbildene skulle distribueres bredt. ," han sa.

"Et bedre spørsmål ville være: Hvor ofte skjer dette når ledeteksten ikke nevner en bestemt film eller beskriver en bestemt karakter eller scene? Jeg tror en objektiv forsker sannsynligvis vil finne ut at svaret er sjelden (kanskje nesten aldri).»

Ikke desto mindre ser opphavsrettsbeskyttet innhold ut til å være avgjørende drivstoff for at disse modellene skal fungere godt.

OpenAI forsvarer seg overfor Lords

Som svar på en henvendelse inn i risikoene og mulighetene ved AI-modeller av Storbritannias House of Lords Communications and Digital Committee, presenterte OpenAI en innsending [PDF] advarsel om at modellene ikke vil fungere uten å være opplært i opphavsrettsbeskyttet innhold.

"Fordi opphavsretten i dag dekker praktisk talt alle slags menneskelige uttrykk - inkludert blogginnlegg, fotografier, foruminnlegg, utklipp av programvarekode og offentlige dokumenter - ville det være umulig å trene dagens ledende AI-modeller uten å bruke opphavsrettsbeskyttet materiale," sa superlaboratoriet. .

"Å begrense opplæringsdata til offentlige bøker og tegninger laget for mer enn et århundre siden kan gi et interessant eksperiment, men ville ikke gi AI-systemer som tilfredsstiller behovene til dagens borgere."

AI biz sa at de mener at den er i samsvar med opphavsrettsloven og at opplæring i opphavsrettsbeskyttet materiale er lovlig, selv om den tillater at "at det fortsatt er arbeid å gjøre for å støtte og styrke skapere."

Denne følelsen, som høres ut som en diplomatisk anerkjennelse av etiske bekymringer om kompensasjon for diskutabel rettferdig bruk av opphavsrettsbeskyttet arbeid, bør vurderes i sammenheng med IEEE-rapportens påstand om at "vi har oppdaget bevis for at en senior programvareingeniør ved Midjourney deltok i en samtale i februar 2022 om hvordan man kan unndra opphavsrettsloven ved å "hvitvaske" data "gjennom en finjustert kodeks."

Marcus, medforfatter av IEEE-rapporten, uttrykte skepsis til OpenAIs innsats for å få lovlig grønt lys i Storbritannia for sin nåværende forretningspraksis.

"Røff oversettelse: Vi blir ikke fantastisk rike hvis du ikke lar oss stjele, så vær så snill å ikke gjør tyveri til en forbrytelse!" skrev han i et sosialt medium poste. «Ikke få oss til å betale lisensiering avgifter, heller! Selvfølgelig kan Netflix betale milliarder i året i lisensavgifter, men we burde ikke måtte! Mer penger til oss, moar!»

OpenAI har tilbudt å skadesløse Enterprise ChatGPT- og API-kunder mot opphavsrettskrav, men ikke hvis kunden eller kundens sluttbrukere "visste eller burde ha visst at utgangen krenket eller sannsynligvis ville krenke" eller hvis kunden omgikk sikkerhetsfunksjoner, blant andre begrensninger. Å be DALL-E 3 om å gjenskape en berømt filmscene – som brukere burde vite er sannsynligvis dekket av opphavsrett – ville derfor ikke kvalifisere for skadesløsholdelse.

Midjourney har tatt den motsatte tilnærmingen, og lovet å jakte på og saksøke kunder som er involvert i krenkelser for å få dekket advokatkostnader som oppstår fra relaterte krav.

"Hvis du med vilje krenker andres immaterielle rettigheter, og det koster oss penger, kommer vi til å finne deg og hente pengene fra deg," sa Midjourney's Våre vilkår stat. «Vi kan også gjøre andre ting, som å prøve å få en domstol til å få deg til å betale advokatsalærene våre. Ikke gjør det." ®

Tidstempel:

Mer fra Registeret