OpenAI: Omöjligt att träna toppskiktad AI och undvika upphovsrätt

OpenAI: Omöjligt att träna toppskiktad AI och undvika upphovsrätt

OpenAI: Omöjligt att träna toppskiktad AI och undvika copyright PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

OpenAI har sagt att det skulle vara "omöjligt" att bygga neurala nätverk på toppnivå som möter dagens behov utan att använda människors upphovsrättsskyddade arbete. Det Microsoft-stödda labbet, som tror att det lagligen skördar innehållet för att träna sina modeller, sa att användning av material som inte omfattas av upphovsrätten skulle resultera i AI-programvara som inte är upphovsrättslig.

Detta påstående kommer vid en tidpunkt då den maskinlärande världen sprintar med huvudet först mot tegelväggen som är upphovsrättslagen. Bara denna vecka drog en IEEE-rapport slutsatsen Midjourney och OpenAI:s DALL-E 3, två av de stora AI-tjänsterna för att förvandla textmeddelanden till bilder, kan återskapa upphovsrättsskyddade scener från filmer och videospel baserat på deras träningsdata.

Smakämnen studera, medförfattare av Gary Marcus, en AI-expert och kritiker, och Reid Southen, en digital illustratör, dokumenterar flera instanser av "plagiaristiska utdata" där OpenAI och DALL-E 3 återger väsentligen liknande versioner av scener från filmer, bilder av berömda skådespelare och videospelinnehåll.

Marcus och Southen säger att det är nästan säkert att Midjourney och OpenAI tränade sina respektive AI-bildgenereringsmodeller på upphovsrättsskyddat material.

Huruvida det är lagligt, och om AI-leverantörer eller deras kunder riskerar att hållas ansvariga, är fortfarande en kontroversiell fråga. Men rapportens resultat kan stärka dem som stämmer Midjourney och DALL-E-tillverkaren OpenAI för upphovsrättsintrång.

Användare kanske inte vet, när de producerar en bild, om de gör intrång

"Både OpenAI och Midjourney är fullt kapabla att producera material som verkar göra intrång i upphovsrätt och varumärken", skrev de. "Dessa system informerar inte användarna när de gör det. De ger ingen information om härkomsten av bilderna de producerar. Användare kanske inte vet, när de producerar en bild, om de gör intrång.”

Ingen av biz har helt avslöjat träningsdata som används för att göra deras AI-modeller.

Det är inte bara digitala artister utmanande AI-företag. New York Times nyligen stämde OpenAI eftersom dess ChatGPT-textmodell kommer att spotta ut nästan ordagranta kopior av tidningens betalväggar. Bokförfattare har framfört liknande anspråk, liksom mjukvaruutvecklare.

Innan forskning har indikerat att OpenAI:s ChatGPT kan luras att återge träningstext. Och de som stämmer Microsoft och GitHub hävdar att Copilot-kodningsassistentmodellen kommer att återge kod mer eller mindre ordagrant.

Southen observerade att Midjourney tar betalt av kunder som skapar intrång i innehåll och tjänar på prenumerationsintäkter. "MJ [Midjourney]-användare behöver inte sälja bilderna för att upphovsrättsintrång potentiellt ska ha inträffat, MJ tjänar redan på att det skapas," han menade, vilket återspeglar ett argument i IEEE-rapporten.

OpenAI tar också ut en prenumerationsavgift och tjänar därmed på samma sätt. Varken OpenAI och Midjourney svarade inte på förfrågningar om kommentarer.

Men OpenAI publicerade på måndagen en blogginlägg ta itu med New York Times rättegång, som AI-säljaren sa saknade meriter. Förvånande nog sa labbet att om dess neurala nätverk genererade intrångsinnehåll så var det en "bugg".

Sammantaget hävdade uppstickaren idag att: Den samarbetar aktivt med nyhetsorganisationer; utbildning i upphovsrättsskyddad data kvalificerar sig för fair use-försvaret enligt upphovsrättslagen; "'uppstötningar' är en sällsynt bugg som vi arbetar för att driva till noll"; och New York Times har körsbärsplockade exempel på textåtergivning som inte representerar typiskt beteende.

Lagen kommer att avgöra

Tyler Ochoa, professor vid juridiska avdelningen vid Santa Clara University i Kalifornien, berättade Registret att även om IEEE-rapportens resultat sannolikt kommer att hjälpa rättstvister med upphovsrättsanspråk, så borde de inte göra det – eftersom artikelförfattarna enligt hans uppfattning har missvisat vad som händer.

"De skriver:" Kan bildgenererande modeller förmås att producera plagiatmaterial baserade på upphovsrättsskyddat material? … [vi] fann att svaret är klart ja, även utan att direkt begära plagiat.'”

Ochoa ifrågasatte den slutsatsen och hävdade att uppmaningarna som rapportförfattarna gick in med "visar att de faktiskt direkt begär plagiat. Varje enskild uppmaning nämner titeln på en specifik film, specificerar bildförhållandet och i alla fall utom ett, orden "film" och "skärmdump" eller "skärmbild." (Det enda undantaget beskriver bilden som de ville replikera. )”

Juridikprofessorn sa att frågan om upphovsrättslagstiftningen avgör vem som är ansvarig för dessa plagiatresultat: Skaparna av AI-modellen eller personerna som bad AI-modellen att återskapa en populär scen.

"Den generativa AI-modellen kan producera originalutdata, och den kan också återge scener som liknar scener från upphovsrättsskyddade ingångar när du uppmanas att göra det", förklarade Ochoa. "Detta bör analyseras som ett fall av medverkande intrång: Personen som föranledde modellen är den primära intrångsmannen, och skaparna av modellen är endast ansvariga om de fick kännedom om den primära intrånget och de inte vidtog rimliga åtgärder för att stoppa Det."

Ochoa sa att generativa AI-modeller är mer benägna att reproducera specifika bilder när det finns flera instanser av dessa bilder i deras träningsdatauppsättning.

"I det här fallet är det högst osannolikt att träningsdatan inkluderade hela filmer; det är mycket mer troligt att träningsdatan inkluderade stillbilder från filmerna som distribuerades som reklamstillbilder för filmen”, sa han. "Dessa bilder reproducerades flera gånger i utbildningsdata eftersom media uppmuntrades att distribuera dessa bilder i publicitetssyfte och gjorde det.

"Det skulle vara fundamentalt orättvist av en upphovsrättsinnehavare att uppmuntra bred spridning av stillbilder i publicitetssyfte och sedan klaga på att dessa bilder imiteras av en AI eftersom träningsdatan inkluderade flera kopior av samma bilder."

Ochoa sa att det finns steg för att begränsa sådant beteende från AI-modeller. "Frågan är om de borde vara tvungna att göra det, när personen som gick in i prompten uppenbarligen ville få AI:n att återge en igenkännbar bild, och filmstudiorna som producerade de ursprungliga stillbilderna uppenbarligen ville att dessa stillbilder skulle distribueras brett. ," han sa.

"En bättre fråga skulle vara: Hur ofta händer detta när uppmaningen inte nämner en specifik film eller beskriver en specifik karaktär eller scen? Jag tror att en opartisk forskare sannolikt skulle finna att svaret sällan (kanske nästan aldrig) är.

Icke desto mindre verkar upphovsrättsskyddat innehåll vara avgörande bränsle för att dessa modeller ska fungera väl.

OpenAI försvarar sig inför Lords

Som svar på en förfrågan in i riskerna och möjligheterna med AI-modeller av Storbritanniens House of Lords Communications and Digital Committee, presenterade OpenAI en underkastelse [PDF] varning om att dess modeller inte fungerar utan att ha utbildats i upphovsrättsskyddat innehåll.

"Eftersom upphovsrätten idag täcker praktiskt taget alla slags mänskliga uttryck – inklusive blogginlägg, fotografier, foruminlägg, bitar av programkod och statliga dokument – ​​skulle det vara omöjligt att träna dagens ledande AI-modeller utan att använda upphovsrättsskyddat material", sa superlabbet. .

"Att begränsa utbildningsdata till offentliga böcker och ritningar skapade för mer än ett sekel sedan kan ge ett intressant experiment, men skulle inte tillhandahålla AI-system som uppfyller behoven hos dagens medborgare."

AI-biz sa att de anser att det följer upphovsrättslagen och att utbildning om upphovsrättsskyddat material är lagligt, även om det tillåter att "att det fortfarande finns arbete att göra för att stödja och stärka skapare."

Denna känsla, som låter som ett diplomatiskt erkännande av etiska farhågor om kompensation för rättvis användning av upphovsrättsskyddat verk, bör övervägas i samband med IEEE-rapportens påstående att "vi har upptäckt bevis för att en senior mjukvaruingenjör på Midjourney deltog i en konversation i februari 2022 om hur man undviker upphovsrättslagen genom att "tvätta" data "genom en finjusterad codex."

Marcus, medförfattare till IEEE-rapporten, uttryckte skepsis mot OpenAI:s försök att få grönt ljus i Storbritannien för dess nuvarande affärspraxis.

"Grov översättning: Vi blir inte fantastiskt rika om du inte låter oss stjäla, så snälla gör inte att stjäla till ett brott!" skrev han i ett socialt medium inlägg. "Tvinga oss inte att betala licensiering avgifter, heller! Visst kan Netflix betala miljarder om året i licensavgifter, men we borde inte behöva! Mer pengar till oss, moar!”

OpenAI har erbjudit sig att gottgöra företags ChatGPT- och API-kunder mot upphovsrättsanspråk, dock inte om kunden eller kundens slutanvändare "visste eller borde ha vetat att utgången gjorde intrång eller sannolikt kommer att göra intrång" eller om kunden kringgått säkerhetsfunktioner, bland andra begränsningar. Att be DALL-E 3 att återskapa en berömd filmscen – som användare borde veta att troligen omfattas av upphovsrätten – skulle alltså inte kvalificera sig för gottgörelse.

Midjourney har tagit det motsatta tillvägagångssättet och lovar att jaga och stämma kunder som är inblandade i intrång för att få ersättning för juridiska kostnader som härrör från relaterade anspråk.

"Om du medvetet gör intrång i någon annans immateriella rättigheter, och det kostar oss pengar, kommer vi att hitta dig och hämta pengarna från dig", skriver Midjourney's. Användarvillkor stat. "Vi kanske också gör andra saker, som att försöka få en domstol som tvingar dig att betala våra advokatkostnader. Gör det inte." ®

Tidsstämpel:

Mer från Registret