OpenAI: неможливо навчити ШІ найвищого рівня та уникнути авторських прав

OpenAI: неможливо навчити ШІ найвищого рівня та уникнути авторських прав

OpenAI: неможливо навчити штучний інтелект найвищого рівня та уникнути авторських прав PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

OpenAI заявив, що буде «неможливо» побудувати нейронні мережі вищого рівня, які задовольнятимуть сучасні потреби, без використання робіт людей, захищених авторським правом. Підтримувана Microsoft лабораторія, яка вважає, що законно збирає згаданий вміст для навчання своїх моделей, заявила, що використання матеріалів, що не захищені авторським правом, призведе до створення програмного забезпечення ШІ нижче рівня.

Це твердження з’явилося в той час, коли світ машинного навчання кидається головою до цегляної стіни, якою є закон про авторське право. Буквально цього тижня у звіті IEEE було зроблено висновок, що Midjourney і DALL-E 3 від OpenAI, дві основні служби штучного інтелекту для перетворення текстових підказок на зображення, можуть відтворювати захищені авторським правом сцени з фільмів і відеоігор на основі їхніх навчальних даних.

Команда вчитися, співавторами якого є Гері Маркус, експерт і критик зі штучного інтелекту, і Рейд Саутен, цифровий ілюстратор, документує численні випадки «плагіату», в яких OpenAI і DALL-E 3 відтворюють схожі версії сцен із фільмів, фотографій відомих актори та вміст відеоігор.

Маркус і Саутен кажуть, що майже напевно Midjourney і OpenAI навчили свої відповідні моделі генерації зображень ШІ на захищеному авторським правом матеріалі.

Питання, чи законно це і чи ризикують постачальники штучного інтелекту або їхні клієнти бути притягненими до відповідальності, залишається спірним. Однак висновки звіту можуть підтримати тих, хто подає до суду на Midjourney і виробника DALL-E OpenAI за порушення авторських прав.

Користувачі можуть не знати, коли створюють зображення, чи порушують вони права

«І OpenAI, і Midjourney цілком здатні створювати матеріали, які, здається, порушують авторські права та торгові марки», — написали вони. «Ці системи не інформують користувачів, коли вони це роблять. Вони не надають жодної інформації про походження створених ними зображень. Користувачі можуть не знати, коли створюють зображення, чи порушують вони права».

Жодна компанія не розкрила повністю навчальні дані, які використовуються для створення їхніх моделей ШІ.

Це не просто цифрові художники складні компанії ШІ. Нещодавно The New York Times подав до суду на OpenAI тому що його текстова модель ChatGPT видаватиме майже дослівні копії платних статей газети. Автори книг подали аналогічні позови, як і розробники програмного забезпечення.

попередній дослідження вказав, що ChatGPT OpenAI можна змусити відтворити навчальний текст. А ті, хто судиться з Microsoft і GitHub, стверджують, що модель помічника кодування Copilot відтворюватиме код більш-менш дослівно.

Саутен зауважив, що Midjourney стягує плату з клієнтів, які створюють правопорушний вміст і отримують прибуток від підписки. «Користувачам MJ [Midjourney] не потрібно продавати зображення через те, що вони потенційно порушили авторські права, MJ вже отримує прибуток від їх створення», — сказав він. вважають, повторюючи аргумент, наведений у звіті IEEE.

OpenAI також стягує плату за підписку і таким чином отримує прибуток. Ані OpenAI, ані Midjourney не відповіли на запити про коментарі.

Однак у понеділок OpenAI опублікував a блог розглядаючи позов New York Times, який, як сказав продавець ШІ, необґрунтований. Дивно, але лабораторія заявила, що якщо її нейронні мережі створюють правопорушний контент, то це «помилка».

Загалом, вискочка сьогодні стверджує, що: активно співпрацює з новинними організаціями; навчання щодо даних, захищених авторським правом, відповідає вимогам захисту добросовісного використання згідно із законом про авторське право; «Регургітація — рідкісна помилка, яку ми намагаємося звести до нуля»; і New York Times має чудові приклади відтворення тексту, які не представляють типову поведінку.

Закон вирішить

Про це розповів Тайлер Очоа, професор юридичного факультету Університету Санта-Клари в Каліфорнії Реєстр що, хоча висновки звіту IEEE, ймовірно, допоможуть учасникам судового процесу з претензіями щодо авторських прав, вони не повинні, тому що автори статті, на його думку, неправильно представили те, що відбувається.

«Вони пишуть: «Чи можна спонукати моделі, що генерують зображення, створювати плагіат на основі матеріалів, захищених авторським правом?» … [Ми] виявили, що відповідь однозначно ствердна, навіть без прямого запиту на плагіат».

Очоа поставив під сумнів цей висновок, стверджуючи, що підказки, які ввели автори звіту, «свідчать про те, що вони дійсно вимагають плагіату. У кожному окремому запиті згадується назва певного фільму, вказується співвідношення сторін і в усіх випадках, крім одного, слова «фільм» і «скріншот» або «скріншот». (Один виняток описує зображення, яке вони хотіли відтворити. )”

Професор права сказав, що проблема авторського права полягає у визначенні того, хто несе відповідальність за ці плагіатні результати: творці моделі ШІ чи люди, які попросили модель ШІ відтворити популярну сцену.

«Генеративна модель штучного інтелекту здатна створювати оригінальні результати, а також здатна відтворювати сцени, які нагадують сцени із захищених авторським правом вхідних даних, коли з’являється запит», — пояснив Очоа. «Це слід аналізувати як випадок співучасті в порушенні: особа, яка запропонувала модель, є основним порушником, а творці моделі несуть відповідальність, лише якщо їм було повідомлено про основне порушення та вони не вжили розумних заходів для припинення це».

Очоа сказав, що генеративні моделі штучного інтелекту з більшою ймовірністю відтворять конкретні зображення, якщо в їхньому навчальному наборі даних є кілька екземплярів цих зображень.

«У цьому випадку дуже малоймовірно, що навчальні дані включали цілі фільми; Набагато ймовірніше, що навчальні дані включали нерухомі зображення з фільмів, які були розповсюджені як рекламні кадри для фільму», – сказав він. «Ці зображення були відтворені кілька разів у навчальних даних, оскільки ЗМІ заохочували поширювати ці зображення з метою реклами, і вони це зробили.

«Було б принципово несправедливо для власника авторських прав заохочувати широке розповсюдження нерухомих зображень з рекламною метою, а потім скаржитися, що ці зображення імітуються штучним інтелектом, оскільки навчальні дані включали кілька копій тих самих зображень».

Очоа сказав, що є кроки, щоб обмежити таку поведінку моделей ШІ. «Питання в тому, чи повинні вони це робити, коли особа, яка ввела підказку, явно хотіла змусити штучний інтелект відтворити впізнаване зображення, а кіностудії, які створили оригінальні нерухомі зображення, явно хотіли, щоб ці нерухомі зображення були широко розповсюджені. ," він сказав.

«Кращим було б запитання: як часто це трапляється, коли в підказці не згадується конкретний фільм або описується конкретний персонаж чи сцена? Я думаю, що неупереджений дослідник, швидше за все, виявить, що відповідь рідко (можливо, майже ніколи)».

Тим не менш, вміст, захищений авторським правом, виявляється важливим паливом для створення цих моделей.

OpenAI захищається перед Лордами

У відповідь на запит Комітетом зі зв’язку та цифрових технологій Палати лордів Великобританії OpenAI представив уявлення [PDF] попередження про те, що його моделі не працюватимуть без навчання на вмісті, захищеному авторським правом.

«Оскільки сьогодні авторське право охоплює практично будь-який вид людського вираження, включаючи дописи в блогах, фотографії, дописи на форумах, уривки коду програмного забезпечення та урядові документи, було б неможливо навчити сучасні провідні моделі штучного інтелекту без використання матеріалів, захищених авторським правом», — заявили в суперлабораторії. .

«Обмеження навчальних даних загальнодоступними книгами та малюнками, створеними більше століття тому, може дати цікавий експеримент, але не забезпечить системи ШІ, які відповідають потребам сучасних громадян».

Підприємство штучного інтелекту заявило, що вважає, що воно відповідає закону про авторське право і що навчання матеріалам, захищеним авторським правом, є законним, хоча це допускає, що «все ще потрібно зробити роботу, щоб підтримати та розширити можливості творців».

Цю думку, яка звучить як дипломатичне визнання етичних побоювань щодо компенсації за справедливе використання твору, захищеного авторським правом, слід розглядати разом із заявою звіту IEEE про те, що «ми виявили докази того, що старший інженер програмного забезпечення Midjourney брав участь у розмова у лютому 2022 року про те, як уникнути закону про авторське право, «відмиваючи» дані «через точно налаштований кодекс».

Маркус, співавтор звіту IEEE, висловив скептицизм щодо зусиль OpenAI отримати регуляторне зелене світло у Великобританії для своєї поточної ділової практики.

«Грубий переклад: ми не станемо неймовірно багатими, якщо ви не дозволите нам красти, тому, будь ласка, не робіть крадіжку злочином!» – написав він у соцмережі після. «Не змушуйте нас платити ліцензування збори, або! Звичайно, Netflix може платити мільярди на рік у вигляді ліцензійних зборів, але we не повинен! Нам більше грошей, мур!»

OpenAI запропонував відшкодувати корпоративним клієнтам ChatGPT і API проти претензій щодо авторських прав, але не в тому випадку, якщо клієнт або кінцеві користувачі клієнта «знали або повинні були знати, що вихідні дані порушують або можуть порушувати права» або якщо клієнт обійшов функції безпеки, серед інших обмежень. Таким чином, попросити DALL-E 3 відтворити відому сцену з фільму – про яку користувачі повинні знати, ймовірно, захищено авторським правом – не буде претендувати на відшкодування.

Midjourney застосував протилежний підхід, пообіцявши шукати та подавати до суду на клієнтів, причетних до порушення, щоб відшкодувати судові витрати, пов’язані з відповідними претензіями.

«Якщо ви свідомо порушуєте чиюсь інтелектуальну власність, і це коштує нам грошей, ми прийдемо вас знайти та стягнути з вас ці гроші», – Midjourney’s. Умови обслуговування стан. «Ми також можемо зробити інші речі, наприклад, спробувати отримати від суду, щоб ви сплатили наші судові витрати. Не робіть цього». ®

Часова мітка:

Більше від Реєстр