Почему иск New York Times об авторских правах на ИИ будет сложно защитить

Почему иск New York Times об авторских правах на ИИ будет сложно защитить

Почему в иске New York Times об авторских правах на ИИ будет сложно защитить данные PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

«Нью-Йорк Таймс» (NYT) Судебное производство против OpenAI и Microsoft открыло новый рубеж в продолжающихся юридических проблемах, вызванных использованием данных, защищенных авторским правом, для «обучения» или улучшения генеративного ИИ.

Против компаний, занимающихся искусственным интеллектом, уже подано множество исков, в том числе один, поданный Getty Images против искусственного интеллекта стабильности, который создает онлайн-генератор текста в изображение Stable Diffusion. Авторы Джордж Р. Р. Мартин и Джон Гришэм также возбудили судебные иски против владельца ChatGPT, OpenAI, по поводу исков об авторских правах. Но дело «Нью-Йорк Таймс» не является «более тем же самым», потому что оно добавляет в смесь новые интересные аргументы.

Судебное разбирательство сосредоточено на ценность данных обучения и новый вопрос, касающийся репутационного ущерба. Это мощное сочетание товарных знаков и авторских прав, которое может проверить эффективность защиты от добросовестного использования, на которую обычно полагаются.

Без сомнения, за этим будут внимательно следить средства массовой информации, стремящиеся бросить вызов обычному подходу «давайте просить прощения, а не разрешения» к обучению данных. Данные обучения используются для повышения производительности систем искусственного интеллекта и обычно состоят из реальной информации, часто получаемой из Интернета.

В иске также представлен новый аргумент, не выдвинутый другими аналогичными делами, который связан с чем-то, называемым «галлюцинации», где системы искусственного интеллекта генерируют ложную или вводящую в заблуждение информацию, но представляют ее как факт. Этот аргумент на самом деле может быть одним из самых весомых в данном случае.

В частности, случай с «Нью-Йорк Таймс» поднимает три интересных взгляда на обычный подход. Во-первых, благодаря репутации заслуживающих доверия новостей и информации, контент NYT приобретает повышенную ценность и желательность в качестве обучающих данных для использования в ИИ.

Во-вторых, из-за платного доступа NYT воспроизведение статей по запросу наносит коммерческий ущерб. В-третьих, что ChatGPT галлюцинации наносят репутационный ущерб газете «Нью-Йорк Таймс», по сути, из-за ложного указания авторства.

Это не просто очередной спор об авторских правах на генеративный ИИ. Первый аргумент, представленный NYT, заключается в том, что данные обучения, используемые OpenAI, защищены авторским правом, и поэтому они утверждают, что этап обучения ChatGPT нарушает авторские права. Мы видели этот тип аргумента бежать раньше в других спорах.

Добросовестное использование?

Проблема этого типа атаки заключается в щит добросовестного использования. В США добросовестное использование — это юридическая доктрина, которая разрешает использование материалов, защищенных авторским правом, при определенных обстоятельствах, например, в новостях, научной работе и комментариях.

Ответ OpenAI до сих пор действовала очень осторожно, но ключевым принципом заявления, опубликованного компанией, является то, что использование онлайн-данных действительно подпадает под принцип «добросовестного использования».

Предвидя некоторые трудности, которые потенциально может вызвать такая защита добросовестного использования, NYT заняла несколько иную точку зрения. В частности, он стремится дифференцировать свои данные от стандартных данных. Нью-Йорк Таймс намерена использовать то, что она называет точностью, достоверностью и престижем своих репортажей. Он утверждает, что это создает особенно желательный набор данных.

Он утверждает, что как авторитетный и заслуживающий доверия источник его статьи имеют дополнительный вес и надежность при обучении генеративного ИИ и являются частью подмножества данных, которому при этом обучении придается дополнительный вес.

Он утверждает, что, широко воспроизводя статьи по запросу, ChatGPT может опровергнуть информацию NYT, который является платным, посетителей и доходов, которые он в противном случае получил бы. Такое введение некоторого аспекта коммерческой конкуренции и коммерческих преимуществ, похоже, направлено на то, чтобы предотвратить обычную защиту добросовестного использования, характерную для этих претензий.

Будет интересно посмотреть, окажет ли влияние утверждение специального веса в обучающих данных. Если это произойдет, это даст возможность другим средствам массовой информации оспорить использование их репортажей в обучающих данных без разрешения.

Последний элемент заявления «Нью-Йорк Таймс» представляет новый взгляд на проблему. Это предполагает, что бренду NYT наносится ущерб через материалы, которые производит ChatGPT. Хотя в жалобе это утверждение представлено почти как второстепенная мысль, оно, тем не менее, может вызвать у OpenAI наибольшую трудность.

Это аргумент, связанный с галлюцинациями ИИ. NYT утверждает, что ситуация усугубляется тем, что ChatGPT представляет информацию как полученную от NYT.

Газета также предполагает, что потребители могут действовать на основе сводки, предоставленной ChatGPT, полагая, что информация исходит от NYT и ей следует доверять. Репутационный ущерб наносится тем, что газета не контролирует то, что производит ChatGPT.

Это интересная задача, которую следует решить. Галлюцинации — признанная проблема с ответами, генерируемыми ИИ, и Нью-Йорк Таймс утверждает, что репутационный ущерб, возможно, будет нелегко исправить.

Заявление NYT открывает ряд новых направлений атаки, которые смещают акцент с авторского права на то, как данные, защищенные авторским правом, представляются пользователям ChatGPT и ценность этих данных для газеты. OpenAI гораздо сложнее защититься.

За этим делом будут внимательно следить другие издатели СМИ, особенно те, кто стоит за платным доступом, и уделяют особое внимание тому, как оно взаимодействует с обычной защитой добросовестного использования.

Если набор данных NYT будет признан имеющим «повышенную ценность», о которой он заявляет, это может проложить путь для монетизации этого набора данных в обучении ИИ, а не подхода «прощения, а не разрешения», преобладающего сегодня.

Эта статья переиздана из Беседа под лицензией Creative Commons. Прочтите оригинал статьи.

Изображение Фото: АбсолютВижн / Unsplash 

Отметка времени:

Больше от Singularity Hub