OpenAI: imposible entrenar IA de primer nivel y evitar los derechos de autor

OpenAI: imposible entrenar IA de primer nivel y evitar los derechos de autor

OpenAI: Imposible entrenar IA de primer nivel y evitar los derechos de autor de PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

OpenAI ha dicho que sería “imposible” construir redes neuronales de primer nivel que satisfagan las necesidades actuales sin utilizar el trabajo protegido por derechos de autor de las personas. El laboratorio respaldado por Microsoft, que cree que está recopilando legalmente dicho contenido para entrenar sus modelos, dijo que el uso de material de dominio público sin derechos de autor daría como resultado un software de inteligencia artificial de mala calidad.

Esta afirmación llega en un momento en que el mundo del aprendizaje automático está corriendo de cabeza contra el muro de ladrillos que es la ley de derechos de autor. Esta misma semana, un informe del IEEE concluyó que Midjourney y DALL-E 3 de OpenAI, dos de los principales servicios de inteligencia artificial para convertir mensajes de texto en imágenes, pueden recrear escenas protegidas por derechos de autor de películas y videojuegos basándose en sus datos de entrenamiento.

La estudio , escrito en coautoría por Gary Marcus, un experto y crítico de IA, y Reid Southen, un ilustrador digital, documenta múltiples casos de "resultados plagiados" en los que OpenAI y DALL-E 3 generan versiones sustancialmente similares de escenas de películas, imágenes de famosos actores y contenido de videojuegos.

Marcus y Southen dicen que es casi seguro que Midjourney y OpenAI entrenaron sus respectivos modelos de generación de imágenes de IA con material protegido por derechos de autor.

Si eso es legal y si los proveedores de IA o sus clientes corren el riesgo de ser considerados responsables, sigue siendo una cuestión polémica. Sin embargo, las conclusiones del informe pueden reforzar a quienes demandan a Midjourney y al fabricante de DALL-E, OpenAI, por infracción de derechos de autor.

Es posible que los usuarios no sepan, cuando producen una imagen, si están infringiendo

"Tanto OpenAI como Midjourney son totalmente capaces de producir materiales que parecen infringir derechos de autor y marcas registradas", escribieron. “Estos sistemas no informan a los usuarios cuando lo hacen. No proporcionan ninguna información sobre la procedencia de las imágenes que producen. Es posible que los usuarios no sepan, cuando producen una imagen, si están infringiendo".

Ninguna de las empresas ha revelado completamente los datos de entrenamiento utilizados para crear sus modelos de IA.

No es solo artistas digitales Desafiando a las empresas de IA. El New York Times recientemente demandó a OpenAI porque su modelo de texto ChatGPT generará copias casi textuales de los artículos de pago del periódico. Autores de libros han presentado reclamaciones similares, al igual que desarrolladores de software.

Anterior la investigación ha indicado que se puede convencer al ChatGPT de OpenAI para que reproduzca el texto de capacitación. Y quienes demandan a Microsoft y GitHub sostienen que el modelo de asistente de codificación Copilot reproducirá el código más o menos palabra por palabra.

Southen observó que Midjourney está cobrando a los clientes que crean contenido infractor y se benefician de los ingresos por suscripción. "Los usuarios de MJ [Midjourney] no tienen que vender las imágenes para que se haya producido una posible infracción de derechos de autor, MJ ya se beneficia de su creación", afirmó. opinó, haciéndose eco de un argumento presentado en el informe del IEEE.

OpenAI también cobra una tarifa de suscripción y, por tanto, obtiene beneficios de la misma manera. Ni OpenAI ni Midjourney respondieron a las solicitudes de comentarios.

Sin embargo, OpenAI publicó el lunes un del blog abordando la demanda del New York Times, que según el vendedor de IA carecía de mérito. Sorprendentemente, el laboratorio dijo que si sus redes neuronales generaban contenido infractor, se trataba de un "error".

En total, el advenedizo hoy argumentó que: Colabora activamente con organizaciones de noticias; la capacitación sobre datos protegidos por derechos de autor califica para la defensa del uso legítimo según la ley de derechos de autor; "La 'regurgitación' es un error raro que estamos trabajando para reducirlo a cero"; y el New York Times ha seleccionado ejemplos de reproducción de texto que no representan un comportamiento típico.

La ley decidirá

Tyler Ochoa, profesor del departamento de derecho de la Universidad de Santa Clara en California, dijo El registro que, si bien es probable que las conclusiones del informe del IEEE ayuden a los litigantes con reclamaciones de derechos de autor, no deberían hacerlo, porque, en su opinión, los autores del artículo han tergiversado lo que está sucediendo.

“Escriben: '¿Se puede inducir a los modelos de generación de imágenes a producir productos plagiados basados ​​en materiales protegidos por derechos de autor? … [H]emos encontrado que la respuesta es claramente sí, incluso sin solicitar directamente resultados plagiados'”.

Ochoa cuestionó esa conclusión, argumentando que las indicaciones que los autores del informe “introdujeron demuestran que, de hecho, están solicitando directamente resultados plagiados. Cada mensaje menciona el título de una película específica, especifica la relación de aspecto y, en todos los casos, excepto uno, las palabras "película" y "captura de pantalla" o "captura de pantalla". (La única excepción describe la imagen que querían replicar. )”

El profesor de derecho dijo que la cuestión de la ley de derechos de autor es determinar quién es responsable de estos resultados plagiados: los creadores del modelo de IA o las personas que pidieron al modelo de IA que reprodujera una escena popular.

"El modelo de IA generativa es capaz de producir resultados originales y también es capaz de reproducir escenas que se asemejan a escenas de entradas protegidas por derechos de autor cuando se le solicita", explicó Ochoa. “Esto debe analizarse como un caso de infracción concurrente: la persona que impulsó el modelo es el infractor principal, y los creadores del modelo son responsables sólo si tuvieron conocimiento de la infracción principal y no tomaron medidas razonables para detenerla. él."

Ochoa dijo que es más probable que los modelos generativos de IA reproduzcan imágenes específicas cuando hay múltiples instancias de esas imágenes en su conjunto de datos de entrenamiento.

“En este caso, es muy poco probable que los datos de entrenamiento incluyan películas completas; es mucho más probable que los datos de entrenamiento incluyeran imágenes fijas de las películas que se distribuyeron como imágenes fijas publicitarias de la película”, dijo. “Esas imágenes se reprodujeron varias veces en los datos de capacitación porque se alentó a los medios de comunicación a distribuirlas con fines publicitarios y así lo hicieron.

"Sería fundamentalmente injusto que un propietario de derechos de autor fomente una amplia difusión de imágenes fijas con fines publicitarios y luego se queje de que esas imágenes están siendo imitadas por una IA porque los datos de entrenamiento incluyen múltiples copias de esas mismas imágenes".

Ochoa dijo que existen medidas para limitar ese comportamiento en los modelos de IA. “La pregunta es si deberían tener que hacerlo, cuando la persona que ingresó el mensaje claramente quería que la IA reprodujera una imagen reconocible, y los estudios cinematográficos que produjeron las imágenes fijas originales claramente querían que esas imágenes fijas se distribuyeran ampliamente. ," él dijo.

“Una mejor pregunta sería: ¿Con qué frecuencia sucede esto cuando el mensaje no menciona una película específica ni describe un personaje o escena específica? Creo que un investigador imparcial probablemente encontraría que la respuesta es raramente (quizás casi nunca)”.

No obstante, el contenido protegido por derechos de autor parece ser un combustible esencial para que estos modelos funcionen bien.

OpenAI se defiende ante Lords

En respuesta a una consulta sobre los riesgos y oportunidades de los modelos de IA por parte del Comité Digital y de Comunicaciones de la Cámara de los Lores del Reino Unido, OpenAI presentó un enviarlo a consideración [PDF] advirtiendo que sus modelos no funcionarán sin recibir capacitación sobre contenido protegido por derechos de autor.

"Debido a que los derechos de autor cubren hoy prácticamente todo tipo de expresión humana -incluyendo publicaciones de blogs, fotografías, publicaciones en foros, fragmentos de código de software y documentos gubernamentales- sería imposible entrenar los principales modelos de IA actuales sin utilizar materiales protegidos por derechos de autor", dijo el superlaboratorio. .

"Limitar los datos de entrenamiento a libros y dibujos de dominio público creados hace más de un siglo podría generar un experimento interesante, pero no proporcionaría sistemas de inteligencia artificial que satisfagan las necesidades de los ciudadanos de hoy".

El negocio de la IA dijo que cree que cumple con la ley de derechos de autor y que la capacitación sobre material protegido por derechos de autor es legal, aunque admite que "todavía queda trabajo por hacer para apoyar y empoderar a los creadores".

Ese sentimiento, que suena como un reconocimiento diplomático de las preocupaciones éticas sobre la compensación por el discutible uso justo de un trabajo protegido por derechos de autor, debe considerarse junto con la afirmación del informe del IEEE de que "hemos descubierto evidencia de que un ingeniero de software senior de Midjourney participó en una conversación en febrero de 2022 sobre cómo evadir la ley de derechos de autor ‘blanqueando’ datos ‘a través de un códice ajustado'”.

Marcus, coautor del informe IEEE, expresó escepticismo sobre el esfuerzo de OpenAI por obtener luz verde regulatoria en el Reino Unido para sus prácticas comerciales actuales.

“Traducción aproximada: No nos haremos fabulosamente ricos si no nos dejas robar, ¡así que por favor no conviertas el robo en un delito!” escribió en una red social post. “No nos hagas pagar la concesión de licencias tarifas, tampoco! Seguro que Netflix podría pagar miles de millones al año en derechos de licencia, pero we ¡No debería tener que hacerlo! ¡Más dinero para nosotros, moar!

OpenAI se ha ofrecido a indemnizar a los clientes empresariales de ChatGPT y API contra reclamaciones de derechos de autor, aunque no si el cliente o los usuarios finales del cliente "sabían o deberían haber sabido que la Salida infringía o era probable que infringiera" o si el cliente omitió las funciones de seguridad, entre otras limitaciones. Por lo tanto, pedirle a DALL-E 3 que recree una escena de una película famosa (que los usuarios deberían saber que probablemente está protegida por derechos de autor) no calificaría para recibir indemnización.

Midjourney ha adoptado el enfoque opuesto, prometiendo perseguir y demandar a los clientes involucrados en infracciones para recuperar los costos legales derivados de reclamaciones relacionadas.

"Si usted, a sabiendas, infringe la propiedad intelectual de otra persona y eso nos cuesta dinero, iremos a buscarlo y le cobraremos ese dinero", dijo Midjourney. Términos de Servicio estado. “También podríamos hacer otras cosas, como intentar que un tribunal le obligue a pagar nuestros honorarios legales. No lo hagas”. ®

Sello de tiempo:

Mas de El registro