David Holz, fundador del generador de arte de IA Midjourney, sobre el futuro de las imágenes de PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

David Holz, fundador del generador de arte AI Midjourney, sobre el futuro de la imagen

Entrevista En 2008, David Holz cofundó una empresa de periféricos de hardware llamada Leap Motion. Lo dirigió hasta el año pasado cuando se fue para crear Midjourey.

a mitad de camino en su forma actual, es una red social para crear arte generado por IA a partir de un mensaje de texto: escriba una palabra o frase en el mensaje de entrada y recibirá una imagen interesante o quizás maravillosa en la pantalla después de aproximadamente un minuto de cálculo. Es similar en algunos aspectos a OpenAI. DALL-E2.

Imagen a mitad de camino del cielo y las nubes, usando el mensaje de texto "Toda esta belleza inútil". Fuente: generado por a mitad de camino

Ambos son el resultado de grandes modelos de IA entrenados en una gran cantidad de imágenes. Pero Midjourney tiene su propio estilo distintivo, como puede verse en este hilo de Twitter. En los últimos días, ambos han ingresado a la prueba beta pública (aunque el acceso a DALL-E 2 se está expandiendo lentamente).

La capacidad de crear imágenes de alta calidad a partir de modelos de IA utilizando la entrada de texto se convirtió en una actividad popular el año pasado tras el lanzamiento de OpenAI. CLIP (Lenguaje Contrastivo – Entrenamiento Previo a la Imagen), que fue diseñado para evaluar qué tan bien se alinean las imágenes generadas con las descripciones del texto. Después de su lanzamiento, artista ryan murdock (@advadnoun en Twitter) descubrió que el proceso se podía revertir: al proporcionar una entrada de texto, se podía obtener una salida de imagen con la ayuda de otros modelos de IA.

Después de eso, la comunidad del arte generativo se embarcó en un período de exploración febril, publicando código Python para crear imágenes usando una variedad de modelos y técnicas.

“En algún momento del año pasado, vimos que había ciertas áreas de la IA que estaban progresando de manera realmente interesante”, explicó Holz en una entrevista con El registro. “Uno de ellos fue la capacidad de la IA para comprender el lenguaje”.

Holz señaló desarrollos como transformadores, un modelo de aprendizaje profundo que informa a CLIP, y modelos de difusión, una alternativa a las GAN. “El que realmente me llamó la atención personalmente fue la difusión guiada por CLIP”, dijo, desarrollada por Katherine Crawson (conocida en Twitter como @RiversHaveWings).

No el estereotipado hombre de Florida

Holz creció en Florida y tenía un negocio de diseño en la escuela secundaria donde estudió matemáticas y física. Estaba trabajando en un doctorado en matemáticas aplicadas y se ausentó en 2008 para iniciar Leap Motion. Al año siguiente, pasó un año como estudiante investigador en el Instituto Max Planck, seguido de dos años en el Centro de Investigación Langley de la NASA como estudiante investigador de posgrado trabajando en LiDAR, misiones a Marte y ciencia atmosférica.

“Pensé, ¿por qué estoy trabajando en todas estas cosas?” él explicó. “Solo quiero trabajar en una cosa genial que me importe”.

Así que se centró en Leap Motion, que desarrolló un dispositivo de hardware para rastrear el movimiento de la mano y usarlo para la entrada del dispositivo. Dirigió la empresa durante doce años y, cuando la dejó, empleaba a unas 100 personas.

Midjourney, dijo, es bastante pequeño en este momento. “Somos como unas 10 personas”, explicó. “Nos autofinanciamos. No tenemos inversores. No estamos realmente motivados económicamente. Simplemente estamos aquí para trabajar en cosas que nos apasionan y divertirnos. Y estábamos trabajando en muchos proyectos diferentes”.

Holz dijo que el aspecto tecnológico de la IA y la medida en que mejorará es bastante fácil de prever. “Pero las ramificaciones humanas de eso son tan difíciles de imaginar”, dijo. “Hay algo aquí que está en la intersección de la humanidad y la tecnología. Para descubrir realmente qué es esto y qué debería ser, realmente necesitamos hacer muchos experimentos”.

El camino por delante

La naturaleza inestable de la tecnología de imágenes de IA es evidente en la diferencia entre herramientas como Midjourney y una aplicación de gráficos de código abierto descargable como Blender, o una aplicación comercial instalada localmente como Adobe Photoshop (antes de que se convirtiera en un servicio en la nube).

Midjourney existe en un contexto social. Su front-end es el servicio de chat Discord. Los nuevos usuarios inician sesión en el servidor Midjourney de Discord y luego pueden enviar mensajes de texto para generar imágenes junto con muchos otros usuarios en cualquiera de los diversos canales para novatos.

Las imágenes resultantes para todos los usuarios de ese canal aparecen en aproximadamente un minuto, lo que ayuda a reforzar la noción de comunidad. Aquellos que decidan actualizarse a una suscripción de $10/mes o $30/mes pueden enviar un mensaje de texto al bot Midjourney en la aplicación Discord como un mensaje directo privado y recibir imágenes en respuesta sin la cascada de interacción de desplazamiento de pantalla de otros usuarios en un público canal. Sin embargo, las imágenes generadas permanecen visibles públicamente de forma predeterminada.

Como aplicación social, Midjourney está sujeta a reglas sobre el contenido permitido, algo por lo que los usuarios de Blender u otras aplicaciones instaladas localmente no tienen que preocuparse. Los Términos de servicio de Midjourney establecen: “No hay contenido para adultos ni gore. Evite hacer contenido visualmente impactante o perturbador. Bloquearemos algunas entradas de texto automáticamente”.

DALL-E 2 está sujeto a limitaciones similares aunque más extensas, como se describe en su Política de contenido.

“Creo que si viviéramos en un mundo sin redes sociales, entonces no necesitaríamos restricciones”, dijo Holz. “…Cuando se inventó Photoshop, en realidad hubo prensa al respecto, donde decían, 'oh, puedes falsificar cualquier cosa y da un poco de miedo'. [Pero ahora], es mucho más lucrativo ser sensacionalista que antes”.

“Hoy en día, cualquiera puede ser sensacionalista y básicamente beneficiarse de eso, ya sabes”, dijo Holz. “Entonces, lo que hace es crear un mercado para el drama y el sensacionalismo. Es por eso que creo que debemos ser un poco más cuidadosos, porque en algún momento, lo que la gente hará es decir, 'está bien, puedo hacer fotos de esto, ¿cuál es la cosa más dramática, ofensiva y horrible que yo ¿poder hacer?'"

No hay respuestas fáciles.

Holz admite que hay cosas que las plataformas sociales pueden hacer para mitigar estos problemas, pero dice que no hay respuestas simples. “Desafortunadamente, no hay una forma clara de abordarlo, excepto como sociedad, para premiar menos el sensacionalismo”, dijo. “Sin embargo, mi impresión es que nadie está realmente tratando de cambiar las plataformas sociales para reducir el sensacionalismo, porque eso les hace ganar dinero en este momento”.

Además, dijo, debido a que Midjourney pretende ser un espacio social para cualquier persona mayor de 13 años, es necesario tener reglas contra el contenido extremo o gráfico.

“Realmente no queremos tener espacios segmentados para personas a las que les gusta hacer cadáveres o les gustan las fotos de desnudos”, explicó Holz. “Simplemente no queremos tener que lidiar con eso. No creemos que tengamos la obligación moral de hacerlo en este momento. Queremos un hermoso espacio social para que las personas hagan cosas juntas y no se ofendan, básicamente, y se sientan seguras”.

Con ese fin, la empresa tiene alrededor de 40 moderadores que vigilan las imágenes que crean los usuarios.

El aspecto social de Midjourney recientemente comenzó a mejorar la calidad de la imagen. Holz dijo que los ingenieros de la compañía introdujeron recientemente la versión tres de su software, que por primera vez incorporó un circuito de retroalimentación basado en la actividad y respuesta del usuario.

“Si miras las cosas de v3, hay una gran mejora”, dijo. “Es alucinantemente mejor y en realidad no le pusimos más arte. Simplemente tomamos los datos sobre qué imágenes les gustaban a los usuarios y cómo las estaban usando. Y eso en realidad lo hizo mejor”.

Cuando se le preguntó acerca de la pila tecnológica de Midjourney, Holz objetó. “En algún momento, probablemente haremos un comunicado de prensa específicamente sobre qué proveedores estamos usando”, dijo. “Lo que puedo decir es que tenemos estos grandes modelos de IA con miles de millones de parámetros. Están entrenados sobre miles de millones de imágenes”.

Holz dice que los usuarios crean millones y millones de imágenes todos los días, y lo hacen utilizando proveedores de cómputo de energía verde, lo que realmente no reduce el campo de los principales proveedores de cómputo en la nube, ya que todos afirman ser al menos neutrales en carbono.

“Cada imagen toma petaops”, dijo, un término que significa 10^15 operaciones por segundo. “Así que miles de billones de operaciones. No sé exactamente si son cinco, 1000 o 10. Pero son miles de billones de operaciones para hacer una imagen. Es probablemente el más caro... si llama a Midjourney, un servicio, como si lo llamara un servicio o un producto, sin duda, nunca ha habido un servicio antes en el que una persona normal esté usando tanto cómputo".

Mantenernos en comida y ropa.

Sin embargo, Midjourney no está en el camino de aumentar la venta de clientes atraídos por un servicio gratuito a niveles pagos y luego atraer clientes empresariales que pagan bien antes de cotizar en bolsa o ser adquirido.

“No somos como una empresa nueva que recauda mucho dinero y luego no está segura de cuál es su negocio o producto y pierde dinero durante mucho tiempo”, dijo Holz. “Somos como un laboratorio de investigación autofinanciado. Podemos perder alguna cantidad de dinero. No tenemos como $100 millones del dinero de otra persona para perder. Para ser honesto, ya somos rentables y estamos bien”.

“Es un modelo de negocio bastante simple, que es, ¿disfruta la gente usándolo? Entonces, si lo hacen, tienen que pagar el costo de usarlo porque el costo bruto en realidad es bastante alto. Y luego agregamos un porcentaje encima de eso, que con suerte es suficiente para alimentarnos y albergarnos. Y eso es lo que estamos haciendo”.

En cuanto al futuro, escalar podría ser un problema. Holz dijo que Midjourney actualmente tiene cientos de miles de personas que usan el servicio, lo que requiere algo así como 10,000 servidores.

“Si hubiera 10 millones de personas tratando de usar tecnología como esta”, dijo, “en realidad no hay suficientes computadoras. No hay un millón de servidores gratuitos para hacer IA en el mundo. Creo que el mundo se quedará sin computadoras antes de que la tecnología realmente llegue a todos los que quieran usarla”.

¿Para qué lo usa la gente? Bueno, si ha iniciado sesión en una cuenta de Midjourney, puede ver lo que la gente está creando a través de la Feed comunitario página. Es un flujo constante de imágenes interesantes, a menudo sorprendentemente buenas.

“La mayoría de la gente simplemente se divierte”, dijo Holz. “Creo que eso es lo más importante porque en realidad no se trata de arte, se trata de imaginación”.

ser profesional

Pero para alrededor del 30 por ciento de los usuarios, es profesional. Holz dijo que muchos artistas gráficos usan Midjourney como parte de su flujo de trabajo de desarrollo de conceptos. Generan algunas variaciones de una idea y se las presentan a los clientes para ver qué dirección deben seguir.

“Los profesionales lo están utilizando para potenciar su proceso creativo o de comunicación”, explicó Holz. “Y luego mucha gente simplemente estaba jugando con eso”.

Tal vez el 20 por ciento de las personas usan Midjourney para lo que Holz describe como terapia de arte. Por ejemplo, crear imágenes de perros después de que su perro haya muerto. “Lo están usando como una herramienta reflexiva emocional e intelectual”, dijo. “Y eso es realmente genial”.

A Holz no le gusta la idea de usar Midjourney para crear fotografías falsas. “Usarlo editorialmente para crear fotos falsas es extremadamente peligroso”, dijo. “Nadie debería hacer eso”. Pero está más abierto a Midjourney como fuente de ilustración comercial, señalando que The Economist publicó un gráfico de Midjourney en su portada en junio.

“Solo recientemente permitimos que las personas lo usaran comercialmente”, dijo Holz. “Durante mucho tiempo, fue solo no comercial. Entonces, una de las cosas que estamos haciendo es simplemente observar lo que la gente está haciendo, y podríamos decidir que no nos sentimos cómodos con algo de eso y luego vamos a poner una regla que diga Ya no puedo usarlo solo para esas cosas.

Holz dijo que ve herramientas de inteligencia artificial como Midjourney haciendo que los artistas sean mejores en lo que hacen en lugar de convertir a todos en artistas profesionales. “Un artista que usa estas herramientas siempre es mejor que una persona normal que usa estas herramientas. En algún momento, ¿podría haber presión para usar estas herramientas porque puedes hacer cosas geniales? Creo que sí. Pero en este momento, no creo que esté allí todavía. Pero mejorará sorprendentemente en los próximos dos años”.

Midjourney y DALL-E 2 han llamado más la atención sobre las preocupaciones de larga data sobre si los grandes modelos de IA, creados a partir del trabajo bajo derechos de autor o licencias específicas, pueden reconciliarse con la ley de derechos de autor y con el propio sentido de los creadores de contenido sobre cómo se debe tratar su trabajo.

América, tierra del pleito

En cuanto a la producción de Midjourney, la jurisprudencia estadounidense actual niega la posibilidad de otorgar derechos de autor a las imágenes generadas por IA. En febrero, la Junta de Revisión de la Oficina de Derechos de Autor de EE. rechazado [PDF] una segunda solicitud para otorgar derechos de autor a un paisaje generado por computadora titulado "Una entrada reciente al paraíso" porque fue creado sin autoría humana.

En una entrevista telefónica, Tyler Ochoa, profesor del departamento de Derecho de la Universidad de Santa Clara, dijo El registro, “La Oficina de derechos de autor de EE. UU. ha dicho que es [aceptable] si un artista usa IA para ayudarlo a crear un trabajo, siempre que haya algo de creatividad humana involucrada. Si simplemente estás escribiendo texto y la IA genera un trabajo, eso claramente no está sujeto a la protección de derechos de autor según la ley actual”.

Los Términos de servicio de Midjourney establecen que "usted posee todos los Activos que crea con los Servicios", pero la empresa requiere una licencia de derechos de autor de los usuarios para reproducir el contenido creado con el servicio, una precaución necesaria para alojar las imágenes de los usuarios, incluso si parece dudoso que esos hacer que las imágenes de Midjourney simplemente a través de la entrada de texto tengan derechos de autor para transmitir o hacer cumplir.

Ese puede no ser siempre el caso. Ochoa dijo que cree que Steven Thaler, quien creó "Una entrada reciente al paraíso", puede querer impugnar el rechazo de la Oficina de derechos de autor de la autoría basada en IA en los tribunales, aunque eso aún no ha sucedido.

También existen posibles problemas de derechos de autor que surgen de los modelos de IA entrenados en material protegido por derechos de autor. “La pregunta es si sería o no un uso justo usar esas imágenes para entrenamiento e IA”, dijo Ochoa. “Y creo que el caso del uso justo en ese contexto es bastante sólido”.

Además, existe una responsabilidad potencial para aquellos que generan imágenes que son sustancialmente similares al material existente con derechos de autor. “Si su conjunto de entrenamiento no es lo suficientemente grande, lo que escupe la IA puede parecerse mucho a lo que ingirió”, explicó Ochoa, y señaló que el problema entonces es si se trata de una violación de los derechos de autor. “Indirectamente, creo que es muy probable que lo sea”.

En cuanto al riesgo legal potencial para los clientes que usan activos generados por Midjourney, Ochoa dijo que cree que es bastante bajo. Si el entrenamiento de un modelo de IA infringió los derechos de autor, eso se hizo antes de que el cliente estuviera involucrado, explicó. “Entonces, a menos que el cliente patrocine la creación de la IA de alguna manera, no creo que [el cliente] sea responsable de ninguna infracción del conjunto de capacitación”, dijo. “Y esa es la afirmación más fuerte aquí. Así que creo que los clientes están en un terreno bastante sólido al usar estas imágenes, suponiendo que estén bien hechas”.

Holz reconoce que la situación legal carece de claridad.

“Por el momento, la ley realmente no tiene nada sobre este tipo de cosas”, dijo. “Hasta donde yo sé, cada modelo grande de IA está básicamente entrenado en cosas que están en Internet. Y eso está bien, ahora mismo. No hay leyes específicas sobre eso. Tal vez en el futuro, habrá. Pero es una especie de área novedosa, como si la GPL fuera algo legal novedoso en torno al código de programación. Y tomó como 20 o 30 años para que realmente se convirtiera en algo que el sistema legal está comenzando a descifrar”.

Holz dijo que cree que es más importante en este momento comprender cómo se sienten las partes interesadas acerca de esta tecnología. “Tenemos muchos artistas que usan nuestro material, y constantemente les preguntamos, '¿te sientes bien con esto?'”, dijo.

Holz dijo que si hay suficiente insatisfacción con el statu quo, puede valer la pena pensar en algún tipo de estructura de pago en el futuro para los artistas cuyo trabajo se dedica a la formación de modelos. Pero observó que actualmente es difícil evaluar el alcance de las contribuciones. “El desafío para algo así en este momento es que en realidad no está claro qué es lo que hace que los modelos de IA funcionen bien”, dijo. “Si pongo una foto de un perro allí, ¿cuánto ayuda realmente [el modelo de IA] a hacer fotos de perros? En realidad, no está claro qué partes de los datos realmente le dan [al modelo] qué habilidades”.

Cuando se le preguntó qué le da a Midjourney su estética distintiva, Holz dijo que realmente no podía comparar lo que Midjourney está haciendo con DALL-E 2, pero que, en general, los investigadores de IA tienden a obtener lo que optimizan. Si escriben la palabra "perro", probablemente quieran una foto de un perro.

“Para nosotros, cuando lo estábamos optimizando, queríamos que se viera hermoso, y hermoso no significa necesariamente realista. … En todo caso, en realidad lo sesgamos un poco alejándolo de las fotos. … Sé que esta tecnología se puede usar como una súper máquina falsa profunda. Y no creo que el mundo necesite más fotos falsas. Realmente no quiero ser una fuente de fotos falsas en el mundo”.

“De hecho, me siento un poco incómodo si nuestro material hace algo que parece una foto. Y eso no quiere decir que nunca dejaremos que la gente haga cosas que sean más realistas. Hay casos de uso legítimos para tratar de hacer que las cosas parezcan más realistas. Sin embargo, creo firmemente que, de forma predeterminada, cuando alguien usa nuestro sistema, no debería hacer una foto falsa”.

“Pero creo que el mundo necesita más belleza. Básicamente, si creo algo que le permita a la gente hacer cosas hermosas, y hay cosas más hermosas en el mundo, eso es lo que quiero por defecto”. ®

Sello de tiempo:

Mas de El registro