David Holz, fondateur du générateur d'art AI Midjourney, sur l'avenir de l'imagerie PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

David Holz, fondateur du générateur d'art AI Midjourney, sur l'avenir de l'imagerie

Interview En 2008, David Holz a cofondé une entreprise de périphériques matériels appelée Leap Motion. Il l'a dirigé jusqu'à l'année dernière quand il est parti pour créer Midjourey.

À mi-parcours sous sa forme actuelle est un réseau social pour créer de l'art généré par l'IA à partir d'une invite de texte - tapez un mot ou une phrase à l'invite de saisie et vous recevrez une image intéressante ou peut-être merveilleuse à l'écran après environ une minute de calcul. Il est similaire à certains égards à OpenAI DALL-E2.

Image à mi-parcours du ciel et des nuages, utilisant l'invite textuelle "Toute cette beauté inutile". Source : généré par À mi-parcours

Les deux sont le résultat de grands modèles d'IA entraînés sur un grand nombre d'images. Mais Midjourney a son propre style distinctif, comme on peut le voir sur ce fil Twitter. Ces derniers jours, les deux sont entrés dans les tests bêta publics (bien que l'accès à DALL-E 2 soit étendu lentement).

La possibilité de créer des images de haute qualité à partir de modèles d'IA à l'aide de la saisie de texte est devenue une activité populaire l'année dernière après la sortie d'OpenAI's CLIP (Contrastive Language–Image Pre-training), qui a été conçu pour évaluer dans quelle mesure les images générées s'alignent avec les descriptions textuelles. Après sa sortie, artiste Ryan Murdock (@advadnoun sur Twitter) a découvert que le processus pouvait être inversé - en fournissant une entrée de texte, vous pouviez obtenir une sortie d'image à l'aide d'autres modèles d'IA.

Après cela, la communauté de l'art génératif s'est lancée dans une période d'exploration fébrile, publiant du code Python pour créer des images en utilisant une variété de modèles et de techniques.

"L'année dernière, nous avons vu que certains domaines de l'IA progressaient de manière vraiment intéressante", a expliqué Holz dans une interview avec Le registre. "L'un d'eux était la capacité de l'IA à comprendre le langage."

Holz a souligné des développements tels que les transformateurs, un modèle d'apprentissage en profondeur qui informe le CLIP, et les modèles de diffusion, une alternative aux GAN. "Ce qui m'a vraiment frappé personnellement, c'est la diffusion guidée par CLIP", a-t-il déclaré, développé par Katherine Crawson (connue sur Twitter sous le nom de @RiversHaveWings).

Pas l'homme stéréotypé de Floride

Holz a grandi en Floride et avait une entreprise de design au lycée où il a étudié les mathématiques et la physique. Il travaillait sur un doctorat en mathématiques appliquées et a pris un congé en 2008 pour lancer Leap Motion. L'année suivante, il a passé un an en tant qu'étudiant-chercheur à l'Institut Max Planck, suivi de deux ans au NASA Langley Research Center en tant qu'étudiant-chercheur diplômé travaillant sur le LiDAR, les missions martiennes et les sciences de l'atmosphère.

"Je me disais, pourquoi est-ce que je travaille sur tout ça?" il expliqua. "Je veux juste travailler sur une chose cool qui me tient à cœur."

Il s'est donc concentré sur Leap Motion, qui a développé un dispositif matériel pour suivre le mouvement de la main et l'utiliser pour l'entrée de l'appareil. Il a dirigé l'entreprise pendant douze ans et, lorsqu'il l'a quittée, elle employait environ 100 personnes.

Midjourney, a-t-il dit, est assez petit en ce moment. "Nous sommes environ 10 personnes", a-t-il expliqué. « Nous sommes autofinancés. Nous n'avons pas d'investisseurs. Nous ne sommes pas vraiment motivés financièrement. Nous sommes juste en quelque sorte ici pour travailler sur des choses qui nous passionnent et nous amuser. Et nous travaillions sur de nombreux projets différents.

Holz a déclaré que l'aspect technologique de l'IA et la mesure dans laquelle elle s'améliorera sont assez faciles à prévoir. "Mais les ramifications humaines de cela sont si difficiles à imaginer", a-t-il déclaré. « Il y a quelque chose ici qui se situe à l'intersection de l'humanité et de la technologie. Afin de vraiment comprendre ce que c'est et ce que cela devrait être, nous devons vraiment faire beaucoup d'expériences.

Le chemin à parcourir

La nature instable de la technologie d'image AI est évidente dans la différence entre des outils comme Midjourney et une application graphique open source téléchargeable comme Blender, ou une application commerciale installée localement comme Adobe Photoshop (avant qu'elle ne devienne un service cloud).

Midjourney existe dans un contexte social. Son front-end est le service de chat Discord. Les nouveaux utilisateurs se connectent au serveur Midjourney de Discord et peuvent ensuite soumettre des invites de texte pour générer des images aux côtés de nombreux autres utilisateurs dans l'un des différents canaux pour débutants.

Les images résultantes pour tous les utilisateurs de ce canal apparaissent en une minute environ, ce qui contribue à renforcer la notion de communauté. Ceux qui décident de passer à un abonnement de 10 $/mois ou 30 $/mois peuvent envoyer du texte au bot Midjourney dans l'application Discord en tant que message direct privé et recevoir des images en réponse sans la cascade d'interaction de défilement d'écran d'autres utilisateurs dans un public canaliser. Les images générées restent cependant visibles publiquement par défaut.

En tant qu'application sociale, Midjourney est soumise à des règles sur le contenu autorisé - ce dont les utilisateurs de Blender ou d'autres applications installées localement n'ont pas à se soucier. Les conditions d'utilisation de Midjourney stipulent : "Pas de contenu pour adultes ou gore. Veuillez éviter de créer des contenus visuellement choquants ou dérangeants. Nous bloquerons automatiquement certaines entrées de texte.

DALL-E 2 est soumis à des limitations similaires bien que plus étendues, comme décrit dans son Politique de contenu.

"Je pense que si nous vivions dans un monde sans médias sociaux, nous n'aurions pas besoin de restrictions", a déclaré Holz. “…Quand Photoshop a été inventé, il y avait en fait une presse à ce sujet, où c'était comme, 'oh, vous pouvez truquer n'importe quoi et c'est un peu effrayant.' [Mais maintenant], c'est beaucoup plus lucratif d'être sensationnaliste qu'avant.

"De nos jours, n'importe qui peut être sensationnaliste et en tirer profit, vous savez", a déclaré Holz. «Et donc, ce qu'il fait, c'est créer un marché pour le drame et le sensationnalisme. C'est pourquoi je pense que nous devons être un peu plus prudents, parce qu'à un moment donné, ce que les gens vont faire, c'est qu'ils vont dire : "D'accord, je peux faire des photos de ça, quelle est la chose la plus dramatique, la plus offensante et la plus horrible que j'aie peut faire?'"

Pas de réponses faciles

Holz admet qu'il y a des choses que les plateformes sociales peuvent faire pour atténuer ces problèmes, mais dit qu'il n'y a pas de réponses simples. "Malheureusement, il n'y a pas de moyen clair d'y remédier, sauf en tant que société, pour moins récompenser le sensationnalisme", a-t-il déclaré. "Cependant, j'ai l'impression que personne n'essaie vraiment de changer les plateformes sociales pour réduire le sensationnalisme, car cela leur rapporte de l'argent en ce moment."

De plus, a-t-il dit, parce que Midjourney vise à être un espace social pour toute personne de plus de 13 ans, il est nécessaire d'avoir des règles contre le contenu extrême ou graphique.

"Nous ne voulons pas vraiment avoir des espaces segmentés pour les personnes qui aiment faire des cadavres ou des photos nues", a expliqué Holz. « Nous ne voulons tout simplement pas avoir à faire face à cela. Nous ne pensons pas avoir l'obligation morale de le faire à ce stade. Nous voulons un bel espace social pour que les gens fassent des trucs ensemble et ne soient pas offensés, fondamentalement, et se sentent en sécurité.

À cette fin, la société compte environ 40 modérateurs qui surveillent les images créées par les utilisateurs.

L'aspect social de Midjourney a récemment commencé à améliorer la qualité de l'image. Holz a déclaré que les ingénieurs de l'entreprise ont récemment introduit la troisième version de son logiciel, qui incorporait pour la première fois une boucle de rétroaction basée sur l'activité et la réponse de l'utilisateur.

"Si vous regardez les trucs v3, il y a cette énorme amélioration", a-t-il déclaré. « C'est époustouflant de mieux et nous n'y avons pas mis plus d'art. Nous avons juste pris les données sur les images que les utilisateurs aimaient et comment ils les utilisaient. Et cela l'a rendu meilleur.

Interrogé sur la pile technologique Midjourney, Holz s'est opposé. "À un moment donné, nous allons probablement faire un communiqué de presse spécifiquement autour des fournisseurs que nous utilisons", a-t-il déclaré. "Ce que je peux dire, c'est que nous avons ces grands modèles d'IA avec des milliards de paramètres. Ils sont entraînés sur des milliards d'images.

Holz affirme que les utilisateurs créent des millions et des millions d'images chaque jour, et ce, en utilisant des fournisseurs de calcul d'énergie verte – ce qui ne restreint pas vraiment le champ des principaux fournisseurs de cloud computing, car ils prétendent tous être au moins neutres en carbone.

"Chaque image prend des pétaops", a-t-il déclaré, un terme qui signifie 10 ^ 15 opérations par seconde. "Donc, des milliers de billions d'opérations. Je ne sais pas exactement si c'est cinq ou 1000 ou 10. Mais c'est des milliers de billions d'opérations pour faire une image. C'est probablement le plus cher… si vous appelez Midjourney, un service – comme vous l'appelleriez un service ou un produit – sans aucun doute, il n'y a jamais eu de service auparavant où une personne ordinaire utilise autant de calcul.

Nous garder dans la nourriture et les vêtements

Pourtant, Midjourney n'est pas sur la voie de la vente incitative de clients amenés par un service gratuit à des niveaux payants, puis d'attirer des clients d'entreprise bien rémunérés avant de devenir public ou d'être acquis.

"Nous ne sommes pas comme une startup qui lève beaucoup d'argent, puis n'est pas sûre de son activité ou de son produit et perd de l'argent pendant longtemps", a déclaré Holz. « Nous sommes comme un laboratoire de recherche autofinancé. Nous pouvons perdre une certaine somme d'argent. Nous n'avons pas 100 millions de dollars de l'argent de quelqu'un d'autre à perdre. Pour être honnête, nous sommes déjà rentables et nous allons bien.

« C'est un modèle commercial assez simple, c'est-à-dire que les gens aiment l'utiliser ? Ensuite, s'ils le font, ils doivent payer le coût de son utilisation car le coût brut est en fait assez élevé. Et puis nous ajoutons un pourcentage en plus de cela, qui est, espérons-le, suffisant pour nous nourrir et nous loger. Et c'est donc ce que nous faisons.

Quant à l'avenir, la mise à l'échelle pourrait être un problème. Holz a déclaré que Midjourney compte actuellement des centaines de milliers de personnes utilisant le service, ce qui nécessite quelque chose comme 10,000 XNUMX serveurs.

« S'il y avait 10 millions de personnes essayant d'utiliser une telle technologie », a-t-il dit, « il n'y a en fait pas assez d'ordinateurs. Il n'y a pas un million de serveurs gratuits pour faire de l'IA dans le monde. Je pense que le monde manquera d'ordinateurs avant que la technologie n'atteigne tous ceux qui veulent l'utiliser.

À quoi les gens l'utilisent-ils ? Eh bien, si vous êtes connecté à un compte Midjourney, vous pouvez voir ce que les gens créent via le Flux communautaire page. C'est un flux constant d'images intéressantes, souvent surprenantes.

"La majorité des gens s'amusent", a déclaré Holz. "Je pense que c'est la chose la plus importante parce que ce n'est pas vraiment une question d'art, c'est une question d'imagination."

Être professionnel

Mais pour environ 30 % des utilisateurs, c'est professionnel. Holz a déclaré que de nombreux graphistes utilisent Midjourney dans le cadre de leur flux de travail de développement de concepts. Ils génèrent quelques variations sur une idée et la présentent aux clients pour voir dans quelle direction ils doivent aller.

"Les professionnels l'utilisent pour dynamiser leur processus de création ou de communication", a expliqué Holz. "Et puis beaucoup de gens jouaient avec."

Peut-être 20% des gens utilisent Midjourney pour ce que Holz décrit comme une thérapie par l'art. Par exemple, créer des images de chiens après la mort de leur chien. "Ils l'utilisent comme un outil de réflexion émotionnelle et intellectuelle", a-t-il déclaré. "Et c'est vraiment cool."

Holz n'aime pas l'idée d'utiliser Midjourney pour créer de fausses photographies. "L'utiliser de manière éditoriale pour créer de fausses photos est extrêmement dangereux", a-t-il déclaré. "Personne ne devrait faire ça." Mais il est plus ouvert à Midjourney comme source d'illustration commerciale, notant que The Economist a publié un graphique Midjourney sur sa couverture en juin.

"Nous n'avons autorisé que récemment les gens à l'utiliser commercialement", a déclaré Holz. "Pendant longtemps, ce n'était que non commercial. Et donc l'une des choses que nous faisons est que nous regardons simplement ce que font les gens, et nous pourrions décider que nous ne sommes pas à l'aise avec cela, puis nous allons mettre en place une règle disant que vous ne peut plus l'utiliser uniquement pour ces choses.

Holz a déclaré qu'il voyait des outils d'IA comme Midjourney rendre les artistes meilleurs dans ce qu'ils font plutôt que de faire de tout le monde un artiste professionnel. "Un artiste utilisant ces outils est toujours meilleur qu'une personne ordinaire utilisant ces outils. À un moment donné, pourrait-il y avoir une pression pour utiliser ces outils parce que vous pouvez créer des choses si géniales ? Je pense que oui. Mais pour le moment, je ne pense pas que ce soit encore tout à fait là. Mais ça va s'améliorer de façon choquante au cours des deux prochaines années.

Midjourney et DALL-E 2 ont attiré davantage l'attention sur les préoccupations de longue date quant à savoir si les grands modèles d'IA, créés à partir de l'œuvre sous droit d'auteur ou sous licence spécifique, peuvent être conciliés avec la loi sur le droit d'auteur et avec le propre sens des créateurs de contenu quant à la manière dont leur travail doit être traité.

L'Amérique, terre du procès

En termes de sortie de Midjourney, la jurisprudence américaine actuelle nie la possibilité d'accorder un droit d'auteur aux images générées par l'IA. En février, le US Copyright Office Review Board rejeté [PDF] une deuxième demande d'octroi de droits d'auteur à un paysage généré par ordinateur intitulé "Une entrée récente au paradis" parce qu'il a été créé sans la paternité humaine.

Lors d'un entretien téléphonique, Tyler Ochoa, professeur au département de droit de l'Université de Santa Clara, a déclaré Le registre, "Le US Copyright Office a déclaré qu'il est [acceptable] si un artiste utilise l'IA pour l'aider à créer une œuvre tant qu'il y a une certaine créativité humaine impliquée. Si c'est simplement vous qui tapez du texte et que l'IA génère une œuvre, cela n'est clairement pas soumis à la protection du droit d'auteur en vertu de la loi actuelle.

Les conditions d'utilisation de Midjourney stipulent que "vous possédez tous les actifs que vous créez avec les services", mais la société exige une licence de droit d'auteur des utilisateurs pour reproduire le contenu créé avec le service - une précaution nécessaire pour héberger les images des utilisateurs, même s'il semble douteux que ceux-ci faire des images Midjourney simplement par la saisie de texte n'a aucun droit d'auteur à transmettre ou à faire respecter.

Ce n'est peut-être pas toujours le cas. Ochoa a déclaré qu'il pensait que Steven Thaler, qui a créé "Une entrée récente au paradis", pourrait vouloir contester devant les tribunaux le rejet par le Bureau du droit d'auteur de la paternité basée sur l'IA, bien que cela ne se soit pas encore produit.

Il existe également des problèmes de droit d'auteur potentiels découlant des modèles d'IA formés sur du matériel protégé par le droit d'auteur. "La question est de savoir si ce serait ou non une utilisation équitable d'utiliser ces images pour la formation et l'IA", a déclaré Ochoa. "Et je pense que les arguments en faveur d'une utilisation équitable dans ce contexte sont assez solides."

De plus, il existe une responsabilité potentielle pour ceux qui génèrent des images qui sont substantiellement similaires au matériel protégé par le droit d'auteur existant. "Si votre ensemble d'entraînement n'est pas assez grand, ce que l'IA crache peut ressembler énormément à ce qu'elle a ingéré", a expliqué Ochoa, notant que la question est alors de savoir s'il s'agit d'une violation du droit d'auteur. "Indirectement, je pense que cela pourrait très probablement l'être."

Quant au risque juridique potentiel pour les clients utilisant les actifs générés par Midjourney, Ochoa a déclaré qu'il pensait qu'il était assez faible. Si la formation d'un modèle d'IA enfreint le droit d'auteur, cela a été fait avant que le client ne soit impliqué, a-t-il expliqué. "Donc, à moins que le client n'ait parrainé la création de l'IA d'une manière ou d'une autre, je ne pense pas que [le client] serait responsable de toute violation de l'ensemble de formation", a-t-il déclaré. « Et c'est la revendication la plus forte ici. Je pense donc que les clients sont sur une base assez solide pour utiliser ces images, en supposant que cela a été bien fait.

Holz reconnaît que la situation juridique manque de clarté.

"Pour le moment, la loi n'a vraiment rien sur ce genre de choses", a-t-il déclaré. «À ma connaissance, chaque grand modèle d'IA est essentiellement formé sur des éléments qui se trouvent sur Internet. Et ça va, maintenant. Il n'y a pas de lois spécifiques à ce sujet. Peut-être que dans le futur, il y en aura. Mais c'est en quelque sorte un domaine nouveau, comme la GPL était une sorte de nouveauté juridique autour du code de programmation. Et il a fallu 20 ou 30 ans pour que cela devienne vraiment quelque chose que le système juridique commence à comprendre.

Holz a déclaré qu'il pensait qu'il était plus important pour le moment de comprendre ce que les parties concernées pensent de cette technologie. "Nous avons beaucoup d'artistes qui utilisent nos trucs, et nous vérifions constamment avec eux, 'est-ce que ça vous va?'", a-t-il déclaré.

Holz a déclaré que s'il y avait suffisamment d'insatisfaction à l'égard du statu quo, il pourrait être utile de penser à une sorte de structure de paiement à l'avenir pour les artistes dont le travail entre dans des modèles de formation. Mais il a observé qu'il est actuellement difficile d'évaluer l'étendue des contributions. "Le défi pour quelque chose comme ça en ce moment est qu'il n'est pas vraiment clair ce qui fait que les modèles d'IA fonctionnent bien", a-t-il déclaré. "Si je mets une photo d'un chien là-dedans, dans quelle mesure cela aide-t-il réellement [le modèle d'IA] à faire des photos de chiens. Il n'est pas vraiment clair quelles parties des données donnent réellement [au modèle] quelles capacités.

Interrogé sur ce qui donne à Midjourney son esthétique distinctive, Holz a déclaré qu'il ne pouvait pas vraiment comparer ce que fait Midjourney à DALL-E 2, mais qu'en général, les chercheurs en IA ont tendance à obtenir ce pour quoi ils optimisent. S'ils mettent le mot "chien", ils veulent probablement une photo d'un chien.

"Pour nous, nous étions quand nous l'optimisions, nous voulions qu'il soit beau, et beau ne signifie pas nécessairement réaliste. … Si quoi que ce soit, en fait, nous le biaisons un peu loin des photos. … Je sais que cette technologie peut être utilisée comme une fausse super machine profonde. Et je ne pense pas que le monde ait besoin de plus de fausses photos. Je ne veux pas vraiment être une source de fausses photos dans le monde.

«En fait, je me sens un peu mal à l'aise si nos trucs font quelque chose qui ressemble à une photo. Et cela ne veut pas dire que nous ne laisserons jamais les gens faire des choses plus réalistes. Il existe des cas d'utilisation légitimes pour essayer de rendre les choses plus réalistes. Cependant, je suis convaincu que, par défaut, lorsque quelqu'un utilise notre système, il ne devrait pas créer de fausse photo.

"Mais je pense que le monde a besoin de plus de beauté. En gros, si je crée quelque chose qui permet aux gens de faire de belles choses, et qu'il y a plus de belles choses dans le monde, c'est ce que je veux par défaut. ®

Horodatage:

Plus de Le registre