Comment l’IA générative va tout bouleverser au cours de la décennie en cours

Beaucoup seront surpris

Image de l'auteur avec Stable Diffusion

In Ces derniers mois, les systèmes d'IA comme Midjourney, DALL-E, Stable Diffusion, LaMDA et PaLM ont fait de grands progrès dans des domaines apparemment aussi divers que la génération d'images et de textes. Les capacités de ces systèmes sont impressionnantes : ils produisent des images très suggestives, créent des textes de vente efficaces pour la publicité et bien plus encore, le tout à partir de simples « invites » qui décrivent ce que l'utilisateur souhaite obtenir.

Tout cela est fait avec Generative AI.

« IA générative » fait référence aux systèmes alimentés par réseaux de neurones profonds qui mettent en œuvre grands modèles linguistiques (LLM) afin de engendrent une sorte de contenu. Ici, je dis « créer », ce qui signifie que ce n'est pas une copie de quelque chose qui existe déjà, pas dans un sens philosophique (qu'est-ce qu'une « création » de toute façon ?).

De nouvelles grandes entreprises émergent dans ce meilleur des mondes, comme Jasper, qui permet de générer à la fois des textes de vente et des images publicitaires : Jasper a désormais une valorisation de plus d'un milliard de dollars, devenant du jour au lendemain une licorne.

La première plate-forme d'IA générative à vraiment faire une brèche a été GPT-3, lancée il y a seulement quelques années ! Ensuite, une succession de sorties de plusieurs acteurs du domaine (OpenAI, Google, StableDiffusion, Google, DeepMind et autres) est apparue à un rythme effréné, à tel point qu'il est difficile de se tenir au courant.

Mais au-delà du plaisir et du fantastique de passer du temps avec Midjourney pour créer des images à partir de nos invites, de nombreux passionnés de technologie ont du mal à donner un sens à cette vague d'IA générative.

L’IA Générative est-elle une tendance solide, ou est-ce juste une mode ?

Je vais chercher "tendance solide» car il transformera des milliers d’activités professionnelles et de loisirs au cours de cette décennie. Permettez-moi de commencer par un exemple.

Je suis un grand fan de tennis (du moins au sens télé). Mais les matchs de tennis en direct prennent des heures et j'ai d'autres activités et intérêts, donc j'ai généralement recours à regarder des rediffusions ou simplement à mettre en avant des vidéos avec les 4 minutes les plus divertissantes d'un match.

Mais que se passe-t-il si au lieu d’une vidéo de 4 minutes, j’en veux une de 10 ou 15 minutes ? Ou si je veux inclure tous les points dans les tie-breaks ? Je n'ai actuellement pas de chance.

Maintenant, mettez votre chapeau Generative-IA au travail : un générateur de vidéos sportives Generative IA créerait une vidéo juste pour toi selon les spécifications que vous avez mises de manière informelle dans une invite de texte comme celle-ci :

"Vidéo d'environ 15 minutes avec les points les plus divertissants du match Rafa Nadal contre Tommy Paul à Paris Bercy 2022, y compris les tie-breaks complets le cas échéant, ainsi que chaque point d'arrêt converti »

C'est ça. Vous obtenez un lien avec votre vidéo personnalisée, différent d'une vidéo regardée par n'importe qui d'autre dans le monde. Et ce service vidéo serait aussi économiquement réalisable que DALL-E et Midjourney.

La recherche est différente de l’innovation. Le premier s'intéresse aux résultats originaux publiés, et le second a davantage à voir avec la recherche du moyen de bâtir une entreprise à partir de ces résultats : l'innovation ne se soucie pas de l'originalité mais de la croissance, de la défendabilité, du retour sur investissement, etc.

Les choses deviennent souvent confuses parce que les recherches sont effectuées par des sociétés comme Google, qui sont en principe là pour faire du profit – mais elles comprennent que leur activité est de haute technologie, et la technologie n'est pas avancée sans recherche. Ils s’impliquent donc dans le financement de la recherche et se rapprochent du monde universitaire – bon nombre de leurs meilleurs chercheurs ont été embauchés dans le milieu universitaire. En tant que chercheur moi-même, j'ai été invité à un sommet des professeurs à leur siège à Mountain View il y a quelques années, et ils m'ont hébergé dans une suite à l'hôtel Four Seasons – tout ce qu'il faut pour faire bonne impression sur la communauté universitaire !

Mais même s’il peut être difficile – voire artificiel – de faire une distinction nette entre recherche et innovation, la différence est ici cruciale car, dans le cas de l’IA Générative, les deux seront développées par des acteurs différents, et elles seront associées. avec deux couches différentes dans la pile logicielle – comme souligné par J. Currier:

  1. La couche logicielle inférieure est la Modèle d'apprentissage profond, construit autour d'implémentations de Large Language Models (LLM) ou d'une représentation interne équivalente. Les modèles constituent la base à partir de laquelle des applications peuvent être développées.
  2. La couche logicielle supérieure est la application un, qui s'appuie sur le modèle Deep Learning pour accomplir une tâche spécifique, par exemple, générer une image à partir d'une invite de texte.

Cette architecture à deux couches alimentera une nouvelle ère d'innovation accélérée, car une fois que la couche inférieure sera développée par de très grandes entreprises comme Google, OpenAI et d'autres, les petites entreprises fourniront la couche applicative – ce qui, bien sûr, leur rapportera une part de leurs bénéfices. au fournisseur de couche inférieure.

Actuellement, la couche inférieure a été rapidement améliorée et souvent, elle a été distribuée avec une application au-dessus. Par exemple, LaMDA et PaLM offrent des capacités de dialogue prêtes à l'emploi, tandis que DALL-E et Midjourney proposent des services d'invite à l'image. Mais bientôt, la prolifération d’alternatives open source pour la couche inférieure permettra de développer uniquement la couche applicative supérieure et de la connecter à une couche inférieure déjà disponible. Bien sûr, c’est plus facile à dire qu’à faire, mais le fait est que la couche inférieure est bien plus complexe que la couche supérieure.

Je dirais que l'IA générative imprégnera presque tous les travaux de connaissance et activités de loisirs parce qu'il fournira des outils pour éliminer la complexité d'activités autrefois difficiles et parce qu'il peut offrir un tout nouveau niveau de personnalisation que j'appellerais « personnalisation générative ».

Vous pouvez voir ce qu'est la « personnalisation générative » dans l'exemple de vidéo sportive ci-dessus : chaque utilisateur reçoit une toute nouvelle vidéo de moments forts unique au lieu d'une simple sélection entre deux ou trois options.

L’impact cumulé de toutes les applications Generative IA est difficile à exagérer :

  1. La création graphique facile est déjà à la portée des non-professionnels avec des outils comme DALL-E, Midjourney et Stable Diffusion, au moins à des fins utilitaires simples comme obtenir une image d'en-tête pour cet article. Avant cette année, j'étais totalement incapable de dessiner mes propres images, et les experts en blogs déconseillaient de perdre du temps en conception graphique pour vos propres histoires.
  2. Les utilisateurs de retouche photo n'auront pas besoin d'endurer une courbe d'apprentissage difficile pour maîtriser l'ensemble complexe d'outils de Photoshop ou Affinity Photo (j'utilise ce dernier, et c'est si complexe que je dois consulter les didacticiels YouTube pour savoir comment effectuer la plupart des ajustements). Avec l’IA Générative, les utilisateurs n’auront qu’à demander au logiciel d’effectuer une transformation donnée, et le tour est joué ! L'image sera corrigée. Si Adobe ne parvient pas à proposer l’IA générative avec ses outils, ils seront perturbés par les nouvelles startups qui les proposent et suivront la voie de Blockbuster.
  3. Les outils de présentation tels que PowerPoint, au lieu de simplement fournir des modèles comme ils le font actuellement, généreront et affineront des présentations entières de niveau professionnel à partir d'idées générales. Actuellement, la différence entre les présentations professionnelles et amateurs est énorme – ce ne sera plus le cas.
  4. La rédaction de texte sera un processus hautement amélioré par les outils d'IA générative. De nombreuses formes d'écriture bénéficient déjà de l'aide d'outils sophistiqués comme Grammarly, mais l'IA générative offrira aux écrivains un niveau d'aide qualitativement nouveau en générant, par exemple, une première version complète d'un blog. L'écriture sera un processus collaboratif entre les humains et l'outil d'IA.
  5. Tout logiciel destiné à un utilisateur final devra être simple à utiliser avec des invites textuelles ou vocales. Les manuels d'utilisation et les vidéos pédagogiques appartiendront au passé, et dès que les utilisateurs s'habitueront à la nouvelle façon simple d'utiliser le logiciel, tout devra l'offrir pour rester pertinent.
  6. L’apprentissage des langues se fera principalement à l’aide d’assistants vocaux, qui seront alimentés – vous l’aurez bien deviné – par l’IA générative. Les assistants vocaux, qui agiront comme des coachs linguistiques personnels, utiliseront leurs étonnantes capacités de dialogue en langage naturel, découvertes pour la première fois dans des systèmes comme LaMDA de Google, pour guider l'apprenant du langage humain afin d'acquérir du vocabulaire et des expressions, d'améliorer la prononciation, etc. Les assistants vocaux ne sont pas un fantasme futuriste – ils ont simplement un sens économique pour le moment.
  7. Même les produits matériels (comme les voitures) disposeront de systèmes d’aide basés sur le dialogue Generative AI. Avez-vous essayé d'effectuer une opération complexe comme le réglage de l'affichage dans les voitures modernes ? Pas facile, je peux vous le dire. Au lieu de fouiller dans des manuels complexes, vous demanderez simplement à l'assistant vocal soit d'obtenir des instructions, soit d'effectuer directement les ajustements.

De nombreuses professions seront transformées au point de devenir méconnaissables. Les graphistes ressentent déjà les effets de cette perturbation. Des métiers entiers disparaîtront et d’autres seront créés. Des entreprises puissantes feront faillite et de nouvelles deviendront dominantes, en fonction de leur capacité à gérer les perturbations technologiques provoquées par l’IA générative.

Et tout cela se produira au cours de cette décennie.

Je me trompe peut-être, mais il me semble qu'il était difficile, même pour des experts en technologie chevronnés, de prévoir les énormes capacités des générateurs d'images et de texte actuels : il n'était pas évident il y a quelques années que d'énormes modèles et ensembles de formation conduisent à des capacités qualitativement différentes.

J'irais jusqu'à dire que c'était une découverte heureuse, presque fortuite. Mais maintenant que nous disposons d'outils génératifs, les portes sont ouvertes aux entreprises innovantes qui développeront application après application à un rythme rapide : il s'agit surtout de déterminer ce qui peut être radicalement amélioré et de trouver le modèle économique approprié pour créer une entreprise. une idée d’IA Générative.

Il y a quelques années, il semblait que d'autres tendances technologiques, comme les voitures autonomes, la réalité virtuelle ou la blockchain, allaient bientôt prendre le relais, mais la technologie de conduite autonome a été limitée par des obstacles législatifs, la blockchain a été touchée par le ralentissement économique et la réalité virtuelle. l’adoption est limitée par les coûts élevés du matériel. L'IA générative, en revanche, n'est pas encore limitée par la législation (hé, peaufiner une présentation PowerPoint ou générer une vidéo de sport n'est pas une question de vie ou de mort) et ne nécessite pas d'achat de matériel coûteux par l'utilisateur.

Et nous ne pensions pas que les activités créatives allaient être perturbées si tôt. Mais ils l’étaient.

Nous entrons dans une époque nouvelle et parfois étrange, où la créativité humaine se mélange aux nouvelles capacités des machines au point qu'il est difficile de les distinguer. Comme J. Currier fait remarquer:

« Aujourd’hui et au cours des prochaines années, cela semblera surprenant et, à bien des égards, effrayant. Parce que ces moments créatifs où l’on passe de zéro à l’idée initiale ont toujours semblé si typiquement humains, parce qu’ils ont été si mystérieux.

Comment l'IA générative va tout perturber au cours de la décennie actuelle 4 via https://towardsdatascience.com/feed

<!–

->

Horodatage:

Plus de Consultants en blockchain