The Rise Of Domain Experts In Deep Learning

Republié par Platon

Suiveurs: 0

Jeremy Howard est chercheur en intelligence artificielle et co-fondateur de rapide.ai, une plate-forme pour les non-experts pour apprendre l'intelligence artificielle et l'apprentissage automatique. Avant de lancer fast.ai, il a fondé plusieurs sociétés, dont FastMail et Enlitic, un pionnier dans l'application de l'apprentissage en profondeur au domaine médical, et a été président et scientifique en chef de la plateforme de compétition d'apprentissage automatique Kaggle.

Dans cette interview, Howard explique ce que cela signifie pour différentes industries et même pour les régions du monde maintenant que des personnes sans doctorat issues de laboratoires de recherche spécialisés peuvent créer et travailler avec des modèles d'apprentissage en profondeur. Parmi d'autres sujets sous ce large parapluie, il partage ses réflexions sur la meilleure façon de suivre les techniques de pointe, l'ingénierie rapide en tant que nouvel ensemble de compétences et les avantages et les inconvénients des systèmes de génération de code comme le Codex.

FUTUR : Après avoir utilisé fast.ai au cours des dernières années, quels sont les effets que vous constatez d'avoir autant de personnes familiarisées avec les concepts de base de l'apprentissage en profondeur, par rapport à il y a plusieurs années, lorsque les personnes connaissant étaient des licornes ?

JÉRÉMY HOWARD : Lorsque nous avons lancé fast.ai, il y avait, en gros, cinq laboratoires de recherche universitaires importants travaillant sur l'apprentissage en profondeur - et les seules personnes qui savaient faire à peu près n'importe quoi avec l'apprentissage en profondeur étaient des personnes qui étaient ou avaient été dans ces cinq laboratoires. . Dans l'ensemble, le code n'était pas publié, encore moins les données. Et même les journaux ne publiaient pas les détails sur la façon de le faire fonctionner dans la pratique, en partie parce que les lieux universitaires ne se souciaient pas beaucoup de la mise en œuvre pratique. C'était très axé sur la théorie.

Donc, quand nous avons commencé, c'était une question très spéculative : « Est-il possible de faire un apprentissage en profondeur de classe mondiale sans doctorat ? ». Nous savons maintenant que la réponse est Oui; nous l'avons montré dans notre tout premier cours. Nos tout premiers anciens élèves ont ensuite créé des brevets en utilisant l'apprentissage en profondeur, créé des entreprises en utilisant l'apprentissage en profondeur et publié dans les meilleurs sites en utilisant l'apprentissage en profondeur.

Je pense que votre question est exactement la bonne, à savoir ce qui se passe lorsque les experts du domaine deviennent des praticiens efficaces de l'apprentissage en profondeur ? C'est là que nous avons vu les choses les plus intéressantes se passer. Généralement, les meilleures startups sont celles construites par des personnes qui ont personnellement envie de se gratter. Ils étaient recruteurs, donc ils faisaient une startup de recrutement, ou ils étaient parajuristes, donc ils faisaient une startup juridique, ou quoi que ce soit d'autre. Et ils sont, comme, « Oh, je déteste cette chose à propos du travail que j'avais. Et maintenant que je connais l'apprentissage en profondeur, je sais que je pourrais presque automatiser tout cela. »

Beaucoup de nos étudiants font ou ont fait leur doctorat, mais pas en mathématiques ou en informatique; au lieu de cela, ils les font en chimioinformatique, en protéomique, en journalisme de données ou autre. Et nous constatons très souvent qu'ils sont capables d'amener leurs recherches à un tout autre niveau. Par exemple, nous commençons à voir pour la première fois de grandes bases de données et des corpus de données de documents de bibliothèques publiques commencer à apparaître sur Internet. Et il y a des gens dans ce domaine - la bibliothéconomie - maintenant qui font des choses où il n'est même jamais venu à l'esprit de personne qu'ils pouvaient faire quoi que ce soit à cette échelle auparavant. Mais tout à coup, c'est comme, "Oh, mon dieu, regardez ce qui se passe quand vous analysez une bibliothèque comme un chose. »

J'ai donné une conférence lors d'une conférence sur l'élevage où tout le monde parlait d'apprentissage en profondeur. Pour moi, c'est une utilisation vraiment non évidente, mais pour eux, c'est de loin l'utilisation la plus évidente. Les gens l'utilisent pour résoudre des problèmes du monde réel en utilisant des données du monde réel dans des contraintes du monde réel.

Il semble, d'après mon expérience de ces dernières années, que l'apprentissage en profondeur peut être appliqué à pratiquement tous les secteurs, pas chaque une partie de chaque l'industrie, mais quelques parties de à peu près tous .

Nous avons rencontré un type qui avait fait beaucoup de choses intéressantes avec le diagnostic du paludisme, ce qui, comme vous pouvez l'imaginer, n'est pas le principal problème que les habitants de San Francisco essayaient de résoudre.

Il semble que l'inversion des bases de connaissances - l'apprentissage en profondeur étant désormais complémentaire à l'expertise du domaine - pourrait modifier l'équilibre entre la théorie et l'application.

C'est vrai, et vous pouvez voir ce qui se passe. L'une des grandes choses au début de l'ère de l'apprentissage en profondeur a été le travail effectué par Google Brain, où ils ont analysé de nombreuses vidéos YouTube et ont découvert que les chats étaient un facteur latent dans de nombreuses vidéos. Leur modèle a appris à reconnaître les chats parce qu'il en a vu beaucoup. Et c'est un travail très intéressant, mais personne n'est parti et n'a bâti une entreprise là-dessus.

Les choses que les gens ont été bâtiment - encore une fois, utile, mais dans certains domaines - comme Google et Apple, la recherche de photos d'images est devenue assez bonne assez rapidement parce que vous pouviez réellement rechercher les choses qui se trouvaient sur les photos. C'est vraiment utile. Et c'est le genre de choses sur lesquelles tout le monde travaillait - soit des trucs vraiment abstraits, soit des vrais trucs de problèmes du premier monde. Il n'y a rien de mal à cela, mais il y a aussi beaucoup d'autres choses sur lesquelles il faut travailler.

J'ai donc été ravi quand, après quelques années, j'ai regardé la démographie des personnes qui avaient suivi notre cours et j'ai découvert que l'une des plus grandes villes en dehors des États-Unis était Lagos [la capitale du Nigeria]. J'ai pensé que c'était vraiment génial parce que c'est une communauté qui ne faisait pas d'apprentissage en profondeur auparavant. J'ai littéralement demandé aux gens du premier cours : "Quelqu'un ici d'Afrique ?" Et je pense qu'il y avait un gars de Côte d'Ivoire qui devait faire graver des choses sur CD-ROM dans sa bibliothèque parce qu'ils n'avaient pas assez de connexion Internet. Donc ça a vraiment grandi assez vite.

Et puis c'était bien parce que nous avons commencé à faire venir des groupes de personnes d'Ouganda, du Kenya et du Nigéria à San Francisco pour suivre le cours en personne et apprendre à se connaître. Nous avons rencontré un type, par exemple, qui avait fait beaucoup de choses intéressantes sur le diagnostic du paludisme, ce qui, comme vous pouvez l'imaginer, n'est pas le principal problème que les habitants de San Francisco essayaient de résoudre.

J'ai l'impression qu'avoir 16 grands modèles de langage différents formés sur 5% d'Internet, c'est comme avoir 16 conduites d'eau dans votre maison et 16 ensembles de câbles électriques dans votre maison.

À quoi ressemble le cheminement de carrière moyen d'une personne qui sort d'un programme d'apprentissage en profondeur comme le vôtre ?

C'est tellement diversifié. Cela a vraiment beaucoup changé depuis les premiers jours, quand c'était juste cet état d'esprit de super adopteur précoce - les gens qui étaient en grande partie soit des entrepreneurs, soit des docteurs et des post-doctorants précoces, et qui adorent la recherche de pointe et essayer de nouvelles choses. Ce ne sont plus seulement les premiers utilisateurs, ce sont aussi les gens qui essaient de rattraper ou de suivre l'évolution de leur industrie.

De nos jours, beaucoup de gens se disent : « Oh, mon dieu, j'ai l'impression que l'apprentissage en profondeur commence à détruire l'expertise dans mon secteur. Les gens font des choses avec un peu d'apprentissage en profondeur que je ne peux même pas concevoir, et je ne veux pas manquer ça. Certaines personnes regardent un peu plus loin, et elles se disent plutôt : « Eh bien, personne n'utilise vraiment l'apprentissage en profondeur dans mon secteur, mais je ne peux pas imaginer que ce soit le UN industrie qui est ne sauraient va être affecté, donc je veux être le premier.

Certaines personnes ont certainement une idée pour une entreprise qu'elles veulent construire.

L'autre chose que nous recevons souvent, ce sont les entreprises qui envoient un groupe de leurs équipes de recherche ou d'ingénierie pour suivre le cours simplement parce qu'elles estiment que c'est une capacité d'entreprise qu'elles devraient avoir. Et c'est particulièrement utile avec les API en ligne qui existent maintenant avec lesquelles les gens peuvent jouer - Manuscrit or DALL-E ou quoi que ce soit - et avoir une idée de, "Oh, c'est un peu comme quelque chose que je fais dans mon travail, mais c'est un peu différent si je pouvais le modifier de ces manières."

Cependant, ces modèles ont également l'effet secondaire malheureux, peut-être, d'augmenter la tendance des gens à penser que l'innovation en IA est réservée aux grandes entreprises et qu'elle dépasse leurs capacités. Ils pourraient choisir d'être des consommateurs passifs de la technologie parce qu'ils ne croient pas qu'ils ont la capacité de construire personnellement quelque chose qui serait meilleur que ce que Google ou OpenAI pourraient construire.

Un modèle qui décide si vous semblez aimer ou non un film et un modèle qui peut générer des haïkus seront identiques à 98 %. . . Il est très, très rare que nous ayons réellement besoin de former un énorme modèle à partir de zéro sur une vaste bande d'Internet.

Même si c'est le cas - si vous ne pouvez pas surpasser OpenAI ou Google - il existe sûrement un moyen de tirer parti de ce qu'ils ont fait, de l'accès API à des modèles incroyablement puissants, n'est-ce pas ?

La première chose à dire est ce n'est pas vrai, pas dans un sens général, du moins. Il y a une certaine bifurcation de la formation à l'IA en cours : il y a le côté Google et OpenAI, qui consiste à créer des modèles aussi généraux que possible, et, presque toujours, ces chercheurs ont spécifiquement l'objectif dans leur tête d'arriver à AGI. Je ne commente pas si c'est bon ou mauvais; il en résulte définitivement des artefacts utiles pour nous, les gens normaux, donc c'est bien.

Cependant, il existe un chemin totalement différent, qui est celui que la quasi-totalité de nos étudiants empruntent, à savoir : "Comment puis-je résoudre les problèmes du monde réel des personnes de ma communauté de la manière la plus pragmatique possible ?" Et il y a beaucoup moins de chevauchement que vous ne le pensez entre les deux méthodes, les deux ensembles de données, les deux techniques.

Dans mon monde, nous ne formons jamais un modèle à partir de zéro, en gros. C'est toujours à peaufiner. Nous tirons donc définitivement parti du travail des grands, mais il s'agit toujours de modèles téléchargeables gratuitement. Des trucs comme les grands modèles de langage open-source à travers GrandeScience est très utile pour cela.

Cependant, ils vont probablement traîner de 6 à 12 mois derrière les grands jusqu'à ce que, peut-être, nous trouvions une façon plus démocratique de procéder. J'ai l'impression qu'avoir 16 grands modèles de langage différents formés sur 5% d'Internet, c'est comme avoir 16 conduites d'eau dans votre maison et 16 ensembles de câbles électriques dans votre maison. J'ai l'impression qu'il devrait s'agir davantage d'un service public. C'est bien d'avoir de la concurrence, mais ce serait aussi bien s'il y avait une meilleure coopération, pour que nous n'ayons pas tous à perdre notre temps à faire la même chose.

Donc, oui, nous finissons par peaufiner, pour nos besoins particuliers, des modèles que d'autres personnes ont construits. Et c'est un peu comme la façon dont le génome humain et le génome du singe sont presque entièrement identiques, à l'exception de quelques pour cent ici et là, qui s'avèrent en fait faire une grande différence. C'est la même chose avec les réseaux de neurones : un modèle qui décide si vous semblez aimer ou non un film et un modèle qui peut générer des haïkus seront identiques à 98 %, car il s'agit en grande partie de comprendre le monde et de comprendre le langage, etc. . Il est très, très rare que nous ayons réellement besoin de former un énorme modèle à partir de zéro sur une vaste bande d'Internet.

Et c'est pourquoi vous absolument vous rivaliser avec Google et OpenAI - parce qu'ils ne seront probablement même pas dans votre espace. Si vous essayez de créer quelque chose pour automatiser le travail des parajuristes, ou aider à la planification de la résilience aux catastrophes, ou générer une meilleure compréhension du langage genré au cours des 100 dernières années ou autre, vous n'êtes pas en concurrence avec Google, vous êtes en concurrence avec ce créneau qui est dans votre domaine.

Il y a une compétence de codage importante en ce moment pour savoir comment aller plus vite. . . en étant vraiment doué pour formuler les bons commentaires du Codex . . . Pour beaucoup de gens, c'est probablement une chose plus précieuse et immédiate à apprendre que de devenir vraiment bon en codage.

Dans quelle mesure est-il important de suivre toutes les avancées dans le domaine de l'IA, surtout si vous travaillez avec à plus petite échelle ?

Personne ne peut suivre toutes les avancées. Tu dois suivre quelques progrès, mais les techniques réelles avec lesquelles nous travaillons changent, de nos jours, très lentement. La différence entre le cours fast.ai 2017 et le cours fast.ai 2018 était énorme, et entre les cours 2018 et 2019, elle était vaste-ish. De nos jours, très peu de changements sur une période de deux ans.

Les choses que nous considérons comme vraiment importantes, comme la montée du architecture du transformateur, par exemple, a en fait quelques années maintenant et n'est principalement qu'un tas de couches de réseau de neurones en sandwich et à réaction directe, et certains produits scalaires. C'est super, mais pour quelqu'un qui veut comprendre, qui comprend déjà convnets, filets récurrentset basique perceptrons multicouches, c'est comme quelques heures de travail.

L'une des grandes choses qui se sont produites au cours des deux dernières années est que de plus en plus de gens commencent à comprendre les aspects pratiques de la formation efficace d'un modèle. Par exemple, DeepMind a récemment a publié un document cela a essentiellement montré que tous les modèles de langage étaient considérablement moins efficaces qu'ils ne devraient l'être, littéralement parce qu'ils ne faisaient pas certaines choses de base. Facebook - et, plus précisément, un stagiaire de Facebook était l'auteur principal de l'article - a construit une chose appelée ConvSuivant, qui dit essentiellement : "Voici ce qui se passe si nous prenons un réseau neuronal convolutif normal et y apportons simplement les modifications évidentes que tout le monde connaît." Et ils sont fondamentalement le modèle d'image de pointe maintenant.

Donc, oui, rester à jour avec les bases fondamentales de la création de bons modèles d'apprentissage en profondeur est beaucoup moins difficile qu'il n'y paraît. Et vous n'êtes certainement pas obligé de lire tous les articles dans le domaine. Particulièrement à ce stade, maintenant que les choses vont tellement moins vite.

Mais je pense qu'il est utile d'avoir une compréhension large, pas seulement de votre propre domaine particulier. Disons que vous êtes une personne de vision par ordinateur, cela aide beaucoup d'être bon en NLP, en filtrage collaboratif et en analyse tabulaire, et vice versa car il n'y a pas assez de pollinisation croisée entre ces groupes. Et de temps en temps, quelqu'un jette un coup d'œil dans un autre domaine, vole certaines de ses idées et repart avec un résultat révolutionnaire.

C'est exactement ce que j'ai fait avec ULMFiT il y a quatre ou cinq ans. J'ai dit: «Appliquons toutes les techniques de base d'apprentissage par transfert de vision par ordinateur à la PNL», et j'ai obtenu un résultat à la pointe de la technologie. Chercheurs à OpenAI fait quelque chose de similaire, mais j'ai remplacé mon RNN par un transformateur et je l'ai mis à l'échelle, et c'est devenu GPT. Nous savons tous comment cela s'est passé.

Rester à jour avec les bases fondamentales de la création de bons modèles d'apprentissage en profondeur est beaucoup moins difficile qu'il n'y paraît. Et vous n'êtes certainement pas obligé de lire tous les articles dans le domaine.

Vous avez mentionné que nous avons assisté à un changement de fonction par étape dans l'IA au cours des trois à six derniers mois. Pourriez-vous préciser ceci?

en fait j'appellerais ça un crochet plutôt qu'une fonction pas à pas. Je pense que nous sommes sur une courbe exponentielle, et de temps en temps, vous pouvez remarquer que les choses ont vraiment semblé s'accélérer de manière notable. Là où nous devons en venir, c'est que les modèles pré-formés formés sur de très grands corpus de texte et d'images peuvent maintenant faire des choses très impressionnantes en un ou quelques coups de manière assez générale, en partie parce qu'au cours des derniers mois, les gens se sont améliorés à comprendre ingénierie rapide. Essentiellement, savoir comment poser la bonne question - les types d'invites étape par étape "expliquez votre raisonnement".

Et nous découvrons que ces modèles sont en fait capables de faire des choses que beaucoup d'universitaires nous ont dit impossibles en termes de compréhension compositionnelle du monde et de capacité à montrer un raisonnement étape par étape. Beaucoup de gens disaient : « Oh, vous devez utiliser des techniques symboliques ; les réseaux de neurones et l'apprentissage en profondeur n'y arriveront jamais. Eh bien, il s'avère que oui. Je pense que lorsque nous pouvons tous voir qu'il peut faire ces choses que les gens prétendaient qu'il ne pourrait jamais faire, cela nous rend un peu plus audacieux pour essayer d'en faire plus avec eux.

Cela me rappelle la première fois que j'ai vu une vidéo sur Internet, que je me souviens d'avoir montrée à ma mère parce que c'était une vidéo de physiothérapie et qu'elle est physiothérapeute. C'était une vidéo d'un exercice de mobilité articulaire dans votre épaule, et je pense que c'était 128 par 128 pixels. C'était en noir et blanc, très compressé, et peut-être environ 3 ou 4 secondes. J'étais très excitée et j'ai dit à ma mère : « Wow, regarde ça : une vidéo sur Internet ! Et, bien sûr, elle n'était pas excitée du tout. Elle m'a dit : « À quoi ça sert ? C'est la chose la plus inutile que j'aie jamais vue.

Bien sûr, je pensais qu'un jour, ce serait mille pixels sur mille, 60 images par seconde, en couleur, belle vidéo. La preuve est là, il n'y a plus qu'à attendre que le reste se rattrape.

Je pense donc que lorsque les gens ont vu les images de très mauvaise qualité de l'apprentissage en profondeur au début, il n'y avait pas beaucoup d'enthousiasme parce que la plupart des gens ne réalisent pas que la technologie évolue comme ça. Maintenant que nous pouvons réellement produire des images en couleur de haute qualité qui semblent bien meilleures que presque n'importe lequel d'entre nous pourrait imaginer ou photographier, les gens n'ont plus besoin d'imagination. Ils peuvent juste sur le lien que ce qui se fait en ce moment est très impressionnant. Je pense que cela fait une grande différence.

J'ai l'impression que HCI est la plus grande pièce manquante dans presque tous les projets d'apprentissage en profondeur que j'ai vus. . . Si j'étais en HCI, je voudrais que tout mon domaine soit axé sur la question de savoir comment nous interagissons avec les algorithmes d'apprentissage en profondeur.

L'idée de l'ingénierie rapide - sinon comme une toute nouvelle carrière, mais au moins comme un nouvel ensemble de compétences - est vraiment intéressante, en fait.

Ça l'est, et je suis terrible à ça. Par exemple, DALL-E ne sait pas vraiment comment écrire correctement du texte, ce qui ne serait pas un problème, sauf qu'il adore mettre du texte dans toutes ses images sanglantes. Il y a donc toujours ces symboles aléatoires et je ne peux pas, pour ma vie, comprendre comment créer une invite qui ne contient pas de texte. Et puis parfois, je vais juste changer au hasard un mot ici ou là et, tout à coup, plus aucun d'entre eux n'a de texte. Il y a une astuce à cela, et je ne l'ai pas encore tout à fait compris.

De plus, par exemple, il y a une compétence de codage importante en ce moment pour savoir comment aller plus vite - en particulier, si vous n'êtes pas un codeur particulièrement bon - en étant vraiment bon pour trouver les bons commentaires du Codex pour qu'il génère des choses pour vous . Et savoir quels types d'erreurs il a tendance à faire, dans quels types de choses il est bon et mauvais, et savoir comment l'obtenir pour créer un test pour la chose qu'il vient de créer pour vous.

Pour beaucoup de gens, c'est probablement une chose plus précieuse et immédiate à apprendre que de devenir vraiment bon en codage.

Plus précisément sur le Codex, que pensez-vous de l'idée du code généré par la machine ?

I rédigé un article dessus quand GitHub Copilot est sorti, en fait. À l'époque, je me disais : "Wow, c'est vraiment cool et impressionnant, mais je ne sais pas trop à quel point c'est utile." Et je ne suis toujours pas sûr.

L'une des principales raisons est que je pense que nous savons tous que les modèles d'apprentissage en profondeur ne savent pas s'ils ont raison ou non. Codex s'est beaucoup amélioré depuis que j'ai revu sa première version, mais il écrit encore beaucoup de code erroné. De plus, il écrit du code verbeux car il génère moyen code. Pour moi, prendre du code moyen et en faire un code que j'aime et que je sais être correct est beaucoup plus lent que de simplement l'écrire à partir de zéro - du moins dans les langues que je connais bien.

Mais j'ai l'impression qu'il y a toute une question d'interface homme-machine (HCI) ici, et J'ai l'impression que HCI est la plus grande pièce manquante dans presque tous les projets d'apprentissage en profondeur que j'ai vus: ces choses ne remplacent presque jamais complètement les humains. Par conséquent, nous travaillons ensemble avec ces algorithmes. Si j'étais en HCI, je voudrais que tout mon domaine soit axé sur la question de savoir comment nous interagissons avec les algorithmes d'apprentissage en profondeur. Parce que nous avons appris pendant des décennies à interagir avec les interfaces utilisateur graphiques, les interfaces de ligne de commande et les interfaces Web, mais c'est une chose totalement différente.

Et je ne sais pas comment, en tant que programmeur, j'interagis au mieux avec quelque chose comme Codex. Je parie qu'il existe des moyens vraiment puissants de le faire pour chaque domaine - créer des interfaces et lier des données, créer des algorithmes, etc. - mais je n'ai aucune idée de ce que sont ces choses.

Publié le 21 juillet 2022

La technologie, l'innovation et l'avenir, racontés par ceux qui l'ont construit.