A ascensão de especialistas em domínio em aprendizagem profunda PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

A ascensão dos especialistas de domínio em Deep Learning

Jeremy Howard é pesquisador de inteligência artificial e cofundador da rápido.ai, uma plataforma para não especialistas aprenderem inteligência artificial e aprendizado de máquina. Antes de iniciar a fast.ai, ele fundou várias empresas – incluindo FastMail e Enlitic, pioneira na aplicação de deep learning ao campo médico – e foi presidente e cientista-chefe da plataforma de competição de machine learning Kaggle. 

Nesta entrevista, Howard discute o que significa para diferentes setores e até regiões globais agora que pessoas sem doutorado de laboratórios de pesquisa especializados podem construir e trabalhar com modelos de aprendizado profundo. Entre outros tópicos sob esse amplo guarda-chuva, ele compartilha seus pensamentos sobre a melhor forma de acompanhar as técnicas de ponta, a engenharia imediata como um novo conjunto de habilidades e os prós e contras de sistemas de geração de código como o Codex.


FUTURO: Depois de executar fast.ai nos últimos anos, quais são os efeitos que você está vendo de ter muito mais pessoas familiarizadas com os conceitos básicos de aprendizado profundo – em comparação com vários anos atrás, quando as pessoas com o conhecimento eram unicórnios?

JEREMY HOWARD: Quando começamos o fast.ai, havia, basicamente, cinco laboratórios de pesquisa universitários importantes trabalhando em aprendizado profundo – e as únicas pessoas que sabiam fazer quase qualquer coisa com aprendizado profundo eram pessoas que estavam ou estiveram nesses cinco laboratórios . No geral, o código não estava sendo publicado, muito menos os dados. E mesmo os jornais não estavam publicando os detalhes de como fazê-lo funcionar na prática, em parte porque os locais acadêmicos não se importavam muito com a implementação prática. Era muito focado na teoria. 

Então, quando começamos, era uma pergunta muito especulativa de: “É possível fazer aprendizado profundo de classe mundial sem um doutorado?”. Agora sabemos que a resposta é sim; mostramos isso em nosso primeiro curso. Nossos primeiros ex-alunos criaram patentes usando aprendizado profundo, criaram empresas usando aprendizado profundo e publicaram nos principais locais usando aprendizado profundo. 

Acho que sua pergunta é exatamente a correta, que é sobre o que acontece quando especialistas de domínio se tornam praticantes eficazes de aprendizado profundo? É aí que vimos as coisas mais interessantes acontecendo. Geralmente, as melhores startups são aquelas construídas por pessoas que pessoalmente têm vontade de coçar. Eles costumavam ser recrutadores, então eles estão fazendo uma startup de recrutamento, ou eles costumavam ser um paralegal, então eles estão fazendo uma startup legal, ou qualquer outra coisa. E eles ficam tipo, “Oh, eu odeio essa coisa sobre o trabalho que eu tinha. E agora que conheço o aprendizado profundo, sei que quase poderia automatizar tudo isso.”

Muitos de nossos alunos também estão fazendo ou fizeram doutorado, mas não em matemática ou ciência da computação; em vez disso, eles estão fazendo isso em quimioinformática, proteômica, jornalismo de dados ou qualquer outra coisa. E muitas vezes descobrimos que eles são capazes de levar suas pesquisas a um nível totalmente diferente. Por exemplo, estamos começando a ver pela primeira vez alguns grandes bancos de dados e corpus de dados de materiais de bibliotecas públicas começando a aparecer na internet. E há pessoas nesse campo – biblioteconomia – agora que estão fazendo coisas onde nunca ocorreu a ninguém que eles poderiam fazer algo nessa escala antes. Mas de repente, é como, “Oh, meu Deus, veja o que acontece quando você analisa uma biblioteca como um coisa. " 

Eu dei uma palestra em uma conferência de criação de animais onde todos estavam falando sobre aprendizado profundo. Para mim, esse é um uso realmente não óbvio, mas para eles é de longe o uso mais óbvio. As pessoas estão usando para resolver problemas do mundo real usando dados do mundo real dentro das restrições do mundo real.

Parece pela minha experiência, nos últimos anos, que o aprendizado profundo pode ser aplicado a praticamente todos os setores – não cada parte de cada indústria, mas alguns partes de praticamente cada indústria. 

Conhecemos um cara que estava fazendo muitas coisas interessantes com diagnóstico de malária, o que, como você pode imaginar, não é o principal problema que as pessoas em São Francisco estavam tentando resolver.

Parece que a inversão das bases de conhecimento – o aprendizado profundo agora é complementar ao conhecimento do domínio – pode mudar o equilíbrio entre teoria e aplicação.

Certo, e você pode ver isso acontecendo. Uma das grandes coisas no início da era do aprendizado profundo foi o trabalho que o Google Brain fez, onde analisaram muitos vídeos do YouTube e descobriram que gatos eram um fator latente em muitos vídeos. O modelo deles aprendeu a reconhecer gatos porque viu muitos deles. E esse é um trabalho muito interessante, mas ninguém foi embora e construiu uma empresa com base nisso. 

As coisas que as pessoas foram edifício - novamente, útil, mas dentro de certas áreas - como Google e Apple busca de fotos de imagens ficou muito bom rapidamente porque você pode realmente pesquisar as coisas que estavam nas fotos. Isso é realmente útil. E esse é o tipo de coisa em que todo mundo estava trabalhando – coisas realmente abstratas ou coisas reais do primeiro mundo. Não há nada de errado com isso, mas há muitas outras coisas que precisam ser trabalhadas também. 

Então fiquei emocionado quando, depois de alguns anos, olhei para a demografia das pessoas que fizeram nosso curso e descobri que uma das maiores cidades fora dos EUA era Lagos [capital da Nigéria]. Achei ótimo porque esta é uma comunidade que não fazia aprendizado profundo anteriormente. Eu literalmente perguntei às pessoas no primeiro curso: “Alguém aqui da África?” E acho que havia um cara da Costa do Marfim que estava tendo que gravar coisas em CD-ROM em sua biblioteca porque não tinha conexão suficiente com a internet. Então realmente cresceu muito rápido.

E então foi bom porque começamos a receber grupos de pessoas de Uganda, Quênia e Nigéria voando para São Francisco para fazer o curso pessoalmente e conhecer uns aos outros. Conhecemos um cara, por exemplo, que estava fazendo muitas coisas interessantes com diagnóstico de malária, o que, como você pode imaginar, não é o principal problema que as pessoas em São Francisco estavam tentando resolver.

Parece-me que ter 16 modelos de linguagem grande diferentes treinados em 5% da internet é como ter 16 canos de água entrando em sua casa e 16 conjuntos de cabos de eletricidade entrando em sua casa. 

Como é o plano de carreira médio para alguém que está saindo de um programa de aprendizado profundo como o seu?

É tão diversificado. Isso realmente mudou muito desde os primeiros dias, quando era apenas essa mentalidade de super adotantes – as pessoas que eram em grande parte empreendedores ou doutorados e pós-doutorandos iniciais, e que adoram pesquisas de ponta e experimentar coisas novas. Não são mais apenas os adotantes iniciais, são também as pessoas que estão tentando acompanhar ou acompanhar a maneira como sua indústria está se movendo.

Hoje em dia, muitas pessoas pensam: “Oh, meu Deus, sinto que o aprendizado profundo está começando a destruir a experiência no meu setor. As pessoas estão fazendo coisas com um pouco de aprendizado profundo que eu nem consigo conceber, e não quero perder.” Algumas pessoas estão olhando um pouco mais à frente, e são mais, tipo, “Bem, ninguém está realmente usando deep learning no meu setor, mas não consigo imaginar que seja o um indústria que é não vai ser afetado, então eu quero ser o primeiro.” 

Algumas pessoas definitivamente têm uma ideia para uma empresa que desejam construir. 

A outra coisa que recebemos muito é que as empresas enviam um monte de suas equipes de pesquisa ou engenharia para fazer o curso apenas porque sentem que essa é uma capacidade corporativa que deveriam ter. E é particularmente útil com as APIs online que estão por aí agora com as quais as pessoas podem brincar — Códice or DALL-E ou qualquer outra coisa – e tenha uma sensação de “Oh, isso é um pouco como algo que faço no meu trabalho, mas é um pouco diferente se eu pudesse ajustá-lo dessa maneira”. 

No entanto, esses modelos também têm o efeito colateral infeliz, talvez, de aumentar a tendência das pessoas de sentir que a inovação em IA é apenas para grandes empresas e que está fora de suas capacidades. Eles podem optar por ser consumidores passivos da tecnologia porque não acreditam que tenham a capacidade de construir pessoalmente algo que seja melhor do que o que o Google ou a OpenAI podem estar construindo.

Um modelo que decide se você gosta ou não de um filme e um modelo que pode gerar haicais serão 98% iguais . . . É muito, muito raro que realmente precisemos treinar um modelo enorme do zero em uma vasta área da internet.

Mesmo que seja esse o caso - se você não pode superar o OpenAI ou o Google - certamente há uma maneira de tirar proveito do que eles fizeram, do acesso à API para modelos incrivelmente poderosos, certo?

A primeira coisa a dizer é não é verdade, não em algum sentido geral, pelo menos. Há uma certa bifurcação do treinamento de IA acontecendo agora: há o lado do Google e da OpenAI, que trata da criação de modelos o mais gerais possível e, quase sempre, esses pesquisadores têm especificamente o objetivo de chegar à AGI. Não estou comentando se isso é bom ou ruim; está definitivamente resultando em artefatos úteis para nós, pessoas normais, então tudo bem. 

No entanto, há um caminho totalmente diferente, que é aquele que quase todos os nossos alunos seguem, que é: “Como posso resolver os problemas do mundo real das pessoas da minha comunidade da maneira mais pragmática possível?” E há muito menos sobreposição do que você imagina entre os dois métodos, os dois conjuntos de dados, as duas técnicas.

No meu mundo, nós nunca treinamos um modelo do zero, basicamente. Está sempre em sintonia. Então, definitivamente aproveitamos o trabalho dos grandes, mas está sempre disponível gratuitamente, modelos para download. Coisas como os grandes modelos de linguagem de código aberto através Big Science é muito útil para isso. 

No entanto, eles provavelmente ficarão de 6 a 12 meses atrás dos grandes até que, talvez, encontremos uma maneira mais democrática de fazer isso. Parece-me que ter 16 modelos de linguagem grande diferentes treinados em 5% da internet é como ter 16 canos de água entrando em sua casa e 16 conjuntos de cabos de eletricidade entrando em sua casa. Parece que deveria ser mais um serviço público. É ótimo ter competição, mas também seria bom se houvesse alguma cooperação melhor acontecendo, então não precisávamos perder nosso tempo fazendo a mesma coisa.

Então, sim, acabamos ajustando, para nossos propósitos específicos, modelos que outras pessoas construíram. E é mais ou menos como o genoma humano e o genoma do macaco são quase inteiramente iguais, exceto por alguns por cento aqui e ali, que na verdade acabam fazendo uma grande diferença. É o mesmo com as redes neurais: um modelo que decide se você gosta ou não de um filme e um modelo que pode gerar haicais serão 98% iguais, porque a maior parte disso é entender o mundo, entender a linguagem e outras coisas . É muito, muito raro que realmente precisemos treinar um modelo enorme do zero em uma vasta área da internet.

E é por isso que você absolutamente pode competir com Google e OpenAI — porque eles provavelmente nem estarão no seu espaço. Se você está tentando criar algo para automatizar o trabalho dos paralegais, ou ajudar no planejamento de resiliência a desastres, ou gerar uma melhor compreensão da linguagem de gênero nos últimos 100 anos ou qualquer outra coisa, você não está competindo com o Google, você está competindo com esse nicho que está em seu domínio.

Há uma habilidade de codificação significativa agora em saber como ir mais rápido. . . por ser realmente bom em apresentar os comentários corretos do Codex. . . Para muitas pessoas, isso é provavelmente uma coisa mais valiosa e imediata para aprender do que ficar realmente bom em codificação.

Quão importante é acompanhar todos os avanços no espaço da IA, especialmente se você estiver trabalhando com ela em uma escala menor?

Ninguém consegue acompanhar todos os avanços. Você tem que acompanhar alguns avanços, mas as técnicas atuais com as quais estamos trabalhando mudam, hoje em dia, muito lentamente. A diferença entre o curso fast.ai de 2017 e o curso fast.ai de 2018 foi vasta, e entre os cursos de 2018 e 2019 foi vasta.ish. Hoje em dia, muito pouco muda ao longo de um período de dois anos.

As coisas que consideramos realmente significativas, como a ascensão do arquitetura do transformador, por exemplo, na verdade tem alguns anos agora e principalmente é apenas um monte de camadas de rede neural de feed-forward simples e sanduíche, e algumas produtos escalares. É ótimo, mas para quem quer entender, que já entende conventos, redes recorrentese básico perceptrons multicamadas, é como algumas horas de trabalho.

Uma das grandes coisas que aconteceram nos últimos dois anos é que mais pessoas estão começando a entender os aspectos práticos de como treinar um modelo de forma eficaz. Por exemplo, DeepMind recentemente lançou um papel que essencialmente mostrou que todos os modelos de linguagem existentes eram dramaticamente menos eficientes do que deveriam ser, literalmente porque não estavam fazendo algumas coisas básicas. O Facebook – e, especificamente, um estagiário do Facebook foi o principal autor do artigo – construiu uma coisa chamada ConvNeXtGenericName, que basicamente está dizendo: “Aqui está o que acontece se pegarmos uma rede neural convolucional normal e apenas colocarmos os ajustes óbvios que todos conhecem”. E eles são basicamente o modelo de imagem de última geração agora. 

Então, sim, manter-se atualizado com os fundamentos básicos de como construir bons modelos de aprendizado profundo é muito menos difícil do que parece. E você certamente não precisa ler todos os artigos da área. Particularmente neste momento, agora que as coisas estão indo muito menos rapidamente.

Mas acho que é útil ter uma compreensão ampla, não apenas de sua própria área especial. Digamos que você seja uma pessoa de visão computacional, ajuda muito ser bom em PNL, filtragem colaborativa e análise tabular também – e vice-versa, porque não há polinização cruzada suficiente entre esses grupos. E de tempos em tempos, alguém dá uma espiada em outra área, rouba algumas de suas ideias e sai com um resultado inovador. 

Foi exatamente o que eu fiz com ULMFiT quatro ou cinco anos atrás. Eu disse: “Vamos aplicar todas as técnicas básicas de aprendizado de transferência de visão computacional à PNL”, e obtive um resultado de última geração por quilômetros. Pesquisadores da OpenAI fez algo semelhante, mas substituiu meu RNN por um transformador e o ampliou, e isso se tornou GPT. Todos nós sabemos como foi. 

Manter-se atualizado com os fundamentos básicos de como criar bons modelos de aprendizado profundo é muito menos difícil do que parece. E você certamente não precisa ler todos os artigos da área.

Você mencionou que vimos uma mudança de função degrau na IA nos últimos três a seis meses. Você pode detalhar isso?

Na verdade, eu chamaria isso de gancho em vez de um função de degrau. Acho que estamos em uma curva exponencial e, de tempos em tempos, você pode notar que as coisas realmente parecem ter acelerado de maneira notável. O que temos que fazer é que modelos pré-treinados treinados em corpus muito grandes de texto e imagens agora podem fazer coisas impressionantes de uma ou poucas fotos de maneiras bastante gerais, em parte porque nos últimos meses as pessoas melhoraram no entendimento engenharia imediata. Essencialmente, saber como fazer a pergunta certa – o tipo de prompt “explicar seu raciocínio” passo a passo. 

E estamos descobrindo que esses modelos são realmente capazes de fazer coisas que muitos acadêmicos têm nos dito que não são possíveis em termos de compreensão composicional do mundo e serem capazes de mostrar raciocínio passo a passo. Muitas pessoas diziam: “Ah, você tem que usar técnicas simbólicas; redes neurais e aprendizado profundo nunca chegarão lá.” Bem, acontece que eles fazem. Acho que quando todos pudermos ver que ele pode fazer essas coisas que as pessoas diziam que nunca poderia fazer, isso nos torna um pouco mais ousados ​​em tentar fazer mais com eles.

Isso me lembra a primeira vez que vi um vídeo na internet, que lembro de ter mostrado para minha mãe porque era um vídeo de fisioterapia, e ela é fisioterapeuta. Era um vídeo de um exercício de mobilidade articular em seu ombro, e acho que tinha 128 por 128 pixels. Era preto e branco, altamente compactado e talvez cerca de 3 ou 4 segundos de duração. Fiquei muito empolgado e disse para minha mãe: “Nossa, olha isso: um vídeo na internet!” E, claro, ela não estava nem um pouco animada. Ela estava tipo, “Qual é a utilidade disso? Esta é a coisa mais inútil que eu já vi.”

Claro, eu estava pensando que um dia isso vai ser mil por mil pixels, 60 quadros por segundo, colorido, lindo vídeo. A prova está aí, agora é só esperar o resto pegar. 

Então, acho que quando as pessoas viram as imagens de baixa qualidade do aprendizado profundo nos primeiros dias, não houve muita empolgação porque a maioria das pessoas não percebe que a tecnologia escala assim. Agora que podemos realmente produzir imagens coloridas de alta qualidade que parecem muito melhores do que quase qualquer um de nós poderia imaginar ou fotografar, as pessoas não precisam de imaginação. Eles podem apenas Vejo que o que está sendo feito agora é muito impressionante. Acho que isso faz uma grande diferença.

Eu sinto que a HCI é a maior peça que faltava em quase todos os projetos de aprendizagem profunda que eu já vi. . . Se eu estivesse em HCI, gostaria que todo o meu campo se concentrasse na questão de como interagimos com algoritmos de aprendizado profundo.

A ideia de engenharia rápida – se não como uma carreira totalmente nova, mas pelo menos como um novo conjunto de habilidades – é realmente interessante.

É, e eu sou terrível nisso. Por exemplo, DALL-E realmente não sabe como escrever texto corretamente, o que não seria um problema, exceto que ele adora colocar texto em todas as suas imagens sangrentas. Então, sempre há esses símbolos aleatórios e eu não consigo, pela minha vida, descobrir como criar um prompt que não tenha texto nele. E então, às vezes, eu mudo aleatoriamente uma palavra aqui ou ali e, de repente, nenhuma delas tem mais texto. Há algum truque para isso, e eu ainda não descobri.

Além disso, por exemplo, há uma habilidade de codificação significativa agora em saber como ir mais rápido - particularmente, se você não for um programador particularmente bom - sendo realmente bom em criar os comentários corretos do Codex para gerar coisas para você . E saber que tipos de erros ele tende a cometer, em que tipo de coisas ele é bom e ruim, e saber como fazer com que ele crie um teste para a coisa que ele acabou de construir para você.

Para muitas pessoas, isso é provavelmente uma coisa mais valiosa e imediata para aprender do que ficar realmente bom em codificação.

Especificamente sobre o Codex, quais são seus pensamentos sobre a ideia de código gerado por máquina?

I escreveu uma postagem no blog nele quando o GitHub Copilot saiu, na verdade. Na época, eu fiquei tipo, “Uau, isso é muito legal e impressionante, mas não tenho certeza de quão útil é”. E ainda não tenho certeza.

Uma das principais razões é que acho que todos sabemos que os modelos de aprendizado profundo não entendem se estão certos ou errados. Codex melhorou muito desde que revisei sua primeira versão, mas ainda escreve muito código errado. Além disso, ele escreve código detalhado porque está gerando média código. Para mim, pegar um código médio e transformá-lo em código que eu gosto e sei que está correto é muito mais lento do que apenas escrevê-lo do zero – pelo menos em linguagens que conheço bem. 

Mas eu sinto que há toda uma questão de interface humano-computador (HCI) aqui, e Sinto que a HCI é a maior peça que faltava em quase todos os projetos de aprendizado profundo que já vi: quase nunca essas coisas substituem totalmente os humanos. Por isso, estamos trabalhando juntos com esses algoritmos. Se eu estivesse em HCI, gostaria que todo o meu campo se concentrasse na questão de como interagimos com algoritmos de aprendizado profundo. Porque tivemos décadas aprendendo a interagir com interfaces gráficas de usuário, interfaces de linha de comando e interfaces da Web, mas isso é uma coisa totalmente diferente. 

E eu não sei como eu, como programador, interajo melhor com algo como o Codex. Aposto que existem maneiras realmente poderosas de fazer isso para todas as áreas - criando interfaces e vinculando dados, construindo algoritmos e assim por diante - mas não tenho ideia do que são essas coisas.

Postado em julho 21, 2022

Tecnologia, inovação e o futuro, contados por quem o constrói.

Obrigado por inscrever-se.

Verifique sua caixa de entrada para uma nota de boas-vindas.

Carimbo de hora:

Mais de Andreessen Horowitz