O pioneiro da computação ajudando a IA Veja | Revista Quanta

O pioneiro da computação ajudando a IA Veja | Revista Quanta

O pioneiro da computação ajudando a IA Veja | Revista Quanta PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Introdução

Quando Alexei Efros mudou-se com a família da Rússia para a Califórnia ainda adolescente na década de 1980, ele trouxe seu computador pessoal de fabricação soviética, um Elektronika BK-0010. A máquina não tinha armazenamento externo e superaquecia a cada poucas horas, então, para jogar videogame, ele precisava escrever código, solucionar problemas e jogar rápido – antes que a máquina desligasse. Esse ciclo, repetido quase todos os dias, acelerou seu aprendizado.

“Tive muita sorte porque este computador soviético não era muito bom!” disse Efros, que ri com facilidade e fala com um leve sotaque russo. Ele não joga tantos jogos hoje em dia, mas aquela vontade de explorar e aproveitar ao máximo suas ferramentas permanece.

Na pós-graduação na Universidade da Califórnia, Berkeley, Efros começou a fazer caminhadas e explorar as belezas naturais da Bay Area. Não demorou muito para que ele começasse a combinar sua paixão por computadores com o prazer dessas paisagens. Ele desenvolveu uma maneira de corrigir buracos em fotografias – por exemplo, substituindo uma lixeira errante em uma foto de uma floresta de sequoias por árvores de aparência natural. Posteriormente, o Adobe Photoshop adotou uma versão da técnica para sua ferramenta de “preenchimento com reconhecimento de conteúdo”.

Agora cientista da computação no Laboratório de Pesquisa de Inteligência Artificial de Berkeley, Efros combina enormes conjuntos de dados online com algoritmos de aprendizado de máquina para compreender, modelar e recriar o mundo visual. Em 2016, a Association for Computing Machinery concedeu-lhe o prêmio Prêmio em Computação por seu trabalho criando imagens sintéticas realistas, chamando-o de “alquimista de imagem. "

Introdução

Efros diz que, apesar dos melhores esforços dos investigadores, as máquinas ainda veem de forma fundamentalmente diferente da nossa. “Manchas de cor e brilho exigem que conectemos o que estamos vendo agora à nossa memória de onde vimos essas coisas antes”, disse Efros. “Essa conexão dá sentido ao que estamos vendo.” Com demasiada frequência, as máquinas veem o que está presente no momento sem conectá-lo ao que viram antes.

Mas a diferença pode ter vantagens. Na visão computacional, Efros aprecia o imediatismo de saber se um algoritmo projetado para reconhecer objetos e cenas funciona em uma imagem. Algumas de suas questões de visão computacional - como “O que faz Paris parecer Paris?”- tem uma inclinação filosófica. Outros, como como lidar com problemas persistentes preconceito em conjuntos de dados, são práticos e prementes.

“Há muitas pessoas fazendo IA com linguagem atualmente”, disse Efros. “Quero observar os padrões totalmente visuais que foram deixados para trás.” Ao melhorar a visão computacional, ele não apenas espera melhores aplicações práticas, como carros autônomos; ele também quer explorar esses insights para entender melhor o que chama de “inteligência visual humana” – como as pessoas entendem o que vêem.

Revista Quanta encontrou-se com Efros em seu escritório em Berkeley para falar sobre superpoderes científicos, a dificuldade de descrever recursos visuais e como a inteligência artificial realmente é perigosa. A entrevista foi condensada e editada para maior clareza.

Introdução

Como a visão computacional melhorou desde que você era estudante?

Quando comecei meu doutorado, não havia quase nada de útil. Alguns robôs apertavam alguns parafusos usando visão computacional, mas isso estava limitado a esse tipo de ambiente industrial muito controlado. Então, de repente, minha câmera detectou rostos e os tornou mais nítidos.

Agora, a visão computacional está em um grande número de aplicações, como carros autônomos. Está demorando mais do que algumas pessoas pensavam inicialmente, mas ainda assim há progresso. Para quem não dirige, isso é extremamente emocionante.

Espere, você não dirige?

Não, não vejo bem o suficiente para dirigir! [Risos] Para mim, isso seria uma grande virada de jogo - ter um carro que me levasse a alguns lugares.

Não percebi que sua visão o impedia de dirigir. Você consegue ver as imagens com as quais trabalha no monitor do computador?

Se eu os tornar grandes o suficiente. Você pode ver que minhas fontes são bem grandes. Nasci sem enxergar bem. Eu acho que todo mundo é estranho por ter uma visão muito boa.

Seu status de não-esquisito influenciou a direção de sua pesquisa?

Quem sabe? Definitivamente não havia nenhum sentimento de “Oh, não vejo bem, então vou fazer computadores que enxerguem melhor”. Não, nunca tive isso como motivação.

Para ser um bom cientista, você precisa de um superpoder secreto. Você precisa fazer algo melhor do que todo mundo. O melhor da ciência é que nem todos temos o mesmo superpoder. Talvez meu superpoder tenha sido esse, por não enxergar muito bem, posso ter mais insights sobre o problema de visão.

Introdução

Compreendi desde cedo a importância dos dados anteriores quando se olha o mundo. Eu mesmo não conseguia ver muito bem, mas minha memória de experiências anteriores preencheu as lacunas o suficiente para que eu pudesse funcionar basicamente tão bem quanto uma pessoa normal. A maioria das pessoas não sabe que não enxergo bem. Isso me deu – eu acho – essa intuição única de que poderia ser menos sobre os pixels e mais sobre a memória.

Os computadores só veem o que está lá agora, enquanto nós vemos o momento conectado à tapeçaria de tudo o que vimos antes.

Será mesmo possível expressar em palavras os sutis padrões visuais que, por exemplo, fazem Paris parecer Paris?

Quando você está em uma cidade específica, às vezes você só sabe em que cidade está - existe isso je ne sais quoi, mesmo que você nunca tenha estado naquela esquina específica. Isso é extremamente difícil de descrever em palavras, mas está bem ali nos pixels.

[Para Paris], você poderia falar sobre como geralmente são prédios de seis andares e geralmente há varandas no quarto andar. Você poderia colocar parte disso em palavras, mas muita coisa não é linguística. Para mim isso é emocionante.

Seu trabalho recente envolve ensinar computadores a ingerir dados visuais de maneiras que imitam a visão humana. Como isso funciona?

Neste momento, os computadores têm um enorme conjunto de dados: milhares de milhões de imagens aleatórias extraídas da Internet. Eles pegam imagens aleatórias, processam uma imagem, depois pegam outra imagem aleatória, processam isso, etc. Você treina o sistema [visual do computador] examinando repetidamente esse conjunto de dados.

A forma como nós – agentes biológicos – ingerimos dados é muito diferente. Quando nos deparamos com uma situação nova, é o único momento em que esses dados estarão disponíveis para nós. Nunca estivemos nesta situação exata, nesta sala, com esta iluminação, vestidos desta forma. Primeiro, usamos esses dados para fazer o que precisamos, para compreender o mundo. Então, usamos esses dados para aprender com eles, [para prever] o futuro.

Introdução

Além disso, os dados que vemos não são aleatórios. O que você vê agora está muito correlacionado com o que você viu alguns segundos atrás. Você pode pensar nisso como um vídeo. Todos os frames do vídeo estão correlacionados entre si, o que é muito diferente de como os computadores processam os dados.

Estou interessado em fazer com que a nossa abordagem de aprendizagem seja aquela em que os computadores vejam os dados à medida que chegam, processem-nos e aprendam com eles à medida que avançam.

Imagino que não seja tão simples quanto fazer com que os computadores vejam vídeos em vez de imagens estáticas.

Não, você ainda precisa [de computadores] para se adaptar. Estou interessado em aprender abordagens que vejam os dados à medida que chegam e depois os processem e aprendam com eles à medida que avançam. Uma abordagem que temos é conhecida como treinamento em tempo de teste. A ideia é que, à medida que você olha uma sequência de imagens como um vídeo, as coisas podem estar mudando. Então você não quer que seu modelo seja consertado. Assim como um agente biológico está sempre se adaptando ao seu entorno, queremos que o computador se adapte continuamente.

O paradigma padrão é treinar primeiro em um conjunto de big data e depois implantar. Dall·E e ChatGPT foram treinados na internet por volta de 2021 e então [seu conhecimento] congelou. Então ele vomita o que já sabe. Uma maneira mais natural é [treinamento em tempo de teste], tentar fazer com que ele absorva os dados e aprenda no trabalho, sem ter fases separadas de treinamento e implantação.

Definitivamente, há um problema com os computadores, chamado mudança de domínio ou viés do conjunto de dados - essa ideia de que, se seus dados de treinamento forem muito diferentes dos dados que você está usando ao implantar o sistema, as coisas não vão funcionar muito bem. Estamos fazendo algum progresso, mas ainda não chegamos lá.

Introdução

Será o problema semelhante ao modo como os bancos alertam os investidores de que o desempenho passado pode não prever os lucros futuros?

Esse é exatamente o problema. No mundo real, as coisas mudam. Por exemplo, se um rato do campo acabar em uma casa, ele ficará bem. Você nunca vai se livrar desse mouse! [Risos] Ele nasceu em um campo, nunca esteve em uma casa antes e ainda assim encontrará e comerá todos os seus suprimentos. Adapta-se muito rapidamente, aprende e ajusta-se ao novo ambiente.

Essa capacidade não existe nos sistemas [de visão computacional] atuais. Com a direção autônoma, se você treinar um carro na Califórnia e depois testá-lo em Minnesota – bum! - há neve. Nunca viu neve. Fica confuso.

Agora as pessoas resolvem isso obtendo tantos dados que [o sistema] basicamente viu tudo. Então não precisa se adaptar. Mas isso ainda deixa escapar eventos raros.

Parece que os sistemas de IA são o caminho a seguir. Onde isso deixa os humanos?

O trabalho que sai do OpenAI tanto na frente do texto (ChatGPT) quanto na frente da imagem (Dall·E) tem sido incrivelmente emocionante e surpreendente. Reafirma a ideia de que, uma vez disponíveis dados suficientes, métodos razoavelmente simples podem produzir resultados surpreendentemente bons.

Introdução

Mas o ChatGPT me fez perceber que os humanos não são tão criativos e excepcionais quanto gostamos de ser. Na maioria das vezes, os reconhecedores de padrões em nós podem estar assumindo o controle. Falamos em frases feitas de frases ou sentenças que ouvimos antes. Claro, temos vôos de fantasia e criatividade. Somos capazes de fazer coisas que os computadores não podem fazer – pelo menos por enquanto. Mas na maioria das vezes poderíamos ser substituídos pelo ChatGPT e a maioria das pessoas nem perceberia.

É humilhante. Mas também é um motivador para romper com esses padrões, para tentar ter mais fantasias, para não ficar preso em clichês e pastiches.

Alguns cientistas expressaram preocupação com os riscos que a IA representa para a humanidade. Você está preocupado?

Muitos pesquisadores pelos quais tenho grande respeito têm alertado sobre a inteligência artificial. Não quero minimizar essas palavras. Muitos desses são pontos válidos. Mas é preciso colocar as coisas em perspectiva.

Neste momento, o maior perigo para a civilização não vem dos computadores, mas dos humanos. O Armagedom Nuclear e as alterações climáticas são preocupações muito mais prementes. A Federação Russa atacou o seu vizinho completamente inocente. Nasci na Rússia e é particularmente horrível que os meus antigos compatriotas possam estar a fazer isto. Estou fazendo tudo o que posso para garantir que este continue sendo o tópico número um.

Podemos pensar que a revolução da IA ​​é o evento mais importante da nossa vida. Mas a revolução da IA ​​não será nada se não salvarmos o mundo livre.

Então você não se preocupa com IA?

Não. Você sabe, eu adoro me preocupar. Eu sou um grande preocupado! Mas se Putin, destruindo o mundo, está aqui [levanta a mão à cabeça] e a mudança climática está aqui [abaixa a mão até os ombros], então a IA está aqui embaixo [abaixa a mão até os pés]. São frações de um por cento da minha preocupação em comparação com Putin e as alterações climáticas.

Carimbo de hora:

Mais de Quantagazine