As ferramentas de IA que fazem as imagens parecerem melhores | Revista Quanta

As ferramentas de IA que fazem as imagens parecerem melhores | Revista Quanta

As ferramentas de IA que fazem as imagens parecerem melhores | Revista Quanta PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Introdução

É um dos maiores clichês do crime e da ficção científica: um investigador coloca uma foto borrada na tela do computador e pede que ela seja melhorada, e bum, a imagem entra em foco, revelando alguma pista essencial. É uma conveniência maravilhosa para contar histórias, mas tem sido uma ficção frustrante há décadas - aumente demais uma imagem e ela ficará visivelmente pixelizada. Não há dados suficientes para fazer mais.

“Se você ingenuamente aprimorar uma imagem, ela ficará desfocada. Haverá muitos detalhes, mas estará errado”, disse Bryan Catanzaro, vice-presidente de pesquisa aplicada de aprendizagem profunda da Nvidia.

Recentemente, pesquisadores e profissionais começaram a incorporar algoritmos de inteligência artificial em suas ferramentas de aprimoramento de imagens, tornando o processo mais fácil e poderoso, mas ainda há limites para a quantidade de dados que podem ser recuperados de qualquer imagem. Felizmente, à medida que os pesquisadores avançam cada vez mais com os algoritmos de aprimoramento, eles encontram novas maneiras de lidar com esses limites – até mesmo, às vezes, encontrando maneiras de superá-los.

Na última década, os pesquisadores começaram a aprimorar imagens com um novo tipo de modelo de IA chamado rede adversária generativa, ou GAN, que poderia produzir imagens detalhadas e de aparência impressionante. “As imagens de repente começaram a parecer muito melhores”, disse Tomer Michaeli, engenheiro elétrico do Technion em Israel. Mas ele ficou surpreso com o fato de as imagens feitas por GANs mostrarem altos níveis de distorção, que mede o quão próxima uma imagem aprimorada está da realidade subjacente do que ela mostra. Os GANs produziam imagens que pareciam bonitas e naturais, mas na verdade estavam inventando, ou “alucinando”, detalhes que não eram precisos, que eram registrados como altos níveis de distorção.

Michaeli observou o campo da restauração de fotos dividido em duas subcomunidades distintas. “Um deles mostrava belas fotos, muitas delas feitas por GANs. Os outros mostraram dados, mas não mostraram muitas imagens, porque não ficaram bonitos”, disse.

Em 2017, Michaeli e seu aluno de pós-graduação Yochai Blau analisaram essa dicotomia de forma mais formal. Eles traçaram o desempenho de vários algoritmos de aprimoramento de imagem em um gráfico de distorção versus qualidade perceptual, usando uma medida conhecida de qualidade perceptual que se correlaciona bem com o julgamento subjetivo dos humanos. Como Michaeli esperava, alguns dos algoritmos resultaram em qualidade visual muito alta, enquanto outros foram muito precisos, com baixa distorção. Mas nenhum deles tinha ambas as vantagens; você tinha que escolher um ou outro. Os pesquisadores apelidaram isso o trade-off percepção-distorção.

Michaeli também desafiou outros pesquisadores criar algoritmos que pudessem produzir a melhor qualidade de imagem para um determinado nível de distorção, para permitir comparações justas entre os algoritmos de imagens bonitas e os de boas estatísticas. Desde então, centenas de pesquisadores de IA relataram as qualidades de distorção e percepção de seus algoritmos, citando o artigo de Michaeli e Blau que descreveu a compensação.

Às vezes, as implicações da compensação percepção-distorção não são terríveis. A Nvidia, por exemplo, descobriu que as telas de alta definição não renderizavam bem algum conteúdo visual de baixa definição, então, em fevereiro, lançou uma ferramenta que usa aprendizado profundo para aprimorar o streaming de vídeo. Neste caso, os engenheiros da Nvidia escolheram a qualidade perceptual em vez da precisão, aceitando o facto de que quando o algoritmo aumenta o vídeo, irá criar alguns detalhes visuais que não estão no vídeo original. “A modelo está alucinando. É tudo uma suposição”, disse Catanzaro. “Na maioria das vezes, um modelo de super-resolução pode adivinhar errado, desde que seja consistente.”

Introdução

É claro que as aplicações em pesquisa e medicina exigem muito mais precisão. A tecnologia de IA levou a grandes avanços na geração de imagens, mas “às vezes vem com efeitos colaterais indesejados, como ajuste excessivo ou [adicionamento] de recursos falsos e, portanto, precisa ser tratada com extremo cuidado”, disse Junjie Yao, engenheiro biomédico da Duke University. No ano passado, ele co-escreveu um papel descrevendo como as ferramentas de IA podem melhorar os métodos existentes de medição do fluxo sanguíneo e do metabolismo no cérebro – ao mesmo tempo que permanecem seguros no lado preciso da compensação entre distorção de percepção.

Uma maneira de contornar os limites de quantidade de dados que podem ser extraídos de uma imagem é simplesmente incorporar dados de mais imagens – embora isso muitas vezes não seja tão simples. Os investigadores que estudam o ambiente através de imagens de satélite têm feito progressos na combinação de diferentes fontes de dados visuais. Em 2021, um grupo de pesquisadores na China e no Reino Unido dados fundidos a partir de dois tipos diferentes de satélites para obter uma visão melhor da desflorestação na Bacia do Congo, a segunda maior floresta tropical do mundo e uma das maiores reservas de biodiversidade. Os pesquisadores coletaram dados de dois satélites Landsat, que medem o desmatamento há décadas, e usaram técnicas de aprendizagem profunda para refinar a resolução das imagens de 30 para 10 metros. Eles então fundiram esse conjunto de imagens com dados de dois satélites Sentinel-2, que possuem um conjunto de detectores ligeiramente diferente. As imagens combinadas “permitiram detectar de 11% a 21% mais áreas perturbadas do que era possível usando apenas as imagens Sentinel-2 ou Landsat-7/8”, escreveram eles.

Michaeli sugere outra forma de contornar, se não ultrapassar, os rígidos limites de acessibilidade à informação. Em vez de se decidirem por uma resposta firme sobre como melhorar uma imagem de baixa qualidade, os modelos poderiam mostrar múltiplas interpretações diferentes da imagem original. Em um artigo intitulado “Super resolução explorável”, ele ajudou a demonstrar como as ferramentas de aprimoramento de imagem podem apresentar ao usuário diversas sugestões. Uma imagem difusa e de baixa resolução de uma pessoa vestindo o que parece ser uma camisa acinzentada poderia ser reconstruída em uma imagem de alta resolução na qual a camisa tem listras verticais pretas e brancas, listras horizontais ou xadrez, todas igualmente plausíveis .

Em outro exemplo, Michaeli tirou uma foto de baixa qualidade de uma placa de carro e a passou por um melhorador de imagem de IA líder, que mostrou que um 1 na placa parecia mais com um zero. Mas quando a imagem foi processada por um algoritmo diferente e mais aberto projetado por Michaeli, o dígito parecia igualmente provável de ser zero, 1 ou 8. Esta abordagem poderia ajudar a descartar outros numerais sem concluir erroneamente que o dígito era zero.

À medida que diferentes disciplinas enfrentam o compromisso entre percepção e distorção à sua maneira, a questão de quanto podemos extrair das imagens de IA e até que ponto podemos confiar nessas imagens permanece central. “Devemos ter em mente que, para produzir essas belas imagens, os algoritmos apenas criam detalhes”, disse Michaeli. Podemos mitigar essas alucinações, mas o todo-poderoso botão “melhorar” para solucionar crimes continuará sendo um sonho.

Carimbo de hora:

Mais de Quantagazine