Vision Mamba: Um Novo Paradigma em Visão de IA com Modelos de Espaço de Estado Bidirecional

Vision Mamba: Um Novo Paradigma em Visão de IA com Modelos de Espaço de Estado Bidirecional

Vision Mamba: Um Novo Paradigma em Visão de IA com Modelos de Espaço de Estado Bidirecional PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

O campo da inteligência artificial (IA) e do aprendizado de máquina continua a evoluir, com o Vision Mamba (Vim) emergindo como um projeto inovador no domínio da visão da IA. Recentemente, o acadêmico papel “Vision Mamba- Efficient Visual Representation Learning with Bidirecional” introduz esta abordagem no domínio do aprendizado de máquina. Desenvolvido usando modelos de espaço de estados (SSMs) com designs eficientes e conscientes de hardware, o Vim representa um salto significativo no aprendizado de representação visual.

O Vim aborda o desafio crítico de representar dados visuais de forma eficiente, uma tarefa que tradicionalmente depende de mecanismos de autoatenção dentro dos Vision Transformers (ViTs). Os ViTs, apesar de seu sucesso, enfrentam limitações no processamento de imagens de alta resolução devido a restrições de velocidade e uso de memória. O Vim, por outro lado, emprega blocos Mamba bidirecionais que não apenas fornecem um contexto visual global dependente de dados, mas também incorporam incorporações de posição para uma compreensão visual mais sutil e com reconhecimento de localização. Essa abordagem permite que o Vim alcance maior desempenho em tarefas importantes, como classificação ImageNet, detecção de objetos COCO e segmentação semântica ADE20K, em comparação com transformadores de visão estabelecidos como DeiT.

Os experimentos realizados com o Vim no conjunto de dados ImageNet-1K, que contém 1.28 milhão de imagens de treinamento em 1000 categorias, demonstram sua superioridade em termos de eficiência computacional e de memória. Especificamente, o Vim é 2.8 vezes mais rápido que o DeiT, economizando até 86.8% da memória da GPU durante a inferência em lote para imagens de alta resolução. Em tarefas de segmentação semântica no conjunto de dados ADE20K, o Vim supera consistentemente o DeiT em diferentes escalas, alcançando desempenho semelhante ao backbone ResNet-101 com quase metade dos parâmetros.

Além disso, em tarefas de detecção de objetos e segmentação de instâncias no conjunto de dados COCO 2017, o Vim supera o DeiT com margens significativas, demonstrando sua melhor capacidade de aprendizagem de contexto de longo alcance. Esse desempenho é particularmente notável porque o Vim opera de maneira pura de modelagem de sequência, sem a necessidade de anteriores 2D em seu backbone, o que é um requisito comum em abordagens tradicionais baseadas em transformadores.

A modelagem de espaço de estado bidirecional e o design consciente de hardware do Vim não apenas melhoram sua eficiência computacional, mas também abrem novas possibilidades para sua aplicação em várias tarefas de visão de alta resolução. As perspectivas futuras do Vim incluem sua aplicação em tarefas não supervisionadas, como pré-treinamento de modelagem de imagens de máscara, tarefas multimodais, como pré-treinamento estilo CLIP e análise de imagens médicas de alta resolução, imagens de sensoriamento remoto e vídeos longos.

Concluindo, a abordagem inovadora do Vision Mamba marca um avanço fundamental na tecnologia de visão de IA. Ao superar as limitações dos transformadores de visão tradicionais, o Vim está preparado para se tornar a espinha dorsal da próxima geração para uma ampla gama de aplicações de IA baseadas em visão.

Fonte da imagem: Shutterstock

Carimbo de hora:

Mais de Notícias do Blockchain