Vision Mamba: um novo paradigma em visão de IA com modelos de espaço de estado bidirecionais

Republicado por Platão

seguidores: 0

Vision Mamba: Um Novo Paradigma em Visão de IA com Modelos de Espaço de Estado Bidirecional PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

O campo da inteligência artificial (IA) e do aprendizado de máquina continua a evoluir, com o Vision Mamba (Vim) emergindo como um projeto inovador no domínio da visão da IA. Recentemente, o acadêmico papel “Vision Mamba- Efficient Visual Representation Learning with Bidirecional” introduz esta abordagem no domínio do aprendizado de máquina. Desenvolvido usando modelos de espaço de estados (SSMs) com designs eficientes e conscientes de hardware, o Vim representa um salto significativo no aprendizado de representação visual.

O Vim aborda o desafio crítico de representar dados visuais de forma eficiente, uma tarefa que tradicionalmente depende de mecanismos de autoatenção dentro dos Vision Transformers (ViTs). Os ViTs, apesar de seu sucesso, enfrentam limitações no processamento de imagens de alta resolução devido a restrições de velocidade e uso de memória. O Vim, por outro lado, emprega blocos Mamba bidirecionais que não apenas fornecem um contexto visual global dependente de dados, mas também incorporam incorporações de posição para uma compreensão visual mais sutil e com reconhecimento de localização. Essa abordagem permite que o Vim alcance maior desempenho em tarefas importantes, como classificação ImageNet, detecção de objetos COCO e segmentação semântica ADE20K, em comparação com transformadores de visão estabelecidos como DeiT.

Os experimentos realizados com o Vim no conjunto de dados ImageNet-1K, que contém 1.28 milhão de imagens de treinamento em 1000 categorias, demonstram sua superioridade em termos de eficiência computacional e de memória. Especificamente, o Vim é 2.8 vezes mais rápido que o DeiT, economizando até 86.8% da memória da GPU durante a inferência em lote para imagens de alta resolução. Em tarefas de segmentação semântica no conjunto de dados ADE20K, o Vim supera consistentemente o DeiT em diferentes escalas, alcançando desempenho semelhante ao backbone ResNet-101 com quase metade dos parâmetros.

Além disso, em tarefas de detecção de objetos e segmentação de instâncias no conjunto de dados COCO 2017, o Vim supera o DeiT com margens significativas, demonstrando sua melhor capacidade de aprendizagem de contexto de longo alcance. Esse desempenho é particularmente notável porque o Vim opera de maneira pura de modelagem de sequência, sem a necessidade de anteriores 2D em seu backbone, o que é um requisito comum em abordagens tradicionais baseadas em transformadores.

A modelagem de espaço de estado bidirecional e o design consciente de hardware do Vim não apenas melhoram sua eficiência computacional, mas também abrem novas possibilidades para sua aplicação em várias tarefas de visão de alta resolução. As perspectivas futuras do Vim incluem sua aplicação em tarefas não supervisionadas, como pré-treinamento de modelagem de imagens de máscara, tarefas multimodais, como pré-treinamento estilo CLIP e análise de imagens médicas de alta resolução, imagens de sensoriamento remoto e vídeos longos.

Concluindo, a abordagem inovadora do Vision Mamba marca um avanço fundamental na tecnologia de visão de IA. Ao superar as limitações dos transformadores de visão tradicionais, o Vim está preparado para se tornar a espinha dorsal da próxima geração para uma ampla gama de aplicações de IA baseadas em visão.

Fonte da imagem: Shutterstock

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Carimbo de hora: 19 de janeiro de 2024

Carimbo de hora: 13 de janeiro de 2022

Vision Mamba: Um Novo Paradigma em Visão de IA com Modelos de Espaço de Estado Bidirecional

Republicado por Platão

Mais de Notícias do Blockchain

Coreia do Sul avança projeto piloto de CBDC: Jeju, Busan e Incheon são selecionadas como regiões de teste

nCore Games levanta US $ 10 milhões em financiamento, pronto para novas ofertas da Web 3.0

Mercado de caixas eletrônicos de criptomoedas deve atingir US$ 1.88 bilhão até 2028 com CAGR de 59.2%

Binance contrata ex-procurador-adjunto dos EUA como seu primeiro vice-conselheiro geral

Spot Bitcoin ETFs: transformando o cenário de investimentos em criptografia

Binance adiciona pares de negociação APT/USDC, GALA/USDC, NEO/USDC, OMNI/BRL e STX/USDC

Presidente da SEC: IA pode levar à próxima crise financeira

Ex-secretário financeiro de Hong Kong se junta à empresa de criptomoedas StashAway como consultor

Legisladores britânicos percebem riscos sobre o uso da libra digital

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta