Vision Mamba: un nuevo paradigma en visión de IA con modelos de espacio de estados bidireccionales

Reeditado por Platón

seguidores: 0

Vision Mamba: un nuevo paradigma en visión de IA con modelos de espacio de estados bidireccionales PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

El campo de la inteligencia artificial (IA) y el aprendizaje automático continúa evolucionando, y Vision Mamba (Vim) emerge como un proyecto innovador en el ámbito de la visión de IA. Recientemente, el académico “Vision Mamba: aprendizaje eficiente de representación visual con bidireccional” introduce este enfoque en el ámbito del aprendizaje automático. Desarrollado utilizando modelos de espacio de estados (SSM) con diseños eficientes que tienen en cuenta el hardware, Vim representa un salto significativo en el aprendizaje de la representación visual.

Vim aborda el desafío crítico de representar eficientemente datos visuales, una tarea que tradicionalmente ha dependido de mecanismos de autoatención dentro de Vision Transformers (ViT). Los ViT, a pesar de su éxito, enfrentan limitaciones en el procesamiento de imágenes de alta resolución debido a limitaciones de velocidad y uso de memoria. Vim, por el contrario, emplea bloques Mamba bidireccionales que no solo proporcionan un contexto visual global dependiente de los datos, sino que también incorporan incrustaciones de posición para una comprensión visual más matizada y consciente de la ubicación. Este enfoque permite a Vim lograr un mayor rendimiento en tareas clave como la clasificación ImageNet, la detección de objetos COCO y la segmentación semántica ADE20K, en comparación con transformadores de visión establecidos como DeiT.

Los experimentos realizados con Vim en el conjunto de datos ImageNet-1K, que contiene 1.28 millones de imágenes de entrenamiento en 1000 categorías, demuestran su superioridad en términos de eficiencia computacional y de memoria. Específicamente, se informa que Vim es 2.8 veces más rápido que DeiT, ahorrando hasta un 86.8% de memoria de GPU durante la inferencia por lotes para imágenes de alta resolución. En tareas de segmentación semántica en el conjunto de datos ADE20K, Vim supera consistentemente a DeiT en diferentes escalas, logrando un rendimiento similar al de la red troncal ResNet-101 con casi la mitad de los parámetros.

Además, en las tareas de detección de objetos y segmentación de instancias en el conjunto de datos COCO 2017, Vim supera a DeiT con márgenes significativos, lo que demuestra su mejor capacidad de aprendizaje de contexto de largo alcance. Este rendimiento es particularmente notable ya que Vim opera en forma de modelado de secuencia pura, sin la necesidad de antecedentes 2D en su columna vertebral, lo cual es un requisito común en los enfoques tradicionales basados en transformadores.

El modelado bidireccional del espacio de estados y el diseño consciente del hardware de Vim no solo mejoran su eficiencia computacional sino que también abren nuevas posibilidades para su aplicación en diversas tareas de visión de alta resolución. Las perspectivas futuras de Vim incluyen su aplicación en tareas no supervisadas como el preentrenamiento del modelado de imágenes de máscaras, tareas multimodales como el preentrenamiento estilo CLIP y el análisis de imágenes médicas de alta resolución, imágenes de detección remota y videos largos.

En conclusión, el enfoque innovador de Vision Mamba marca un avance fundamental en la tecnología de visión de IA. Al superar las limitaciones de los transformadores de visión tradicionales, Vim está preparado para convertirse en la columna vertebral de próxima generación para una amplia gama de aplicaciones de IA basadas en visión.

Fuente de la imagen: Shutterstock

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
Fuente: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Sello de tiempo: Enero 19, 2024

Sello de tiempo: 16 de mayo de 2023

Vision Mamba: un nuevo paradigma en visión de IA con modelos de espacio de estados bidireccionales

Reeditado por Platón

Mas de Blockchain Noticias

Pantera Capital planea recaudar mil millones de dólares para un nuevo fondo que ofrece exposición a criptoactivos

Binance adquirirá FTX Global en medio de un mercado más amplio FUD

La reclamación fiscal de 24 mil millones de dólares del IRS amenaza la recuperación de las víctimas de FTX

Las acciones tecnológicas crecerán este año gracias a Crypto & Metaverse, dice un analista de Wall Street

Elon Musk avanza con planes de IA para Twitter

La plataforma de criptoriesgo Solidus Labs contrata a la ex comisionada de la CFTC, Dawn Stump, como asesora estratégica

Las actividades ilícitas en el sector DeFi aumentaron en los últimos dos años: Chainalysis

Bitcoin enfrenta una gran resistencia en el promedio móvil de 200 semanas

PANGU de HK juega a un mago en Metaverse, expandiendo el modelo P2E para el crecimiento empresarial

Análisis de precios de Bitcoin: navegación entre niveles clave de soporte y resistencia

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta