Vision Mamba: un nuevo paradigma en visión de IA con modelos de espacio de estados bidireccionales

Vision Mamba: un nuevo paradigma en visión de IA con modelos de espacio de estados bidireccionales

Vision Mamba: un nuevo paradigma en visión de IA con modelos de espacio de estados bidireccionales PlatoBlockchain Data Intelligence. Búsqueda vertical. Ai.

El campo de la inteligencia artificial (IA) y el aprendizaje automático continúa evolucionando, y Vision Mamba (Vim) emerge como un proyecto innovador en el ámbito de la visión de IA. Recientemente, el académico “Vision Mamba: aprendizaje eficiente de representación visual con bidireccional” introduce este enfoque en el ámbito del aprendizaje automático. Desarrollado utilizando modelos de espacio de estados (SSM) con diseños eficientes que tienen en cuenta el hardware, Vim representa un salto significativo en el aprendizaje de la representación visual.

Vim aborda el desafío crítico de representar eficientemente datos visuales, una tarea que tradicionalmente ha dependido de mecanismos de autoatención dentro de Vision Transformers (ViT). Los ViT, a pesar de su éxito, enfrentan limitaciones en el procesamiento de imágenes de alta resolución debido a limitaciones de velocidad y uso de memoria. Vim, por el contrario, emplea bloques Mamba bidireccionales que no solo proporcionan un contexto visual global dependiente de los datos, sino que también incorporan incrustaciones de posición para una comprensión visual más matizada y consciente de la ubicación. Este enfoque permite a Vim lograr un mayor rendimiento en tareas clave como la clasificación ImageNet, la detección de objetos COCO y la segmentación semántica ADE20K, en comparación con transformadores de visión establecidos como DeiT.

Los experimentos realizados con Vim en el conjunto de datos ImageNet-1K, que contiene 1.28 millones de imágenes de entrenamiento en 1000 categorías, demuestran su superioridad en términos de eficiencia computacional y de memoria. Específicamente, se informa que Vim es 2.8 veces más rápido que DeiT, ahorrando hasta un 86.8% de memoria de GPU durante la inferencia por lotes para imágenes de alta resolución. En tareas de segmentación semántica en el conjunto de datos ADE20K, Vim supera consistentemente a DeiT en diferentes escalas, logrando un rendimiento similar al de la red troncal ResNet-101 con casi la mitad de los parámetros.

Además, en las tareas de detección de objetos y segmentación de instancias en el conjunto de datos COCO 2017, Vim supera a DeiT con márgenes significativos, lo que demuestra su mejor capacidad de aprendizaje de contexto de largo alcance. Este rendimiento es particularmente notable ya que Vim opera en forma de modelado de secuencia pura, sin la necesidad de antecedentes 2D en su columna vertebral, lo cual es un requisito común en los enfoques tradicionales basados ​​en transformadores.

El modelado bidireccional del espacio de estados y el diseño consciente del hardware de Vim no solo mejoran su eficiencia computacional sino que también abren nuevas posibilidades para su aplicación en diversas tareas de visión de alta resolución. Las perspectivas futuras de Vim incluyen su aplicación en tareas no supervisadas como el preentrenamiento del modelado de imágenes de máscaras, tareas multimodales como el preentrenamiento estilo CLIP y el análisis de imágenes médicas de alta resolución, imágenes de detección remota y videos largos.

En conclusión, el enfoque innovador de Vision Mamba marca un avance fundamental en la tecnología de visión de IA. Al superar las limitaciones de los transformadores de visión tradicionales, Vim está preparado para convertirse en la columna vertebral de próxima generación para una amplia gama de aplicaciones de IA basadas en visión.

Fuente de la imagen: Shutterstock

Sello de tiempo:

Mas de Blockchain Noticias