Vision Mamba: 양방향 상태 공간 모델을 사용한 AI 비전의 새로운 패러다임

Vision Mamba: 양방향 상태 공간 모델을 사용한 AI 비전의 새로운 패러다임

Vision Mamba: 양방향 상태 공간 모델 PlatoBlockchain 데이터 인텔리전스를 갖춘 AI 비전의 새로운 패러다임. 수직 검색. 일체 포함.

인공지능(AI)과 머신러닝 분야는 계속 진화하고 있으며, Vision Mamba(Vim)는 AI 비전 영역의 획기적인 프로젝트로 떠오르고 있습니다. 최근 학계에서는 종이 "Vision Mamba - 양방향을 통한 효율적인 시각적 표현 학습"은 기계 학습 영역에서 이러한 접근 방식을 소개합니다. 효율적인 하드웨어 인식 설계를 갖춘 상태 공간 모델(SSM)을 사용하여 개발된 Vim은 시각적 표현 학습 분야에서 상당한 도약을 나타냅니다.

Vim은 전통적으로 ViT(Vision Transformers) 내의 self-attention 메커니즘에 의존해 왔던 작업인 시각적 데이터를 효율적으로 표현하는 중요한 과제를 해결합니다. ViT는 성공에도 불구하고 속도 및 메모리 사용 제약으로 인해 고해상도 이미지 처리에 한계가 있습니다. 이와 대조적으로 Vim은 데이터 의존적인 전역 시각적 컨텍스트를 제공할 뿐만 아니라 보다 미묘한 위치 인식 시각적 이해를 위해 위치 임베딩을 통합하는 양방향 Mamba 블록을 사용합니다. 이 접근 방식을 통해 Vim은 DeiT​와 같은 기존 비전 변환기에 비해 ImageNet 분류, COCO 개체 감지 및 ADE20K 의미 체계 분할과 같은 주요 작업에서 더 높은 성능을 달성할 수 있습니다.

1개 카테고리에 걸쳐 1.28만 개의 훈련 이미지가 포함된 ImageNet-1000K 데이터 세트에서 Vim을 사용하여 수행한 실험은 계산 및 메모리 효율성 측면에서 Vim의 우수성을 보여줍니다. 특히 Vim은 DeiT보다 2.8배 빠르며 고해상도 이미지에 대한 일괄 추론 중에 GPU 메모리를 최대 86.8% 절약하는 것으로 보고되었습니다. ADE20K 데이터세트의 의미론적 분할 작업에서 Vim은 다양한 규모에서 지속적으로 DeiT보다 뛰어난 성능을 발휘하여 거의 절반의 매개변수로 ResNet-101 백본과 유사한 성능을 달성합니다.​​

또한 COCO 2017 데이터 세트의 객체 감지 및 인스턴스 분할 작업에서 Vim은 상당한 마진으로 DeiT를 능가하여 더 나은 장거리 컨텍스트 학습 기능을 보여줍니다. 이러한 성능은 Vim이 기존 변환기 기반 접근 방식의 일반적인 요구 사항인 백본에 2D 사전이 필요 없이 순수한 시퀀스 모델링 방식으로 작동하기 때문에 특히 주목할 만합니다.

Vim의 양방향 상태 공간 모델링 및 하드웨어 인식 설계는 계산 효율성을 향상시킬 뿐만 아니라 다양한 고해상도 비전 작업에 적용할 수 있는 새로운 가능성을 열어줍니다. Vim의 미래 전망에는 마스크 이미지 모델링 사전 훈련과 같은 비지도 작업, CLIP 스타일 사전 훈련과 같은 다중 모달 작업, 고해상도 의료 이미지, 원격 감지 이미지 및 긴 비디오 분석에 대한 적용이 포함됩니다.

결론적으로 Vision Mamba의 혁신적인 접근 방식은 AI 비전 기술의 중추적인 발전을 의미합니다. 기존 비전 변환기의 한계를 극복함으로써 Vim은 광범위한 비전 기반 AI 애플리케이션을 위한 차세대 백본이 될 준비가 되어 있습니다.

이미지 출처 : Shutterstock

타임 스탬프 :

더보기 Blockchain News