Vision Mamba: nowy paradygmat w wizji AI z dwukierunkowymi modelami przestrzeni stanów

Vision Mamba: nowy paradygmat w wizji AI z dwukierunkowymi modelami przestrzeni stanów

Vision Mamba: nowy paradygmat w wizji AI z dwukierunkowymi modelami przestrzeni stanów PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Dziedzina sztucznej inteligencji (AI) i uczenia maszynowego wciąż ewoluuje, a Vision Mamba (Vim) staje się przełomowym projektem w dziedzinie wizji AI. Ostatnio akademik papier „Vision Mamba – efektywna nauka reprezentacji wizualnej z dwukierunkowością” wprowadza to podejście w dziedzinie uczenia maszynowego. Opracowany przy użyciu modeli przestrzeni stanów (SSM) z wydajnymi projektami uwzględniającymi sprzęt, Vim stanowi znaczący krok w nauce reprezentacji wizualnej.

Vim podejmuje kluczowe wyzwanie, jakim jest efektywne reprezentowanie danych wizualnych, zadanie, które tradycyjnie opierało się na mechanizmach samouważności w transformatorach wizyjnych (ViT). ViT, pomimo swojego sukcesu, napotykają ograniczenia w przetwarzaniu obrazów o wysokiej rozdzielczości ze względu na ograniczenia szybkości i wykorzystania pamięci. Vim natomiast wykorzystuje dwukierunkowe bloki Mamba, które nie tylko zapewniają zależny od danych globalny kontekst wizualny, ale także zawierają osadzanie pozycji dla bardziej dopracowanego, uwzględniającego lokalizację zrozumienia wizualnego. Takie podejście umożliwia Vimowi osiągnięcie wyższej wydajności w kluczowych zadaniach, takich jak klasyfikacja ImageNet, wykrywanie obiektów COCO i segmentacja semantyczna ADE20K, w porównaniu do uznanych transformatorów wizyjnych, takich jak DeiT​​.

Eksperymenty przeprowadzone z Vimem na zbiorze danych ImageNet-1K, który zawiera 1.28 miliona obrazów treningowych w 1000 kategoriach, pokazują jego wyższość pod względem wydajności obliczeniowej i pamięci. W szczególności Vim jest 2.8 razy szybszy niż DeiT, oszczędzając do 86.8% pamięci GPU podczas wnioskowania wsadowego dla obrazów o wysokiej rozdzielczości. W zadaniach segmentacji semantycznej na zbiorze danych ADE20K, Vim konsekwentnie przewyższa DeiT w różnych skalach, osiągając podobną wydajność do szkieletu ResNet-101 z prawie połową parametrów.

Co więcej, w zadaniach wykrywania obiektów i segmentacji instancji w zbiorze danych COCO 2017, Vim przewyższa DeiT ze znacznymi marginesami, demonstrując lepszą zdolność uczenia się kontekstowego dalekiego zasięgu. Ta wydajność jest szczególnie godna uwagi, ponieważ Vim działa w sposób czystego modelowania sekwencji, bez potrzeby stosowania priorytetów 2D w swoim szkielecie, co jest powszechnym wymaganiem w tradycyjnych podejściach opartych na transformatorach.

Dwukierunkowe modelowanie przestrzeni stanów i projektowanie uwzględniające sprzęt Vima nie tylko zwiększają jego wydajność obliczeniową, ale także otwierają nowe możliwości jego zastosowania w różnych zadaniach wizyjnych o wysokiej rozdzielczości. Perspektywy na przyszłość dla Vima obejmują jego zastosowanie w zadaniach nienadzorowanych, takich jak modelowanie obrazu maski, wstępne szkolenie, zadania multimodalne, takie jak wstępne szkolenie w stylu CLIP, oraz analiza obrazów medycznych o wysokiej rozdzielczości, obrazów teledetekcyjnych i długich filmów.

Podsumowując, innowacyjne podejście Vision Mamba oznacza kluczowy postęp w technologii wizyjnej AI. Pokonując ograniczenia tradycyjnych transformatorów wizyjnych, Vim ma szansę stać się szkieletem nowej generacji dla szerokiej gamy aplikacji AI opartych na wizji.

Źródło obrazu: Shutterstock

Znak czasu:

Więcej z Blok Chain Aktualności