Vision Mamba: nowy paradygmat w wizji AI z dwukierunkowymi modelami przestrzeni stanów

Opublikowane ponownie przez Plato

Obserwuje: 0

Vision Mamba: nowy paradygmat w wizji AI z dwukierunkowymi modelami przestrzeni stanów PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Dziedzina sztucznej inteligencji (AI) i uczenia maszynowego wciąż ewoluuje, a Vision Mamba (Vim) staje się przełomowym projektem w dziedzinie wizji AI. Ostatnio akademik papier „Vision Mamba – efektywna nauka reprezentacji wizualnej z dwukierunkowością” wprowadza to podejście w dziedzinie uczenia maszynowego. Opracowany przy użyciu modeli przestrzeni stanów (SSM) z wydajnymi projektami uwzględniającymi sprzęt, Vim stanowi znaczący krok w nauce reprezentacji wizualnej.

Vim podejmuje kluczowe wyzwanie, jakim jest efektywne reprezentowanie danych wizualnych, zadanie, które tradycyjnie opierało się na mechanizmach samouważności w transformatorach wizyjnych (ViT). ViT, pomimo swojego sukcesu, napotykają ograniczenia w przetwarzaniu obrazów o wysokiej rozdzielczości ze względu na ograniczenia szybkości i wykorzystania pamięci. Vim natomiast wykorzystuje dwukierunkowe bloki Mamba, które nie tylko zapewniają zależny od danych globalny kontekst wizualny, ale także zawierają osadzanie pozycji dla bardziej dopracowanego, uwzględniającego lokalizację zrozumienia wizualnego. Takie podejście umożliwia Vimowi osiągnięcie wyższej wydajności w kluczowych zadaniach, takich jak klasyfikacja ImageNet, wykrywanie obiektów COCO i segmentacja semantyczna ADE20K, w porównaniu do uznanych transformatorów wizyjnych, takich jak DeiT.

Eksperymenty przeprowadzone z Vimem na zbiorze danych ImageNet-1K, który zawiera 1.28 miliona obrazów treningowych w 1000 kategoriach, pokazują jego wyższość pod względem wydajności obliczeniowej i pamięci. W szczególności Vim jest 2.8 razy szybszy niż DeiT, oszczędzając do 86.8% pamięci GPU podczas wnioskowania wsadowego dla obrazów o wysokiej rozdzielczości. W zadaniach segmentacji semantycznej na zbiorze danych ADE20K, Vim konsekwentnie przewyższa DeiT w różnych skalach, osiągając podobną wydajność do szkieletu ResNet-101 z prawie połową parametrów.

Co więcej, w zadaniach wykrywania obiektów i segmentacji instancji w zbiorze danych COCO 2017, Vim przewyższa DeiT ze znacznymi marginesami, demonstrując lepszą zdolność uczenia się kontekstowego dalekiego zasięgu. Ta wydajność jest szczególnie godna uwagi, ponieważ Vim działa w sposób czystego modelowania sekwencji, bez potrzeby stosowania priorytetów 2D w swoim szkielecie, co jest powszechnym wymaganiem w tradycyjnych podejściach opartych na transformatorach.

Dwukierunkowe modelowanie przestrzeni stanów i projektowanie uwzględniające sprzęt Vima nie tylko zwiększają jego wydajność obliczeniową, ale także otwierają nowe możliwości jego zastosowania w różnych zadaniach wizyjnych o wysokiej rozdzielczości. Perspektywy na przyszłość dla Vima obejmują jego zastosowanie w zadaniach nienadzorowanych, takich jak modelowanie obrazu maski, wstępne szkolenie, zadania multimodalne, takie jak wstępne szkolenie w stylu CLIP, oraz analiza obrazów medycznych o wysokiej rozdzielczości, obrazów teledetekcyjnych i długich filmów.

Podsumowując, innowacyjne podejście Vision Mamba oznacza kluczowy postęp w technologii wizyjnej AI. Pokonując ograniczenia tradycyjnych transformatorów wizyjnych, Vim ma szansę stać się szkieletem nowej generacji dla szerokiej gamy aplikacji AI opartych na wizji.

Źródło obrazu: Shutterstock

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
Źródło: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Znak czasu: 19 stycznia 2024 r.

Znak czasu: Mar 5, 2023

Vision Mamba: nowy paradygmat w wizji AI z dwukierunkowymi modelami przestrzeni stanów

Opublikowane ponownie przez Plato

Więcej z Blok Chain Aktualności

Podaż Ethereum zwolniła po „scaleniu”, czy będzie napędzać narrację inwestycyjną?

Założyciel TRON, Justin Sun, może być prawdziwym nabywcą Huobi Global: Źródła

Bank of China Hong Kong kończy wersję próbną Digital RMB Sandbox

Web3 Foundation twierdzi, że DOT jest fragmentem oprogramowania, a nie zabezpieczeniem

Przystawki MetaMask zwiększają bezpieczeństwo i interoperacyjność w przestrzeni Web3

Bitcoin ponownie odwraca wizę

BitMEX wymienia Luna 2.0, depozyt zabezpieczający ETH i opcje rozliczenia

Urzędnicy skarbu Wielkiej Brytanii spotkali się z firmami Crypto i Venture Capital w I kwartale: Źródła

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto