Dziedzina sztucznej inteligencji (AI) i uczenia maszynowego wciąż ewoluuje, a Vision Mamba (Vim) staje się przełomowym projektem w dziedzinie wizji AI. Ostatnio akademik papier „Vision Mamba – efektywna nauka reprezentacji wizualnej z dwukierunkowością” wprowadza to podejście w dziedzinie uczenia maszynowego. Opracowany przy użyciu modeli przestrzeni stanów (SSM) z wydajnymi projektami uwzględniającymi sprzęt, Vim stanowi znaczący krok w nauce reprezentacji wizualnej.
Vim podejmuje kluczowe wyzwanie, jakim jest efektywne reprezentowanie danych wizualnych, zadanie, które tradycyjnie opierało się na mechanizmach samouważności w transformatorach wizyjnych (ViT). ViT, pomimo swojego sukcesu, napotykają ograniczenia w przetwarzaniu obrazów o wysokiej rozdzielczości ze względu na ograniczenia szybkości i wykorzystania pamięci. Vim natomiast wykorzystuje dwukierunkowe bloki Mamba, które nie tylko zapewniają zależny od danych globalny kontekst wizualny, ale także zawierają osadzanie pozycji dla bardziej dopracowanego, uwzględniającego lokalizację zrozumienia wizualnego. Takie podejście umożliwia Vimowi osiągnięcie wyższej wydajności w kluczowych zadaniach, takich jak klasyfikacja ImageNet, wykrywanie obiektów COCO i segmentacja semantyczna ADE20K, w porównaniu do uznanych transformatorów wizyjnych, takich jak DeiT.
Eksperymenty przeprowadzone z Vimem na zbiorze danych ImageNet-1K, który zawiera 1.28 miliona obrazów treningowych w 1000 kategoriach, pokazują jego wyższość pod względem wydajności obliczeniowej i pamięci. W szczególności Vim jest 2.8 razy szybszy niż DeiT, oszczędzając do 86.8% pamięci GPU podczas wnioskowania wsadowego dla obrazów o wysokiej rozdzielczości. W zadaniach segmentacji semantycznej na zbiorze danych ADE20K, Vim konsekwentnie przewyższa DeiT w różnych skalach, osiągając podobną wydajność do szkieletu ResNet-101 z prawie połową parametrów.
Co więcej, w zadaniach wykrywania obiektów i segmentacji instancji w zbiorze danych COCO 2017, Vim przewyższa DeiT ze znacznymi marginesami, demonstrując lepszą zdolność uczenia się kontekstowego dalekiego zasięgu. Ta wydajność jest szczególnie godna uwagi, ponieważ Vim działa w sposób czystego modelowania sekwencji, bez potrzeby stosowania priorytetów 2D w swoim szkielecie, co jest powszechnym wymaganiem w tradycyjnych podejściach opartych na transformatorach.
Dwukierunkowe modelowanie przestrzeni stanów i projektowanie uwzględniające sprzęt Vima nie tylko zwiększają jego wydajność obliczeniową, ale także otwierają nowe możliwości jego zastosowania w różnych zadaniach wizyjnych o wysokiej rozdzielczości. Perspektywy na przyszłość dla Vima obejmują jego zastosowanie w zadaniach nienadzorowanych, takich jak modelowanie obrazu maski, wstępne szkolenie, zadania multimodalne, takie jak wstępne szkolenie w stylu CLIP, oraz analiza obrazów medycznych o wysokiej rozdzielczości, obrazów teledetekcyjnych i długich filmów.
Podsumowując, innowacyjne podejście Vision Mamba oznacza kluczowy postęp w technologii wizyjnej AI. Pokonując ograniczenia tradycyjnych transformatorów wizyjnych, Vim ma szansę stać się szkieletem nowej generacji dla szerokiej gamy aplikacji AI opartych na wizji.
Źródło obrazu: Shutterstock
- Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
- PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
- PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
- PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
- Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
- Źródło: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models
- :ma
- :Jest
- :nie
- $W GÓRĘ
- 1
- 2017
- 28
- 2D
- 8
- a
- akademicki
- Osiągać
- osiągnięcia
- w poprzek
- Adresy
- postęp
- AI
- również
- analiza
- i
- Zastosowanie
- aplikacje
- podejście
- awanse
- sztuczny
- sztuczna inteligencja
- Sztuczna inteligencja (AI)
- AS
- Kręgosłup
- BE
- stają się
- być
- Ulepsz Swój
- blockchain
- Bloki
- ale
- by
- kategorie
- wyzwanie
- klasyfikacja
- coco
- wspólny
- w porównaniu
- obliczeniowy
- konkluzja
- przeprowadzone
- konsekwentnie
- zawiera
- kontekst
- ciągły
- kontrast
- krytyczny
- dane
- wykazać
- demonstrowanie
- zależny
- Wnętrze
- projekty
- Mimo
- Wykrywanie
- różne
- z powodu
- podczas
- efektywność
- wydajny
- skutecznie
- wschodzących
- zatrudnia
- Umożliwia
- wzmacniać
- ustanowiony
- ewoluuje
- eksperymenty
- Twarz
- szybciej
- pole
- W razie zamówieenia projektu
- przyszłość
- Globalne
- GPU
- przełomowy
- Pół
- wysoka rozdzielczość
- wyższy
- HTTPS
- obraz
- zdjęcia
- in
- zawierać
- włączać
- Innowacyjny
- przykład
- Segmentacja instancji
- Inteligencja
- Przedstawia
- JEGO
- jpg
- Klawisz
- Skakać
- nauka
- lubić
- Ograniczenia
- długo
- maszyna
- uczenie maszynowe
- sposób
- marginesy
- maska
- Mechanizmy
- medyczny
- Pamięć
- milion
- modelowanie
- modele
- jeszcze
- prawie
- Potrzebować
- Nowości
- aktualności
- następna generacja
- dostojnik
- przedmiot
- Wykrywanie obiektów
- of
- on
- tylko
- koncepcja
- działa
- Przewyższa
- przezwyciężaniu
- paradygmat
- szczególnie
- jest gwarancją najlepszej jakości, które mogą dostarczyć Ci Twoje monitory,
- kluczowy
- plato
- Analiza danych Platona
- PlatoDane
- Gotowy
- position
- możliwości
- przetwarzanie
- projekt
- horyzont
- zapewniać
- zasięg
- królestwo
- niedawno
- zdalny
- Zgłoszone
- reprezentacja
- reprezentowanie
- reprezentuje
- wymaganie
- s
- oszczędność
- waga
- segmentacja
- semantyczny
- Sekwencja
- znaczący
- podobny
- Źródło
- Typ przestrzeni
- swoiście
- prędkość
- stojaki
- Stan
- sukces
- taki
- przewyższa
- Zadanie
- zadania
- Technologia
- REGULAMIN
- niż
- że
- Połączenia
- ich
- to
- czasy
- do
- tradycyjny
- tradycyjnie
- Trening
- Transformatory
- zrozumienie
- Stosowanie
- za pomocą
- różnorodny
- wizja
- wizualny
- który
- szeroki
- Szeroki zasięg
- w
- w ciągu
- bez
- zefirnet