Vision Mamba: een nieuw paradigma in AI-visie met bidirectionele staatsruimtemodellen

Heruitgegeven door Plato

volgers: 0

Vision Mamba: een nieuw paradigma in AI-visie met bidirectionele State Space-modellen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Het gebied van kunstmatige intelligentie (AI) en machinaal leren blijft evolueren, waarbij Vision Mamba (Vim) naar voren komt als een baanbrekend project op het gebied van AI-visie. Onlangs de academicus papier “Vision Mamba - Efficient Visual Representation Learning with Bidirectioneel” introduceert deze aanpak op het gebied van machinaal leren. Ontwikkeld met behulp van State Space Models (SSM's) met efficiënte hardwarebewuste ontwerpen, vertegenwoordigt Vim een aanzienlijke sprong in het leren van visuele representatie.

Vim gaat de cruciale uitdaging aan van het efficiënt representeren van visuele gegevens, een taak die traditioneel afhankelijk was van zelfaandachtsmechanismen binnen Vision Transformers (ViTs). Ondanks hun succes worden ViT's geconfronteerd met beperkingen bij het verwerken van afbeeldingen met hoge resolutie als gevolg van beperkingen op het gebied van snelheid en geheugengebruik. Vim maakt daarentegen gebruik van bidirectionele Mamba-blokken die niet alleen een gegevensafhankelijke mondiale visuele context bieden, maar ook positie-inbedding bevatten voor een genuanceerder, locatiebewust visueel begrip. Deze aanpak stelt Vim in staat betere prestaties te behalen op belangrijke taken zoals ImageNet-classificatie, COCO-objectdetectie en ADE20K semantische segmentatie, vergeleken met gevestigde visietransformatoren zoals DeiT.

De experimenten die met Vim zijn uitgevoerd op de ImageNet-1K-dataset, die 1.28 miljoen trainingsbeelden in 1000 categorieën bevat, demonstreren de superioriteit ervan op het gebied van reken- en geheugenefficiëntie. Concreet zou Vim 2.8 keer sneller zijn dan DeiT, waardoor tot 86.8% GPU-geheugen wordt bespaard tijdens batch-inferentie voor afbeeldingen met hoge resolutie. Bij semantische segmentatietaken op de ADE20K-dataset presteert Vim consistent beter dan DeiT op verschillende schaalniveaus, waarbij vergelijkbare prestaties worden behaald als de ResNet-101-backbone met bijna de helft van de parameters.

Bovendien overtreft Vim bij objectdetectie- en instantiesegmentatietaken op de COCO 2017-dataset DeiT met aanzienlijke marges, wat zijn betere contextleervermogen op lange afstand aantoont. Deze prestatie is vooral opmerkelijk omdat Vim op een pure sequentiemodelleringswijze werkt, zonder de noodzaak van 2D-priors in de ruggengraat, wat een veel voorkomende vereiste is in traditionele, op transformatoren gebaseerde benaderingen.

Vim's bidirectionele toestandsruimtemodellering en hardwarebewust ontwerp verbeteren niet alleen de rekenefficiëntie, maar openen ook nieuwe mogelijkheden voor de toepassing ervan in verschillende visietaken met hoge resolutie. Toekomstperspectieven voor Vim omvatten de toepassing ervan in taken zonder toezicht, zoals voortraining van maskerbeeldmodellering, multimodale taken zoals voortraining in CLIP-stijl, en de analyse van medische beelden met hoge resolutie, teledetectiebeelden en lange video's.

Kortom, de innovatieve aanpak van Vision Mamba markeert een cruciale vooruitgang in AI-visietechnologie. Door de beperkingen van traditionele vision-transformatoren te overwinnen, staat Vim klaar om de ruggengraat van de volgende generatie te worden voor een breed scala aan vision-gebaseerde AI-toepassingen.

Afbeeldingsbron: Shutterstock

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
PlatoData.Network Verticale generatieve AI. Versterk jezelf. Toegang hier.
PlatoAiStream. Web3-intelligentie. Kennis versterkt. Toegang hier.
PlatoESG. carbon, CleanTech, Energie, Milieu, Zonne, Afvalbeheer. Toegang hier.
Plato Gezondheid. Intelligentie op het gebied van biotech en klinische proeven. Toegang hier.
Bron: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Tijdstempel: 19 januari 2024

Tijdstempel: December 14, 2023

Vision Mamba: een nieuw paradigma in AI-visie met bidirectionele State Space-modellen

Heruitgegeven door Plato

Meer van Blockchain News

De cloudinfrastructuur ter waarde van $ 1 miljard van Voltage Park richt zich op het tekort aan ML-computers

Hong Kong Monetary Authority onderzoekt regelgeving voor virtuele activa in de VAE en benadrukt convergerende wereldwijde normen

Nigeria's eNaira registreert sinds oktober 200,000 transacties met een waarde van meer dan $ 10 miljoen

BlockFi betaalt $ 100 miljoen aan schikking aan Amerikaanse SEC

Moscow Exchange stelt wetsvoorstel op om digitale financiële activa en effectenhandel aan te bieden

Kwil ontvangt $ 9.6 miljoen aan financiering van FTX Ventures en DCG

Gemini-rapport laat zien dat vrouwen achterblijven bij mannen in Web3-investeringen

Worldcoin introduceert World ID 2.0: een revolutie in digitale identiteitsverificatie

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account