Vision Mamba: een nieuw paradigma in AI-visie met bidirectionele State Space-modellen

Vision Mamba: een nieuw paradigma in AI-visie met bidirectionele State Space-modellen

Vision Mamba: een nieuw paradigma in AI-visie met bidirectionele State Space-modellen PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Het gebied van kunstmatige intelligentie (AI) en machinaal leren blijft evolueren, waarbij Vision Mamba (Vim) naar voren komt als een baanbrekend project op het gebied van AI-visie. Onlangs de academicus papier “Vision Mamba - Efficient Visual Representation Learning with Bidirectioneel” introduceert deze aanpak op het gebied van machinaal leren. Ontwikkeld met behulp van State Space Models (SSM's) met efficiënte hardwarebewuste ontwerpen, vertegenwoordigt Vim een ​​aanzienlijke sprong in het leren van visuele representatie.

Vim gaat de cruciale uitdaging aan van het efficiënt representeren van visuele gegevens, een taak die traditioneel afhankelijk was van zelfaandachtsmechanismen binnen Vision Transformers (ViTs). Ondanks hun succes worden ViT's geconfronteerd met beperkingen bij het verwerken van afbeeldingen met hoge resolutie als gevolg van beperkingen op het gebied van snelheid en geheugengebruik. Vim maakt daarentegen gebruik van bidirectionele Mamba-blokken die niet alleen een gegevensafhankelijke mondiale visuele context bieden, maar ook positie-inbedding bevatten voor een genuanceerder, locatiebewust visueel begrip. Deze aanpak stelt Vim in staat betere prestaties te behalen op belangrijke taken zoals ImageNet-classificatie, COCO-objectdetectie en ADE20K semantische segmentatie, vergeleken met gevestigde visietransformatoren zoals DeiT.

De experimenten die met Vim zijn uitgevoerd op de ImageNet-1K-dataset, die 1.28 miljoen trainingsbeelden in 1000 categorieën bevat, demonstreren de superioriteit ervan op het gebied van reken- en geheugenefficiëntie. Concreet zou Vim 2.8 keer sneller zijn dan DeiT, waardoor tot 86.8% GPU-geheugen wordt bespaard tijdens batch-inferentie voor afbeeldingen met hoge resolutie. Bij semantische segmentatietaken op de ADE20K-dataset presteert Vim consistent beter dan DeiT op verschillende schaalniveaus, waarbij vergelijkbare prestaties worden behaald als de ResNet-101-backbone met bijna de helft van de parameters.

Bovendien overtreft Vim bij objectdetectie- en instantiesegmentatietaken op de COCO 2017-dataset DeiT met aanzienlijke marges, wat zijn betere contextleervermogen op lange afstand aantoont. Deze prestatie is vooral opmerkelijk omdat Vim op een pure sequentiemodelleringswijze werkt, zonder de noodzaak van 2D-priors in de ruggengraat, wat een veel voorkomende vereiste is in traditionele, op transformatoren gebaseerde benaderingen.

Vim's bidirectionele toestandsruimtemodellering en hardwarebewust ontwerp verbeteren niet alleen de rekenefficiëntie, maar openen ook nieuwe mogelijkheden voor de toepassing ervan in verschillende visietaken met hoge resolutie. Toekomstperspectieven voor Vim omvatten de toepassing ervan in taken zonder toezicht, zoals voortraining van maskerbeeldmodellering, multimodale taken zoals voortraining in CLIP-stijl, en de analyse van medische beelden met hoge resolutie, teledetectiebeelden en lange video's.

Kortom, de innovatieve aanpak van Vision Mamba markeert een cruciale vooruitgang in AI-visietechnologie. Door de beperkingen van traditionele vision-transformatoren te overwinnen, staat Vim klaar om de ruggengraat van de volgende generatie te worden voor een breed scala aan vision-gebaseerde AI-toepassingen.

Afbeeldingsbron: Shutterstock

Tijdstempel:

Meer van Blockchain News