Vision Mamba: Ein neues Paradigma in der KI-Vision mit bidirektionalen Zustandsraummodellen

Neuauflage von Plato

Verfolger: 0

Vision Mamba: Ein neues Paradigma in der KI-Vision mit bidirektionalen Zustandsraummodellen PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Der Bereich der künstlichen Intelligenz (KI) und des maschinellen Lernens entwickelt sich weiter, wobei sich Vision Mamba (Vim) zu einem bahnbrechenden Projekt im Bereich der KI-Vision entwickelt. Kürzlich hat der Akademiker Krepppapier „Vision Mamba – Efficient Visual Representation Learning with Bidirektional“ führt diesen Ansatz in den Bereich des maschinellen Lernens ein. Vim wurde unter Verwendung von Zustandsraummodellen (SSMs) mit effizienten hardwarebewussten Designs entwickelt und stellt einen bedeutenden Sprung beim Lernen visueller Darstellungen dar.

Vim befasst sich mit der entscheidenden Herausforderung der effizienten Darstellung visueller Daten, einer Aufgabe, die traditionell von Selbstaufmerksamkeitsmechanismen innerhalb von Vision Transformers (ViTs) abhängt. Trotz ihres Erfolgs stoßen ViTs aufgrund von Geschwindigkeits- und Speichernutzungsbeschränkungen auf Einschränkungen bei der Verarbeitung hochauflösender Bilder. Im Gegensatz dazu verwendet Vim bidirektionale Mamba-Blöcke, die nicht nur einen datenabhängigen globalen visuellen Kontext bereitstellen, sondern auch Positionseinbettungen für ein differenzierteres, ortsbezogenes visuelles Verständnis integrieren. Dieser Ansatz ermöglicht es Vim, im Vergleich zu etablierten Vision-Transformatoren wie DeiT eine höhere Leistung bei Schlüsselaufgaben wie der ImageNet-Klassifizierung, der COCO-Objekterkennung und der semantischen ADE20K-Segmentierung zu erreichen.

Die mit Vim durchgeführten Experimente am ImageNet-1K-Datensatz, der 1.28 Millionen Trainingsbilder in 1000 Kategorien enthält, zeigen seine Überlegenheit in Bezug auf Rechen- und Speichereffizienz. Konkret soll Vim 2.8-mal schneller als DeiT sein und bis zu 86.8 % GPU-Speicher bei der Batch-Inferenz für hochauflösende Bilder einsparen. Bei semantischen Segmentierungsaufgaben für den ADE20K-Datensatz übertrifft Vim DeiT auf verschiedenen Skalen durchweg und erreicht mit fast der Hälfte der Parameter eine ähnliche Leistung wie das ResNet-101-Backbone.

Darüber hinaus übertrifft Vim DeiT bei Objekterkennungs- und Instanzsegmentierungsaufgaben im COCO 2017-Datensatz mit erheblichen Margen und demonstriert damit seine bessere Fähigkeit zum Kontextlernen über große Entfernungen. Diese Leistung ist besonders bemerkenswert, da Vim auf reine Sequenzmodellierungsart arbeitet und keine 2D-Prioritäten in seinem Backbone benötigt, was bei herkömmlichen transformatorbasierten Ansätzen häufig erforderlich ist.

Die bidirektionale Zustandsraummodellierung und das hardwarebewusste Design von Vim verbessern nicht nur seine Recheneffizienz, sondern eröffnen auch neue Möglichkeiten für seine Anwendung bei verschiedenen hochauflösenden Bildverarbeitungsaufgaben. Zu den Zukunftsaussichten für Vim gehören seine Anwendung bei unbeaufsichtigten Aufgaben wie dem Vortraining zur Maskenbildmodellierung, multimodalen Aufgaben wie dem Vortraining im CLIP-Stil und der Analyse hochauflösender medizinischer Bilder, Fernerkundungsbilder und langer Videos.

Zusammenfassend lässt sich sagen, dass der innovative Ansatz von Vision Mamba einen entscheidenden Fortschritt in der KI-Vision-Technologie darstellt. Durch die Überwindung der Einschränkungen herkömmlicher Vision-Transformatoren ist Vim auf dem besten Weg, das Rückgrat der nächsten Generation für eine breite Palette visionbasierter KI-Anwendungen zu werden.

Bildquelle: Shutterstock

SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
PlatoESG. Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
PlatoHealth. Informationen zu Biotechnologie und klinischen Studien. Hier zugreifen.
Quelle: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Zeitstempel: 19. Januar 2024

Zeitstempel: 14. Dezember 2023

Vision Mamba: Ein neues Paradigma in der KI-Vision mit bidirektionalen Zustandsraummodellen

Neuauflage von Plato

Mehr von Blockchain News

Die 1-Milliarde-Dollar-Cloud-Infrastruktur von Voltage Park zielt auf den Mangel an ML-Rechnern ab

Hong Kong Monetary Authority untersucht die Regulierung virtueller Vermögenswerte in den VAE und hebt konvergierende globale Standards hervor

Nigerias eNaira verzeichnet seit Oktober 200,000 Transaktionen im Wert von über 10 Millionen US-Dollar

BlockFi zahlt 100 Millionen Dollar als Vergleich an die US-Börsenaufsichtsbehörde SEC

Moskauer Börse entwirft Gesetzentwurf zum Angebot von digitalen Finanzanlagen und Wertpapierhandel

Kwil erhält Finanzierung in Höhe von 9.6 Mio. USD von FTX Ventures und DCG

Gemini-Bericht zeigt, dass Frauen bei Web3-Investitionen hinter Männern zurückbleiben

Worldcoin stellt World ID 2.0 vor: Revolutionierung der digitalen Identitätsprüfung

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto