Vision Mamba: Một mô hình mới trong tầm nhìn AI với các mô hình không gian trạng thái hai chiều

Được xuất bản lại bởi Plato

Người theo dõi: 0

Vision Mamba: Một mô hình mới trong tầm nhìn AI với các mô hình không gian trạng thái hai chiều Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Lĩnh vực trí tuệ nhân tạo (AI) và học máy tiếp tục phát triển, với Vision Mamba (Vim) nổi lên như một dự án đột phá trong lĩnh vực tầm nhìn AI. Gần đây, giới học thuật giấy “Vision Mamba- Học tập biểu diễn trực quan hiệu quả với hai chiều” giới thiệu phương pháp này trong lĩnh vực học máy. Được phát triển bằng cách sử dụng các mô hình không gian trạng thái (SSM) với thiết kế nhận biết phần cứng hiệu quả, Vim thể hiện một bước nhảy vọt đáng kể trong việc học cách biểu diễn trực quan.

Vim giải quyết thách thức quan trọng trong việc thể hiện dữ liệu trực quan một cách hiệu quả, một nhiệm vụ trước đây phụ thuộc vào cơ chế tự chú ý trong Vision Transformers (ViTs). ViT, mặc dù thành công nhưng vẫn gặp phải những hạn chế trong việc xử lý hình ảnh có độ phân giải cao do hạn chế về tốc độ và mức sử dụng bộ nhớ. Ngược lại, Vim sử dụng các khối Mamba hai chiều không chỉ cung cấp bối cảnh trực quan toàn cầu phụ thuộc vào dữ liệu mà còn kết hợp các phần nhúng vị trí để hiểu rõ hơn về hình ảnh, nhận biết vị trí. Cách tiếp cận này cho phép Vim đạt được hiệu suất cao hơn trong các nhiệm vụ chính như phân loại ImageNet, phát hiện đối tượng COCO và phân đoạn ngữ nghĩa ADE20K, so với các công cụ biến đổi tầm nhìn đã được thiết lập như DeiT.

Các thử nghiệm được thực hiện với Vim trên bộ dữ liệu ImageNet-1K, chứa 1.28 triệu hình ảnh đào tạo trên 1000 danh mục, chứng tỏ tính ưu việt của nó về hiệu quả tính toán và bộ nhớ. Cụ thể, Vim được báo cáo là nhanh hơn 2.8 lần so với DeiT, tiết kiệm tới 86.8% bộ nhớ GPU trong quá trình suy luận hàng loạt cho hình ảnh có độ phân giải cao. Trong các nhiệm vụ phân đoạn ngữ nghĩa trên tập dữ liệu ADE20K, Vim luôn vượt trội hơn DeiT trên các quy mô khác nhau, đạt được hiệu suất tương tự như đường trục ResNet-101 với gần một nửa tham số.

Hơn nữa, trong các nhiệm vụ phát hiện đối tượng và phân đoạn cá thể trên tập dữ liệu COCO 2017, Vim vượt qua DeiT với lợi nhuận đáng kể, thể hiện khả năng học tập ngữ cảnh tầm xa tốt hơn. Hiệu suất này đặc biệt đáng chú ý vì Vim hoạt động theo cách mô hình hóa trình tự thuần túy mà không cần các phần trước 2D trong xương sống của nó, đây là yêu cầu phổ biến trong các phương pháp tiếp cận dựa trên máy biến áp truyền thống.

Mô hình hóa không gian trạng thái hai chiều và thiết kế nhận biết phần cứng của Vim không chỉ nâng cao hiệu quả tính toán mà còn mở ra những khả năng mới cho ứng dụng của nó trong các nhiệm vụ thị giác có độ phân giải cao khác nhau. Triển vọng trong tương lai của Vim bao gồm ứng dụng của nó trong các nhiệm vụ không được giám sát như đào tạo trước mô hình hình ảnh mặt nạ, các nhiệm vụ đa phương thức như đào tạo trước kiểu CLIP và phân tích hình ảnh y tế có độ phân giải cao, hình ảnh viễn thám và video dài.

Tóm lại, cách tiếp cận đổi mới của Vision Mamba đánh dấu một bước tiến quan trọng trong công nghệ thị giác AI. Bằng cách khắc phục những hạn chế của bộ chuyển đổi tầm nhìn truyền thống, Vim sẵn sàng trở thành trụ cột thế hệ tiếp theo cho một loạt các ứng dụng AI dựa trên tầm nhìn.

Nguồn hình ảnh: Shutterstock

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
nguồn: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

Dấu thời gian: 19 Tháng một, 2024

Dấu thời gian: Tháng 5, 2023

Vision Mamba: Một mô hình mới trong tầm nhìn AI với các mô hình không gian trạng thái hai chiều

Được xuất bản lại bởi Plato

Thêm từ Tin tức Blockchain

Nguồn cung Ethereum chậm lại sau khi 'hợp nhất', nó sẽ thúc đẩy báo cáo đầu tư?

Người sáng lập TRON Justin Sun có thể là người mua lại thực sự của Huobi Global: Nguồn

Ngân hàng Trung Quốc Hồng Kông hoàn thành thử nghiệm Sandbox nhân dân tệ kỹ thuật số

Web3 Foundation tuyên bố DOT là một phần mềm chứ không phải bảo mật

MetaMask Snaps nâng cao tính bảo mật và khả năng tương tác trong không gian Web3

Bitcoin lật tẩy thị thực một lần nữa

BitMEX liệt kê Luna 2.0, ký quỹ ETH và các tùy chọn thanh toán

Các quan chức ngân khố của Vương quốc Anh đã gặp gỡ với các công ty tiền điện tử và đầu tư mạo hiểm trong quý 1: Nguồn

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản