Vision Mamba: Một mô hình mới trong tầm nhìn AI với các mô hình không gian trạng thái hai chiều

Vision Mamba: Một mô hình mới trong tầm nhìn AI với các mô hình không gian trạng thái hai chiều

Vision Mamba: Một mô hình mới trong tầm nhìn AI với các mô hình không gian trạng thái hai chiều Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Lĩnh vực trí tuệ nhân tạo (AI) và học máy tiếp tục phát triển, với Vision Mamba (Vim) nổi lên như một dự án đột phá trong lĩnh vực tầm nhìn AI. Gần đây, giới học thuật giấy “Vision Mamba- Học tập biểu diễn trực quan hiệu quả với hai chiều” giới thiệu phương pháp này trong lĩnh vực học máy. Được phát triển bằng cách sử dụng các mô hình không gian trạng thái (SSM) với thiết kế nhận biết phần cứng hiệu quả, Vim thể hiện một bước nhảy vọt đáng kể trong việc học cách biểu diễn trực quan.

Vim giải quyết thách thức quan trọng trong việc thể hiện dữ liệu trực quan một cách hiệu quả, một nhiệm vụ trước đây phụ thuộc vào cơ chế tự chú ý trong Vision Transformers (ViTs). ViT, mặc dù thành công nhưng vẫn gặp phải những hạn chế trong việc xử lý hình ảnh có độ phân giải cao do hạn chế về tốc độ và mức sử dụng bộ nhớ. Ngược lại, Vim sử dụng các khối Mamba hai chiều không chỉ cung cấp bối cảnh trực quan toàn cầu phụ thuộc vào dữ liệu mà còn kết hợp các phần nhúng vị trí để hiểu rõ hơn về hình ảnh, nhận biết vị trí. Cách tiếp cận này cho phép Vim đạt được hiệu suất cao hơn trong các nhiệm vụ chính như phân loại ImageNet, phát hiện đối tượng COCO và phân đoạn ngữ nghĩa ADE20K, so với các công cụ biến đổi tầm nhìn đã được thiết lập như DeiT.

Các thử nghiệm được thực hiện với Vim trên bộ dữ liệu ImageNet-1K, chứa 1.28 triệu hình ảnh đào tạo trên 1000 danh mục, chứng tỏ tính ưu việt của nó về hiệu quả tính toán và bộ nhớ. Cụ thể, Vim được báo cáo là nhanh hơn 2.8 lần so với DeiT, tiết kiệm tới 86.8% bộ nhớ GPU trong quá trình suy luận hàng loạt cho hình ảnh có độ phân giải cao. Trong các nhiệm vụ phân đoạn ngữ nghĩa trên tập dữ liệu ADE20K, Vim luôn vượt trội hơn DeiT trên các quy mô khác nhau, đạt được hiệu suất tương tự như đường trục ResNet-101 với gần một nửa tham số.

Hơn nữa, trong các nhiệm vụ phát hiện đối tượng và phân đoạn cá thể trên tập dữ liệu COCO 2017, Vim vượt qua DeiT với lợi nhuận đáng kể, thể hiện khả năng học tập ngữ cảnh tầm xa tốt hơn. Hiệu suất này đặc biệt đáng chú ý vì Vim hoạt động theo cách mô hình hóa trình tự thuần túy mà không cần các phần trước 2D trong xương sống của nó, đây là yêu cầu phổ biến trong các phương pháp tiếp cận dựa trên máy biến áp truyền thống.

Mô hình hóa không gian trạng thái hai chiều và thiết kế nhận biết phần cứng của Vim không chỉ nâng cao hiệu quả tính toán mà còn mở ra những khả năng mới cho ứng dụng của nó trong các nhiệm vụ thị giác có độ phân giải cao khác nhau. Triển vọng trong tương lai của Vim bao gồm ứng dụng của nó trong các nhiệm vụ không được giám sát như đào tạo trước mô hình hình ảnh mặt nạ, các nhiệm vụ đa phương thức như đào tạo trước kiểu CLIP và phân tích hình ảnh y tế có độ phân giải cao, hình ảnh viễn thám và video dài.

Tóm lại, cách tiếp cận đổi mới của Vision Mamba đánh dấu một bước tiến quan trọng trong công nghệ thị giác AI. Bằng cách khắc phục những hạn chế của bộ chuyển đổi tầm nhìn truyền thống, Vim sẵn sàng trở thành trụ cột thế hệ tiếp theo cho một loạt các ứng dụng AI dựa trên tầm nhìn.

Nguồn hình ảnh: Shutterstock

Dấu thời gian:

Thêm từ Tin tức Blockchain