Lĩnh vực trí tuệ nhân tạo (AI) và học máy tiếp tục phát triển, với Vision Mamba (Vim) nổi lên như một dự án đột phá trong lĩnh vực tầm nhìn AI. Gần đây, giới học thuật giấy “Vision Mamba- Học tập biểu diễn trực quan hiệu quả với hai chiều” giới thiệu phương pháp này trong lĩnh vực học máy. Được phát triển bằng cách sử dụng các mô hình không gian trạng thái (SSM) với thiết kế nhận biết phần cứng hiệu quả, Vim thể hiện một bước nhảy vọt đáng kể trong việc học cách biểu diễn trực quan.
Vim giải quyết thách thức quan trọng trong việc thể hiện dữ liệu trực quan một cách hiệu quả, một nhiệm vụ trước đây phụ thuộc vào cơ chế tự chú ý trong Vision Transformers (ViTs). ViT, mặc dù thành công nhưng vẫn gặp phải những hạn chế trong việc xử lý hình ảnh có độ phân giải cao do hạn chế về tốc độ và mức sử dụng bộ nhớ. Ngược lại, Vim sử dụng các khối Mamba hai chiều không chỉ cung cấp bối cảnh trực quan toàn cầu phụ thuộc vào dữ liệu mà còn kết hợp các phần nhúng vị trí để hiểu rõ hơn về hình ảnh, nhận biết vị trí. Cách tiếp cận này cho phép Vim đạt được hiệu suất cao hơn trong các nhiệm vụ chính như phân loại ImageNet, phát hiện đối tượng COCO và phân đoạn ngữ nghĩa ADE20K, so với các công cụ biến đổi tầm nhìn đã được thiết lập như DeiT.
Các thử nghiệm được thực hiện với Vim trên bộ dữ liệu ImageNet-1K, chứa 1.28 triệu hình ảnh đào tạo trên 1000 danh mục, chứng tỏ tính ưu việt của nó về hiệu quả tính toán và bộ nhớ. Cụ thể, Vim được báo cáo là nhanh hơn 2.8 lần so với DeiT, tiết kiệm tới 86.8% bộ nhớ GPU trong quá trình suy luận hàng loạt cho hình ảnh có độ phân giải cao. Trong các nhiệm vụ phân đoạn ngữ nghĩa trên tập dữ liệu ADE20K, Vim luôn vượt trội hơn DeiT trên các quy mô khác nhau, đạt được hiệu suất tương tự như đường trục ResNet-101 với gần một nửa tham số.
Hơn nữa, trong các nhiệm vụ phát hiện đối tượng và phân đoạn cá thể trên tập dữ liệu COCO 2017, Vim vượt qua DeiT với lợi nhuận đáng kể, thể hiện khả năng học tập ngữ cảnh tầm xa tốt hơn. Hiệu suất này đặc biệt đáng chú ý vì Vim hoạt động theo cách mô hình hóa trình tự thuần túy mà không cần các phần trước 2D trong xương sống của nó, đây là yêu cầu phổ biến trong các phương pháp tiếp cận dựa trên máy biến áp truyền thống.
Mô hình hóa không gian trạng thái hai chiều và thiết kế nhận biết phần cứng của Vim không chỉ nâng cao hiệu quả tính toán mà còn mở ra những khả năng mới cho ứng dụng của nó trong các nhiệm vụ thị giác có độ phân giải cao khác nhau. Triển vọng trong tương lai của Vim bao gồm ứng dụng của nó trong các nhiệm vụ không được giám sát như đào tạo trước mô hình hình ảnh mặt nạ, các nhiệm vụ đa phương thức như đào tạo trước kiểu CLIP và phân tích hình ảnh y tế có độ phân giải cao, hình ảnh viễn thám và video dài.
Tóm lại, cách tiếp cận đổi mới của Vision Mamba đánh dấu một bước tiến quan trọng trong công nghệ thị giác AI. Bằng cách khắc phục những hạn chế của bộ chuyển đổi tầm nhìn truyền thống, Vim sẵn sàng trở thành trụ cột thế hệ tiếp theo cho một loạt các ứng dụng AI dựa trên tầm nhìn.
Nguồn hình ảnh: Shutterstock
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models
- : có
- :là
- :không phải
- $ LÊN
- 1
- 2017
- 28
- 2D
- 8
- a
- học tập
- Đạt được
- đạt được
- ngang qua
- địa chỉ
- thăng tiến
- AI
- Ngoài ra
- phân tích
- và
- Các Ứng Dụng
- các ứng dụng
- phương pháp tiếp cận
- cách tiếp cận
- nhân tạo
- trí tuệ nhân tạo
- Trí tuệ nhân tạo (AI)
- AS
- Xương sống
- BE
- trở nên
- được
- Hơn
- blockchain
- Khối
- nhưng
- by
- đố
- thách thức
- phân loại
- coco
- Chung
- so
- tính toán
- phần kết luận
- thực hiện
- nhất quán
- chứa
- bối cảnh
- liên tiếp
- Ngược lại
- quan trọng
- dữ liệu
- chứng minh
- thể hiện
- phụ thuộc
- Thiết kế
- thiết kế
- Mặc dù
- Phát hiện
- khác nhau
- hai
- suốt trong
- hiệu quả
- hiệu quả
- hiệu quả
- mới nổi
- sử dụng
- cho phép
- nâng cao
- thành lập
- phát triển
- thí nghiệm
- Đối mặt
- nhanh hơn
- lĩnh vực
- Trong
- tương lai
- Toàn cầu
- GPU
- đột phá
- Một nửa
- độ phân giải cao
- cao hơn
- HTTPS
- hình ảnh
- hình ảnh
- in
- bao gồm
- kết hợp
- sáng tạo
- ví dụ
- Phân đoạn phiên bản
- Sự thông minh
- Giới thiệu
- ITS
- jpg
- Key
- Nhảy qua
- học tập
- Lượt thích
- hạn chế
- dài
- máy
- học máy
- cách thức
- lợi nhuận
- mặt nạ
- cơ chế
- y khoa
- Bộ nhớ
- triệu
- người mẫu
- mô hình
- chi tiết
- gần
- Cần
- Mới
- tin tức
- thế hệ kế tiếp
- Nổi bật
- vật
- Phát hiện đối tượng
- of
- on
- có thể
- mở
- hoạt động
- Vượt trội hơn
- khắc phục
- mô hình
- đặc biệt
- hiệu suất
- quan trọng
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- sẵn sàng
- vị trí
- khả năng
- xử lý
- dự án
- triển vọng
- cho
- phạm vi
- vương quốc
- gần đây
- xa
- Báo cáo
- đại diện
- đại diện
- đại diện cho
- yêu cầu
- s
- tiết kiệm
- quy mô
- phân khúc
- ngữ nghĩa
- Trình tự
- có ý nghĩa
- tương tự
- nguồn
- Không gian
- đặc biệt
- tốc độ
- đứng
- Tiểu bang
- thành công
- như vậy
- vượt qua
- Nhiệm vụ
- nhiệm vụ
- Công nghệ
- về
- hơn
- việc này
- Sản phẩm
- cung cấp their dịch
- điều này
- thời gian
- đến
- truyền thống
- theo truyền thống
- Hội thảo
- máy biến áp
- sự hiểu biết
- Sử dụng
- sử dụng
- khác nhau
- tầm nhìn
- trực quan
- cái nào
- rộng
- Phạm vi rộng
- với
- ở trong
- không có
- zephyrnet