Vision Mamba: กระบวนทัศน์ใหม่ในวิสัยทัศน์ AI ด้วยแบบจำลองอวกาศของรัฐแบบสองทิศทาง

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

Vision Mamba: กระบวนทัศน์ใหม่ในวิสัยทัศน์ AI พร้อมโมเดลอวกาศรัฐแบบสองทิศทาง PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สาขาปัญญาประดิษฐ์ (AI) และการเรียนรู้ของเครื่องยังคงมีการพัฒนาอย่างต่อเนื่อง โดย Vision Mamba (Vim) กลายเป็นโครงการที่แหวกแนวในขอบเขตของวิสัยทัศน์ AI ล่าสุดทางวิชาการ กระดาษ “Vision Mamba- การเรียนรู้การแสดงภาพที่มีประสิทธิภาพด้วยสองทิศทาง” แนะนำแนวทางนี้ในขอบเขตของการเรียนรู้ของเครื่อง พัฒนาขึ้นโดยใช้โมเดลพื้นที่รัฐ (SSM) พร้อมด้วยการออกแบบที่คำนึงถึงฮาร์ดแวร์ที่มีประสิทธิภาพ Vim แสดงถึงการก้าวกระโดดครั้งสำคัญในการเรียนรู้การแสดงภาพ

Vim จัดการกับความท้าทายที่สำคัญในการแสดงข้อมูลภาพอย่างมีประสิทธิภาพ ซึ่งเป็นงานที่แต่เดิมต้องอาศัยกลไกการเอาใจใส่ตนเองภายใน Vision Transformers (ViT) แม้ว่า ViT จะประสบความสำเร็จ แต่ก็ยังเผชิญกับข้อจำกัดในการประมวลผลภาพความละเอียดสูง เนื่องจากข้อจำกัดด้านความเร็วและการใช้หน่วยความจำ ในทางตรงกันข้าม Vim ใช้บล็อก Mamba แบบสองทิศทางที่ไม่เพียงแต่ให้บริบทภาพทั่วโลกที่ขึ้นอยู่กับข้อมูลเท่านั้น แต่ยังรวมเอาการฝังตำแหน่งเพื่อความเข้าใจเชิงภาพที่เหมาะสมยิ่งขึ้นและรับรู้ถึงสถานที่อีกด้วย แนวทางนี้ช่วยให้ Vim บรรลุประสิทธิภาพที่สูงขึ้นในงานหลักๆ เช่น การจำแนกประเภท ImageNet, การตรวจจับวัตถุ COCO และการแบ่งส่วนความหมาย ADE20K เมื่อเปรียบเทียบกับวิชันทรานสฟอร์มเมอร์ที่สร้างขึ้น เช่น DeiT

การทดลองที่ดำเนินการกับ Vim บนชุดข้อมูล ImageNet-1K ซึ่งประกอบด้วยอิมเมจการฝึกอบรม 1.28 ล้านอิมเมจใน 1000 หมวดหมู่ แสดงให้เห็นถึงความเหนือกว่าในแง่ของประสิทธิภาพการคำนวณและหน่วยความจำ โดยเฉพาะอย่างยิ่ง Vim ได้รับการรายงานว่าเร็วกว่า DeiT ถึง 2.8 เท่า ซึ่งประหยัดหน่วยความจำ GPU ได้ถึง 86.8% ในระหว่างการอนุมานแบบแบตช์สำหรับภาพที่มีความละเอียดสูง ในงานการแบ่งส่วนความหมายบนชุดข้อมูล ADE20K นั้น Vim มีประสิทธิภาพเหนือกว่า DeiT ในระดับต่างๆ อย่างต่อเนื่อง โดยบรรลุประสิทธิภาพที่ใกล้เคียงกับแกนหลัก ResNet-101 โดยมีพารามิเตอร์เกือบครึ่งหนึ่ง

นอกจากนี้ ในงานการตรวจจับออบเจ็กต์และการแบ่งส่วนอินสแตนซ์บนชุดข้อมูล COCO 2017 นั้น Vim เหนือกว่า DeiT ด้วยระยะขอบที่มีนัยสำคัญ ซึ่งแสดงให้เห็นถึงความสามารถในการเรียนรู้บริบทในระยะยาวที่ดีกว่า ประสิทธิภาพนี้มีความโดดเด่นเป็นพิเศษเนื่องจาก Vim ทำงานในลักษณะการสร้างแบบจำลองลำดับล้วนๆ โดยไม่จำเป็นต้องใช้ไพรเออร์ 2D ในแบ็คโบน ซึ่งเป็นข้อกำหนดทั่วไปในแนวทางที่ใช้หม้อแปลงแบบดั้งเดิม

การสร้างแบบจำลองพื้นที่สถานะแบบสองทิศทางและการออกแบบที่คำนึงถึงฮาร์ดแวร์ของ Vim ไม่เพียงแต่เพิ่มประสิทธิภาพในการคำนวณ แต่ยังเปิดโอกาสใหม่ๆ สำหรับการประยุกต์ใช้ในงานการมองเห็นที่มีความละเอียดสูงต่างๆ แนวโน้มในอนาคตสำหรับ Vim รวมถึงการประยุกต์ใช้ในงานที่ไม่ได้รับการดูแล เช่น การฝึกอบรมการสร้างแบบจำลองภาพหน้ากาก งานต่อเนื่องหลายรูปแบบ เช่น การฝึกอบรมล่วงหน้าในรูปแบบ CLIP และการวิเคราะห์ภาพทางการแพทย์ที่มีความละเอียดสูง ภาพการสำรวจระยะไกล และวิดีโอขนาดยาว

โดยสรุป แนวทางที่เป็นนวัตกรรมของ Vision Mamba ถือเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยีการมองเห็นของ AI ด้วยการเอาชนะข้อจำกัดของวิชั่นทรานส์ฟอร์มเมอร์แบบดั้งเดิม Vim จึงพร้อมที่จะเป็นแกนหลักแห่งยุคถัดไปสำหรับแอปพลิเคชัน AI บนวิชั่นที่หลากหลาย

แหล่งที่มาของภาพ: Shutterstock

เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
ที่มา: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models

ประทับเวลา: January 19, 2024

ประทับเวลา: Mar 5, 2023

Vision Mamba: กระบวนทัศน์ใหม่ในวิสัยทัศน์ AI พร้อมแบบจำลองอวกาศรัฐแบบสองทิศทาง

เผยแพร่ซ้ำโดยเพลโต

เพิ่มเติมจาก ข่าว Blockchain

อุปทาน Ethereum ชะลอตัวหลังจาก 'การควบรวมกิจการ' มันจะขับเคลื่อนการเล่าเรื่องการลงทุนหรือไม่?

Justin Sun ผู้ก่อตั้ง TRON อาจเข้าซื้อกิจการ Huobi Global อย่างแท้จริง: Sources

Bank of China Hong Kong เสร็จสิ้นการทดลองใช้ Digital RMB Sandbox

มูลนิธิ Web3 อ้างว่า DOT เป็นซอฟต์แวร์ชิ้นหนึ่ง ไม่ใช่ความปลอดภัย

MetaMask Snaps ยกระดับความปลอดภัยและการทำงานร่วมกันในพื้นที่ Web3

Bitcoin พลิก Visa อีกครั้ง

BitMEX แสดงรายการ Luna 2.0, ETH Margin และ Settlement Options

เจ้าหน้าที่กระทรวงการคลังของสหราชอาณาจักรพบกับบริษัท Crypto และ Venture Capital ในไตรมาสที่ 1: แหล่งที่มา

เกี่ยวกับเรา

การค้นหาแนวตั้ง & Ai

ระบบปฏิบัติการ

การติดต่อ

ลงชื่อเข้าใช้