Vision Mamba: กระบวนทัศน์ใหม่ในวิสัยทัศน์ AI พร้อมแบบจำลองอวกาศรัฐแบบสองทิศทาง

Vision Mamba: กระบวนทัศน์ใหม่ในวิสัยทัศน์ AI พร้อมแบบจำลองอวกาศรัฐแบบสองทิศทาง

Vision Mamba: กระบวนทัศน์ใหม่ในวิสัยทัศน์ AI พร้อมโมเดลอวกาศรัฐแบบสองทิศทาง PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สาขาปัญญาประดิษฐ์ (AI) และการเรียนรู้ของเครื่องยังคงมีการพัฒนาอย่างต่อเนื่อง โดย Vision Mamba (Vim) กลายเป็นโครงการที่แหวกแนวในขอบเขตของวิสัยทัศน์ AI ล่าสุดทางวิชาการ กระดาษ “Vision Mamba- การเรียนรู้การแสดงภาพที่มีประสิทธิภาพด้วยสองทิศทาง” แนะนำแนวทางนี้ในขอบเขตของการเรียนรู้ของเครื่อง พัฒนาขึ้นโดยใช้โมเดลพื้นที่รัฐ (SSM) พร้อมด้วยการออกแบบที่คำนึงถึงฮาร์ดแวร์ที่มีประสิทธิภาพ Vim แสดงถึงการก้าวกระโดดครั้งสำคัญในการเรียนรู้การแสดงภาพ

Vim จัดการกับความท้าทายที่สำคัญในการแสดงข้อมูลภาพอย่างมีประสิทธิภาพ ซึ่งเป็นงานที่แต่เดิมต้องอาศัยกลไกการเอาใจใส่ตนเองภายใน Vision Transformers (ViT) แม้ว่า ViT จะประสบความสำเร็จ แต่ก็ยังเผชิญกับข้อจำกัดในการประมวลผลภาพความละเอียดสูง เนื่องจากข้อจำกัดด้านความเร็วและการใช้หน่วยความจำ​​ ในทางตรงกันข้าม Vim ใช้บล็อก Mamba แบบสองทิศทางที่ไม่เพียงแต่ให้บริบทภาพทั่วโลกที่ขึ้นอยู่กับข้อมูลเท่านั้น แต่ยังรวมเอาการฝังตำแหน่งเพื่อความเข้าใจเชิงภาพที่เหมาะสมยิ่งขึ้นและรับรู้ถึงสถานที่อีกด้วย แนวทางนี้ช่วยให้ Vim บรรลุประสิทธิภาพที่สูงขึ้นในงานหลักๆ เช่น การจำแนกประเภท ImageNet, การตรวจจับวัตถุ COCO และการแบ่งส่วนความหมาย ADE20K เมื่อเปรียบเทียบกับวิชันทรานสฟอร์มเมอร์ที่สร้างขึ้น เช่น DeiT​​

การทดลองที่ดำเนินการกับ Vim บนชุดข้อมูล ImageNet-1K ซึ่งประกอบด้วยอิมเมจการฝึกอบรม 1.28 ล้านอิมเมจใน 1000 หมวดหมู่ แสดงให้เห็นถึงความเหนือกว่าในแง่ของประสิทธิภาพการคำนวณและหน่วยความจำ โดยเฉพาะอย่างยิ่ง Vim ได้รับการรายงานว่าเร็วกว่า DeiT ถึง 2.8 เท่า ซึ่งประหยัดหน่วยความจำ GPU ได้ถึง 86.8% ในระหว่างการอนุมานแบบแบตช์สำหรับภาพที่มีความละเอียดสูง ในงานการแบ่งส่วนความหมายบนชุดข้อมูล ADE20K นั้น Vim มีประสิทธิภาพเหนือกว่า DeiT ในระดับต่างๆ อย่างต่อเนื่อง โดยบรรลุประสิทธิภาพที่ใกล้เคียงกับแกนหลัก ResNet-101 โดยมีพารามิเตอร์เกือบครึ่งหนึ่ง​​

นอกจากนี้ ในงานการตรวจจับออบเจ็กต์และการแบ่งส่วนอินสแตนซ์บนชุดข้อมูล COCO 2017 นั้น Vim เหนือกว่า DeiT ด้วยระยะขอบที่มีนัยสำคัญ ซึ่งแสดงให้เห็นถึงความสามารถในการเรียนรู้บริบทในระยะยาวที่ดีกว่า ประสิทธิภาพนี้มีความโดดเด่นเป็นพิเศษเนื่องจาก Vim ทำงานในลักษณะการสร้างแบบจำลองลำดับล้วนๆ โดยไม่จำเป็นต้องใช้ไพรเออร์ 2D ในแบ็คโบน ซึ่งเป็นข้อกำหนดทั่วไปในแนวทางที่ใช้หม้อแปลงแบบดั้งเดิม

การสร้างแบบจำลองพื้นที่สถานะแบบสองทิศทางและการออกแบบที่คำนึงถึงฮาร์ดแวร์ของ Vim ไม่เพียงแต่เพิ่มประสิทธิภาพในการคำนวณ แต่ยังเปิดโอกาสใหม่ๆ สำหรับการประยุกต์ใช้ในงานการมองเห็นที่มีความละเอียดสูงต่างๆ แนวโน้มในอนาคตสำหรับ Vim รวมถึงการประยุกต์ใช้ในงานที่ไม่ได้รับการดูแล เช่น การฝึกอบรมการสร้างแบบจำลองภาพหน้ากาก งานต่อเนื่องหลายรูปแบบ เช่น การฝึกอบรมล่วงหน้าในรูปแบบ CLIP และการวิเคราะห์ภาพทางการแพทย์ที่มีความละเอียดสูง ภาพการสำรวจระยะไกล และวิดีโอขนาดยาว​​

โดยสรุป แนวทางที่เป็นนวัตกรรมของ Vision Mamba ถือเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยีการมองเห็นของ AI ด้วยการเอาชนะข้อจำกัดของวิชั่นทรานส์ฟอร์มเมอร์แบบดั้งเดิม Vim จึงพร้อมที่จะเป็นแกนหลักแห่งยุคถัดไปสำหรับแอปพลิเคชัน AI บนวิชั่นที่หลากหลาย

แหล่งที่มาของภาพ: Shutterstock

ประทับเวลา:

เพิ่มเติมจาก ข่าว Blockchain