สาขาปัญญาประดิษฐ์ (AI) และการเรียนรู้ของเครื่องยังคงมีการพัฒนาอย่างต่อเนื่อง โดย Vision Mamba (Vim) กลายเป็นโครงการที่แหวกแนวในขอบเขตของวิสัยทัศน์ AI ล่าสุดทางวิชาการ กระดาษ “Vision Mamba- การเรียนรู้การแสดงภาพที่มีประสิทธิภาพด้วยสองทิศทาง” แนะนำแนวทางนี้ในขอบเขตของการเรียนรู้ของเครื่อง พัฒนาขึ้นโดยใช้โมเดลพื้นที่รัฐ (SSM) พร้อมด้วยการออกแบบที่คำนึงถึงฮาร์ดแวร์ที่มีประสิทธิภาพ Vim แสดงถึงการก้าวกระโดดครั้งสำคัญในการเรียนรู้การแสดงภาพ
Vim จัดการกับความท้าทายที่สำคัญในการแสดงข้อมูลภาพอย่างมีประสิทธิภาพ ซึ่งเป็นงานที่แต่เดิมต้องอาศัยกลไกการเอาใจใส่ตนเองภายใน Vision Transformers (ViT) แม้ว่า ViT จะประสบความสำเร็จ แต่ก็ยังเผชิญกับข้อจำกัดในการประมวลผลภาพความละเอียดสูง เนื่องจากข้อจำกัดด้านความเร็วและการใช้หน่วยความจำ ในทางตรงกันข้าม Vim ใช้บล็อก Mamba แบบสองทิศทางที่ไม่เพียงแต่ให้บริบทภาพทั่วโลกที่ขึ้นอยู่กับข้อมูลเท่านั้น แต่ยังรวมเอาการฝังตำแหน่งเพื่อความเข้าใจเชิงภาพที่เหมาะสมยิ่งขึ้นและรับรู้ถึงสถานที่อีกด้วย แนวทางนี้ช่วยให้ Vim บรรลุประสิทธิภาพที่สูงขึ้นในงานหลักๆ เช่น การจำแนกประเภท ImageNet, การตรวจจับวัตถุ COCO และการแบ่งส่วนความหมาย ADE20K เมื่อเปรียบเทียบกับวิชันทรานสฟอร์มเมอร์ที่สร้างขึ้น เช่น DeiT
การทดลองที่ดำเนินการกับ Vim บนชุดข้อมูล ImageNet-1K ซึ่งประกอบด้วยอิมเมจการฝึกอบรม 1.28 ล้านอิมเมจใน 1000 หมวดหมู่ แสดงให้เห็นถึงความเหนือกว่าในแง่ของประสิทธิภาพการคำนวณและหน่วยความจำ โดยเฉพาะอย่างยิ่ง Vim ได้รับการรายงานว่าเร็วกว่า DeiT ถึง 2.8 เท่า ซึ่งประหยัดหน่วยความจำ GPU ได้ถึง 86.8% ในระหว่างการอนุมานแบบแบตช์สำหรับภาพที่มีความละเอียดสูง ในงานการแบ่งส่วนความหมายบนชุดข้อมูล ADE20K นั้น Vim มีประสิทธิภาพเหนือกว่า DeiT ในระดับต่างๆ อย่างต่อเนื่อง โดยบรรลุประสิทธิภาพที่ใกล้เคียงกับแกนหลัก ResNet-101 โดยมีพารามิเตอร์เกือบครึ่งหนึ่ง
นอกจากนี้ ในงานการตรวจจับออบเจ็กต์และการแบ่งส่วนอินสแตนซ์บนชุดข้อมูล COCO 2017 นั้น Vim เหนือกว่า DeiT ด้วยระยะขอบที่มีนัยสำคัญ ซึ่งแสดงให้เห็นถึงความสามารถในการเรียนรู้บริบทในระยะยาวที่ดีกว่า ประสิทธิภาพนี้มีความโดดเด่นเป็นพิเศษเนื่องจาก Vim ทำงานในลักษณะการสร้างแบบจำลองลำดับล้วนๆ โดยไม่จำเป็นต้องใช้ไพรเออร์ 2D ในแบ็คโบน ซึ่งเป็นข้อกำหนดทั่วไปในแนวทางที่ใช้หม้อแปลงแบบดั้งเดิม
การสร้างแบบจำลองพื้นที่สถานะแบบสองทิศทางและการออกแบบที่คำนึงถึงฮาร์ดแวร์ของ Vim ไม่เพียงแต่เพิ่มประสิทธิภาพในการคำนวณ แต่ยังเปิดโอกาสใหม่ๆ สำหรับการประยุกต์ใช้ในงานการมองเห็นที่มีความละเอียดสูงต่างๆ แนวโน้มในอนาคตสำหรับ Vim รวมถึงการประยุกต์ใช้ในงานที่ไม่ได้รับการดูแล เช่น การฝึกอบรมการสร้างแบบจำลองภาพหน้ากาก งานต่อเนื่องหลายรูปแบบ เช่น การฝึกอบรมล่วงหน้าในรูปแบบ CLIP และการวิเคราะห์ภาพทางการแพทย์ที่มีความละเอียดสูง ภาพการสำรวจระยะไกล และวิดีโอขนาดยาว
โดยสรุป แนวทางที่เป็นนวัตกรรมของ Vision Mamba ถือเป็นความก้าวหน้าครั้งสำคัญในเทคโนโลยีการมองเห็นของ AI ด้วยการเอาชนะข้อจำกัดของวิชั่นทรานส์ฟอร์มเมอร์แบบดั้งเดิม Vim จึงพร้อมที่จะเป็นแกนหลักแห่งยุคถัดไปสำหรับแอปพลิเคชัน AI บนวิชั่นที่หลากหลาย
แหล่งที่มาของภาพ: Shutterstock
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://Blockchain.News/analysis/vision-mamba-a-new-paradigm-in-ai-vision-with-bidirectional-state-space-models
- :มี
- :เป็น
- :ไม่
- $ ขึ้น
- 1
- 2017
- 28
- 2D
- 8
- a
- นักวิชาการ
- บรรลุ
- การบรรลุ
- ข้าม
- ที่อยู่
- ความก้าวหน้า
- AI
- ด้วย
- การวิเคราะห์
- และ
- การใช้งาน
- การใช้งาน
- เข้าใกล้
- วิธีการ
- เทียม
- ปัญญาประดิษฐ์
- ปัญญาประดิษฐ์ (AI)
- AS
- กระดูกสันหลัง
- BE
- กลายเป็น
- รับ
- ดีกว่า
- blockchain
- Blocks
- แต่
- by
- หมวดหมู่
- ท้าทาย
- การจัดหมวดหมู่
- โกโก้
- ร่วมกัน
- เมื่อเทียบกับ
- การคำนวณ
- ข้อสรุป
- ดำเนินการ
- เสมอต้นเสมอปลาย
- มี
- สิ่งแวดล้อม
- อย่างต่อเนื่อง
- ตรงกันข้าม
- วิกฤติ
- ข้อมูล
- สาธิต
- แสดงให้เห็นถึง
- ขึ้นอยู่กับ
- ออกแบบ
- การออกแบบ
- แม้จะมี
- การตรวจพบ
- ต่าง
- สอง
- ในระหว่าง
- อย่างมีประสิทธิภาพ
- ที่มีประสิทธิภาพ
- อย่างมีประสิทธิภาพ
- กากกะรุน
- พนักงาน
- ช่วยให้
- เสริม
- ที่จัดตั้งขึ้น
- คาย
- การทดลอง
- ใบหน้า
- เร็วขึ้น
- สนาม
- สำหรับ
- อนาคต
- เหตุการณ์ที่
- GPU
- แหวกแนว
- ครึ่ง
- ความละเอียดสูง
- สูงกว่า
- HTTPS
- ภาพ
- ภาพ
- in
- ประกอบด้วย
- รวมเข้าด้วยกัน
- นวัตกรรม
- ตัวอย่าง
- การแบ่งส่วนอินสแตนซ์
- Intelligence
- เปิดตัว
- ITS
- jpg
- คีย์
- กระโดด
- การเรียนรู้
- กดไลก์
- ข้อ จำกัด
- นาน
- เครื่อง
- เรียนรู้เครื่อง
- ลักษณะ
- อัตรากำไรขั้นต้น
- หน้ากาก
- กลไก
- ทางการแพทย์
- หน่วยความจำ
- ล้าน
- การสร้างแบบจำลอง
- โมเดล
- ข้อมูลเพิ่มเติม
- เกือบทั้งหมด
- จำเป็นต้อง
- ใหม่
- ข่าว
- รุ่นต่อไป
- โดดเด่น
- วัตถุ
- การตรวจจับวัตถุ
- of
- on
- เพียง
- เปิด
- ดำเนินการ
- ประสิทธิภาพเหนือกว่า
- การเอาชนะ
- ตัวอย่าง
- โดยเฉพาะ
- รูปแบบไฟล์ PDF
- การปฏิบัติ
- เป็นจุดสำคัญ
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- ซึ่งทรงตัว
- ตำแหน่ง
- ความเป็นไปได้
- การประมวลผล
- โครงการ
- กลุ่มเป้าหมาย
- ให้
- พิสัย
- ดินแดน
- เมื่อเร็ว ๆ นี้
- รีโมท
- รายงาน
- การแสดง
- เป็นตัวแทนของ
- แสดงให้เห็นถึง
- ความต้องการ
- s
- ประหยัด
- ตาชั่ง
- การแบ่งส่วน
- ความหมาย
- ลำดับ
- สำคัญ
- คล้ายคลึงกัน
- แหล่ง
- ช่องว่าง
- เฉพาะ
- ความเร็ว
- ยืน
- สถานะ
- ความสำเร็จ
- อย่างเช่น
- เกินกว่า
- งาน
- งาน
- เทคโนโลยี
- เงื่อนไขการใช้บริการ
- กว่า
- ที่
- พื้นที่
- ของพวกเขา
- นี้
- ครั้ง
- ไปยัง
- แบบดั้งเดิม
- ตามธรรมเนียม
- การฝึกอบรม
- หม้อแปลง
- ความเข้าใจ
- การใช้
- การใช้
- ต่างๆ
- วิสัยทัศน์
- ภาพ
- ที่
- กว้าง
- ช่วงกว้าง
- กับ
- ภายใน
- ไม่มี
- ลมทะเล