Meta Menunjukkan Kemajuan Baru pada Teknologi Kunci untuk Membuat AR Benar-Benar Berguna

Meta Menunjukkan Kemajuan Baru pada Teknologi Kunci untuk Membuat AR Benar-Benar Berguna

Meta telah memperkenalkan Segment Anything Model, yang bertujuan untuk menetapkan bar baru untuk 'segmentasi objek' berbasis visi komputer—kemampuan komputer untuk memahami perbedaan antara masing-masing objek dalam gambar atau video. Segmentasi akan menjadi kunci untuk membuat AR benar-benar bermanfaat dengan memungkinkan pemahaman yang komprehensif tentang dunia di sekitar pengguna.

Segmentasi objek adalah proses mengidentifikasi dan memisahkan objek dalam sebuah gambar atau video. Dengan bantuan AI, proses ini dapat diotomatisasi sehingga memungkinkan untuk mengidentifikasi dan mengisolasi objek secara real-time. Teknologi ini akan sangat penting untuk menciptakan pengalaman AR yang lebih bermanfaat dengan memberikan sistem kesadaran akan berbagai objek di dunia sekitar pengguna.

Tantangan

Bayangkan, misalnya, Anda mengenakan kacamata AR dan Anda ingin memiliki dua monitor virtual mengambang di kiri dan kanan monitor asli Anda. Kecuali jika Anda akan memberi tahu sistem secara manual di mana monitor Anda yang sebenarnya, itu harus dapat memahami seperti apa monitor itu sehingga ketika melihat monitor Anda, ia dapat menempatkan monitor virtual yang sesuai.

Tetapi monitor hadir dalam berbagai bentuk, ukuran, dan warna. Terkadang pantulan atau objek yang terhalang membuat sistem computer-vision semakin sulit untuk dikenali.

Memiliki sistem segmentasi yang cepat dan andal yang dapat mengidentifikasi setiap objek di ruangan di sekitar Anda (seperti monitor Anda) akan menjadi kunci untuk membuka banyak kasus penggunaan AR sehingga teknologinya dapat benar-benar berguna.

Segmentasi objek berbasis penglihatan komputer telah menjadi bidang penelitian yang sedang berlangsung selama bertahun-tahun sekarang, tetapi salah satu masalah utamanya adalah untuk membantu komputer memahami apa yang mereka lihat, Anda perlu melatih model AI dengan memberikannya banyak gambar untuk dipelajari.

Model seperti itu bisa sangat efektif dalam mengidentifikasi objek yang mereka latih, tetapi jika mereka akan berjuang pada objek yang belum pernah mereka lihat sebelumnya. Itu berarti bahwa salah satu tantangan terbesar untuk segmentasi objek hanyalah memiliki kumpulan gambar yang cukup besar untuk dipelajari oleh sistem, tetapi mengumpulkan gambar tersebut dan menganotasinya dengan cara yang membuatnya berguna untuk pelatihan bukanlah tugas kecil.

SAM Saya

Meta baru-baru ini menerbitkan karya pada proyek baru yang disebut Segmen Model Apapun (SAM). Ini adalah model segmentasi dan kumpulan besar gambar pelatihan yang dirilis perusahaan untuk dibangun oleh orang lain.

Proyek ini bertujuan untuk mengurangi kebutuhan akan keahlian pemodelan khusus tugas. SAM adalah model segmentasi umum yang dapat mengidentifikasi objek apa pun dalam gambar atau video apa pun, bahkan untuk objek dan jenis gambar yang tidak terlihat selama pelatihan.

SAM memungkinkan segmentasi otomatis dan interaktif, yang memungkinkannya mengidentifikasi objek individual dalam sebuah adegan dengan input sederhana dari pengguna. SAM dapat 'diminta' dengan klik, kotak, dan petunjuk lainnya, memberi pengguna kendali atas apa yang coba diidentifikasi oleh sistem pada saat tertentu.

Sangat mudah untuk melihat bagaimana petunjuk berbasis titik ini dapat bekerja dengan baik jika digabungkan dengan pelacakan mata pada headset AR. Sebenarnya itulah salah satu kasus penggunaan yang telah ditunjukkan Meta dengan sistem:

Berikut contoh lain SAM yang digunakan pada video orang pertama yang diambil oleh Kacamata Project Aria dari Meta:

Anda dapat coba SAM sendiri di browser Anda sekarang.

Bagaimana SAM Tahu Banyak

Bagian dari kemampuan mengesankan SAM berasal dari data pelatihannya yang berisi 10 juta gambar masif dan 1 miliar bentuk objek yang teridentifikasi. Ini jauh lebih komprehensif daripada kumpulan data kontemporer, menurut Meta, memberi SAM lebih banyak pengalaman dalam proses pembelajaran dan memungkinkannya untuk menyegmentasi berbagai objek.

Meta Menunjukkan Kemajuan Baru dalam Teknologi Utama untuk Membuat AR Kecerdasan Data PlatoBlockchain yang Benar-Benar Berguna. Pencarian Vertikal. Ai.
Gambar milik Meta

Meta menyebut dataset SAM SA-1B, dan perusahaan tersebut melepaskan seluruh set untuk dikembangkan oleh peneliti lain.

Meta berharap pekerjaan ini pada segmentasi yang cepat, dan rilis kumpulan data pelatihan besar-besaran ini, akan mempercepat penelitian ke dalam pemahaman gambar dan video. Perusahaan mengharapkan model SAM dapat digunakan sebagai komponen dalam sistem yang lebih besar, memungkinkan aplikasi serbaguna di berbagai bidang seperti AR, pembuatan konten, domain ilmiah, dan sistem AI umum.

Stempel Waktu:

Lebih dari Jalan menuju VR