Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Pemrosesan Gambar dan Kotak Pembatas untuk OCR

Teknologi terus berkembang, begitu pula kita. Dengan munculnya kecerdasan buatan dan pembelajaran mesin, fokus telah bergeser ke arah otomatisasi. Karena itu, berbagai disiplin ilmu komputer diperkenalkan untuk mempelajari dan mengeksplorasi aplikasi dari tren yang muncul ini.

Salah satu contohnya adalah pengolahan citra. Dalam bahasa sederhana, mengacu pada eksplorasi gambar untuk menarik informasi yang bermakna. Sementara beberapa teknik tersedia untuk mencapai hal ini, yang paling umum digunakan adalah – kotak berlari.

Blog ini menggali berbagai aspek kotak pembatas. Ini mencakup apa itu, bagaimana mereka bekerja dalam pemrosesan gambar, parameter yang menentukannya, konvensi yang menentukannya, kasus penggunaan umum, tindakan pencegahan dan praktik terbaik, dan banyak lagi.

Mari kita selami.

Pemrosesan gambar mengacu pada melakukan operasi tertentu pada gambar baik untuk meningkatkannya atau mengekstrak beberapa wawasan berharga dari fitur atau atribut yang terkait dengannya. Saat ini, pemrosesan gambar adalah bidang utama penelitian dalam studi teknik dan teknologi komputer.

Pengolahan citra dapat dilakukan dengan dua metode – pengolahan citra analog dan pengolahan citra digital.

Pemrosesan gambar analog melibatkan penggunaan salinan cetak dan foto untuk menganalisis dan memanipulasi gambar. Analis gambar menggunakan berbagai metode untuk menafsirkan salinan gambar ini dan mengekstrak hasil yang berarti.

Pengolahan citra digital menggunakan citra digital dan menginterpretasikannya menggunakan komputer. Ini adalah sub-kategori pemrosesan sinyal digital dan menggunakan algoritma untuk memproses gambar digital. Ini memberikan keunggulan dibandingkan pemrosesan gambar analog, seperti algoritma untuk mencegah noise dan distorsi dalam pemrosesan.

Pemrosesan citra digital memiliki beberapa aplikasi di bidang kedokteran, manufaktur, eCommerce, dan banyak lagi.


Kotak Pembatas dalam Pemrosesan Gambar

Pada awalnya, kotak pembatas adalah kotak persegi panjang imajiner yang mencakup objek dan sekumpulan titik data. Dalam konteks pemrosesan citra digital, kotak pembatas menunjukkan koordinat perbatasan pada sumbu X dan Y yang melingkupi sebuah gambar. Mereka digunakan untuk mengidentifikasi target dan berfungsi sebagai referensi untuk deteksi objek dan menghasilkan kotak tabrakan untuk objek.

Apa Itu Kotak Pembatas?

Kotak pembatas adalah elemen kunci dan salah satu alat pemrosesan gambar utama untuk proyek anotasi video. Intinya, kotak pembatas adalah persegi panjang imajiner yang menguraikan objek dalam gambar sebagai bagian dari persyaratan proyek pembelajaran mesin. Bingkai persegi panjang imajiner membungkus objek dalam gambar.

Kotak pembatas menentukan posisi objek, kelasnya, dan keyakinannya yang menyatakan tingkat probabilitas bahwa objek tersebut benar-benar ada dalam kotak pembatas.

Visi komputer menawarkan aplikasi luar biasa – mulai dari mobil yang dapat mengemudi sendiri hingga pengenalan wajah dan banyak lagi. Dan ini, pada gilirannya, dimungkinkan dengan pemrosesan gambar.

Jadi, apakah pemrosesan gambar sesederhana menggambar persegi panjang atau pola di sekitar objek? Tidak. Meskipun demikian, apa yang dilakukan kotak pembatas?

Mari kita mengerti.

Bagaimana Kotak Pembatas Bekerja Dalam Pemrosesan Gambar?

Seperti disebutkan, kotak pembatas adalah persegi panjang imajiner yang bertindak sebagai titik referensi untuk deteksi objek dan mengembangkan kotak tumbukan untuk objek tersebut.

Jadi, bagaimana ini membantu annotator data? Nah, para profesional menggunakan ide kotak pembatas untuk menggambar persegi panjang imajiner di atas gambar. Mereka membuat garis besar objek yang dimaksud dalam setiap gambar dan menentukan koordinat X dan Y-nya. Ini membuat pekerjaan algoritme pembelajaran mesin menjadi lebih sederhana, membantu mereka menemukan jalur tabrakan dan semacamnya, sehingga menghemat sumber daya komputasi.

Misalnya, pada gambar di bawah, setiap kendaraan adalah objek utama yang posisi dan lokasinya penting untuk melatih model pembelajaran mesin. Annotator data menggunakan teknik kotak pembatas untuk menggambar persegi panjang di sekitar masing-masing objek ini – kendaraan, dalam hal ini.

Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber: pembuat kunci

Kemudian, mereka menggunakan koordinat untuk memahami posisi dan lokasi setiap objek, yang berguna untuk melatih model pembelajaran mesin. Kotak pembatas tunggal tidak memberikan tingkat prediksi yang baik. Untuk deteksi objek yang ditingkatkan, beberapa kotak pembatas harus digunakan dalam kombinasi dengan metode augmentasi data.

Kotak pembatas adalah teknik anotasi gambar yang sangat efisien dan kuat yang mengurangi biaya secara signifikan.

Parameter Mendefinisikan Kotak Batas

Parameter didasarkan pada konvensi yang digunakan untuk menentukan kotak pembatas. Parameter kunci yang digunakan meliputi:

  • Kelas: Ini menunjukkan objek di dalam kotak pembatas — misalnya, mobil, rumah, bangunan, dll.
  • (X1, Y1): Ini mengacu pada koordinat X dan Y dari sudut kiri atas persegi panjang.
  • (X2, Y2): Ini mengacu pada koordinat X dan Y dari sudut kanan bawah persegi panjang.
  • (Xc, Yc): Ini mengacu pada koordinat X dan Y dari pusat kotak pembatas.
  • Lebar: Ini menunjukkan lebar kotak pembatas.
  • Tinggi: Ini menunjukkan ketinggian kotak pembatas.
  • Keyakinan: Ini mewakili kemungkinan objek berada di dalam kotak. Katakanlah, kepercayaannya adalah 0.9. Ini berarti ada kemungkinan 90% bahwa objek benar-benar akan ada di dalam kotak.

Konvensi Menentukan Kotak Pembatas

Saat menentukan kotak pembatas, biasanya, dua konvensi utama perlu disertakan. Ini adalah:

  • Koordinat X dan Y titik kiri atas dan kanan bawah persegi panjang.
  • Koordinat X dan Y dari pusat kotak pembatas, bersama dengan lebar dan tingginya.

Mari kita ilustrasikan ini dengan contoh mobil.

sebuah. Sehubungan dengan konvensi pertama, kotak pembatas ditentukan sesuai dengan koordinat titik kiri atas dan kanan bawah.

Sumber: AnalitikVidhya

b. Sehubungan dengan konvensi kedua, kotak pembatas digambarkan sesuai dengan koordinat pusat, lebar, dan tinggi.

Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber: AnalitikVidhya

Bergantung pada kasus penggunaan, dimungkinkan untuk mengonversi antara tipe konvensi yang berbeda.

  • Xc = (X1 + X2)/2
  • Yc = (Y1 + Y2)/2
  • Lebar = (X2 – X1)
  • Tinggi = (Y2 – Y1)

Kotak Batas Dijelaskan Dengan Kode Pemrograman

Mari kita lihat contoh lain tentang lokasi atau posisi suatu objek dengan potongan kode.

Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber: d2i

Kami memuat gambar yang akan digunakan untuk ilustrasi ini. Gambar memiliki anjing di sebelah kiri dan kucing di sebelah kanan. Ada dua objek – anjing dan kucing dalam gambar.

Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber: d2i

Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber: d2i

Mari kita ambil x dan y sebagai koordinat untuk sudut kiri atas dan kanan bawah kotak pembatas. Katakanlah, (x1,y1) dan (x2,y2). Demikian pula, mari kita perhatikan koordinat sumbu (x,y) – untuk pusat kotak pembatas, bersama dengan lebar dan tingginya.

Selanjutnya, kita mendefinisikan dua fungsi untuk mengonversi bentuk-bentuk ini: box_corner_to_center mengubah representasi dua sudut menjadi representasi tengah-tinggi-lebar dan box_center_to_corner melakukannya sebaliknya.

Kotak argumen input harus berbentuk tensor dua dimensi (n,4), di mana n adalah jumlah kotak pembatas.

Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber: d2i

Selanjutnya, mari kita tentukan kotak pembatas anjing dan kucing pada gambar berdasarkan data koordinat.

Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber: d2i

Untuk memverifikasi kebenaran dari dua fungsi konversi kotak pembatas, kita dapat mengonversi dua kali.

Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber: d2i

Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber: d2i

Selanjutnya, kita dapat menggambar kotak pembatas objek pada gambar untuk memeriksa apakah mereka akurat. Sebelum itu, kita mendefinisikan fungsi bbox_t_rect yang mewakili kotak pembatas dalam format paket matplotlib yang relevan.

Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber: d2i

Sekarang, setelah menambahkan kotak pembatas objek anjing dan kucing ke gambar, kita melihat bahwa garis besar objek ini berada di dalam dua kotak.

Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber: d2i

Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber: d2i


Ingin mengotomatiskan tugas manual yang berulang? Periksa perangkat lunak pemrosesan dokumen berbasis alur kerja Nanonets kami. Ekstrak data dari faktur, kartu identitas, atau dokumen apa pun dengan autopilot!


Kasus Penggunaan Umum Kotak Pembatas

Lokalisasi Objek Kendaraan Tanpa Pengemudi

Kotak pembatas merupakan bagian integral dalam melatih kendaraan self-driving atau otonom untuk mengidentifikasi objek di jalan seperti bangunan, lampu lalu lintas, penghalang apa pun, dan banyak lagi. Mereka membantu membubuhi keterangan rintangan apa pun dan memungkinkan robot mengemudikan kendaraan dengan aman dan mencegah kecelakaan, bahkan jika terjadi kemacetan.

Pencitraan Robotika

Teknik anotasi gambar seperti kotak pembatas banyak digunakan untuk menandai sudut pandang robot dan drone. Kendaraan otonom ini membantu mengklasifikasikan objek di bumi menggunakan foto-foto yang diperoleh dari metode anotasi ini.

Penandaan gambar untuk eCommerce dan Ritel

Anotasi kotak pembatas membantu meningkatkan visualisasi produk, yang merupakan nilai tambah besar dalam eCommerce dan ritel. Model yang dilatih pada item serupa dapat membubuhi keterangan pada objek seperti pakaian mode, aksesori, furnitur, kosmetik, dll., dengan lebih tepat jika diberi label dengan benar. Di bawah ini adalah beberapa tantangan yang ditangani oleh anotasi kotak pembatas di ritel:

  • Hasil Pencarian Salah

Jika pencarian adalah satu-satunya cara pelanggan dapat menemukan situs eCommerce, maka data katalog yang salah dapat menghasilkan hasil pencarian yang tidak akurat, sehingga tidak mengarahkan lalu lintas pelanggan ke situs.

  • Rantai Pasokan yang Tidak Terorganisir

Bagi mereka yang ingin mengembangkan bisnis ritel mereka sehingga jutaan produk dapat dikirimkan setiap tahun, menjadi penting untuk menyinkronkan data offline dan online.

  • Digitalisasi Berkelanjutan

Sangat penting untuk membuat semua produk didigitalkan dan ditandai secara sistematis dan segera untuk memastikan bahwa pelanggan tidak melewatkan peluang baru. Selain itu, tag harus sesuai dengan konteks, yang menjadi sulit ketika bisnis ritel berkembang dan lebih banyak produk ditambahkan.

Mendeteksi Kehilangan Mobil Untuk Klaim Asuransi

Teknik kotak pembatas membantu melacak mobil, sepeda, atau kendaraan lain yang rusak akibat kecelakaan. Model pembelajaran mesin menggunakan gambar-gambar ini dari kotak pembatas untuk memahami posisi dan intensitas kerugian. Ini membantu memprediksi biaya kerugian yang terjadi, berdasarkan perkiraan klien sebelum mengajukan gugatan.

Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber: Superanotasi

Mendeteksi Item Dalam Ruangan

Kotak pembatas membantu komputer mendeteksi barang-barang di dalam ruangan seperti tempat tidur, sofa, meja, lemari, atau peralatan listrik. Ini memungkinkan komputer merasakan ruang dan jenis objek yang ada, dengan dimensi dan lokasinya. Ini, pada gilirannya, membantu model pembelajaran mesin dalam mengidentifikasi item ini dalam situasi kehidupan nyata.

Kotak pembatas banyak digunakan dalam foto sebagai alat pembelajaran mendalam untuk memahami dan menafsirkan berbagai jenis objek.

Identifikasi Penyakit Dan Pertumbuhan Tanaman Dalam Pertanian

Deteksi dini penyakit tanaman membantu petani mencegah kerugian parah. Dengan munculnya pertanian pintar, tantangannya terletak pada data pelatihan untuk mengajarkan model pembelajaran mesin untuk mendeteksi penyakit tanaman. Kotak pembatas adalah pendorong utama yang memberikan visi yang diperlukan untuk mesin.

Industri manufaktur

Deteksi objek dan mengidentifikasi item dalam industri merupakan aspek penting dari manufaktur. Dengan robot dan komputer berkemampuan AI, peran intervensi manual berkurang. Konon, kotak pembatas memainkan peran penting dengan membantu melatih model pembelajaran mesin untuk menemukan dan mendeteksi komponen industri. Selain itu, proses seperti kontrol kualitas, penyortiran, dan operasi jalur perakitan yang semuanya merupakan bagian dari manajemen kualitas, memerlukan deteksi objek.

Pencitraan medis

Kotak pembatas juga menemukan aplikasi di industri perawatan kesehatan, seperti dalam pencitraan medis. Teknik pencitraan medis berkaitan dengan mendeteksi objek anatomi seperti jantung dan membutuhkan analisis yang cepat dan akurat. Kotak pembatas dapat digunakan untuk melatih model pembelajaran mesin, yang kemudian dapat mendeteksi jantung atau organ lain dengan cepat dan akurat.

CCTV otomatis

CCTV otomatis adalah mandat di sebagian besar perusahaan perumahan, komersial dan lainnya. Seringkali, penyimpanan memori tinggi diperlukan untuk menyimpan rekaman CCTV yang diambil dalam waktu lama. Dengan teknik pendeteksian objek seperti kotak pembatas, dapat dipastikan bahwa rekaman direkam hanya ketika objek tertentu diidentifikasi. Kotak pembatas dapat melatih model pembelajaran mesin, yang hanya akan mendeteksi objek tersebut dan, pada saat itu, rekaman dapat ditangkap. Ini juga akan membantu meminimalkan tingkat penyimpanan yang diperlukan untuk CCTV dan mengurangi biaya.

Pengenalan dan Deteksi Wajah

Pengenalan wajah menawarkan banyak aplikasi, seperti digunakan dalam pengawasan biometrik. Selain itu, berbagai instansi seperti bank, bandara, toko ritel, stadion, dan lembaga lainnya menggunakan pengenalan wajah untuk mencegah kejahatan dan kekerasan. Konon, deteksi wajah merupakan elemen penting dari visi komputer yang melibatkan pemrosesan gambar. Dan di sini lagi, kotak pembatas dapat digunakan sebagai alat yang efektif untuk pengenalan karakter.


Ingin menggunakan otomatisasi proses robotik? Lihat perangkat lunak pemrosesan dokumen berbasis alur kerja Nanonets. Tidak ada kode. Tidak ada platform yang merepotkan.


Kotak Batas Untuk Pengenalan Karakter

Deteksi objek terdiri dari – klasifikasi gambar dan lokalisasi objek. Artinya agar komputer dapat mendeteksi suatu objek, ia perlu mengetahui objek apa yang dimaksud dan di mana letaknya. Klasifikasi gambar memberikan label kelas ke gambar. Lokalisasi objek terkait dengan menggambar kotak pembatas di sekitar objek yang dimaksud dalam sebuah gambar.

Prosesnya melibatkan annotator yang menggambar kotak pembatas di sekitar objek dan melabelinya. Ini membantu melatih algoritme dan memungkinkannya memahami seperti apa objek itu. Sebagai langkah awal pendeteksian objek, dataset citra harus memiliki label.

Untuk memberi label pada gambar, ikuti langkah-langkah di bawah ini:

  • Pilih kumpulan data yang ingin Anda latih dan uji. Buat foldernya.
  • Mari kita ambil contoh proyek pendeteksi wajah seperti: BTS, Avenger, dll.
  • Buat data nama folder.
  • Di Google Drive, buat folder dengan nama FaceDetection.
  • Di folder FaceDetection, buat folder gambar.
  • Di folder gambar, buat folder gambar uji, uji XML, latih gambar, dan latih XML.
Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber:industri

Sekarang, di folder gambar kereta, unduh dan unggah 10-15 gambar BTS dan Avengers dalam format JPEG. Demikian pula, di folder gambar uji, lakukan hal yang sama untuk 5-6 gambar. Direkomendasikan untuk memiliki lebih banyak gambar dalam kumpulan data untuk hasil yang akurat.

Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber: industri

Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber: industri

Selanjutnya, buat file XML untuk setiap gambar dari gambar uji dan latih folder gambar

Unduh dan klik windows v_1.8.0. Klik pada file .exe dari GitHub dan tekan Run.

Selanjutnya, klik direktori terbuka untuk memilih folder gambar. Anda akan melihat gambar yang harus diberi label. Untuk memberi label, tekan W pada keyboard dan klik kanan dan seret kursor untuk menggambar kotak di sekitar objek. Beri nama dan klik OK.

Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber: industri

Selanjutnya, simpan gambar untuk menghasilkan file XML gambar di folder gambar, seperti yang ditunjukkan di bawah ini.

Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber: industri

Buka file XML untuk melihat koordinat.

Pemrosesan Gambar dan Kotak Batas untuk Intelijen Data OCR PlatoBlockchain. Pencarian Vertikal. Ai.

Sumber: industri

Ulangi prosedur untuk semua gambar untuk menghasilkan file XML dan cari koordinatnya.


Jika Anda bekerja dengan faktur, dan tanda terima atau khawatir tentang verifikasi ID, periksa Nanonets OCR online or ekstraktor teks PDF untuk mengekstrak teks dari dokumen PDF gratis. Klik di bawah untuk mempelajari lebih lanjut Solusi Otomatisasi Perusahaan Nanonets.


Berbagai Format Anotasi Digunakan Dalam Kotak Batas

Pada dasarnya, sebuah kotak pembatas memiliki 4 titik pada sumbu (x,y) yang mewakili sudut-sudutnya:

Kiri atas : (x_min, y_min)

Kanan atas: (x_max, y_min)

Kiri bawah:(x_min, y_max)

Kanan bawah: (x_max, y_max)

Koordinat kotak pembatas dihitung sehubungan dengan sudut kiri atas gambar.

Ada beberapa format anotasi kotak pembatas, masing-masing menggunakan representasinya sendiri dari koordinat kotak pembatas.

sebuah. Albumentasi

Mereka menggunakan empat nilai untuk mewakili kotak pembatas – [x_min, y_min, x_max, y_max] – yang dinormalisasi dengan membagi koordinat dalam piksel untuk sumbu x dengan lebar dan sumbu y dengan tinggi gambar.

Katakanlah koordinat kotak pembatas adalah: x1 = 678, y1 = 24; x2 = 543, y2= 213.

Biarkan lebar = 870, Tinggi = 789

Kemudian, [678/870, 24/789, 543/870, 213/789] = [ 0.779310, 0.030418 ,0.624137, 0.269961]

Albumentasi menggunakan dan menafsirkan nilai-nilai ini secara internal dengan kotak pembatas dan meningkatkannya.

b. KELAPA

Ini adalah format yang digunakan oleh Common Objects in Context COCO dataset. Dalam format COCO, kotak pembatas diwakili oleh empat nilai: (x_min, y_min, lebar, tinggi). Pada dasarnya, mereka merujuk ke sudut kiri atas dan lebar dan tinggi kotak pembatas.

C. YOLO

Dalam format ini, kotak pembatas disajikan dengan empat nilai :(x_center, y_center, width, height). Di sini, x_center dan y_center menunjukkan koordinat x dan y yang dinormalisasi dari pusat kotak pembatas. Untuk menormalkan, koordinat x pusat dengan lebar gambar dan koordinat y pusat dengan tinggi gambar. Nilai lebar dan tinggi juga dinormalisasi.

D. PASCAL

Dalam format Pascal, kotak pembatas diwakili oleh koordinat kiri atas dan kanan bawah. Jadi, nilai yang dikodekan dalam piksel adalah: [x_min, y_min, x_max, y_max]. Di sini, [x_min, y_min] adalah sudut kiri atas, sedangkan [x_max, y_max] menunjukkan sudut kanan bawah kotak pembatas.


Ingin mengotomatiskan tugas manual yang berulang? Hemat Waktu, Tenaga & Uang sambil meningkatkan efisiensi!


Tindakan Pencegahan Dan Praktik Terbaik Dalam Menggunakan Kotak Batas

Beberapa tindakan pencegahan dan praktik terbaik direkomendasikan untuk penggunaan kotak pembatas yang optimal dalam pemrosesan gambar. Mereka termasuk:

Variasi Ukuran Kotak

Menggunakan semua kotak pembatas dengan ukuran yang sama tidak akan memberikan hasil yang akurat. Melatih model Anda pada kotak pembatas dengan ukuran yang sama akan membuat model tampil lebih buruk. Misalnya, jika objek yang sama tampak lebih kecil ukurannya, model mungkin gagal mendeteksinya. Dalam kasus objek tampak lebih besar dari yang diharapkan, mungkin diperlukan lebih banyak piksel dan tidak memberikan posisi dan lokasi objek yang tepat. Intinya adalah untuk mengingat variasi dalam ukuran dan volume objek untuk mencapai hasil yang diinginkan.

Kekencangan Pixel-Sempurna

Kekakuan adalah faktor penting. Ini berarti tepi kotak pembatas harus sedekat mungkin dengan objek yang bersangkutan untuk mendapatkan hasil yang akurat. Kesenjangan yang konsisten dapat mempengaruhi akurasi dalam menentukan area tumpang tindih antara prediksi model dan objek nyata, sehingga menimbulkan masalah.

Item Diagonal Ditempatkan Dalam Kotak Pembatas

Masalah yang dihadapi dengan item yang ditempatkan secara diagonal di dalam kotak pembatas adalah bahwa item tersebut mengambil ruang yang jauh lebih sedikit di dalam kotak dibandingkan dengan latar belakang. Namun, jika diekspos lebih lama, model mungkin menganggap bahwa targetnya adalah latar belakang karena menghabiskan lebih banyak ruang. Jadi, sebagai praktik terbaik, disarankan untuk menggunakan poligon dan segmentasi instan untuk objek diagonal. Namun, dimungkinkan untuk mengajarkan model dengan kotak pembatas dengan jumlah data pelatihan yang baik.

Kurangi Tumpang Tindih Kotak

Itu selalu aman untuk menghindari tumpang tindih anotasi di semua skenario. Terkadang, ini mungkin menyebabkan begitu banyak kekacauan sehingga hanya beberapa kotak yang tumpang tindih yang akhirnya terlihat. Objek yang memiliki label tumpang tindih dengan entitas lain menghasilkan hasil yang relatif lebih buruk. Model akan gagal membedakan antara objek target dan item lain karena tumpang tindih yang berlebihan. Dalam kasus seperti itu, poligon dapat digunakan untuk akurasi yang lebih tinggi.

Kesimpulan

Pemrosesan citra adalah bidang teknologi baru yang menawarkan cakupan luas. Konon, kotak pembatas membentuk teknik pemrosesan gambar yang paling umum diterapkan.

Singkatnya, kotak pembatas adalah metode anotasi gambar untuk melatih model pembelajaran mesin berbasis AI. Ini digunakan untuk deteksi objek dan pengenalan target dalam berbagai aplikasi, termasuk robot, drone, kendaraan otonom, kamera pengintai, dan perangkat penglihatan mesin lainnya.

Sumber Daya yang Disarankan:

https://www.kdnuggets.com/2022/07/bounding-box-deep-learning-future-video-annotation.html#:~:text=A%20bounding%20box%20is%20a,location%2C%20size%2C%20and%20orientation.

https://www.v7labs.com/blog/bounding-box-annotation

https://towardsdatascience.com/image-data-labelling-and-annotation-everything-you-need-to-know-86ede6c684b1


Nanonet OCR & OCR API online punya banyak yang menarik gunakan kasing tHal ini dapat mengoptimalkan kinerja bisnis Anda, menghemat biaya, dan meningkatkan pertumbuhan. Temukan bagaimana kasus penggunaan Nanonet dapat diterapkan pada produk Anda.


Stempel Waktu:

Lebih dari AI & Pembelajaran Mesin