Tips Untuk Meningkatkan Model Label Kustom Pengakuan Amazon Anda

Diterbitkan Ulang Oleh Plato

Followers: 0

Dalam posting ini, kami membahas praktik terbaik untuk meningkatkan kinerja model visi komputer Anda menggunakan Label Kustom Amazon Rekognition. Label Kustom Rekognition adalah layanan terkelola sepenuhnya untuk membangun model visi komputer kustom untuk klasifikasi gambar dan kasus penggunaan deteksi objek. Label Kustom Pengakuan dibuat dari model yang telah dilatih sebelumnya di Rekognisi Amazon, yang sudah dilatih pada puluhan juta gambar di banyak kategori. Alih-alih ribuan gambar, Anda dapat memulai dengan sekumpulan kecil gambar pelatihan (beberapa ratus atau kurang) yang khusus untuk kasus penggunaan Anda. Label Kustom Pengakuan mengabstraksikan kompleksitas yang terlibat dalam membangun model kustom. Ini secara otomatis memeriksa data pelatihan, memilih algoritme ML yang tepat, memilih jenis instans, melatih beberapa model kandidat dengan berbagai pengaturan hyperparameter, dan menghasilkan model terlatih terbaik. Label Kustom Pengakuan juga menyediakan antarmuka yang mudah digunakan dari Konsol Manajemen AWS untuk mengelola seluruh alur kerja ML, termasuk memberi label pada gambar, melatih model, menerapkan model, dan memvisualisasikan hasil pengujian.

Ada kalanya akurasi model bukanlah yang terbaik, dan Anda tidak memiliki banyak opsi untuk menyesuaikan parameter konfigurasi model. Di balik layar ada beberapa faktor yang memainkan peran kunci untuk membangun model berkinerja tinggi, seperti berikut ini:

Sudut gambar
Resolusi gambar
Rasio aspek gambar
Paparan cahaya
Kejelasan dan kejelasan latar belakang
Kontras warna
Ukuran data sampel

Berikut ini adalah langkah-langkah umum yang harus diikuti untuk melatih model Label Kustom Pengakuan tingkat produksi:

Tinjau Taksonomi – Ini mendefinisikan daftar atribut/item yang ingin Anda identifikasi dalam sebuah gambar.
Kumpulkan data yang relevan – Ini adalah langkah paling penting, di mana Anda perlu mengumpulkan gambar relevan yang harus menyerupai apa yang akan Anda lihat di lingkungan produksi. Ini bisa melibatkan gambar objek dengan berbagai latar belakang, pencahayaan, atau sudut kamera. Anda kemudian membuat set data pelatihan dan pengujian dengan memisahkan gambar yang dikumpulkan. Anda hanya boleh menyertakan gambar dunia nyata sebagai bagian dari kumpulan data pengujian, dan tidak boleh menyertakan gambar yang dibuat secara sintetis. Anotasi data yang Anda kumpulkan sangat penting untuk kinerja model. Pastikan kotak pembatas rapat di sekitar objek dan labelnya akurat. Kami membahas beberapa tips yang dapat Anda pertimbangkan saat membangun dataset yang sesuai nanti di posting ini.
Tinjau metrik pelatihan – Gunakan kumpulan data sebelumnya untuk melatih model dan meninjau metrik pelatihan untuk skor F1, presisi, dan ingatan. Kami akan membahas secara detail tentang cara menganalisis metrik pelatihan nanti di posting ini.
Evaluasi model yang dilatih – Gunakan satu set gambar yang tidak terlihat (tidak digunakan untuk melatih model) dengan label yang diketahui untuk mengevaluasi prediksi. Langkah ini harus selalu dilakukan untuk memastikan bahwa model bekerja seperti yang diharapkan dalam lingkungan produksi.
Pelatihan ulang (opsional) – Secara umum, melatih model pembelajaran mesin apa pun adalah proses berulang untuk mencapai hasil yang diinginkan, model visi komputer tidak berbeda. Tinjau hasil pada Langkah 4, untuk melihat apakah lebih banyak gambar perlu ditambahkan ke data pelatihan dan ulangi Langkah 3 – 5 di atas.

Dalam postingan ini, kami berfokus pada praktik terbaik seputar pengumpulan data yang relevan (Langkah 2) dan mengevaluasi metrik terlatih Anda (Langkah 3) untuk meningkatkan performa model Anda.

Kumpulkan data yang relevan

Ini adalah tahap paling kritis dalam melatih model Label Kustom Pengakuan tingkat produksi. Secara khusus, ada dua set data: pelatihan dan pengujian. Data pelatihan digunakan untuk melatih model, dan Anda perlu mengeluarkan upaya untuk membangun set pelatihan yang sesuai. Model Label Kustom Pengakuan dioptimalkan untuk Skor F1 pada kumpulan data pengujian untuk memilih model yang paling akurat untuk proyek Anda. Oleh karena itu, penting untuk membuat kumpulan data pengujian yang menyerupai dunia nyata.

Jumlah gambar

Kami merekomendasikan memiliki minimal 15-20 gambar per label. Memiliki lebih banyak gambar dengan lebih banyak variasi yang mencerminkan kasus penggunaan Anda akan meningkatkan kinerja model.

Kumpulan data seimbang

Idealnya, setiap label dalam kumpulan data harus memiliki jumlah sampel yang sama. Seharusnya tidak ada perbedaan besar dalam jumlah gambar per label. Misalnya, kumpulan data dengan jumlah gambar tertinggi untuk suatu label adalah 1,000 vs. 50 gambar untuk label lain menyerupai kumpulan data yang tidak seimbang. Sebaiknya hindari skenario dengan rasio miring 1:50 antara label dengan jumlah gambar paling sedikit vs. label dengan jumlah gambar paling banyak.

Berbagai jenis gambar

Sertakan gambar dalam set data pelatihan dan pengujian yang menyerupai apa yang akan Anda gunakan di dunia nyata. Misalnya, jika Anda ingin mengklasifikasikan gambar ruang tamu vs. kamar tidur, Anda harus menyertakan gambar kosong dan berperabot dari kedua kamar.

Berikut ini adalah contoh gambar ruang tamu berperabot.

Sebaliknya, berikut ini adalah contoh ruang tamu unfurnished.

Berikut ini adalah contoh gambar kamar tidur berperabot.

Berikut ini adalah contoh gambar kamar tidur unfurnished.

Latar belakang yang bervariasi

Sertakan gambar dengan latar belakang yang berbeda. Gambar dengan konteks alami dapat memberikan hasil yang lebih baik daripada latar belakang biasa.

Berikut ini adalah contoh gambar halaman depan sebuah rumah.

Berikut ini adalah contoh gambar halaman depan rumah yang berbeda dengan background yang berbeda.

Memvariasikan kondisi pencahayaan

Sertakan gambar dengan pencahayaan yang bervariasi sehingga mencakup kondisi pencahayaan berbeda yang terjadi selama inferensi (misalnya, dengan dan tanpa lampu kilat). Anda juga dapat menyertakan gambar dengan saturasi, rona, dan kecerahan yang bervariasi.

Berikut ini adalah contoh gambar bunga di bawah cahaya normal.

Sebaliknya, gambar berikut adalah bunga yang sama di bawah cahaya terang.

Sudut yang bervariasi

Sertakan gambar yang diambil dari berbagai sudut objek. Ini membantu model mempelajari karakteristik objek yang berbeda.

Gambar berikut adalah kamar tidur yang sama dari sudut yang berbeda.

Kiat untuk meningkatkan model Label Kustom Amazon Rekognition Anda, PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Mungkin ada saat-saat di mana tidak mungkin untuk memperoleh gambar dari berbagai jenis. Dalam skenario tersebut, gambar sintetis dapat dihasilkan sebagai bagian dari set data pelatihan. Untuk informasi lebih lanjut tentang teknik augmentasi gambar umum, lihat Augmentasi Data.

Tambahkan label negatif

Untuk klasifikasi gambar, menambahkan label negatif dapat membantu meningkatkan akurasi model. Misalnya, Anda dapat menambahkan label negatif, yang tidak cocok dengan label yang diperlukan. Gambar berikut mewakili label berbeda yang digunakan untuk mengidentifikasi bunga yang sudah dewasa.

Menambahkan label negatif not_fully_grown membantu model mempelajari karakteristik yang bukan bagian dari fully_grown label.

Menangani kebingungan label

Analisis hasil pada set data pengujian untuk mengenali pola apa pun yang terlewatkan dalam set data pelatihan atau pengujian. Terkadang mudah untuk menemukan pola seperti itu dengan memeriksa gambar secara visual. Pada gambar berikut, model sedang berjuang untuk menyelesaikan antara label halaman belakang vs. teras.

Dalam skenario ini, menambahkan lebih banyak gambar ke label ini dalam kumpulan data dan juga mendefinisikan ulang label sehingga setiap label berbeda dapat membantu meningkatkan akurasi model.

Augmentasi data

Di dalam Label Kustom Pengakuan, kami melakukan berbagai augmentasi data untuk pelatihan model, termasuk pemotongan gambar secara acak, jittering warna, derau Gaussian acak, dan banyak lagi. Berdasarkan kasus penggunaan khusus Anda, mungkin juga bermanfaat untuk menambahkan augmentasi data yang lebih eksplisit ke data pelatihan Anda. Misalnya, jika Anda tertarik untuk mendeteksi hewan dalam gambar berwarna dan hitam putih, Anda berpotensi mendapatkan akurasi yang lebih baik dengan menambahkan versi hitam putih dan warna dari gambar yang sama ke data pelatihan.

Kami tidak menyarankan augmentasi pada data pengujian kecuali augmentasi mencerminkan kasus penggunaan produksi Anda.

Tinjau metrik pelatihan

Skor F1, presisi, daya ingat, dan ambang batas yang diasumsikan adalah metrik yang dihasilkan sebagai output dari pelatihan model menggunakan Label Kustom Pengakuan. Model dioptimalkan untuk skor F1 terbaik berdasarkan dataset pengujian yang disediakan. Ambang batas yang diasumsikan juga dihasilkan berdasarkan kumpulan data pengujian. Anda dapat menyesuaikan ambang batas berdasarkan kebutuhan bisnis Anda dalam hal presisi atau penarikan kembali.

Karena ambang batas yang diasumsikan ditetapkan pada kumpulan data pengujian, kumpulan pengujian yang sesuai harus mencerminkan kasus penggunaan produksi dunia nyata. Jika kumpulan data pengujian tidak mewakili kasus penggunaan, Anda mungkin melihat skor F1 yang sangat tinggi dan kinerja model yang buruk pada gambar dunia nyata Anda.

Metrik ini sangat membantu saat melakukan evaluasi awal model. Untuk sistem tingkat produksi, sebaiknya evaluasi model terhadap kumpulan data eksternal (500–1,000 gambar tak terlihat) yang mewakili dunia nyata. Ini membantu mengevaluasi bagaimana model akan tampil dalam sistem produksi dan juga mengidentifikasi pola yang hilang dan memperbaikinya dengan melatih ulang model. Jika Anda melihat ketidakcocokan antara skor F1 dan evaluasi eksternal, kami sarankan Anda memeriksa apakah data pengujian Anda mencerminkan kasus penggunaan dunia nyata.

Kesimpulan

Dalam postingan ini, kami memandu Anda melalui praktik terbaik untuk meningkatkan model Label Kustom Pengakuan. Kami mendorong Anda untuk mempelajari lebih lanjut tentang Label Kustom Pengakuan dan mencobanya untuk kumpulan data khusus bisnis Anda.

Tentang penulis

Amit Gupta adalah Arsitek Solusi Layanan AI Senior di AWS. Dia bersemangat untuk memungkinkan pelanggan dengan solusi machine learning yang dirancang dengan baik dalam skala besar.

Yogesh Chaturvedi adalah Arsitek Solusi di AWS dengan fokus pada visi komputer. Dia bekerja dengan pelanggan untuk mengatasi tantangan bisnis mereka menggunakan teknologi cloud. Di luar pekerjaan, ia menikmati hiking, bepergian, dan menonton olahraga.

Hao Yang adalah Ilmuwan Terapan Senior di tim Label Kustom Amazon Rekognition. Minat penelitian utamanya adalah deteksi objek dan pembelajaran dengan anotasi terbatas. Pekerjaan di luar, Hao menikmati menonton film, fotografi, dan kegiatan di luar ruangan.

Mistry pashmeen adalah Manajer Produk Senior untuk Label Kustom Amazon Rekognition. Di luar pekerjaan, Pashmeen menikmati petualangan hiking, fotografi, dan menghabiskan waktu bersama keluarganya.

Stempel Waktu: September 9, 2022September 10, 2022

Lebih dari Pembelajaran Mesin AWS

Bagaimana Mendix mengubah pengalaman pelanggan dengan AI generatif dan Amazon Bedrock | Layanan Web Amazon

Pembelajaran Mesin AWS

Node Sumber: 1913698

Stempel Waktu: November 15, 2023

Menskalakan LLM dengan PyTorch 2.0 FSDP di Amazon EKS – Bagian 2 | Layanan Web Amazon

Kluster Sumber:

Pembelajaran Mesin AWS

Node Sumber: 1960833

Stempel Waktu: April 1, 2024

Kiat untuk meningkatkan model Label Kustom Amazon Rekognition Anda

Diterbitkan Ulang Oleh Plato

Kumpulkan data yang relevan

Jumlah gambar

Kumpulan data seimbang

Berbagai jenis gambar

Latar belakang yang bervariasi

Memvariasikan kondisi pencahayaan

Sudut yang bervariasi

Tambahkan label negatif

Menangani kebingungan label

Augmentasi data

Tinjau metrik pelatihan

Kesimpulan

Tentang penulis

Lebih dari Pembelajaran Mesin AWS

Transfer pembelajaran untuk model klasifikasi gambar TensorFlow di Amazon SageMaker

Latih ulang jaringan saraf secara otomatis dengan Renate

Kurangi limbah makanan untuk meningkatkan keberlanjutan dan hasil keuangan di ritel dengan Amazon Forecast

Persiapkan data dari Amazon EMR untuk pembelajaran mesin menggunakan Amazon SageMaker Data Wrangler

Jalankan model ML ansambel di Amazon SageMaker

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun