Buat Data Berkualitas Tinggi Untuk Model ML Dengan Amazon SageMaker Ground Truth

Diterbitkan Ulang Oleh Plato

Followers: 0

Pembelajaran mesin (ML) telah meningkatkan bisnis di berbagai industri dalam beberapa tahun terakhir—dari sistem rekomendasi di Perdana Video akun, untuk mendokumentasikan ringkasan dan pencarian yang efisien dengan Alexabantuan suara. Namun, pertanyaannya tetap bagaimana memasukkan teknologi ini ke dalam bisnis Anda. Tidak seperti metode berbasis aturan tradisional, ML secara otomatis menyimpulkan pola dari data untuk melakukan tugas yang Anda minati. Meskipun hal ini mengabaikan kebutuhan untuk menyusun aturan untuk otomatisasi, ini juga berarti bahwa model ML hanya dapat sebagus data tempat mereka dilatih. Namun, pembuatan data seringkali merupakan tugas yang menantang. Pada Lab Solusi Pembelajaran Mesin Amazon, kami telah berulang kali mengalami masalah ini dan ingin memudahkan perjalanan ini bagi pelanggan kami. Jika Anda ingin membongkar proses ini, Anda dapat menggunakan Kebenaran Dasar Amazon SageMaker Plus.

Pada akhir posting ini, Anda akan dapat mencapai hal berikut:

Memahami proses bisnis yang terlibat dalam menyiapkan jalur akuisisi data
Identifikasi layanan AWS Cloud untuk mendukung dan mempercepat saluran pelabelan data Anda
Jalankan tugas akuisisi data dan pelabelan untuk kasus penggunaan khusus
Buat data berkualitas tinggi dengan mengikuti praktik terbaik bisnis dan teknis

Sepanjang postingan ini, kami fokus pada proses pembuatan data dan mengandalkan layanan AWS untuk menangani infrastruktur dan komponen proses. Yaitu, kami menggunakan Kebenaran Dasar Amazon SageMaker untuk menangani pipa infrastruktur pelabelan dan antarmuka pengguna. Layanan ini menggunakan pendekatan point-and-go untuk mengumpulkan data Anda dari Layanan Penyimpanan Sederhana Amazon (Amazon S3) dan menyiapkan alur kerja pelabelan. Untuk pelabelan, ini memberi Anda fleksibilitas bawaan untuk memperoleh label data menggunakan tim pribadi Anda, dan Amazon Mechanical Turk force, atau vendor pelabelan pilihan Anda dari Pasar AWS. Terakhir, Anda dapat menggunakan AWS Lambda dan Notebook Amazon SageMaker untuk memproses, memvisualisasikan, atau mengontrol kualitas data—baik sebelum atau sesudah pelabelan.

Sekarang semua bagian telah diletakkan, mari kita mulai prosesnya!

Proses pembuatan data

Berlawanan dengan intuisi umum, langkah pertama untuk pembuatan data bukanlah pengumpulan data. Bekerja mundur dari pengguna untuk mengartikulasikan masalah sangat penting. Misalnya, apa yang dipedulikan pengguna di artefak akhir? Di mana para ahli percaya bahwa sinyal yang relevan dengan use case berada dalam data? Informasi apa tentang lingkungan use case yang dapat diberikan kepada model? Jika Anda tidak tahu jawaban atas pertanyaan-pertanyaan itu, jangan khawatir. Beri diri Anda waktu untuk berbicara dengan pengguna dan pakar lapangan untuk memahami nuansanya. Pemahaman awal ini akan mengarahkan Anda ke arah yang benar dan menyiapkan Anda untuk sukses.

Untuk posting ini, kami berasumsi bahwa Anda telah membahas proses awal spesifikasi kebutuhan pengguna ini. Tiga bagian berikutnya memandu Anda melalui proses selanjutnya dalam membuat data berkualitas: perencanaan, pembuatan data sumber, dan anotasi data. Percontohan loop pada langkah pembuatan data dan anotasi sangat penting untuk memastikan pembuatan data berlabel yang efisien. Ini melibatkan iterasi antara pembuatan data, anotasi, jaminan kualitas, dan memperbarui saluran sesuai kebutuhan.

Gambar berikut memberikan gambaran umum tentang langkah-langkah yang diperlukan dalam alur pembuatan data yang umum. Anda dapat bekerja mundur dari use case untuk mengidentifikasi data yang Anda butuhkan (Spesifikasi Persyaratan), membangun proses untuk mendapatkan data (Perencanaan), mengimplementasikan proses akuisisi data aktual (Pengumpulan Data dan Anotasi), dan menilai hasilnya. Percontohan berjalan, disorot dengan garis putus-putus, memungkinkan Anda mengulangi proses hingga saluran akuisisi data berkualitas tinggi telah dikembangkan.

Ikhtisar langkah-langkah yang diperlukan dalam alur pembuatan data biasa.

Perencanaan

Proses pembuatan data standar dapat memakan waktu dan membuang sumber daya manusia yang berharga jika dilakukan secara tidak efisien. Mengapa itu akan memakan waktu? Untuk menjawab pertanyaan ini, kita harus memahami ruang lingkup proses pembuatan data. Untuk membantu Anda, kami telah mengumpulkan daftar periksa tingkat tinggi dan deskripsi komponen utama dan pemangku kepentingan yang harus Anda pertimbangkan. Menjawab pertanyaan-pertanyaan ini mungkin sulit pada awalnya. Bergantung pada kasus penggunaan Anda, hanya beberapa di antaranya yang mungkin berlaku.

Identifikasi titik kontak hukum untuk persetujuan yang diperlukan – Menggunakan data untuk aplikasi Anda dapat memerlukan tinjauan lisensi atau kontrak vendor untuk memastikan kepatuhan terhadap kebijakan perusahaan dan kasus penggunaan. Penting untuk mengidentifikasi dukungan hukum Anda selama proses akuisisi data dan langkah-langkah anotasi.
Identifikasi titik kontak keamanan untuk penanganan data –Kebocoran data yang dibeli dapat mengakibatkan denda dan dampak serius bagi perusahaan Anda. Penting untuk mengidentifikasi dukungan keamanan Anda selama akuisisi data dan langkah-langkah anotasi untuk memastikan praktik yang aman.
Detail persyaratan kasus penggunaan dan tentukan data sumber dan pedoman anotasi – Membuat dan membuat anotasi data sulit karena spesifisitas yang tinggi diperlukan. Pemangku kepentingan, termasuk pembuat data dan annotator, harus benar-benar selaras untuk menghindari pemborosan sumber daya. Untuk tujuan ini, itu adalah praktik umum untuk menggunakan dokumen pedoman yang menentukan setiap aspek tugas anotasi: instruksi yang tepat, kasus tepi, contoh panduan, dan sebagainya.
Sejajarkan dengan harapan untuk mengumpulkan data sumber Anda – Pertimbangkan hal berikut:
- Melakukan penelitian tentang sumber data potensial – Misalnya, kumpulan data publik, kumpulan data yang ada dari tim internal lain, data yang dikumpulkan sendiri, atau dibeli dari vendor.
- Lakukan penilaian kualitas – Buat saluran analisis yang terkait dengan kasus penggunaan akhir.
Sejajarkan dengan harapan untuk membuat anotasi data – Pertimbangkan hal berikut:
- Identifikasi pemangku kepentingan teknis – Ini biasanya individu atau tim di perusahaan Anda yang mampu menggunakan dokumentasi teknis mengenai Ground Truth untuk mengimplementasikan pipeline anotasi. Pemangku kepentingan ini juga bertanggung jawab atas penilaian kualitas data beranotasi untuk memastikan bahwa data tersebut memenuhi kebutuhan aplikasi ML hilir Anda.
- Identifikasi annotator data – Orang-orang ini menggunakan instruksi yang telah ditentukan sebelumnya untuk menambahkan label ke data sumber Anda di dalam Ground Truth. Mereka mungkin perlu memiliki pengetahuan domain tergantung pada kasus penggunaan dan pedoman anotasi Anda. Anda dapat menggunakan tenaga kerja internal untuk perusahaan Anda, atau membayar untuk a tenaga kerja yang dikelola oleh vendor eksternal.
Pastikan pengawasan proses pembuatan data – Seperti yang dapat Anda lihat dari poin sebelumnya, pembuatan data adalah proses terperinci yang melibatkan banyak pemangku kepentingan khusus. Oleh karena itu, sangat penting untuk memantaunya dari ujung ke ujung menuju hasil yang diinginkan. Memiliki orang atau tim khusus yang mengawasi proses dapat membantu Anda memastikan proses pembuatan data yang kohesif dan efisien.

Tergantung pada rute yang Anda putuskan untuk diambil, Anda juga harus mempertimbangkan hal-hal berikut:

Buat kumpulan data sumber – Ini mengacu pada contoh ketika data yang ada tidak sesuai untuk tugas yang ada, atau kendala hukum mencegah Anda menggunakannya. Tim internal atau vendor eksternal (poin berikutnya) harus digunakan. Hal ini sering terjadi untuk domain yang sangat terspesialisasi atau area dengan penelitian publik yang rendah. Misalnya, pertanyaan umum seorang dokter, garmen, atau pakar olahraga. Itu bisa internal atau eksternal.
Teliti vendor dan lakukan proses orientasi – Ketika vendor eksternal digunakan, proses kontrak dan orientasi harus ditetapkan di antara kedua entitas.

Pada bagian ini, kami meninjau komponen dan pemangku kepentingan yang harus kami pertimbangkan. Namun, seperti apa proses sebenarnya? Pada gambar berikut, kami menguraikan alur kerja proses untuk pembuatan dan anotasi data. Pendekatan iteratif menggunakan kumpulan kecil data yang disebut pilot untuk mengurangi waktu penyelesaian, mendeteksi kesalahan sejak dini, dan menghindari pemborosan sumber daya dalam pembuatan data berkualitas rendah. Kami menjelaskan putaran percontohan ini nanti di posting ini. Kami juga membahas beberapa praktik terbaik untuk pembuatan data, anotasi, dan kontrol kualitas.

Gambar berikut mengilustrasikan pengembangan berulang dari jalur pembuatan data. Secara vertikal, kami menemukan blok sumber data (hijau) dan blok anotasi (biru). Kedua blok memiliki putaran percontohan independen (Pembuatan data/Anotasi, QAQC, dan Pembaruan). Semakin tinggi sumber data yang dibuat dan dapat digunakan untuk membuat anotasi dengan kualitas yang semakin tinggi.

Selama pengembangan berulang dari pembuatan data atau alur anotasi, sejumlah kecil data digunakan untuk pilot independen. Setiap putaran percontohan memiliki fase pembuatan atau anotasi data, beberapa jaminan kualitas dan kontrol kualitas hasil, dan langkah pembaruan untuk menyempurnakan proses. Setelah proses ini diselesaikan melalui uji coba berturut-turut, Anda dapat melanjutkan ke pembuatan dan anotasi data skala besar.

Ikhtisar pengembangan berulang dalam alur pembuatan data.

Pembuatan data sumber

Proses pembuatan input berkisar pada pementasan item yang Anda minati, yang bergantung pada jenis tugas Anda. Ini bisa berupa gambar (pemindaian koran), video (adegan lalu lintas), awan titik 3D (pemindaian medis), atau sekadar teks (trek subtitle, transkripsi). Secara umum, saat melakukan staging item terkait tugas Anda, pastikan hal-hal berikut:

Mencerminkan kasus penggunaan dunia nyata untuk sistem AI/ML akhirnya – Pengaturan untuk mengumpulkan gambar atau video untuk data pelatihan Anda harus sangat cocok dengan pengaturan untuk data input Anda di aplikasi dunia nyata. Ini berarti memiliki permukaan penempatan yang konsisten, sumber pencahayaan, atau sudut kamera.
Memperhitungkan dan meminimalkan sumber variabilitas – Pertimbangkan hal berikut:
- Kembangkan praktik terbaik untuk mempertahankan standar pengumpulan data – Bergantung pada perincian kasus penggunaan Anda, Anda mungkin perlu menentukan persyaratan untuk menjamin konsistensi di antara titik data Anda. Misalnya, jika Anda mengumpulkan data gambar atau video dari satu titik kamera, Anda mungkin perlu memastikan penempatan objek yang Anda minati secara konsisten, atau memerlukan pemeriksaan kualitas kamera sebelum putaran pengambilan data. Ini dapat menghindari masalah seperti kemiringan atau kekaburan kamera, dan meminimalkan overhead hilir seperti menghapus gambar di luar bingkai atau buram, serta perlu memusatkan bingkai gambar secara manual di area yang Anda minati.
- Sumber variabilitas waktu pengujian sebelumnya – Jika Anda mengantisipasi variabilitas dalam salah satu atribut yang disebutkan sejauh ini selama waktu pengujian, pastikan Anda dapat menangkap sumber variabilitas tersebut selama pembuatan data pelatihan. Misalnya, jika Anda mengharapkan aplikasi ML Anda bekerja di beberapa pengaturan cahaya yang berbeda, Anda harus bertujuan untuk membuat gambar dan video pelatihan di berbagai pengaturan cahaya. Bergantung pada kasus penggunaan, variabilitas dalam pemosisian kamera juga dapat memengaruhi kualitas label Anda.
Gabungkan pengetahuan domain sebelumnya jika tersedia – Pertimbangkan hal berikut:
- Masukan pada sumber kesalahan – Praktisi domain dapat memberikan wawasan tentang sumber kesalahan berdasarkan pengalaman mereka selama bertahun-tahun. Mereka dapat memberikan umpan balik tentang praktik terbaik untuk dua poin sebelumnya: Pengaturan apa yang paling mencerminkan kasus penggunaan dunia nyata? Apa kemungkinan sumber variabilitas selama pengumpulan data, atau pada saat digunakan?
- Praktik terbaik pengumpulan data khusus domain – Meskipun pemangku kepentingan teknis Anda mungkin sudah memiliki gagasan bagus tentang aspek teknis untuk difokuskan pada gambar atau video yang dikumpulkan, praktisi domain dapat memberikan umpan balik tentang cara terbaik untuk menyusun atau mengumpulkan data sedemikian rupa sehingga kebutuhan ini terpenuhi.

Kontrol kualitas dan jaminan kualitas dari data yang dibuat

Sekarang setelah Anda menyiapkan jalur pengumpulan data, mungkin Anda tergoda untuk melanjutkan dan mengumpulkan data sebanyak mungkin. Tunggu sebentar! Kami harus terlebih dahulu memeriksa apakah data yang dikumpulkan melalui penyiapan cocok untuk kasus penggunaan kata nyata Anda. Kami dapat menggunakan beberapa sampel awal dan secara iteratif meningkatkan penyiapan melalui wawasan yang kami peroleh dari menganalisis data sampel tersebut. Bekerja sama dengan pemangku kepentingan teknis, bisnis, dan anotasi Anda selama proses percontohan. Ini akan memastikan bahwa pipeline Anda yang dihasilkan memenuhi kebutuhan bisnis sambil menghasilkan data berlabel siap-ML dalam overhead yang minimal.

Penjelasan

Anotasi input adalah tempat kita menambahkan sentuhan ajaib ke data kita—label! Bergantung pada jenis tugas dan proses pembuatan data, Anda mungkin memerlukan annotator manual, atau Anda dapat menggunakan metode otomatis yang tersedia. Pipa anotasi data itu sendiri bisa menjadi tugas yang menantang secara teknis. Ground Truth memudahkan perjalanan ini bagi pemangku kepentingan teknis Anda dengan repertoar bawaan alur kerja pelabelan untuk sumber data umum. Dengan beberapa langkah tambahan, ini juga memungkinkan Anda untuk membangun alur kerja pelabelan kustom di luar opsi yang telah dikonfigurasi sebelumnya.

Ajukan pertanyaan berikut kepada diri Anda sendiri saat mengembangkan alur kerja anotasi yang sesuai:

Apakah saya memerlukan proses anotasi manual untuk data saya? Dalam beberapa kasus, layanan pelabelan otomatis mungkin cukup untuk tugas yang ada. Meninjau dokumentasi dan alat yang tersedia dapat membantu Anda mengidentifikasi apakah anotasi manual diperlukan untuk kasus penggunaan Anda (untuk informasi lebih lanjut, lihat Apa itu pelabelan data?). Proses pembuatan data dapat memungkinkan berbagai tingkat kontrol terkait perincian anotasi data Anda. Bergantung pada proses ini, terkadang Anda juga dapat mengabaikan kebutuhan anotasi manual. Untuk informasi lebih lanjut, lihat Bangun kumpulan data T&J khusus menggunakan Amazon SageMaker Ground Truth untuk melatih model NLU T&J Wajah Memeluk.
Apa yang membentuk kebenaran dasar saya? Dalam kebanyakan kasus, kebenaran dasar akan datang dari proses anotasi Anda—itulah intinya! Di tempat lain, pengguna mungkin memiliki akses ke label kebenaran dasar. Ini dapat secara signifikan mempercepat proses jaminan kualitas Anda, atau mengurangi biaya tambahan yang diperlukan untuk beberapa anotasi manual.
Berapa batas atas untuk jumlah penyimpangan dari keadaan kebenaran dasar saya? Bekerja dengan pengguna akhir Anda untuk memahami kesalahan umum di sekitar label ini, sumber kesalahan tersebut, dan pengurangan kesalahan yang diinginkan. Ini akan membantu Anda mengidentifikasi aspek tugas pelabelan mana yang paling menantang atau cenderung memiliki kesalahan anotasi.
Apakah ada aturan yang sudah ada sebelumnya yang digunakan oleh pengguna atau praktisi lapangan untuk melabeli barang-barang ini? Gunakan dan sempurnakan panduan ini untuk membuat serangkaian instruksi untuk annotator manual Anda.

Menguji proses anotasi input

Saat menguji coba proses anotasi input, pertimbangkan hal berikut:

Tinjau instruksi dengan annotator dan praktisi lapangan - Instruksi harus singkat dan spesifik. Mintalah umpan balik dari pengguna Anda (Apakah instruksinya akurat? Bisakah kami merevisi instruksi apa pun untuk memastikan bahwa instruksi tersebut dapat dipahami oleh praktisi non-lapangan?) dan annotator (Apakah semuanya dapat dimengerti? Apakah tugasnya jelas?). Jika memungkinkan, tambahkan contoh data berlabel baik dan buruk untuk membantu annotator Anda mengidentifikasi apa yang diharapkan, dan seperti apa kesalahan pelabelan umum yang mungkin terlihat.
Kumpulkan data untuk anotasi – Tinjau data dengan pelanggan Anda untuk memastikan bahwa data tersebut memenuhi standar yang diharapkan, dan untuk menyelaraskan hasil yang diharapkan dari anotasi manual.
Berikan contoh ke kumpulan annotator manual Anda sebagai uji coba – Apa varians khas di antara para annotator dalam rangkaian contoh ini? Pelajari varians untuk setiap anotasi dalam gambar tertentu untuk mengidentifikasi tren konsistensi di antara annotator. Kemudian bandingkan varians di seluruh gambar atau bingkai video untuk mengidentifikasi label mana yang sulit untuk ditempatkan.

Kontrol kualitas anotasi

Kontrol kualitas anotasi memiliki dua komponen utama: menilai konsistensi antara annotator, dan menilai kualitas anotasi itu sendiri.

Anda dapat menetapkan beberapa annotator untuk tugas yang sama (misalnya, tiga annotator memberi label poin-poin penting pada gambar yang sama), dan mengukur nilai rata-rata di samping standar deviasi label ini di antara para annotator. Melakukannya membantu Anda mengidentifikasi anotasi outlier (label yang digunakan salah, atau label jauh dari anotasi rata-rata), yang dapat memandu hasil yang dapat ditindaklanjuti, seperti menyempurnakan instruksi Anda atau memberikan pelatihan lebih lanjut kepada annotator tertentu.

Menilai kualitas anotasi itu sendiri terkait dengan variabilitas anotator dan (bila tersedia) ketersediaan pakar domain atau informasi kebenaran dasar. Apakah ada label tertentu (di semua gambar Anda) di mana varians rata-rata antara annotator selalu tinggi? Apakah ada label yang jauh dari harapan Anda tentang di mana seharusnya, atau seperti apa seharusnya?

Berdasarkan pengalaman kami, loop kontrol kualitas tipikal untuk anotasi data dapat terlihat seperti ini:

Iterasi pada instruksi atau pementasan gambar berdasarkan hasil dari uji coba – Apakah ada objek yang terhalang, atau apakah pementasan gambar tidak sesuai dengan harapan annotator atau pengguna? Apakah petunjuknya menyesatkan, atau apakah Anda melewatkan label atau kesalahan umum pada gambar contoh Anda? Bisakah Anda memperbaiki instruksi untuk annotator Anda?
Jika Anda puas bahwa Anda telah mengatasi masalah apa pun dari uji coba, lakukan sejumlah anotasi – Untuk menguji hasil dari batch, ikuti pendekatan penilaian kualitas yang sama untuk menilai variabilitas label antar-annotator dan antar-gambar.

Kesimpulan

Postingan ini berfungsi sebagai panduan bagi pemangku kepentingan bisnis untuk memahami kompleksitas pembuatan data untuk aplikasi AI/ML. Proses yang dijelaskan juga berfungsi sebagai panduan bagi praktisi teknis untuk menghasilkan data berkualitas sambil mengoptimalkan kendala bisnis seperti personel dan biaya. Jika tidak dilakukan dengan baik, pembuatan data dan jalur pelabelan dapat memakan waktu hingga 4-6 bulan.

Dengan pedoman dan saran yang diuraikan dalam posting ini, Anda dapat mendahului penghalang pandang, mengurangi waktu penyelesaian, dan meminimalkan biaya dalam perjalanan Anda menuju pembuatan data berkualitas tinggi.

Tentang penulis

Jasleen Grewal adalah Ilmuwan Terapan di Amazon Web Services, tempat dia bekerja dengan pelanggan AWS untuk memecahkan masalah dunia nyata menggunakan pembelajaran mesin, dengan fokus khusus pada pengobatan presisi dan genomik. Dia memiliki latar belakang yang kuat dalam bioinformatika, onkologi, dan genomik klinis. Dia bersemangat menggunakan AI/ML dan layanan cloud untuk meningkatkan perawatan pasien.

Boris Aronchiko adalah Manajer di Amazon AI Machine Learning Solutions Lab, tempat dia memimpin tim ilmuwan dan insinyur ML untuk membantu pelanggan AWS mewujudkan tujuan bisnis dengan memanfaatkan solusi AI/ML.

Miguel Romero Calvo adalah Ilmuwan Terapan di Lab Solusi Amazon ML di mana ia bermitra dengan tim internal AWS dan pelanggan strategis untuk mempercepat bisnis mereka melalui adopsi ML dan cloud.

Lin LeeCheong adalah Ilmuwan Senior dan Manajer dengan tim Amazon ML Solutions Lab di Amazon Web Services. Dia bekerja dengan pelanggan AWS strategis untuk mengeksplorasi dan menerapkan kecerdasan buatan dan pembelajaran mesin untuk menemukan wawasan baru dan memecahkan masalah kompleks.

Stempel Waktu: Oktober 3, 2022Oktober 3, 2022

Stempel Waktu: November 17, 2022

Buat data berkualitas tinggi untuk model ML dengan Amazon SageMaker Ground Truth

Diterbitkan Ulang Oleh Plato

Proses pembuatan data

Perencanaan

Pembuatan data sumber

Kontrol kualitas dan jaminan kualitas dari data yang dibuat

Penjelasan

Menguji proses anotasi input

Kontrol kualitas anotasi

Kesimpulan

Tentang penulis

Lebih dari Pembelajaran Mesin AWS

Amazon SageMaker JumpStart kini menawarkan notebook Amazon Comprehend untuk klasifikasi kustom dan deteksi entitas kustom

Berikan bantuan agen langsung untuk pengguna chatbot Anda dengan pusat kontak cloud Amazon Lex dan Talkdesk | Layanan Web Amazon

Tingkatkan akurasi pencarian dengan Pemeriksa Ejaan di Amazon Kendra

Identifikasi lokasi anomali menggunakan Amazon Lookout for Vision di edge tanpa menggunakan GPU

Rekayasa fitur berskala besar dengan perlindungan data sensitif menggunakan sesi interaktif AWS Glue dan Amazon SageMaker Studio

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun