Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas

Analis bisnis bekerja dengan data dan suka menganalisis, mengeksplorasi, dan memahami data untuk mencapai hasil bisnis yang efektif. Untuk mengatasi masalah bisnis, mereka sering mengandalkan praktisi pembelajaran mesin (ML) seperti ilmuwan data untuk membantu dengan teknik seperti memanfaatkan ML untuk membuat model menggunakan data yang ada dan menghasilkan prediksi. Namun, ini tidak selalu memungkinkan, karena data scientist biasanya terikat dengan tugas mereka dan tidak memiliki bandwidth untuk membantu analis.

Untuk mandiri dan mencapai tujuan Anda sebagai analis bisnis, akan ideal untuk bekerja dengan alat yang mudah digunakan, intuitif, dan visual yang menggunakan ML tanpa perlu mengetahui detail dan menggunakan kode. Menggunakan alat ini akan membantu Anda memecahkan masalah bisnis Anda dan mencapai hasil yang diinginkan.

Dengan tujuan untuk membantu Anda dan organisasi Anda menjadi lebih efektif, dan menggunakan ML tanpa menulis kode, kami memperkenalkan Kanvas Amazon SageMaker. Ini adalah solusi ML tanpa kode yang membantu Anda membuat model ML yang akurat tanpa perlu mempelajari detail teknis, seperti algoritme ML dan metrik evaluasi. SageMaker Canvas menawarkan antarmuka visual dan intuitif yang memungkinkan Anda mengimpor data, melatih model ML, melakukan analisis model, dan membuat prediksi ML, semuanya tanpa menulis satu baris kode pun.

Saat menggunakan SageMaker Canvas untuk bereksperimen, Anda mungkin mengalami masalah kualitas data seperti nilai yang hilang atau jenis masalah yang salah. Masalah ini mungkin tidak ditemukan hingga proses yang agak terlambat setelah melatih model ML. Untuk mengatasi tantangan ini, SageMaker Canvas kini mendukung validasi data. Fitur ini secara proaktif memeriksa masalah dalam data Anda dan memberikan panduan untuk penyelesaiannya.

Dalam postingan ini, kami akan mendemonstrasikan bagaimana Anda dapat menggunakan kemampuan validasi data dalam SageMaker Canvas sebelum membuat model. Seperti namanya, fitur ini memvalidasi kumpulan data Anda, melaporkan masalah, dan memberikan petunjuk berguna untuk memperbaikinya. Dengan menggunakan data berkualitas lebih baik, Anda akan mendapatkan model ML yang berperforma lebih baik.

Validasi data di SageMaker Canvas

Validasi Data adalah fitur baru di SageMaker Canvas untuk memeriksa potensi masalah kualitas data secara proaktif. Setelah Anda mengimpor data dan memilih kolom target, Anda diberi pilihan untuk memvalidasi data Anda seperti yang ditampilkan di sini:

Jika Anda memilih untuk memvalidasi data Anda, Canvas menganalisis data Anda untuk berbagai kondisi termasuk:

  • Terlalu banyak label unik di kolom target Anda โ€“ untuk tipe model prediksi kategori
  • Terlalu banyak label unik di kolom target Anda untuk jumlah baris di data Anda โ€“ untuk tipe model prediksi kategori
  • Jenis model yang salah untuk data Anda โ€“ tipe model tidak cocok dengan data yang Anda prediksi di kolom Target
  • Terlalu banyak baris yang tidak valid โ€“ nilai yang hilang di kolom target Anda
  • Semua kolom fitur adalah kolom teks โ€“ mereka akan dijatuhkan untuk build standar
  • Terlalu sedikit kolom โ€“ terlalu sedikit kolom dalam data Anda
  • Tidak ada baris lengkap โ€“ semua baris dalam data Anda berisi nilai yang hilang
  • Satu atau beberapa nama kolom berisi garis bawah ganda โ€“ SageMaker tidak dapat menangani (__) di header kolom

Detail untuk setiap kriteria validasi akan diberikan di bagian selanjutnya dari posting ini.

Jika semua pemeriksaan lulus, maka Anda akan mendapatkan konfirmasi berikut: โ€œTidak ada masalah yang ditemukan di kumpulan data Andaโ€.

Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Jika ada masalah yang ditemukan, Anda akan mendapatkan notifikasi untuk dilihat dan dipahami. Ini memunculkan masalah kualitas data lebih awal, dan memungkinkan Anda mengatasinya segera sebelum membuang waktu dan sumber daya lebih lanjut dalam proses.

Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai. Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Anda dapat melakukan penyesuaian dan terus memvalidasi kumpulan data hingga semua masalah teratasi.

Validasi kolom target dan tipe model

Saat Anda membuat model ML di SageMaker Canvas, beberapa masalah kualitas data terkait dengan kolom sasaran dapat menyebabkan pembuatan model Anda gagal. SageMaker Canvas memeriksa berbagai jenis masalah yang mungkin berdampak pada Anda kolom sasaran.

Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

  1. Untuk kolom target Anda, periksa Jenis model yang salah untuk data Anda. Misalnya, jika model prediksi 2 kategori dipilih tetapi kolom target Anda memiliki lebih dari 2 label unik, Kanvas SageMaker akan memberikan peringatan validasi berikut.
    Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  2. Jika jenis modelnya adalah prediksi kategori 2 atau 3+, maka Anda harus memvalidasi terlalu banyak label unik untuk kolom target Anda. Jumlah maksimum kelas unik adalah 2000. Jika Anda memilih kolom dengan lebih dari 2000 nilai unik di kolom Target, Canvas akan memberikan peringatan validasi berikut.
    Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  3. Selain terlalu banyak label target yang unik, Anda juga harus berhati-hati banyak label target unik untuk jumlah baris dalam data Anda. Kanvas SageMaker memberlakukan rasio label target dengan jumlah total baris menjadi kurang dari 10%. Ini memastikan Anda memiliki representasi yang cukup untuk setiap kategori untuk model berkualitas tinggi dan mengurangi potensi overfitting. Model Anda dianggap overfitting jika memprediksi dengan baik pada data pelatihan tetapi tidak pada data baru yang belum pernah terlihat sebelumnya. Merujuk di sini untuk mempelajari lebih lanjut.
    Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  4. Terakhir, pemeriksaan terakhir untuk kolom target adalah terlalu banyak baris yang tidak valid. Jika kolom target Anda memiliki lebih dari 10% data yang hilang atau tidak valid, maka itu akan memengaruhi kinerja model Anda, dan dalam beberapa kasus menyebabkan pembuatan model Anda gagal. Contoh berikut memiliki banyak nilai yang hilang (>90% hilang) di kolom target, dan Anda mendapatkan peringatan validasi berikut.
    Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
    Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Jika Anda mendapatkan salah satu peringatan di atas untuk kolom target Anda, gunakan langkah-langkah berikut untuk mengurangi masalah:

  1. Apakah Anda menggunakan kolom target yang tepat?
  2. Apakah Anda memilih jenis model yang benar?
  3. Bisakah Anda menambah jumlah baris dalam kumpulan data Anda per label target?
  4. Dapatkah Anda menggabungkan/mengelompokkan label serupa?
  5. Bisakah Anda mengisi nilai yang hilang/tidak valid?
  6. Apakah Anda memiliki cukup data sehingga Anda dapat membuang nilai yang hilang/tidak valid?
  7. Jika semua opsi di atas tidak menghapus peringatan, Anda harus mempertimbangkan untuk menggunakan kumpulan data yang berbeda.

Mengacu kepada Dokumentasi transformasi data SageMaker Canvas untuk melakukan langkah-langkah imputasi yang disebutkan di atas.

Validasi semua kolom

Selain kolom target, Anda juga dapat mengalami masalah kualitas data dengan kolom data lain (kolom fitur). Kolom fitur adalah data masukan yang digunakan untuk membuat prediksi ML.

  • Setiap dataset harus memiliki setidaknya 1 kolom fitur dan 1 kolom target (total 2 kolom). Jika tidak, SageMaker Canvas akan memberi Anda a Terlalu sedikit kolom dalam data Anda peringatan. Anda harus memenuhi persyaratan ini sebelum melanjutkan pembuatan model.
    Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  • Setelah itu, Anda harus memastikan bahwa data Anda memiliki setidaknya 1 kolom angka. Jika tidak, maka Anda akan mendapatkan semua kolom fitur adalah kolom teks peringatan. Ini karena kolom teks biasanya dihilangkan selama pembuatan standar, sehingga model tidak memiliki fitur untuk dilatih. Oleh karena itu, ini akan menyebabkan pembuatan model Anda gagal. Anda dapat menggunakan SageMaker Canvas untuk menyandikan beberapa kolom teks menjadi angka atau menggunakan build cepat, bukan build standar.
    Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  • Jenis peringatan ketiga yang mungkin Anda dapatkan untuk kolom fitur adalah Tidak ada baris lengkap. Validasi ini memeriksa apakah Anda memiliki setidaknya satu baris tanpa nilai yang hilang. Kanvas SageMaker membutuhkan setidaknya satu baris lengkap, jika tidak, Anda membangun cepat akan gagal. Cobalah untuk mengisi nilai yang hilang sebelum membuat model.
    Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.
  • Jenis validasi yang terakhir adalah Satu atau beberapa nama kolom berisi garis bawah ganda. Ini adalah persyaratan khusus SageMaker Canvas. Jika Anda memiliki garis bawah ganda (__) di tajuk kolom Anda, ini akan menyebabkan Anda membangun cepat gagal. Ganti nama kolom untuk menghapus garis bawah ganda, lalu coba lagi.
    Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Membersihkan

Untuk menghindari timbulnya masa depan biaya sesi, keluar dari Kanvas SageMaker.

Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Kesimpulan

SageMaker Canvas adalah solusi ML tanpa kode yang memungkinkan analis bisnis membuat model ML yang akurat dan menghasilkan prediksi melalui antarmuka visual, tunjuk-dan-klik. Kami menunjukkan kepada Anda bagaimana SageMaker Canvas membantu Anda memastikan kualitas data dan memitigasi masalah data dengan memvalidasi set data secara proaktif. Dengan mengidentifikasi masalah lebih awal, SageMaker Canvas membantu Anda membuat model ML berkualitas dan mengurangi iterasi build tanpa keahlian dalam ilmu data dan pemrograman. Untuk mempelajari lebih lanjut tentang fitur baru ini, lihat Dokumentasi Canvas SageMaker.

Untuk memulai dan mempelajari SageMaker Canvas lebih lanjut, lihat sumber daya berikut:


Tentang penulis

Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai. Hariharan Suresh adalah Arsitek Solusi Senior di AWS. Dia sangat tertarik dengan database, pembelajaran mesin, dan merancang solusi inovatif. Sebelum bergabung dengan AWS, Hariharan adalah seorang arsitek produk, spesialis implementasi perbankan inti, dan pengembang, serta bekerja dengan organisasi BFSI selama lebih dari 11 tahun. Di luar teknologi, ia menikmati paralayang dan bersepeda.

Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.Sainath Miriyala adalah Manajer Akun Teknis Senior di AWS yang bekerja untuk pelanggan otomotif di AS. Sainath bersemangat merancang dan membangun aplikasi terdistribusi berskala besar menggunakan AI/ML. Di waktu luangnya, Sainath menghabiskan waktu bersama keluarga dan teman.

Mengidentifikasi dan menghindari masalah data umum saat membuat model ML tanpa kode dengan Amazon SageMaker Canvas PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.James Wu adalah Arsitek Solusi Spesialis AI/ML Senior di AWS. membantu pelanggan merancang dan membangun solusi AI/ML. Pekerjaan James mencakup berbagai kasus penggunaan ML, dengan minat utama pada visi komputer, pembelajaran mendalam, dan penskalaan ML di seluruh perusahaan. Sebelum bergabung dengan AWS, James adalah seorang arsitek, pengembang, dan pemimpin teknologi selama lebih dari 10 tahun, termasuk 6 tahun di bidang teknik dan 4 tahun di industri pemasaran & periklanan.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS