Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode

Sejak krisis keuangan global, manajemen risiko telah mengambil peran utama dalam membentuk pengambilan keputusan bagi bank, termasuk memprediksi status pinjaman bagi calon nasabah. Ini sering merupakan latihan intensif data yang membutuhkan pembelajaran mesin (ML). Namun, tidak semua organisasi memiliki sumber daya dan keahlian ilmu data untuk membangun alur kerja ML manajemen risiko.

Amazon SageMaker adalah platform ML yang terkelola sepenuhnya yang memungkinkan insinyur data dan analis bisnis dengan cepat dan mudah membangun, melatih, dan menerapkan model ML. Insinyur data dan analis bisnis dapat berkolaborasi menggunakan kemampuan tanpa kode/kode rendah dari SageMaker. Insinyur data dapat menggunakan Pengatur Data Amazon SageMaker untuk mengumpulkan dan menyiapkan data dengan cepat untuk pembuatan model tanpa menulis kode. Kemudian analis bisnis dapat menggunakan antarmuka titik-dan-klik visual dari Kanvas Amazon SageMaker untuk menghasilkan prediksi ML yang akurat sendiri.

Dalam postingan ini, kami menunjukkan betapa sederhananya bagi para insinyur data dan analis bisnis untuk berkolaborasi membangun alur kerja ML yang melibatkan persiapan data, pembuatan model, dan inferensi tanpa menulis kode.

Ikhtisar solusi

Meskipun pengembangan ML adalah proses yang kompleks dan berulang, Anda dapat menggeneralisasi alur kerja ML ke dalam tahap persiapan data, pengembangan model, dan penerapan model.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Data Wrangler dan Canvas mengabstraksi kerumitan persiapan data dan pengembangan model, sehingga Anda dapat fokus dalam memberikan nilai bagi bisnis Anda dengan mengambil wawasan dari data Anda tanpa menjadi ahli dalam pengembangan kode. Diagram arsitektur berikut menyoroti komponen dalam solusi tanpa kode/kode rendah.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Layanan Penyimpanan Sederhana Amazon (Amazon S3) bertindak sebagai gudang data kami untuk data mentah, data rekayasa, dan artefak model. Anda juga dapat memilih untuk mengimpor data dari Pergeseran Merah Amazon, Amazon Athena, Databricks, dan Kepingan Salju.

Sebagai ilmuwan data, kami kemudian menggunakan Data Wrangler untuk analisis data eksplorasi dan rekayasa fitur. Meskipun Canvas dapat menjalankan tugas rekayasa fitur, rekayasa fitur biasanya memerlukan beberapa pengetahuan statistik dan domain untuk memperkaya kumpulan data ke dalam bentuk yang tepat untuk pengembangan model. Oleh karena itu, kami memberikan tanggung jawab ini kepada para insinyur data agar mereka dapat mengubah data tanpa menulis kode dengan Data Wrangler.

Setelah persiapan data, kami menyerahkan tanggung jawab pembuatan model kepada analis data, yang dapat menggunakan Canvas untuk melatih model tanpa harus menulis kode apa pun.

Terakhir, kami membuat prediksi tunggal dan batch langsung di dalam Canvas dari model yang dihasilkan tanpa harus menerapkan titik akhir model sendiri.

Ikhtisar kumpulan data

Kami menggunakan fitur SageMaker untuk memprediksi status pinjaman menggunakan versi modifikasi dari Lending Club kumpulan data analisis pinjaman yang tersedia untuk umum. Dataset tersebut berisi data pinjaman untuk pinjaman yang diterbitkan hingga tahun 2007โ€“2011. Kolom yang menjelaskan pinjaman dan peminjam adalah fitur kami. Kolom loan_status adalah variabel target, yang coba kami prediksi.

Untuk mendemonstrasikan di Data Wrangler, kami membagi dataset menjadi dua file CSV: bagian satu dan bagian kedua. Kami telah menghapus beberapa kolom dari dataset asli Lending Club untuk menyederhanakan demo. Dataset kami berisi lebih dari 37,000 baris dan 21 kolom fitur, seperti yang dijelaskan dalam tabel berikut.

Nama kolom Deskripsi Produk
loan_status Status pinjaman saat ini (variabel target).
loan_amount Jumlah pinjaman yang terdaftar yang diajukan oleh peminjam. Jika departemen kredit mengurangi jumlah pinjaman, itu tercermin dalam nilai ini.
funded_amount_by_investors Jumlah total yang dilakukan oleh investor untuk pinjaman itu pada saat itu.
term Jumlah pembayaran pinjaman. Nilai dalam bulan dan dapat berupa 36 atau 60.
interest_rate Tingkat bunga pinjaman.
installment Pembayaran bulanan terutang oleh peminjam jika pinjaman berasal.
grade LC menetapkan peringkat pinjaman.
sub_grade LC diberikan subgrade pinjaman.
employment_length Lama kerja dalam tahun. Nilai yang mungkin antara 0-10, di mana 0 berarti kurang dari satu tahun dan 10 berarti sepuluh tahun atau lebih.
home_ownership Status kepemilikan rumah yang diberikan oleh peminjam pada saat pendaftaran. Nilai kami adalah SEWA, SENDIRI, KPR, dan LAINNYA.
annual_income Pendapatan tahunan yang dilaporkan sendiri yang disediakan oleh peminjam selama pendaftaran.
verification_status Menunjukkan apakah pendapatan diverifikasi atau tidak oleh LC.
issued_amount Bulan di mana pinjaman didanai.
purpose Kategori yang disediakan oleh peminjam untuk permintaan pinjaman.
dti Rasio yang dihitung menggunakan total pembayaran utang bulanan peminjam atas total kewajiban utang, tidak termasuk hipotek dan pinjaman LC yang diminta, dibagi dengan pendapatan bulanan yang dilaporkan sendiri oleh peminjam.
earliest_credit_line Bulan batas kredit paling awal yang dilaporkan peminjam dibuka.
inquiries_last_6_months Jumlah pertanyaan dalam 6 bulan terakhir (tidak termasuk pertanyaan mobil dan hipotek).
open_credit_lines Jumlah jalur kredit terbuka dalam file kredit peminjam.
derogatory_public_records Jumlah catatan publik yang menghina.
revolving_line_utilization_rate Tingkat pemanfaatan jalur bergulir, atau jumlah kredit yang digunakan peminjam relatif terhadap semua kredit bergulir yang tersedia.
total_credit_lines Jumlah total jalur kredit saat ini dalam file kredit peminjam.

Kami menggunakan dataset ini untuk persiapan data dan pelatihan model kami.

Prasyarat

Selesaikan langkah-langkah prasyarat berikut:

  1. Unggah kedua file pinjaman ke ember S3 pilihan Anda.
  2. Pastikan Anda memiliki izin yang diperlukan. Untuk informasi lebih lanjut, lihat Memulai dengan Data Wrangler.
  3. Siapkan domain SageMaker yang dikonfigurasi untuk menggunakan Data Wrangler. Untuk petunjuk, lihat Masuk ke Domain Amazon SageMaker.

Impor data

Buat aliran data Data Wrangler baru dari UI Amazon SageMaker Studio.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Impor data dari Amazon S3 dengan memilih file CSV dari bucket S3 tempat Anda menempatkan kumpulan data Anda. Setelah Anda mengimpor kedua file, Anda dapat melihat dua alur kerja terpisah di Aliran data melihat.

Anda dapat memilih beberapa opsi pengambilan sampel saat mengimpor data Anda dalam aliran Data Wrangler. Pengambilan sampel dapat membantu saat Anda memiliki set data yang terlalu besar untuk disiapkan secara interaktif, atau saat Anda ingin mempertahankan proporsi kejadian langka dalam sampel set data Anda. Karena dataset kami kecil, kami tidak menggunakan sampling.

Siapkan datanya

Untuk kasus penggunaan kami, kami memiliki dua kumpulan data dengan kolom umum: id. Sebagai langkah awal dalam persiapan data, kami ingin menggabungkan file-file ini dengan menggabungkannya. Untuk petunjuk, lihat Transformasi Data.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Kami menggunakan Ikuti seminar langkah transformasi data dan gunakan Batin gabung ketik di id kolom.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Sebagai hasil dari transformasi gabungan kami, Data Wrangler membuat dua kolom tambahan: id_0 dan id_1. Namun, kolom ini tidak diperlukan untuk tujuan pembuatan model kami. Kami membuang kolom yang berlebihan ini menggunakan Kelola kolom mengubah langkah.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.
Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Kami telah mengimpor kumpulan data kami, menggabungkannya, dan menghapus kolom yang tidak perlu. Kami sekarang siap untuk memperkaya data kami melalui rekayasa fitur dan mempersiapkan pembuatan model.

Lakukan rekayasa fitur

Kami menggunakan Data Wrangler untuk menyiapkan data. Anda juga dapat menggunakan Fitur Kualitas Data dan Laporan Wawasan dalam Data Wrangler untuk memverifikasi kualitas data Anda dan mendeteksi kelainan pada data Anda. Ilmuwan data sering kali perlu menggunakan wawasan data ini untuk secara efisien menerapkan pengetahuan domain yang tepat ke fitur rekayasa. Untuk postingan ini, kami berasumsi bahwa kami telah menyelesaikan penilaian kualitas ini dan dapat beralih ke rekayasa fitur.

Pada langkah ini, kami menerapkan beberapa transformasi ke kolom numerik, kategorikal, dan teks.

Kami pertama-tama menormalkan tingkat bunga untuk menskalakan nilai antara 0-1. Kami melakukan ini menggunakan Proses numerik ubah ke skala interest_rate kolom menggunakan scaler min-max. Tujuan dari normalisasi (atau standardisasi) adalah untuk menghilangkan bias dari model kita. Variabel yang diukur pada skala yang berbeda tidak akan memberikan kontribusi yang sama terhadap proses pembelajaran model. Oleh karena itu, fungsi transformasi seperti transformasi scaler min-max membantu menormalkan fitur.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Untuk mengonversi variabel kategori menjadi nilai numerik, kami menggunakan penyandian satu-panas. Kami memilih Enkode kategoris ubah, lalu pilih Enkode satu-panas. Encoding sekali pakai meningkatkan kemampuan prediksi model ML. Proses ini mengubah nilai kategorikal menjadi fitur baru dengan menetapkan nilai biner 1 atau 0 ke fitur tersebut. Sebagai contoh sederhana, jika Anda memiliki satu kolom yang berisi nilai yes or no, penyandian satu-panas akan mengonversi kolom itu menjadi dua kolom: a Yes kolom dan No kolom. Nilai ya akan memiliki 1 di Yes kolom dan 0 di No kolom. Encoding one-hot membuat data kita lebih berguna karena nilai numerik dapat lebih mudah menentukan probabilitas untuk prediksi kita.

Akhirnya, kami menampilkan employer_title kolom untuk mengubah nilai string menjadi vektor numerik. Kami menerapkan Hitung Vektorisasi dan tokenizer standar dalam Vektorisasi mengubah. Tokenisasi memecah kalimat atau rangkaian teks menjadi kata-kata, sedangkan vectorizer mengubah data teks menjadi bentuk yang dapat dibaca mesin. Kata-kata ini direpresentasikan sebagai vektor.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Dengan semua langkah rekayasa fitur selesai, kami dapat mengekspor data dan mengeluarkan hasilnya ke dalam ember S3 kami. Atau, Anda dapat mengekspor aliran Anda sebagai kode Python, atau notebook Jupyter untuk membuat saluran dengan tampilan Anda menggunakan Pipa Amazon SageMaker. Pertimbangkan ini saat Anda ingin menjalankan langkah-langkah rekayasa fitur dalam skala besar atau sebagai bagian dari pipeline ML.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Kita sekarang dapat menggunakan file output Data Wrangler sebagai input kita untuk Canvas. Kami mereferensikan ini sebagai kumpulan data di Canvas untuk membangun model ML kami.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Dalam kasus kami, kami mengekspor kumpulan data yang kami siapkan ke bucket Studio default dengan output awalan. Kami mereferensikan lokasi kumpulan data ini saat memuat data ke dalam Canvas untuk pembuatan model berikutnya.

Bangun dan latih model ML Anda dengan Canvas

Di konsol SageMaker, luncurkan aplikasi Canvas. Untuk membangun model ML dari data yang disiapkan di bagian sebelumnya, kami melakukan langkah-langkah berikut:

  1. Impor kumpulan data yang telah disiapkan ke Canvas dari bucket S3.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Kami mereferensikan jalur S3 yang sama tempat kami mengekspor hasil Data Wrangler dari bagian sebelumnya.

  1. Buat model baru di Canvas dan beri nama loan_prediction_model.
  2. Pilih dataset yang diimpor dan tambahkan ke objek model.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Agar Canvas membuat model, kita harus memilih kolom target.

  1. Karena tujuan kami adalah untuk memprediksi kemungkinan kemampuan pemberi pinjaman untuk membayar kembali pinjaman, kami memilih loan_status kolom.

Canvas secara otomatis mengidentifikasi jenis pernyataan masalah ML. Pada saat penulisan, Canvas mendukung masalah peramalan regresi, klasifikasi, dan deret waktu. Anda dapat menentukan jenis masalah atau membuat Canvas secara otomatis menyimpulkan masalah dari data Anda.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

  1. Pilih opsi Anda untuk memulai proses pembuatan model: Membangun cepat or bangunan standar.

Grafik Membangun cepat opsi menggunakan kumpulan data Anda untuk melatih model dalam waktu 2โ€“15 menit. Ini berguna saat Anda bereksperimen dengan kumpulan data baru untuk menentukan apakah kumpulan data yang Anda miliki cukup untuk membuat prediksi. Kami menggunakan opsi ini untuk posting ini.

Grafik bangunan standar option memilih akurasi daripada kecepatan dan menggunakan sekitar 250 kandidat model untuk melatih model. Prosesnya biasanya memakan waktu 1-2 jam.

Setelah model dibangun, Anda dapat meninjau hasil model. Canvas memperkirakan bahwa model Anda mampu memprediksi hasil yang tepat sebanyak 82.9% setiap saat. Hasil Anda sendiri dapat bervariasi karena variabilitas dalam model pelatihan.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Selain itu, Anda dapat mendalami analisis detail model untuk mempelajari lebih lanjut tentang model tersebut.

Kepentingan fitur mewakili perkiraan pentingnya setiap fitur dalam memprediksi kolom target. Dalam hal ini, kolom kredit memiliki dampak paling signifikan dalam memprediksi apakah pelanggan akan membayar kembali jumlah pinjaman, diikuti oleh tingkat bunga dan pendapatan tahunan.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Matriks kebingungan dalam Metrik lanjutan bagian berisi informasi untuk pengguna yang menginginkan pemahaman yang lebih dalam tentang kinerja model mereka.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Sebelum Anda dapat menerapkan model untuk beban kerja produksi, gunakan Canvas untuk menguji model. Canvas mengelola titik akhir model kami dan memungkinkan kami membuat prediksi langsung di antarmuka pengguna Canvas.

  1. Pilih Meramalkan dan meninjau temuan pada kedua Prediksi batch or Prediksi tunggal Tab.

Dalam contoh berikut, kami membuat prediksi tunggal dengan memodifikasi nilai untuk memprediksi variabel target kami loan_status secara real time

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Kami juga dapat memilih kumpulan data yang lebih besar dan membuat Canvas menghasilkan prediksi batch atas nama kami.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.

Kesimpulan

Pembelajaran mesin end-to-end rumit dan berulang, dan sering kali melibatkan banyak persona, teknologi, dan proses. Data Wrangler dan Canvas memungkinkan kolaborasi antar tim tanpa mengharuskan tim ini menulis kode apa pun.

Seorang insinyur data dapat dengan mudah menyiapkan data menggunakan Data Wrangler tanpa menulis kode apa pun dan meneruskan kumpulan data yang telah disiapkan ke analis bisnis. Seorang analis bisnis kemudian dapat dengan mudah membangun model ML yang akurat hanya dengan beberapa klik menggunakan Canvas dan mendapatkan prediksi yang akurat secara real time atau dalam batch.

Memulai dengan Data Wrangler menggunakan alat ini tanpa harus mengelola infrastruktur apa pun. Kamu bisa mengatur kanvas dengan cepat dan segera mulai membuat model ML untuk mendukung kebutuhan bisnis Anda.


Tentang Penulis

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.Peter Chung adalah Arsitek Solusi untuk AWS, dan bersemangat membantu pelanggan mengungkap wawasan dari data mereka. Dia telah membangun solusi untuk membantu organisasi membuat keputusan berdasarkan data baik di sektor publik maupun swasta. Dia memegang semua sertifikasi AWS serta dua sertifikasi GCP.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai. Meenakshisundaram Thandavarayan adalah spesialis AI/ML Senior dengan AWS. Dia membantu akun strategis berteknologi tinggi dalam perjalanan AI dan ML mereka. Dia sangat bersemangat tentang AI berbasis data.

Bangun alur kerja pembelajaran mesin manajemen risiko di Amazon SageMaker tanpa kode PlatoBlockchain Data Intelligence. Pencarian Vertikal. ai.Dan Ferguson adalah Arsitek Solusi di AWS, yang berbasis di New York, AS. Sebagai pakar layanan pembelajaran mesin, Dan bekerja untuk mendukung pelanggan dalam perjalanan mereka untuk mengintegrasikan alur kerja ML secara efisien, efektif, dan berkelanjutan.

Stempel Waktu:

Lebih dari Pembelajaran Mesin AWS