Deteksi Transaksi Penipuan Menggunakan Pembelajaran Mesin Dengan Amazon SageMaker

Diterbitkan Ulang Oleh Plato

Followers: 0

Bisnis dapat kehilangan miliaran dolar setiap tahun karena pengguna jahat dan transaksi penipuan. Karena semakin banyak operasi bisnis yang bergerak secara online, penipuan dan penyalahgunaan dalam sistem online juga meningkat. Untuk memerangi penipuan online, banyak bisnis telah menggunakan sistem deteksi penipuan berbasis aturan.

Namun, sistem deteksi penipuan tradisional bergantung pada seperangkat aturan dan filter yang dibuat oleh spesialis manusia. Filter sering kali rapuh dan aturannya mungkin tidak menangkap spektrum penuh sinyal penipuan. Selain itu, sementara perilaku curang terus berkembang, sifat statis dari aturan dan filter yang telah ditentukan sebelumnya membuat sulit untuk mempertahankan dan meningkatkan sistem deteksi penipuan tradisional secara efektif.

Dalam posting ini, kami menunjukkan kepada Anda bagaimana membangun sistem deteksi penipuan kartu kredit yang dinamis, berkembang sendiri, dan dapat dipelihara dengan pembelajaran mesin (ML) menggunakan Amazon SageMaker.

Atau, jika Anda mencari layanan yang terkelola sepenuhnya untuk membangun model deteksi penipuan yang disesuaikan tanpa menulis kode, kami sarankan untuk memeriksa Detektor Penipuan Amazon. Amazon Fraud Detector memungkinkan pelanggan tanpa pengalaman ML untuk mengotomatiskan pembuatan model deteksi penipuan yang disesuaikan untuk data mereka, memanfaatkan lebih dari 20 tahun keahlian deteksi penipuan dari AWS dan Amazon.com.

Ikhtisar solusi

Solusi ini membangun inti dari sistem deteksi penipuan kartu kredit menggunakan SageMaker. Kami mulai dengan melatih model deteksi anomali tanpa pengawasan menggunakan algoritme Hutan Tebang Acak (RCF). Kemudian kami melatih dua model klasifikasi terawasi menggunakan algoritma XGBoost, satu sebagai model dasar dan yang lainnya untuk membuat prediksi, menggunakan strategi yang berbeda untuk mengatasi ketidakseimbangan kelas yang ekstrem dalam data. Terakhir, kami melatih model XGBoost yang optimal dengan pengoptimalan hyperparameter (HPO) untuk lebih meningkatkan kinerja model.

Untuk kumpulan data sampel, kami menggunakan transaksi kartu kredit publik yang dianonimkan kumpulan data yang awalnya dirilis sebagai bagian dari a penelitian kolaborasi Worldline dan Kelompok Pembelajaran Mesin ULB (Université Libre de Bruxelles). Dalam panduan, kami juga membahas bagaimana Anda dapat menyesuaikan solusi untuk menggunakan data Anda sendiri.

Keluaran dari solusi tersebut adalah sebagai berikut:

Tanpa pengawasan SageMaker RCF model. Model mengeluarkan skor anomali untuk setiap transaksi. Nilai skor yang rendah menunjukkan bahwa transaksi tersebut dianggap normal (non-fraudulent). Nilai yang tinggi menunjukkan bahwa transaksi tersebut adalah penipuan. Definisi rendah dan tinggi bergantung pada penerapannya, tetapi praktik umum menunjukkan bahwa skor di luar tiga standar deviasi dari skor rata-rata dianggap anomali.
Sebuah diawasi SageMaker XGBoost model yang dilatih menggunakan skema pembobotan bawaan untuk mengatasi masalah data yang sangat tidak seimbang.
Model SageMaker XGBoost yang diawasi yang dilatih menggunakan Teknik Pengambilan Sampel Minoritas Sintetis (HAPUS).
Model SageMaker XGBoost terlatih dengan HPO.
Prediksi probabilitas untuk setiap transaksi menjadi penipuan. Jika perkiraan kemungkinan transaksi melebihi ambang batas, itu diklasifikasikan sebagai penipuan.

Untuk mendemonstrasikan bagaimana Anda dapat menggunakan solusi ini di infrastruktur bisnis yang ada, kami juga menyertakan contoh membuat panggilan REST API ke titik akhir model yang diterapkan, menggunakan AWS Lambda untuk memicu model RCF dan XGBoost.

Diagram berikut menggambarkan arsitektur solusi.

Prasyarat

Untuk mencoba solusi di akun Anda sendiri, pastikan Anda memiliki yang berikut ini:

Saat instance Studio siap, Anda dapat meluncurkan Studio dan mengakses JumpStart. Solusi JumpStart tidak tersedia di instans notebook SageMaker, dan Anda tidak dapat mengaksesnya melalui API SageMaker atau Antarmuka Baris Perintah AWS (AWS CLI).

Luncurkan solusinya

Untuk meluncurkan solusi, selesaikan langkah-langkah berikut:

Buka JumpStart dengan menggunakan peluncur JumpStart di Memulai atau dengan memilih ikon JumpStart di bilah sisi kiri.
Bawah Solusi, pilih Deteksi Pengguna dan Transaksi Berbahaya untuk membuka solusi di tab Studio lain.
Pada tab solusi, pilih Launch untuk meluncurkan solusi.

Sumber daya solusi disediakan dan tab lain terbuka yang menunjukkan kemajuan penerapan. Ketika penyebaran selesai, dan Buka Buku Catatan tombol muncul.
Pilih Buka Buku Catatan untuk membuka buku catatan solusi di Studio.

Selidiki dan proses datanya

Dataset default hanya berisi fitur numerik, karena fitur asli telah diubah menggunakan Analisis Komponen Utama (PCA) untuk melindungi privasi pengguna. Hasilnya, dataset berisi 28 komponen PCA, V1–V28, dan dua fitur yang belum diubah, Amount dan Time. Jumlah mengacu pada jumlah transaksi, dan Waktu adalah detik yang berlalu antara setiap transaksi dalam data dan transaksi pertama.

Kolom Kelas sesuai dengan apakah suatu transaksi curang atau tidak.

Kita dapat melihat bahwa mayoritas tidak curang, karena dari total 284,807 contoh, hanya 492 (0.173%) yang curang. Ini adalah kasus ketidakseimbangan kelas yang ekstrim, yang biasa terjadi dalam skenario deteksi penipuan.

Kami kemudian menyiapkan data kami untuk pemuatan dan pelatihan. Kami membagi data menjadi set kereta dan set uji, menggunakan yang pertama untuk melatih dan yang terakhir untuk mengevaluasi kinerja model kami. Sangat penting untuk membagi data sebelum menerapkan teknik apa pun untuk mengurangi ketidakseimbangan kelas. Jika tidak, kami mungkin membocorkan informasi dari set uji ke set kereta dan merusak kinerja model.

Jika Anda ingin membawa data pelatihan Anda sendiri, pastikan bahwa itu adalah data tabular dalam format CSV, unggah data ke Layanan Penyimpanan Sederhana Amazon (Amazon S3), dan edit jalur objek S3 dalam kode notebook.

Jika data Anda menyertakan kolom kategoris dengan nilai non-numerik, Anda perlu mengkodekan nilai-nilai ini (menggunakan, misalnya, OneHotEncoder sklearn) karena algoritma XGBoost hanya mendukung data numerik.

Latih model Hutan Potongan Acak tanpa pengawasan

Dalam skenario deteksi penipuan, kami biasanya memiliki sangat sedikit contoh berlabel, dan pelabelan penipuan dapat memakan banyak waktu dan usaha. Oleh karena itu, kami juga ingin mengekstrak informasi dari data tidak berlabel yang ada. Kami melakukan ini menggunakan algoritme deteksi anomali, memanfaatkan ketidakseimbangan data yang tinggi yang umum terjadi pada kumpulan data deteksi penipuan.

Deteksi anomali adalah bentuk pembelajaran tanpa pengawasan di mana kami mencoba mengidentifikasi contoh anomali hanya berdasarkan karakteristik fiturnya. Random Cut Forest adalah algoritme deteksi anomali canggih yang akurat dan dapat diskalakan. Dengan setiap contoh data, RCF mengaitkan skor anomali.

Kami menggunakan algoritme RCF bawaan SageMaker untuk melatih model deteksi anomali pada set data pelatihan kami, lalu membuat prediksi pada set data pengujian kami.

Pertama, kami memeriksa dan memplot skor anomali yang diprediksi untuk contoh positif (penipuan) dan negatif (non-penipuan) secara terpisah, karena jumlah contoh positif dan negatif berbeda secara signifikan. Kami berharap contoh positif (penipuan) memiliki skor anomali yang relatif tinggi, dan contoh negatif (non-penipuan) memiliki skor anomali rendah. Dari histogram, kita dapat melihat pola berikut:

Hampir setengah dari contoh positif (histogram kiri) memiliki skor anomali lebih tinggi dari 0.9, sedangkan sebagian besar contoh negatif (histogram kanan) memiliki skor anomali lebih rendah dari 0.85.
Algoritma pembelajaran tanpa pengawasan RCF memiliki keterbatasan untuk mengidentifikasi contoh penipuan dan non-penipuan secara akurat. Ini karena tidak ada informasi label yang digunakan. Kami mengatasi masalah ini dengan mengumpulkan informasi label dan menggunakan algoritme pembelajaran terawasi di langkah selanjutnya.

Kemudian, kami mengasumsikan skenario yang lebih nyata di mana kami mengklasifikasikan setiap contoh pengujian sebagai positif (penipuan) atau negatif (non-penipuan) berdasarkan skor anomalinya. Kami memplot histogram skor untuk semua contoh pengujian sebagai berikut, memilih skor cutoff 1.0 (berdasarkan pola yang ditunjukkan dalam histogram) untuk klasifikasi. Secara khusus, jika skor anomali contoh kurang dari atau sama dengan 1.0, itu diklasifikasikan sebagai negatif (non-penipuan). Jika tidak, contoh tersebut tergolong positif (fraudulent).

Terakhir, kami membandingkan hasil klasifikasi dengan label kebenaran dasar dan menghitung metrik evaluasi. Karena kumpulan data kami tidak seimbang, kami menggunakan metrik evaluasi akurasi seimbang, Skor Kappa Cohen, Skor F1, dan AUC ROC, karena memperhitungkan frekuensi setiap kelas dalam data. Untuk semua metrik ini, nilai yang lebih besar menunjukkan kinerja prediktif yang lebih baik. Perhatikan bahwa pada langkah ini kita belum dapat menghitung ROC AUC, karena tidak ada estimasi probabilitas untuk kelas positif dan negatif dari model RCF pada setiap contoh. Kami menghitung metrik ini dalam langkah selanjutnya menggunakan algoritme pembelajaran terawasi.

.	RCF
Akurasi seimbang	0.560023
Kappa Cohen	0.003917
F1	0.007082
AUC ROC	-

Dari langkah ini, kita dapat melihat bahwa model tanpa pengawasan sudah dapat mencapai beberapa pemisahan antara kelas, dengan skor anomali yang lebih tinggi berkorelasi dengan contoh penipuan.

Latih model XGBoost dengan skema pembobotan bawaan

Setelah kami mengumpulkan cukup banyak data pelatihan berlabel, kami dapat menggunakan algoritme pembelajaran terawasi untuk menemukan hubungan antara fitur dan kelas. Kami memilih algoritme XGBoost karena memiliki rekam jejak yang terbukti, sangat skalabel, dan dapat menangani data yang hilang. Kita perlu menangani ketidakseimbangan data kali ini, jika tidak mayoritas kelas (non-penipu, atau contoh negatif) akan mendominasi pembelajaran.

Kami melatih dan menerapkan model terawasi pertama kami menggunakan wadah algoritme XGBoost bawaan SageMaker. Ini adalah model dasar kami. Untuk menangani ketidakseimbangan data, kami menggunakan hyperparameter scale_pos_weight, yang menskalakan bobot contoh kelas positif terhadap contoh kelas negatif. Karena dataset sangat miring, kami menyetel hyperparameter ini ke nilai konservatif: sqrt(num_nonfraud/num_fraud).

Kami melatih dan menerapkan model sebagai berikut:

Ambil URI penampung SageMaker XGBoost.
Atur hyperparameter yang ingin kita gunakan untuk pelatihan model, termasuk yang kita sebutkan yang menangani ketidakseimbangan data, scale_pos_weight.
Buat estimator XGBoost dan latih dengan dataset kereta kami.
Terapkan model XGBoost terlatih ke titik akhir terkelola SageMaker.
Evaluasi model dasar ini dengan kumpulan data pengujian kami.

Kemudian kami mengevaluasi model kami dengan empat metrik yang sama seperti yang disebutkan pada langkah terakhir. Kali ini kita juga bisa menghitung metrik ROC AUC.

.	RCF	XGBoost
Akurasi seimbang	0.560023	0.847685
Kappa Cohen	0.003917	0.743801
F1	0.007082	0.744186
AUC ROC	-	0.983515

Kita dapat melihat bahwa metode pembelajaran terawasi XGBoost dengan skema pembobotan (menggunakan hyperparameter scale_pos_weight) mencapai kinerja yang jauh lebih baik daripada metode pembelajaran tanpa pengawasan RCF. Namun, masih ada ruang untuk meningkatkan kinerja. Secara khusus, menaikkan skor Kappa Cohen di atas 0.8 umumnya akan sangat menguntungkan.

Selain metrik nilai tunggal, melihat metrik yang menunjukkan performa per kelas juga berguna. Misalnya, matriks konfusi, presisi per kelas, ingatan, dan skor F1 dapat memberikan lebih banyak informasi tentang kinerja model kami.

.	ketelitian	mengingat kembali	f1-skor	mendukung
tanpa penipuan	1.00	1.00	1.00	28435
penipuan	0.80	0.70	0.74	46

Terus kirimkan lalu lintas uji ke titik akhir melalui Lambda

Untuk mendemonstrasikan cara menggunakan model kami dalam sistem produksi, kami membangun REST API dengan Gerbang API Amazon dan fungsi Lambda. Saat aplikasi klien mengirim permintaan inferensi HTTP ke REST API, yang memicu fungsi Lambda, yang selanjutnya memanggil titik akhir model RCF dan XGBoost dan mengembalikan prediksi dari model. Anda dapat membaca kode fungsi Lambda dan memantau pemanggilan di konsol Lambda.

Kami juga membuat skrip Python yang membuat permintaan inferensi HTTP ke REST API, dengan data pengujian kami sebagai data input. Untuk melihat bagaimana ini dilakukan, periksa generate_endpoint_traffic.py file dalam kode sumber solusi. Output prediksi dicatat ke bucket S3 melalui Firehose Data Amazon Kinesis aliran pengiriman. Anda dapat menemukan nama bucket S3 tujuan di konsol Kinesis Data Firehose, dan memeriksa hasil prediksi di bucket S3.

Latih model XGBoost dengan teknik pengambilan sampel berlebih SMOTE

Sekarang kita memiliki model dasar menggunakan XGBoost, kita dapat melihat apakah teknik pengambilan sampel yang dirancang khusus untuk masalah ketidakseimbangan dapat meningkatkan kinerja model. Kita gunakan Pengambilan sampel berlebih dari Minoritas Sintetis (SMOTE), yang melakukan oversampling kelas minoritas dengan menginterpolasi titik data baru di antara yang sudah ada.

Langkah-langkahnya adalah sebagai berikut:

Gunakan SMOTE untuk melakukan oversample kelas minoritas (kelas penipuan) dari dataset kereta kami. SMOTE melakukan oversampling kelas minoritas dari sekitar 0.17-50%. Perhatikan bahwa ini adalah kasus oversampling ekstrim dari kelas minoritas. Alternatifnya adalah menggunakan rasio resampling yang lebih kecil, seperti memiliki satu sampel kelas minoritas untuk setiap sqrt(non_fraud/fraud) sampel mayoritas, atau menggunakan teknik resampling yang lebih canggih. Untuk opsi over-sampling lainnya, lihat Bandingkan sampler over-sampling.
Tentukan hyperparameter untuk melatih XGBoost kedua sehingga scale_pos_weight dihapus dan hyperparameter lainnya tetap sama seperti saat melatih model XGBoost dasar. Kita tidak perlu lagi menangani ketidakseimbangan data dengan hyperparameter ini, karena kita sudah melakukannya dengan SMOTE.
Latih model XGBoost kedua dengan hyperparameter baru pada set data kereta yang diproses SMOTE.
Terapkan model XGBoost baru ke titik akhir terkelola SageMaker.
Evaluasi model baru dengan kumpulan data pengujian.

Saat mengevaluasi model baru, kita dapat melihat bahwa dengan SMOTE, XGBoost mencapai kinerja yang lebih baik pada akurasi yang seimbang, tetapi tidak pada skor Kappa dan F1 Cohen. Alasan untuk ini adalah bahwa SMOTE telah melakukan oversampling kelas penipuan sedemikian rupa sehingga meningkatkan tumpang tindih dalam ruang fitur dengan kasus non-penipuan. Karena Kappa Cohen memberikan bobot lebih pada positif palsu daripada akurasi seimbang, metrik turun secara signifikan, seperti halnya presisi dan skor F1 untuk kasus penipuan.

.	RCF	XGBoost	SMOTE XGBoost
Akurasi seimbang	0.560023	0.847685	0.912657
Kappa Cohen	0.003917	0.743801	0.716463
F1	0.007082	0.744186	0.716981
AUC ROC	-	0.983515	0.967497

Namun, kami dapat mengembalikan keseimbangan antar metrik dengan menyesuaikan ambang klasifikasi. Sejauh ini, kami telah menggunakan 0.5 sebagai ambang batas untuk memberi label apakah titik data palsu atau tidak. Setelah bereksperimen dengan ambang batas yang berbeda dari 0.1-0.9, kita dapat melihat bahwa Kappa Cohen terus meningkat seiring dengan ambang batas, tanpa kehilangan akurasi seimbang yang signifikan.

Ini menambahkan kalibrasi yang berguna untuk model kami. Kami dapat menggunakan ambang batas rendah jika tidak melewatkan kasus penipuan (negatif palsu) yang menjadi prioritas kami, atau kami dapat meningkatkan ambang batas untuk meminimalkan jumlah positif palsu.

Latih model XGBoost yang optimal dengan HPO

Pada langkah ini, kami mendemonstrasikan cara meningkatkan kinerja model dengan melatih model XGBoost ketiga kami dengan optimasi hyperparameter. Saat membangun sistem ML yang kompleks, menjelajahi semua kemungkinan kombinasi nilai hyperparameter secara manual tidak praktis. Fitur HPO di SageMaker dapat mempercepat produktivitas Anda dengan mencoba banyak variasi model atas nama Anda. Secara otomatis mencari model terbaik dengan berfokus pada kombinasi nilai hyperparameter yang paling menjanjikan dalam rentang yang Anda tentukan.

Proses HPO membutuhkan dataset validasi, jadi pertama-tama kita membagi lebih lanjut data pelatihan kita menjadi dataset pelatihan dan validasi menggunakan pengambilan sampel bertingkat. Untuk mengatasi masalah ketidakseimbangan data, kami menggunakan skema pembobotan XGBoost lagi, mengatur scale_pos_weight hiperparameter ke sqrt(num_nonfraud/num_fraud).

Kami membuat penaksir XGBoost menggunakan wadah algoritme XGBoost bawaan SageMaker, dan menentukan metrik evaluasi objektif dan rentang hyperparameter di mana kami ingin bereksperimen. Dengan ini kami kemudian membuat Hyperparameter Tuner dan memulai pekerjaan penyetelan HPO, yang melatih beberapa model secara paralel, mencari kombinasi hyperparameter yang optimal.

Ketika pekerjaan penyetelan selesai, kita dapat melihat laporan analitiknya dan memeriksa hyperparameter setiap model, informasi pekerjaan pelatihan, dan kinerjanya terhadap metrik evaluasi objektif.

Kemudian kami menerapkan model terbaik dan mengevaluasinya dengan kumpulan data pengujian kami.

Evaluasi dan bandingkan semua kinerja model pada data uji yang sama

Sekarang kami memiliki hasil evaluasi dari keempat model: RCF, XGBoost baseline, XGBoost dengan SMOTE, dan XGBoost dengan HPO. Mari kita bandingkan kinerja mereka.

.	RCF	XGBoost	XGBoost dengan SMOTE	XGBoost dengan HPO
Akurasi seimbang	0.560023	0.847685	0.912657	0.902156
Kappa Cohen	0.003917	0.743801	0.716463	0.880778
F1	0.007082	0.744186	0.716981	0.880952
AUC ROC	-	0.983515	0.967497	0.981564

Kita dapat melihat bahwa XGBoost dengan HPO mencapai kinerja yang lebih baik daripada dengan metode SMOTE. Secara khusus, skor Kappa Cohen dan F1 lebih dari 0.8, menunjukkan kinerja model yang optimal.

Membersihkan

Setelah selesai dengan solusi ini, pastikan Anda menghapus semua sumber daya AWS yang tidak diinginkan untuk menghindari timbulnya biaya yang tidak diinginkan. Dalam Hapus solusi bagian pada tab solusi Anda, pilih Hapus semua sumber daya untuk menghapus sumber daya yang dibuat secara otomatis saat meluncurkan solusi ini.

Atau, Anda dapat menggunakan Formasi AWS Cloud untuk menghapus semua sumber daya standar yang dibuat secara otomatis oleh solusi dan notebook. Untuk menggunakan pendekatan ini, di konsol AWS CloudFormation, temukan tumpukan CloudFormation yang deskripsinya berisi deteksi penipuan-menggunakan-pembelajaran mesin, dan hapus. Ini adalah tumpukan induk, dan memilih untuk menghapus tumpukan ini akan otomatis menghapus tumpukan bersarang.

Dengan kedua pendekatan tersebut, Anda masih perlu menghapus sumber daya tambahan apa pun yang mungkin telah Anda buat di buku catatan ini secara manual. Beberapa contoh termasuk ember S3 tambahan (selain ember default solusi), titik akhir SageMaker tambahan (menggunakan nama khusus), dan tambahan Registry Kontainer Elastis Amazon (Amazon ECR) repositori.

Kesimpulan

Dalam posting ini, kami menunjukkan kepada Anda cara membangun inti dari sistem deteksi penipuan kartu kredit yang dinamis, berkembang sendiri, dan dapat dipelihara menggunakan ML dengan SageMaker. Kami membangun, melatih, dan menerapkan model deteksi anomali RCF tanpa pengawasan, model XGBoost yang diawasi sebagai baseline, model XGBoost lain yang diawasi dengan SMOTE untuk mengatasi masalah ketidakseimbangan data, dan model XGBoost terakhir yang dioptimalkan dengan HPO. Kami membahas cara menangani ketidakseimbangan data dan menggunakan data Anda sendiri dalam solusinya. Kami juga menyertakan contoh implementasi REST API dengan API Gateway dan Lambda untuk mendemonstrasikan cara menggunakan sistem di infrastruktur bisnis Anda yang sudah ada.

Untuk mencobanya sendiri, buka Studio SageMaker dan luncurkan solusi JumpStart. Untuk mempelajari lebih lanjut tentang solusinya, lihat Repositori GitHub.

Tentang Penulis

Xiao Li Shen adalah anggota Solutions Architect and Machine Learning Technical Field Community (TFC) di Amazon Web Services. Dia fokus membantu pelanggan membuat arsitektur di cloud dan memanfaatkan layanan AWS untuk mendapatkan nilai bisnis. Sebelum bergabung dengan AWS, dia adalah pemimpin teknologi dan insinyur senior yang membangun sistem terdistribusi intensif data di cloud.

Dr Xin Huang adalah Ilmuwan Terapan untuk Amazon SageMaker JumpStart dan algoritma bawaan Amazon SageMaker. Dia berfokus pada pengembangan algoritme pembelajaran mesin yang dapat diskalakan. Minat penelitiannya adalah di bidang pemrosesan bahasa alami, pembelajaran mendalam yang dapat dijelaskan pada data tabular, dan analisis yang kuat dari pengelompokan ruang-waktu non-parametrik. Dia telah menerbitkan banyak makalah di ACL, ICDM, konferensi KDD, dan jurnal Royal Statistical Society: Series A.

Vedant Jain adalah Sr. AI/ML Specialist Solutions Architect, yang membantu pelanggan mendapatkan nilai dari ekosistem Machine Learning di AWS. Sebelum bergabung dengan AWS, Vedant pernah menjabat posisi ML/Data Science Specialty di berbagai perusahaan seperti Databricks, Hortonworks (sekarang Cloudera) & JP Morgan Chase. Di luar pekerjaannya, Vedant bersemangat membuat musik, menggunakan Sains untuk menjalani kehidupan yang bermakna & menjelajahi masakan vegetarian yang lezat dari seluruh dunia.

Stempel Waktu: Oktober 19, 2022Oktober 19, 2022

Stempel Waktu: September 20, 2022

Deteksi transaksi penipuan menggunakan pembelajaran mesin dengan Amazon SageMaker

Diterbitkan Ulang Oleh Plato

Ikhtisar solusi

Prasyarat

Luncurkan solusinya

Selidiki dan proses datanya

Latih model Hutan Potongan Acak tanpa pengawasan

Latih model XGBoost dengan skema pembobotan bawaan

Terus kirimkan lalu lintas uji ke titik akhir melalui Lambda

Latih model XGBoost dengan teknik pengambilan sampel berlebih SMOTE

Latih model XGBoost yang optimal dengan HPO

Evaluasi dan bandingkan semua kinerja model pada data uji yang sama

Membersihkan

Kesimpulan

Tentang Penulis

Lebih dari Pembelajaran Mesin AWS

Deteksi cacat pada citra resolusi tinggi menggunakan model Label Kustom Amazon Rekognition dua tahap | Layanan Web Amazon

Optimalkan hyperparameter dengan Amazon SageMaker Automatic Model Tuning

Harga optimal untuk keuntungan maksimum menggunakan Amazon SageMaker

Penyesuaian Model Otomatis Amazon SageMaker sekarang mendukung Penggantian Instans Pelatihan SageMaker

Bagaimana The Chefz menyajikan makanan yang sempurna dengan Amazon Personalize

Operasikan notebook Amazon SageMaker Studio Anda sebagai tugas notebook terjadwal

Hasilkan prakiraan cold start untuk produk tanpa data historis menggunakan Amazon Forecast, kini hingga 45% lebih akurat

Prediksi churn menggunakan algoritme tabel bawaan Amazon SageMaker LightGBM, CatBoost, TabTransformer, dan AutoGluon-Tabular

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun