Diagnosis Performa Model Sebelum Penerapan Untuk Amazon Fraud Detector

Diterbitkan Ulang Oleh Plato

Followers: 0

Dengan pertumbuhan adopsi aplikasi online dan meningkatnya jumlah pengguna internet, penipuan digital meningkat dari tahun ke tahun. Detektor Penipuan Amazon menyediakan layanan yang terkelola sepenuhnya untuk membantu Anda mengidentifikasi aktivitas online yang berpotensi penipuan dengan lebih baik menggunakan teknik pembelajaran mesin (ML) tingkat lanjut, dan lebih dari 20 tahun keahlian pendeteksian penipuan dari Amazon.

Untuk membantu Anda menangkap penipuan lebih cepat di beberapa kasus penggunaan, Amazon Fraud Detector menawarkan model khusus dengan algoritme, pengayaan, dan transformasi fitur yang disesuaikan. Pelatihan model sepenuhnya otomatis dan tidak merepotkan, dan Anda dapat mengikuti petunjuk di panduan pengguna atau terkait posting blog untuk memulai. Namun, dengan model terlatih, Anda perlu memutuskan apakah model siap untuk diterapkan. Hal ini memerlukan pengetahuan tertentu dalam ML, statistik, dan deteksi penipuan, dan mungkin berguna untuk mengetahui beberapa pendekatan umum.

Posting ini akan membantu Anda mendiagnosis kinerja model dan memilih model yang tepat untuk penerapan. Kami menelusuri metrik yang disediakan oleh Amazon Fraud Detector, membantu Anda mendiagnosis potensi masalah, dan memberikan saran untuk meningkatkan kinerja model. Pendekatan ini berlaku untuk template model Wawasan Penipuan Online (OFI) dan Wawasan Penipuan Transaksi (TFI).

Ikhtisar solusi

Posting ini memberikan proses ujung ke ujung untuk mendiagnosis kinerja model Anda. Ini pertama-tama memperkenalkan semua metrik model yang ditampilkan di konsol Amazon Fraud Detector, termasuk AUC, distribusi skor, matriks kebingungan, kurva ROC, dan variabel penting model. Kemudian kami menyajikan pendekatan tiga langkah untuk mendiagnosis kinerja model menggunakan metrik yang berbeda. Terakhir, kami memberikan saran untuk meningkatkan kinerja model untuk masalah umum.

Prasyarat

Sebelum mendalami model Detektor Penipuan Amazon, Anda harus menyelesaikan prasyarat berikut:

Buat akun AWS.
Buat kumpulan data acara untuk pelatihan model.
Unggah data Anda untuk Layanan Penyimpanan Sederhana Amazon (Amazon S3) atau serap data acara Anda ke Amazon Fraud Detector.
Bangun model Detektor Penipuan Amazon.

Menafsirkan metrik model

Setelah pelatihan model selesai, Amazon Fraud Detector mengevaluasi model Anda menggunakan bagian dari data pemodelan yang tidak digunakan dalam pelatihan model. Ini mengembalikan metrik evaluasi pada Versi model halaman untuk model itu. Metrik tersebut mencerminkan performa model yang dapat Anda harapkan pada data nyata setelah diterapkan ke produksi.

Tangkapan layar berikut menunjukkan contoh kinerja model yang dikembalikan oleh Amazon Fraud Detector. Anda dapat memilih ambang batas yang berbeda pada distribusi skor (kiri), dan matriks kebingungan (kanan) diperbarui.

Anda dapat menggunakan temuan berikut untuk memeriksa kinerja dan memutuskan aturan strategi:

AUC (area di bawah kurva) – Performa keseluruhan model ini. Model dengan AUC 0.50 tidak lebih baik dari lemparan koin karena mewakili peluang acak, sedangkan model "sempurna" akan memiliki skor 1.0. Semakin tinggi AUC, semakin baik model Anda dapat membedakan antara penipuan dan yang sah.
Distribusi skor – Histogram distribusi skor model dengan asumsi populasi contoh 100,000 peristiwa. Amazon Fraud Detector menghasilkan skor model antara 0–1000, di mana semakin rendah skor, semakin rendah risiko penipuan. Pemisahan yang lebih baik antara populasi yang sah (hijau) dan penipuan (biru) biasanya menunjukkan model yang lebih baik. Untuk lebih jelasnya, lihat Skor model.
Matriks kebingungan – Tabel yang menjelaskan performa model untuk ambang skor tertentu yang dipilih, termasuk true positive, true negative, false positive, false negative, true positive rate (TPR), dan false positive rate (FPR). Hitungan pada tabel mengasumsikan populasi contoh 100,0000 peristiwa. Untuk lebih jelasnya, lihat Model metrik kinerja.
Kurva ROC (Karakteristik Operator Penerima) – Plot yang menggambarkan kemampuan diagnostik model, seperti yang ditunjukkan pada tangkapan layar berikut. Ini memplot tingkat positif sejati sebagai fungsi dari tingkat positif palsu di atas semua ambang batas skor model yang mungkin. Lihat bagan ini dengan memilih Metrik Lanjutan. Jika Anda telah melatih beberapa versi dari satu model, Anda dapat memilih ambang batas FPR yang berbeda untuk memeriksa perubahan kinerja.
Kepentingan variabel model – Peringkat variabel model berdasarkan kontribusinya pada model yang dihasilkan, seperti yang ditunjukkan pada tangkapan layar berikut. Variabel model dengan nilai tertinggi lebih penting bagi model daripada variabel model lainnya dalam kumpulan data untuk versi model tersebut, dan dicantumkan di bagian atas secara default. Untuk lebih jelasnya, lihat Kepentingan variabel model.

Diagnosis kinerja model

Sebelum menerapkan model Anda ke dalam produksi, Anda harus menggunakan metrik yang dikembalikan Amazon Fraud Detector untuk memahami kinerja model dan mendiagnosis kemungkinan masalah. Masalah umum model ML dapat dibagi menjadi dua kategori utama: masalah terkait data dan masalah terkait model. Amazon Fraud Detector telah menangani masalah terkait model dengan menggunakan set validasi dan pengujian secara hati-hati untuk mengevaluasi dan menyesuaikan model Anda di backend. Anda dapat menyelesaikan langkah-langkah berikut untuk memvalidasi apakah model Anda siap untuk diterapkan atau memiliki kemungkinan masalah terkait data:

Periksa kinerja model secara keseluruhan (AUC dan distribusi skor).
Tinjau persyaratan bisnis (matriks dan tabel kebingungan).
Periksa pentingnya variabel model.

Periksa kinerja model secara keseluruhan: AUC dan distribusi skor

Prediksi yang lebih akurat tentang peristiwa masa depan selalu menjadi tujuan utama dari model prediksi. AUC yang dikembalikan oleh Amazon Fraud Detector dihitung pada set pengujian sampel yang benar yang tidak digunakan dalam pelatihan. Secara umum, model dengan AUC lebih besar dari 0.9 dianggap sebagai model yang baik.

Jika Anda mengamati model dengan kinerja kurang dari 0.8, biasanya berarti model memiliki ruang untuk perbaikan (kami membahas masalah umum untuk kinerja model rendah nanti di posting ini). Perhatikan bahwa definisi kinerja "baik" sangat bergantung pada bisnis Anda dan model dasar. Anda masih dapat mengikuti langkah-langkah dalam posting ini untuk meningkatkan model Amazon Fraud Detector Anda meskipun AUC-nya lebih besar dari 0.8.

Di sisi lain, jika AUC lebih dari 0.99, itu berarti model hampir dapat memisahkan secara sempurna penipuan dan peristiwa yang sah pada set pengujian. Ini terkadang merupakan skenario "terlalu bagus untuk menjadi kenyataan" (kami membahas masalah umum untuk kinerja model yang sangat tinggi nanti di posting ini).

Selain AUC keseluruhan, distribusi skor juga dapat memberi tahu Anda seberapa baik model dipasang. Idealnya, Anda harus melihat sebagian besar penipuan yang sah dan terletak di kedua ujung skala, yang menunjukkan skor model dapat secara akurat memberi peringkat peristiwa pada set pengujian.

Dalam contoh berikut, distribusi skor memiliki AUC 0.96.

Jika distribusi yang sah dan penipuan tumpang tindih atau terkonsentrasi di tengah, itu mungkin berarti model tidak berkinerja baik dalam membedakan peristiwa penipuan dari peristiwa yang sah, yang mungkin menunjukkan distribusi data historis berubah atau bahwa Anda memerlukan lebih banyak data atau fitur.

Berikut ini adalah contoh distribusi skor dengan AUC 0.64.

Jika Anda dapat menemukan titik perpecahan yang hampir dapat memisahkan penipuan dan peristiwa yang sah dengan sempurna, ada kemungkinan besar model tersebut memiliki masalah kebocoran label atau pola penipuan terlalu mudah untuk dideteksi, yang seharusnya menarik perhatian Anda.

Dalam contoh berikut, distribusi skor memiliki AUC 1.0.

Tinjau persyaratan bisnis: Matriks dan tabel kebingungan

Meskipun AUC adalah indikator kinerja model yang nyaman, itu mungkin tidak secara langsung diterjemahkan ke kebutuhan bisnis Anda. Amazon Fraud Detector juga menyediakan metrik seperti tingkat penangkapan penipuan (tingkat positif benar), persentase peristiwa sah yang salah diprediksi sebagai penipuan (tingkat positif palsu), dan banyak lagi, yang lebih umum digunakan sebagai persyaratan bisnis. Setelah Anda melatih model dengan AUC yang cukup baik, Anda perlu membandingkan model dengan kebutuhan bisnis Anda dengan metrik tersebut.

Matriks dan tabel kebingungan memberi Anda antarmuka untuk meninjau dampak dan memeriksa apakah itu memenuhi kebutuhan bisnis Anda. Perhatikan bahwa jumlahnya bergantung pada ambang batas model, di mana acara dengan skor lebih besar dari ambang batas diklasifikasikan sebagai penipuan dan acara dengan skor lebih rendah dari ambang batas diklasifikasikan sebagai sah. Anda dapat memilih ambang batas mana yang akan digunakan tergantung pada kebutuhan bisnis Anda.

Misalnya, jika tujuan Anda adalah menangkap 73% penipuan, maka (seperti yang ditunjukkan pada contoh di bawah) Anda dapat memilih ambang batas seperti 855, yang memungkinkan Anda menangkap 73% dari semua penipuan. Namun, model tersebut juga akan salah mengklasifikasikan 3% peristiwa yang sah sebagai penipuan. Jika FPR ini dapat diterima untuk bisnis Anda, maka modelnya bagus untuk diterapkan. Jika tidak, Anda perlu meningkatkan kinerja model.

Contoh lain adalah jika biaya untuk memblokir atau menantang pelanggan yang sah sangat tinggi, maka Anda menginginkan FPR rendah dan presisi tinggi. Dalam hal ini, Anda dapat memilih ambang 950, seperti yang ditunjukkan pada contoh berikut, yang akan salah mengklasifikasikan 1% pelanggan yang sah sebagai penipuan, dan 80% dari penipuan yang teridentifikasi sebenarnya adalah penipuan.

Selain itu, Anda dapat memilih beberapa ambang batas dan menetapkan hasil yang berbeda, seperti memblokir, menyelidiki, lulus. Jika Anda tidak dapat menemukan ambang batas dan aturan yang tepat yang memenuhi semua persyaratan bisnis Anda, Anda harus mempertimbangkan untuk melatih model Anda dengan lebih banyak data dan atribut.

Periksa pentingnya variabel model

Grafik Kepentingan variabel model panel menampilkan bagaimana setiap variabel berkontribusi pada model Anda. Jika satu variabel memiliki nilai kepentingan yang jauh lebih tinggi daripada yang lain, itu mungkin menunjukkan kebocoran label atau bahwa pola penipuan terlalu mudah untuk dideteksi. Perhatikan bahwa variabel penting dikumpulkan kembali ke variabel input Anda. Jika Anda mengamati pentingnya sedikit lebih tinggi dari IP_ADDRESS, CARD_BIN, EMAIL_ADDRESS, PHONE_NUMBER, BILLING_ZIP, atau SHIPPING_ZIP, itu mungkin karena kekuatan pengayaan.

Contoh berikut menunjukkan pentingnya variabel model dengan potensi kebocoran label menggunakan investigation_status.

Kepentingan variabel model juga memberi Anda petunjuk tentang variabel tambahan apa yang berpotensi meningkatkan model. Misalnya, jika Anda mengamati AUC rendah dan fitur terkait penjual menunjukkan kepentingan tinggi, Anda dapat mempertimbangkan untuk mengumpulkan lebih banyak fitur pesanan seperti: SELLER_CATEGORY, SELLER_ADDRESS, dan SELLER_ACTIVE_YEARS, dan tambahkan variabel tersebut ke model Anda.

Masalah umum untuk kinerja model yang rendah

Di bagian ini, kami membahas masalah umum yang mungkin Anda temui terkait kinerja model yang rendah.

Distribusi data historis berubah

Pergeseran distribusi data historis terjadi ketika Anda memiliki perubahan bisnis besar atau masalah pengumpulan data. Misalnya, jika Anda baru saja meluncurkan produk Anda di pasar baru, IP_ADDRESS, EMAIL, dan ADDRESS fitur terkait bisa sangat berbeda, dan modus operandi penipuan juga bisa berubah. Detektor Penipuan Amazon menggunakan EVENT_TIMESTAMP untuk membagi data dan mengevaluasi model Anda pada subset peristiwa yang sesuai di set data Anda. Jika distribusi data historis Anda berubah secara signifikan, kumpulan evaluasi bisa sangat berbeda dari data pelatihan, dan kinerja model yang dilaporkan bisa jadi rendah.

Anda dapat memeriksa potensi masalah perubahan distribusi data dengan menjelajahi data historis Anda:

Gunakan Profiler Data Detektor Penipuan Amazon alat untuk memeriksa apakah tingkat penipuan dan tingkat hilangnya label berubah dari waktu ke waktu.
Periksa apakah distribusi variabel dari waktu ke waktu berubah secara signifikan, terutama untuk fitur dengan kepentingan variabel yang tinggi.
Periksa distribusi variabel dari waktu ke waktu berdasarkan variabel target. Jika Anda mengamati lebih banyak peristiwa penipuan secara signifikan dari satu kategori dalam data terbaru, Anda mungkin ingin memeriksa apakah perubahan itu wajar menggunakan penilaian bisnis Anda.

Jika Anda menemukan tingkat kehilangan label sangat tinggi atau tingkat penipuan turun secara konsisten selama tanggal terbaru, itu mungkin merupakan indikator label tidak sepenuhnya matang. Anda harus mengecualikan data terbaru atau menunggu lebih lama untuk mengumpulkan label yang akurat, lalu melatih kembali model Anda.

Jika Anda mengamati lonjakan tajam tingkat penipuan dan variabel pada tanggal tertentu, Anda mungkin ingin memeriksa ulang apakah itu masalah outlier atau pengumpulan data. Dalam hal ini, Anda harus menghapus peristiwa tersebut dan melatih kembali modelnya.

Jika Anda menemukan data usang tidak dapat mewakili bisnis Anda saat ini dan masa depan, Anda harus mengecualikan periode data lama dari pelatihan. Jika Anda menggunakan peristiwa tersimpan di Amazon Fraud Detector, Anda cukup melatih ulang versi baru dan memilih rentang tanggal yang tepat saat mengonfigurasi tugas pelatihan. Itu mungkin juga menunjukkan bahwa modus operandi penipuan dalam bisnis Anda berubah relatif cepat dari waktu ke waktu. Setelah penerapan model, Anda mungkin perlu sering melatih kembali model Anda.

Pemetaan tipe variabel yang tidak tepat

Amazon Fraud Detector memperkaya dan mengubah data berdasarkan tipe variabel. Anda harus memetakan variabel ke jenis yang benar sehingga model Amazon Fraud Detector dapat mengambil nilai maksimum dari data Anda. Misalnya, jika Anda memetakan IP ke CATEGORICAL ketik alih-alih IP_ADDRESS, kamu tidak mengerti IP-pengayaan terkait di backend.

Secara umum, Amazon Fraud Detector menyarankan tindakan berikut:

Petakan variabel Anda ke tipe tertentu, seperti IP_ADDRESS, EMAIL_ADDRESS, CARD_BIN, dan PHONE_NUMBER, sehingga Amazon Fraud Detector dapat mengekstrak dan memperkaya informasi tambahan.
Jika Anda tidak dapat menemukan tipe variabel tertentu, petakan ke salah satu dari tiga tipe generik: NUMERIC, CATEGORICAL, atau FREE_FORM_TEXT.
Jika variabel dalam bentuk teks dan memiliki kardinalitas tinggi, seperti ulasan pelanggan atau deskripsi produk, Anda harus memetakannya ke FREE_FORM_TEXT jenis variabel sehingga Amazon Fraud Detector mengekstrak fitur teks dan penyematan di backend untuk Anda. Misalnya, jika Anda memetakan url_string untuk FREE_FORM_TEXT, ia dapat memberi token pada URL dan mengekstrak informasi untuk dimasukkan ke dalam model hilir, yang akan membantunya mempelajari lebih banyak pola tersembunyi dari URL.

Jika Anda menemukan salah satu jenis variabel Anda dipetakan secara tidak benar dalam konfigurasi variabel, Anda dapat mengubah jenis variabel Anda dan kemudian melatih kembali modelnya.

Data atau fitur tidak mencukupi

Amazon Fraud Detector memerlukan setidaknya 10,000 catatan untuk melatih model Online Fraud Insights (OFI) atau Transaction Fraud Insights (TFI), dengan setidaknya 400 catatan tersebut diidentifikasi sebagai penipuan. TFI juga mensyaratkan bahwa catatan palsu dan catatan yang sah berasal dari setidaknya 100 entitas berbeda masing-masing untuk memastikan keragaman kumpulan data. Selain itu, Amazon Fraud Detector mengharuskan data pemodelan memiliki setidaknya dua variabel. Itu adalah persyaratan data minimum untuk membangun model Amazon Fraud Detector yang berguna. Namun, menggunakan lebih banyak record dan variabel biasanya membantu model ML mempelajari pola yang mendasarinya dengan lebih baik dari data Anda. Saat Anda mengamati AUC rendah atau tidak dapat menemukan ambang batas yang memenuhi kebutuhan bisnis Anda, Anda harus mempertimbangkan untuk melatih kembali model Anda dengan lebih banyak data atau menambahkan fitur baru ke model Anda. Biasanya, kita menemukan EMAIL_ADDRESS, IP, PAYMENT_TYPE, BILLING_ADDRESS, SHIPPING_ADDRESS, dan DEVICE variabel terkait penting dalam deteksi penipuan.

Kemungkinan penyebab lain adalah bahwa beberapa variabel Anda mengandung terlalu banyak nilai yang hilang. Untuk melihat apakah itu terjadi, periksa pesan pelatihan model dan lihat Memecahkan masalah data pelatihan untuk saran.

Masalah umum untuk kinerja model yang sangat tinggi

Di bagian ini, kami membahas masalah umum yang terkait dengan kinerja model yang sangat tinggi.

Kebocoran label

Kebocoran label terjadi ketika dataset pelatihan menggunakan informasi yang diharapkan tidak tersedia pada waktu prediksi. Ini melebih-lebihkan utilitas model saat dijalankan di lingkungan produksi.

AUC yang tinggi (mendekati 1), distribusi skor yang terpisah sempurna, dan pentingnya variabel yang lebih tinggi secara signifikan dari satu variabel dapat menjadi indikator potensi masalah kebocoran label. Anda juga dapat memeriksa korelasi antara fitur dan label menggunakan Profiler Data. itu Korelasi fitur dan label plot menunjukkan korelasi antara setiap fitur dan label. Jika satu fitur memiliki korelasi lebih dari 0.99 dengan label, Anda harus memeriksa apakah fitur tersebut digunakan dengan benar berdasarkan penilaian bisnis. Misalnya, untuk membangun model risiko untuk menyetujui atau menolak aplikasi pinjaman, Anda tidak boleh menggunakan fitur seperti AMOUNT_PAID, karena pembayaran terjadi setelah proses underwriting. Jika variabel tidak tersedia pada saat Anda membuat prediksi, Anda harus menghapus variabel tersebut dari konfigurasi model dan melatih kembali model baru.

Contoh berikut menunjukkan korelasi antara setiap variabel dan label. investigation_status memiliki korelasi yang tinggi (mendekati 1) dengan label, jadi sebaiknya periksa ulang apakah ada masalah kebocoran label.

Pola penipuan sederhana

Jika pola penipuan dalam data Anda sederhana, Anda mungkin juga mengamati kinerja model yang sangat tinggi. Misalnya, anggaplah semua kejadian penipuan dalam data pemodelan datang melalui Penyedia Layanan Internal yang sama; mudah bagi model untuk memilih IP-variabel terkait dan mengembalikan model "sempurna" dengan kepentingan tinggi IP.

Pola penipuan sederhana tidak selalu menunjukkan masalah data. Bisa jadi modus operandi penipuan dalam bisnis Anda mudah ditangkap. Namun, sebelum membuat kesimpulan, Anda perlu memastikan label yang digunakan dalam pelatihan model akurat, dan data pemodelan mencakup sebanyak mungkin pola penipuan. Misalnya, jika Anda melabeli peristiwa penipuan Anda berdasarkan aturan, seperti memberi label semua aplikasi dari tertentu BILLING_ZIP plus PRODUCT_CATEGORY sebagai penipuan, model dapat dengan mudah menangkap penipuan tersebut dengan mensimulasikan aturan dan mencapai AUC yang tinggi.

Anda dapat memeriksa distribusi label di berbagai kategori atau tempat sampah dari setiap fitur menggunakan Profiler Data. Misalnya, jika Anda mengamati bahwa sebagian besar peristiwa penipuan berasal dari satu atau beberapa kategori produk, ini mungkin merupakan indikator pola penipuan sederhana, dan Anda perlu mengonfirmasi bahwa itu bukan kesalahan pengumpulan data atau proses. Jika fiturnya seperti CUSTOMER_ID, Anda harus mengecualikan fitur dalam pelatihan model.

Contoh berikut menunjukkan distribusi label di berbagai kategori product_category. Semua penipuan berasal dari dua kategori produk.

Pengambilan sampel data yang tidak tepat

Pengambilan sampel data yang tidak tepat dapat terjadi saat Anda mengambil sampel dan hanya mengirim sebagian data Anda ke Amazon Fraud Detector. Jika data tidak diambil sampelnya dengan benar dan tidak mewakili lalu lintas dalam produksi, kinerja model yang dilaporkan akan menjadi tidak akurat dan model dapat menjadi tidak berguna untuk prediksi produksi. Misalnya, jika semua peristiwa penipuan dalam data pemodelan diambil sampelnya dari Asia dan semua peristiwa yang sah diambil sampelnya dari AS, model tersebut mungkin belajar untuk memisahkan penipuan dan yang sah berdasarkan BILLING_COUNTRY. Dalam hal ini, model tidak generik untuk diterapkan pada populasi lain.

Biasanya, kami menyarankan untuk mengirimkan semua acara terbaru tanpa pengambilan sampel. Berdasarkan ukuran data dan tingkat penipuan, Amazon Fraud Detector melakukan pengambilan sampel sebelum pelatihan model untuk Anda. Jika data Anda terlalu besar (lebih dari 100 GB) dan Anda memutuskan untuk mengambil sampel dan mengirim hanya sebagian, Anda harus mengambil sampel data secara acak dan memastikan sampel tersebut mewakili seluruh populasi. Untuk TFI, Anda harus mengambil sampel data menurut entitas, yang berarti jika satu entitas dijadikan sampel, Anda harus menyertakan semua riwayatnya sehingga agregat tingkat entitas dihitung dengan benar. Perhatikan bahwa jika Anda hanya mengirim sebagian data ke Amazon Fraud Detector, agregat real-time selama inferensi mungkin tidak akurat jika peristiwa entitas sebelumnya tidak dikirim.

Pengambilan sampel data yang tidak tepat lainnya bisa jadi hanya menggunakan periode data yang singkat, seperti data satu hari, untuk membangun model. Data mungkin bias, terutama jika serangan bisnis atau penipuan Anda bersifat musiman. Kami biasanya merekomendasikan untuk menyertakan setidaknya dua siklus (seperti 2 minggu atau 2 bulan) senilai data dalam pemodelan untuk memastikan keragaman jenis penipuan.

Kesimpulan

Setelah mendiagnosis dan menyelesaikan semua potensi masalah, Anda harus mendapatkan model Amazon Fraud Detector yang berguna dan yakin dengan kinerjanya. Untuk langkah selanjutnya, Anda dapat membuat detektor dengan model dan aturan bisnis Anda, dan bersiaplah untuk menerapkannya ke produksi untuk evaluasi mode bayangan.

Lampiran

Cara mengecualikan variabel untuk pelatihan model

Setelah menyelam lebih dalam, Anda mungkin mengidentifikasi informasi target kebocoran variabel, dan ingin mengecualikannya dari pelatihan model. Anda dapat melatih ulang versi model dengan mengecualikan variabel yang tidak diinginkan dengan menyelesaikan langkah-langkah berikut:

Di konsol Detektor Penipuan Amazon, di panel navigasi, pilih Model.
pada Model halaman, pilih model yang ingin Anda latih kembali.
pada tindakan menu, pilih Latih versi baru.
Pilih rentang tanggal yang ingin Anda gunakan dan pilih Selanjutnya.
pada Konfigurasi pelatihan halaman, batalkan pilihan variabel yang tidak ingin Anda gunakan dalam pelatihan model.
Tentukan label penipuan dan label yang sah dan bagaimana Anda ingin Amazon Fraud Detector menggunakan peristiwa yang tidak berlabel, lalu pilih Selanjutnya.
Tinjau konfigurasi model dan pilih Buat dan latih model.

Bagaimana cara mengubah tipe variabel acara

Variabel mewakili elemen data yang digunakan dalam pencegahan penipuan. Di Amazon Fraud Detector, semua variabel bersifat global dan dibagikan di semua peristiwa dan model, yang berarti satu variabel dapat digunakan dalam beberapa peristiwa. Misalnya, IP dapat dikaitkan dengan peristiwa masuk, dan juga dapat dikaitkan dengan peristiwa transaksi. Secara alami, Amazon Fraud Detector mengunci tipe variabel dan tipe data setelah variabel dibuat. Untuk menghapus variabel yang ada, Anda harus terlebih dahulu menghapus semua jenis dan model peristiwa terkait. Anda dapat memeriksa sumber daya yang terkait dengan variabel tertentu dengan menavigasi ke Amazon Fraud Detector, memilih Variabel di panel navigasi, dan memilih nama variabel dan Sumber daya terkait.

Hapus variabel dan semua jenis acara terkait

Untuk menghapus variabel, lakukan langkah-langkah berikut:

Di konsol Detektor Penipuan Amazon, di panel navigasi, pilih Variabel.
Pilih variabel yang ingin Anda hapus.
Pilih Sumber daya terkait untuk melihat daftar semua jenis acara yang digunakan variabel ini.
Anda perlu menghapus jenis peristiwa terkait tersebut sebelum menghapus variabel.
Pilih jenis acara dalam daftar untuk membuka halaman jenis acara terkait.
Pilih Acara tersimpan untuk memeriksa apakah ada data yang disimpan di bawah jenis acara ini.
Jika ada acara yang disimpan di Amazon Fraud Detector, pilih Hapus acara yang disimpan untuk menghapus acara yang disimpan.
Ketika pekerjaan penghapusan selesai, pesan "Acara tersimpan untuk jenis acara ini berhasil dihapus" muncul.
Pilih Sumber daya terkait.
Jika detektor dan model dikaitkan dengan jenis peristiwa ini, Anda harus menghapus sumber daya tersebut terlebih dahulu.
Jika pendeteksi terkait, selesaikan langkah-langkah berikut untuk menghapus semua pendeteksi terkait:
1. Pilih detektor untuk pergi ke Detail detektor .
2. Dalam majalah Versi model panel, pilih versi detektor.
3. Pada halaman versi detektor, pilih tindakan.
4. Jika versi detektor aktif, pilih Menonaktifkan, pilih Nonaktifkan versi detektor ini tanpa menggantinya dengan versi lain, dan pilih Nonaktifkan versi detektor.
5. Setelah versi detektor dinonaktifkan, pilih tindakan lalu Delete.
6. Ulangi langkah ini untuk menghapus semua versi detektor.
7. pada Detail detektor halaman, pilih Aturan terkait.
8. Pilih aturan yang akan dihapus.
9. Pilih tindakan dan Hapus versi aturan.
10. Masukkan nama aturan untuk mengonfirmasi dan memilih Hapus versi.
11. Ulangi langkah ini untuk menghapus semua aturan terkait.
12. Setelah semua versi detektor dan aturan terkait dihapus, buka Detail detektor halaman, pilih tindakan, dan pilih Hapus detektor.
13. Masukkan nama detektor dan pilih Hapus detektor.
14. Ulangi langkah ini untuk menghapus detektor berikutnya.
Jika ada model yang dikaitkan dengan jenis peristiwa, selesaikan langkah-langkah berikut untuk menghapusnya:
1. Pilih nama modelnya.
2. Dalam majalah Versi model panel, pilih versi.
3. Jika status model adalah Active, pilih tindakan dan Membatalkan penerapan versi model.
4. Enter undeploy untuk mengkonfirmasi dan memilih Membatalkan penerapan versi model.
  Statusnya berubah menjadi Undeploying. Proses ini membutuhkan waktu beberapa menit untuk selesai.
5. Setelah statusnya menjadi Ready to deploy, pilih Tindakan dan Hapus.
6. Ulangi langkah ini untuk menghapus semua versi model.
7. Pada halaman Detail model, pilih Tindakan dan Hapus model.
8. Masukkan nama model dan pilih Hapus model.
9. Ulangi langkah ini untuk menghapus model berikutnya.
Setelah semua detektor dan model terkait dihapus, pilih tindakan dan Hapus jenis acara pada Detail acara .
Masukkan nama jenis acara dan pilih Hapus jenis acara.
Di panel navigasi, pilih Variabel, dan pilih variabel yang ingin Anda hapus.
Ulangi langkah sebelumnya untuk menghapus semua jenis peristiwa yang terkait dengan variabel.
pada Detail variabel halaman, pilih tindakan dan Hapus.
Masukkan nama variabel dan pilih Hapus variabel.

Buat variabel baru dengan tipe variabel yang benar

Setelah Anda menghapus variabel dan semua jenis peristiwa terkait, peristiwa tersimpan, model, dan detektor dari Amazon Fraud Detector, Anda dapat membuat variabel baru dengan nama yang sama dan memetakannya ke jenis variabel yang benar.

Di konsol Detektor Penipuan Amazon, di panel navigasi, pilih Variabel.
Pilih membuat.
Masukkan nama variabel yang ingin Anda ubah (yang Anda hapus sebelumnya).
Pilih jenis variabel yang benar yang ingin Anda ubah.
Pilih Buat variabel.

Unggah data dan latih kembali modelnya

Setelah Anda memperbarui jenis variabel, Anda dapat mengunggah data lagi dan melatih model baru. Untuk petunjuk, lihat Deteksi penipuan transaksi online dengan fitur Amazon Fraud Detector baru.

Cara menambahkan variabel baru ke jenis acara yang ada

Untuk menambahkan variabel baru ke jenis peristiwa yang ada, selesaikan langkah-langkah berikut:

Tambahkan variabel baru ke file CVS pelatihan sebelumnya.
Unggah file data pelatihan baru ke bucket S3. Catat lokasi Amazon S3 dari file pelatihan Anda (misalnya, s3://bucketname/path/to/some/object.csv) dan nama peran Anda.
Di konsol Detektor Penipuan Amazon, di panel navigasi, pilih Acara.
pada Jenis acara halaman, pilih nama jenis acara yang ingin Anda tambahkan variabel.
pada Jenis acara halaman detail, pilih tindakan, kemudian Tambahkan variabel.
Bawah Pilih cara menentukan variabel acara ini, pilih Pilih variabel dari set data pelatihan.
Untuk peran IAM, pilih peran IAM yang ada atau buat peran baru untuk mengakses data di Amazon S3.
Untuk Lokasi data, masukkan lokasi S3 dari file pelatihan baru dan pilih Upload.
Variabel baru yang tidak ada dalam jenis peristiwa yang ada akan muncul dalam daftar.
Pilih Tambahkan variabel.

Sekarang, variabel baru telah ditambahkan ke jenis acara yang ada. Jika Anda menggunakan peristiwa tersimpan di Amazon Fraud Detector, variabel baru dari peristiwa yang disimpan masih hilang. Anda perlu mengimpor data pelatihan dengan variabel baru ke Amazon Fraud Detector lalu melatih ulang versi model baru. Saat mengunggah data pelatihan baru dengan yang sama EVENT_ID dan EVENT_TIMESTAMP, variabel peristiwa baru menimpa variabel peristiwa sebelumnya yang disimpan di Amazon Fraud Detector.

Tentang Penulis

Julia Xu adalah Ilmuwan Riset dengan Amazon Fraud Detector. Dia bersemangat dalam memecahkan tantangan pelanggan menggunakan teknik Machine Learning. Di waktu luangnya, ia menikmati hiking, melukis, dan menjelajahi kedai kopi baru.

Hao Zhou adalah Ilmuwan Riset dengan Detektor Penipuan Amazon. Meraih gelar PhD di bidang teknik elektro dari Northwestern University, Amerika Serikat. Dia bersemangat dalam menerapkan teknik pembelajaran mesin untuk memerangi penipuan dan penyalahgunaan.

Abhisek Ravi adalah Manajer Produk Senior dengan Detektor Penipuan Amazon. Dia bersemangat dalam memanfaatkan kemampuan teknis untuk membangun produk yang menyenangkan pelanggan.

Stempel Waktu: Juni 29, 2022

Stempel Waktu: Februari 29, 2024

Diterbitkan Ulang Oleh Plato

Membangun platform data agronomi dengan kemampuan geospasial Amazon SageMaker

Cara mengevaluasi kualitas data sintetik – mengukur dari perspektif kesetiaan, utilitas, dan privasi

Gunakan Amazon Lex untuk menangkap alamat jalan

Mempercepat pelatihan jaringan saraf skala besar pada CPU dengan ThirdAI dan AWS Graviton | Layanan Web Amazon

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun