Amazon Fraud Detector İçin Dağıtımdan Önce Model Performansını Teşhis Edin

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Çevrimiçi uygulamaların benimsenmesinin artması ve artan internet kullanıcılarının sayısı ile dijital dolandırıcılık yıldan yıla artıyor. Amazon Sahtekarlık Dedektörü Gelişmiş makine öğrenimi (ML) tekniklerini ve Amazon'un 20 yılı aşkın sahtekarlık algılama uzmanlığını kullanarak, dolandırıcılık potansiyeli taşıyan çevrimiçi etkinlikleri daha iyi belirlemenize yardımcı olmak için tam olarak yönetilen bir hizmet sunar.

Amazon Fraud Detector, birden fazla kullanım durumunda sahtekarlığı daha hızlı yakalamanıza yardımcı olmak için özel algoritmalar, zenginleştirmeler ve özellik dönüşümleri içeren belirli modeller sunar. Model eğitimi tamamen otomatik ve sorunsuzdur ve aşağıdaki talimatları takip edebilirsiniz. kullanıcı Rehberi yada ilgili günlüğü gönderileri başlamak. Ancak eğitilmiş modellerde, modelin dağıtıma hazır olup olmadığına karar vermeniz gerekir. Bu, makine öğrenimi, istatistik ve dolandırıcılık tespiti konusunda belirli bilgiler gerektirir ve bazı tipik yaklaşımları bilmek yardımcı olabilir.

Bu gönderi, model performansını teşhis etmenize ve dağıtım için doğru modeli seçmenize yardımcı olacaktır. Amazon Fraud Detector tarafından sağlanan ölçümleri gözden geçiriyor, olası sorunları teşhis etmenize yardımcı oluyor ve model performansını iyileştirmeye yönelik öneriler sunuyoruz. Yaklaşımlar hem Online Fraud Insights (OFI) hem de Transaction Fraud Insights (TFI) model şablonları için geçerlidir.

Çözüme genel bakış

Bu gönderi, model performansınızı teşhis etmek için uçtan uca bir süreç sağlar. Önce AUC, puan dağılımı, karışıklık matrisi, ROC eğrisi ve model değişkeninin önemi dahil olmak üzere Amazon Fraud Detector konsolunda gösterilen tüm model ölçümlerini sunar. Ardından, farklı metrikler kullanarak model performansını teşhis etmek için üç aşamalı bir yaklaşım sunuyoruz. Son olarak, tipik sorunlar için model performansını iyileştirmeye yönelik öneriler sunuyoruz.

Önkoşullar

Amazon Fraud Detector modelinizi derinlemesine incelemeden önce aşağıdaki ön koşulları tamamlamanız gerekir:

Bir AWS hesabı oluşturun.
Bir olay veri kümesi oluşturun Model eğitimi için.
Verilerinizi yükleyin için Amazon Basit Depolama Hizmeti (Amazon S3) veya olay verilerinizi Amazon Fraud Detector'a alın.
Bir Amazon Fraud Detector modeli oluşturun.

Model metriklerini yorumlama

Model eğitimi tamamlandıktan sonra Amazon Fraud Detector, model eğitiminde kullanılmayan modelleme verilerinin bir kısmını kullanarak modelinizi değerlendirir. üzerindeki değerlendirme metriklerini döndürür. Model versiyonu Bu model için sayfa. Bu metrikler, üretime dağıttıktan sonra gerçek verilerde bekleyebileceğiniz model performansını yansıtır.

Aşağıdaki ekran görüntüsü, Amazon Fraud Detector tarafından döndürülen örnek model performansını göstermektedir. Puan dağılımında (solda) farklı eşikler seçebilirsiniz ve karışıklık matrisi (sağda) buna göre güncellenir.

Performansı kontrol etmek ve strateji kurallarına karar vermek için aşağıdaki bulguları kullanabilirsiniz:

AUC (eğrinin altındaki alan) – Bu modelin genel performansı. AUC'si 0.50 olan bir model yazı tura atmaktan daha iyi değildir çünkü rastgele şansı temsil eder, oysa “mükemmel” bir modelin puanı 1.0 olacaktır. AUC ne kadar yüksek olursa, modeliniz dolandırıcılık ve yasal işlemleri o kadar iyi ayırt edebilir.
Puan dağılımı – 100,000 olaylık bir örnek popülasyonu varsayan model puan dağılımlarının bir histogramı. Amazon Fraud Detector, 0-1000 arasında model puanları oluşturur; burada puan ne kadar düşükse dolandırıcılık riski de o kadar düşük olur. Meşru (yeşil) ve sahtekarlık (mavi) popülasyonları arasında daha iyi bir ayrım, tipik olarak daha iyi bir modeli gösterir. Daha fazla ayrıntı için bkz. Model puanları.
Karışıklık matrisi – Gerçek pozitif, gerçek negatif, yanlış pozitif, yanlış negatif, gerçek pozitif oran (TPR) ve yanlış pozitif oran (FPR) dahil olmak üzere seçilen belirli puan eşiği için model performansını açıklayan bir tablo. Tablodaki sayım, 100,0000 olaylık bir örnek popülasyonu varsayar. Daha fazla ayrıntı için bkz. Model performans metrikleri.
ROC (Alıcı Operatör Karakteristiği) eğrisi – Aşağıdaki ekran görüntüsünde gösterildiği gibi, modelin tanılama yeteneğini gösteren bir çizim. Gerçek pozitif oranı, tüm olası model puan eşikleri üzerinde yanlış pozitif oranın bir fonksiyonu olarak çizer. Seçerek bu grafiği görüntüleyin Gelişmiş Metrikler. Bir modelin birden çok sürümünü eğittiyseniz, performans değişikliğini kontrol etmek için farklı FPR eşikleri seçebilirsiniz.
Model değişken önemi – Aşağıdaki ekran görüntüsünde gösterildiği gibi, oluşturulan modele katkılarına göre model değişkenlerinin sıralaması. En yüksek değere sahip model değişkeni, o model sürümü için veri kümesindeki diğer model değişkenlerinden model için daha önemlidir ve varsayılan olarak en üstte listelenir. Daha fazla ayrıntı için bkz. Model değişken önemi.

Model performansını teşhis edin

Modelinizi üretime dağıtmadan önce, model performansını anlamak ve olası sorunları teşhis etmek için Amazon Fraud Detector'ın döndürdüğü ölçümleri kullanmalısınız. ML modellerinin ortak sorunları iki ana kategoriye ayrılabilir: veriyle ilgili sorunlar ve modelle ilgili sorunlar. Amazon Fraud Detector, modelinizi arka uçta değerlendirmek ve ayarlamak için doğrulama ve test setlerini dikkatli bir şekilde kullanarak modelle ilgili sorunlarla ilgilendi. Modelinizin dağıtıma hazır olup olmadığını veya verilerle ilgili olası sorunları olup olmadığını doğrulamak için aşağıdaki adımları tamamlayabilirsiniz:

Genel model performansını kontrol edin (AUC ve puan dağılımı).
İş gereksinimlerini gözden geçirin (karışıklık matrisi ve tablo).
Model değişkeninin önemini kontrol edin.

Genel model performansını kontrol edin: AUC ve puan dağılımı

Gelecekteki olayların daha doğru tahmini, her zaman tahmine dayalı bir modelin birincil amacıdır. Amazon Fraud Detector tarafından döndürülen AUC, eğitimde kullanılmayan, uygun şekilde örneklenmiş bir test setinde hesaplanır. Genel olarak, AUC değeri 0.9'dan büyük olan bir model iyi bir model olarak kabul edilir.

0.8'den daha düşük performansa sahip bir model gözlemlerseniz, bu genellikle modelin iyileştirilmesi gereken bir yeri olduğu anlamına gelir (düşük model performansı için genel sorunları bu yazının ilerleyen bölümlerinde tartışacağız). "İyi" performans tanımının büyük ölçüde işinize ve temel modele bağlı olduğunu unutmayın. AUC değeri 0.8'den büyük olsa bile Amazon Fraud Detector modelinizi geliştirmek için bu gönderideki adımları takip edebilirsiniz.

Öte yandan, AUC 0.99'un üzerindeyse, modelin test setindeki sahtekarlık ve meşru olayları neredeyse mükemmel bir şekilde ayırabileceği anlamına gelir. Bu bazen "gerçek olamayacak kadar iyi" bir senaryodur (bu yazının ilerleyen bölümlerinde çok yüksek model performansı için ortak sorunları tartışacağız).

Genel AUC'nin yanı sıra, puan dağılımı da size modelin ne kadar iyi oturduğunu söyleyebilir. İdeal olarak, ölçeğin iki ucunda bulunan meşru ve sahtekarlık yığınını görmelisiniz; bu, model puanının test setindeki olayları doğru bir şekilde sıralayabildiğini gösterir.

Aşağıdaki örnekte, puan dağılımının AUC değeri 0.96'dır.

Meşru ve dolandırıcılık dağılımı çakışıyorsa veya merkezde yoğunlaşıyorsa, bu muhtemelen modelin dolandırıcılık olaylarını meşru olaylardan ayırt etmede iyi performans göstermediği anlamına gelir; bu da geçmiş veri dağılımının değiştiğini veya daha fazla veri veya özelliğe ihtiyacınız olduğunu gösterebilir.

Aşağıda, AUC'si 0.64 olan bir puan dağılımı örneği verilmiştir.

Sahtekarlığı ve meşru olayları neredeyse mükemmel bir şekilde ayırabilen bir ayrım noktası bulabilirseniz, modelin etiket sızıntısı sorunu olması veya sahtekarlık kalıplarının tespit edilmesinin çok kolay olması ihtimali yüksektir, bu da dikkatinizi çekecektir.

Aşağıdaki örnekte, puan dağılımının AUC değeri 1.0'dır.

İş gereksinimlerini gözden geçirin: Karışıklık matrisi ve tablo

AUC, model performansının uygun bir göstergesi olmasına rağmen, doğrudan iş gereksinimlerinizi karşılamayabilir. Amazon Fraud Detector ayrıca, dolandırıcılık yakalama oranı (gerçek pozitif oran), sahtekarlık olarak yanlış tahmin edilen meşru olayların yüzdesi (yanlış pozitif oran) ve daha yaygın olarak iş gereksinimleri olarak kullanılan daha fazlası gibi ölçümler sağlar. Makul derecede iyi bir AUC'ye sahip bir modeli eğittikten sonra, modeli iş gereksinimlerinizle bu metriklerle karşılaştırmanız gerekir.

Karışıklık matrisi ve tablo, etkiyi gözden geçirmeniz ve iş ihtiyaçlarınızı karşılayıp karşılamadığını kontrol etmeniz için size bir arayüz sağlar. Rakamların, eşikten daha yüksek puanlara sahip olayların dolandırıcılık olarak sınıflandırıldığı ve eşikten düşük puanlara sahip olayların yasal olarak sınıflandırıldığı model eşiğine bağlı olduğunu unutmayın. İş gereksinimlerinize bağlı olarak hangi eşiği kullanacağınızı seçebilirsiniz.

Örneğin, hedefiniz dolandırıcılıkların %73'ünü yakalamak ise (aşağıdaki örnekte gösterildiği gibi) 855 gibi bir eşik seçebilirsiniz, bu da tüm dolandırıcılıkların %73'ünü yakalamanıza olanak tanır. Bununla birlikte, model ayrıca %3 meşru olayı hileli olarak yanlış sınıflandıracaktır. Bu FPR işiniz için kabul edilebilirse, model dağıtım için iyidir. Aksi takdirde, model performansını iyileştirmeniz gerekir.

Başka bir örnek, meşru bir müşteriyi engellemenin veya ona meydan okumanın maliyeti çok yüksekse, düşük bir FPR ve yüksek hassasiyet istiyorsunuz. Bu durumda, aşağıdaki örnekte gösterildiği gibi 950'lik bir eşik seçebilirsiniz; bu, meşru müşterilerin %1'ini yanlış olarak sahtekarlık olarak sınıflandıracaktır ve tespit edilen sahtekarlığın %80'i gerçekten sahtekar olacaktır.

Ayrıca birden fazla eşik seçebilir ve blok, araştırma, geçme gibi farklı sonuçlar atayabilirsiniz. Tüm iş gereksinimlerinizi karşılayan uygun eşikleri ve kuralları bulamıyorsanız, modelinizi daha fazla veri ve nitelikle eğitmeyi düşünmelisiniz.

Model değişkeninin önemini kontrol edin

The Model değişken önemi bölme, her bir değişkenin modelinize nasıl katkıda bulunduğunu gösterir. Bir değişken diğerlerinden önemli ölçüde daha yüksek bir önem değerine sahipse, etiket sızıntısını veya hile modellerinin tespit edilmesinin çok kolay olduğunu gösterebilir. Değişken öneminin girdi değişkenlerinize geri toplandığını unutmayın. biraz daha yüksek önem gözlemlerseniz IP_ADDRESS, CARD_BIN, EMAIL_ADDRESS, PHONE_NUMBER, BILLING_ZIPya da SHIPPING_ZIP, zenginleştirme gücü nedeniyle olabilir.

Aşağıdaki örnek, potansiyel bir etiket sızıntısı ile model değişkeninin önemini göstermektedir. investigation_status.

Model değişkeninin önemi, hangi ek değişkenlerin modele potansiyel olarak yükseliş getirebileceğine dair ipuçları da verir. Örneğin, AUC'nin düşük olduğunu ve satıcıyla ilgili özelliklerin yüksek önem gösterdiğini gözlemlerseniz, aşağıdakiler gibi daha fazla sipariş özelliği toplamayı düşünebilirsiniz. SELLER_CATEGORY, SELLER_ADDRESS, ve SELLER_ACTIVE_YEARSve bu değişkenleri modelinize ekleyin.

Düşük model performansı için yaygın sorunlar

Bu bölümde, düşük model performansıyla ilgili olarak karşılaşabileceğiniz genel sorunları tartışıyoruz.

Geçmiş veri dağılımı değişti

Geçmişe dönük veri dağıtım kayması, büyük bir iş değişikliğiniz veya veri toplama sorununuz olduğunda meydana gelir. Örneğin, ürününüzü yakın zamanda yeni bir pazarda piyasaya sürdüyseniz, IP_ADDRESS, EMAIL, ve ADDRESS ilgili özellikler tamamen farklı olabilir ve dolandırıcılık modus operandi de değişebilir. Amazon Fraud Detector kullanır EVENT_TIMESTAMP verileri bölmek ve modelinizi veri kümenizdeki uygun olay alt kümesinde değerlendirmek için. Geçmiş veri dağılımınız önemli ölçüde değişirse, değerlendirme seti eğitim verilerinden çok farklı olabilir ve raporlanan model performansı düşük olabilir.

Geçmiş verilerinizi keşfederek olası veri dağılımı değişikliği sorununu kontrol edebilirsiniz:

Kullan Amazon Fraud Detector Veri Profil Oluşturucu Sahtekarlık oranının ve etiketin eksik oranının zaman içinde değişip değişmediğini kontrol etmek için bir araç.
Özellikle yüksek değişken öneme sahip özellikler için değişken dağılımının zaman içinde önemli ölçüde değişip değişmediğini kontrol edin.
Hedef değişkenlere göre zaman içindeki değişken dağılımını kontrol edin. Son verilerde bir kategoriden önemli ölçüde daha fazla dolandırıcılık olayı gözlemlerseniz, iş kararlarınızı kullanarak değişikliğin makul olup olmadığını kontrol etmek isteyebilirsiniz.

Etiketin eksik oranının çok yüksek olduğunu veya en son tarihlerde dolandırıcılık oranının sürekli düştüğünü tespit ederseniz, bu, etiketlerin tam olarak olgunlaşmadığının bir göstergesi olabilir. En son verileri hariç tutmalı veya doğru etiketleri toplamak için daha uzun süre beklemeli ve ardından modelinizi yeniden eğitmelisiniz.

Belirli tarihlerde dolandırıcılık oranında ve değişkenlerde keskin bir artış gözlemlerseniz, bunun bir aykırı değer mi yoksa veri toplama sorunu mu olduğunu iki kez kontrol etmek isteyebilirsiniz. Bu durumda, bu olayları silmeli ve modeli yeniden eğitmelisiniz.

Güncel olmayan verilerin mevcut ve gelecekteki işinizi temsil etmediğini tespit ederseniz, eski veri dönemini eğitimden çıkarmalısınız. Amazon Fraud Detector'da depolanan olayları kullanıyorsanız, eğitim işini yapılandırırken yeni bir sürümü yeniden eğitebilir ve uygun tarih aralığını seçebilirsiniz. Bu aynı zamanda işletmenizdeki dolandırıcılık yönteminin zaman içinde nispeten hızlı bir şekilde değiştiğini de gösterebilir. Model dağıtımından sonra modelinizi sık sık yeniden eğitmeniz gerekebilir.

Uygun olmayan değişken tipi eşleme

Amazon Fraud Detector, verileri değişken türlerine göre zenginleştirir ve dönüştürür. Amazon Fraud Detector modelinin verilerinizin maksimum değerini alabilmesi için değişkenlerinizi doğru türle eşlemeniz önemlidir. Örneğin, eğer harita IP için CATEGORICAL yerine yaz IP_ADDRESS, anlamıyorsun IP-arka uçtaki ilgili zenginleştirmeler.

Genel olarak, Amazon Fraud Detector aşağıdaki eylemleri önerir:

Değişkenlerinizi belirli türlerle eşleştirin, örneğin IP_ADDRESS, EMAIL_ADDRESS, CARD_BIN, ve PHONE_NUMBER, böylece Amazon Fraud Detector ek bilgileri ayıklayıp zenginleştirebilir.
Belirli bir değişken türünü bulamıyorsanız, onu üç genel türden biriyle eşleştirin: NUMERIC, CATEGORICALya da FREE_FORM_TEXT.
Bir değişken metin biçimindeyse ve müşteri incelemesi veya ürün açıklaması gibi yüksek kardinaliteye sahipse, onu FREE_FORM_TEXT Amazon Fraud Detector'ın metin özelliklerini ve arka uçtaki yerleştirmeleri sizin için çıkarması için değişken türü. Örneğin, eğer harita url_string için FREE_FORM_TEXT, URL'yi belirtebilir ve aşağı akış modeline beslemek için bilgileri ayıklayabilir, bu da URL'den daha fazla gizli kalıp öğrenmesine yardımcı olur.

Değişken türlerinizden herhangi birinin değişken konfigürasyonunda yanlış eşlendiğini tespit ederseniz, değişken türünüzü değiştirebilir ve ardından modeli yeniden eğitebilirsiniz.

Yetersiz veri veya özellik

Amazon Fraud Detector, bir Online Fraud Insights (OFI) veya Transaction Fraud Insights (TFI) modelini eğitmek için en az 10,000 kayıt gerektirir ve bu kayıtlardan en az 400'ü sahte olarak tanımlanır. TFI ayrıca, veri kümesinin çeşitliliğini sağlamak için hem sahte kayıtların hem de yasal kayıtların en az 100 farklı kuruluştan gelmesini şart koşar. Ayrıca Amazon Fraud Detector, modelleme verilerinin en az iki değişkene sahip olmasını gerektirir. Bunlar, kullanışlı bir Amazon Fraud Detector modeli oluşturmak için minimum veri gereksinimleridir. Ancak, daha fazla kayıt ve değişken kullanmak genellikle makine öğrenimi modellerinin verilerinizden temel alınan kalıpları daha iyi öğrenmesine yardımcı olur. Düşük bir AUC gözlemlediğinizde veya iş gereksinimlerinizi karşılayan eşikler bulamadığınızda, modelinizi daha fazla veri ile yeniden eğitmeyi veya modelinize yeni özellikler eklemeyi düşünmelisiniz. Genellikle, buluruz EMAIL_ADDRESS, IP, PAYMENT_TYPE, BILLING_ADDRESS, SHIPPING_ADDRESS, ve DEVICE ilgili değişkenler hile tespitinde önemlidir.

Diğer bir olası neden, değişkenlerinizden bazılarının çok fazla eksik değer içermesidir. Bunun olup olmadığını görmek için model eğitim mesajlarını kontrol edin ve bkz. Eğitim verisi sorunlarını giderme önerileriniz için.

Çok yüksek model performansı için ortak sorunlar

Bu bölümde, çok yüksek model performansıyla ilgili ortak sorunları tartışıyoruz.

Etiket sızıntısı

Etiket sızıntısı, eğitim veri kümeleri, tahmin zamanında bulunması beklenmeyen bilgileri kullandığında meydana gelir. Bir üretim ortamında çalıştırıldığında modelin faydasını olduğundan fazla tahmin eder.

Yüksek AUC (1'e yakın), mükemmel şekilde ayrılmış puan dağılımı ve bir değişkenin önemli ölçüde daha yüksek değişken önemi, potansiyel etiket sızıntısı sorunlarının göstergeleri olabilir. Ayrıca, özellikler ile etiket arasındaki korelasyonu aşağıdakileri kullanarak da kontrol edebilirsiniz. Veri Profili Oluşturucu. Özellik ve etiket korelasyonu çizim, her bir özellik ile etiket arasındaki ilişkiyi gösterir. Bir özelliğin etiketle 0.99'un üzerinde korelasyonu varsa, iş yargılarına göre özelliğin doğru şekilde kullanılıp kullanılmadığını kontrol etmelisiniz. Örneğin, bir kredi başvurusunu onaylamak veya reddetmek için bir risk modeli oluşturmak için aşağıdaki gibi özellikleri kullanmamalısınız. AMOUNT_PAID, çünkü ödemeler sigortalama işleminden sonra gerçekleşir. Tahmin yaptığınız sırada bir değişken mevcut değilse, o değişkeni model konfigürasyonundan çıkarmalı ve yeni bir modeli yeniden eğitmelisiniz.

Aşağıdaki örnek, her değişken ve etiket arasındaki ilişkiyi gösterir. investigation_status etiketle yüksek bir korelasyona (1'e yakın) sahiptir, bu nedenle etiket sızıntısı sorunu olup olmadığını iki kez kontrol etmelisiniz.

Basit dolandırıcılık kalıpları

Verilerinizdeki sahtekarlık kalıpları basit olduğunda, çok yüksek model performansı da gözlemleyebilirsiniz. Örneğin, modelleme verilerindeki tüm dolandırıcılık olaylarının aynı Dahili Hizmet Sağlayıcıdan geldiğini varsayalım; modelin seçmesi kolaydır IP-ilgili değişkenler ve yüksek öneme sahip “mükemmel” bir model döndürür. IP.

Basit dolandırıcılık modelleri her zaman bir veri sorununu göstermez. İşletmenizdeki dolandırıcılık tarzını yakalamanın kolay olduğu doğru olabilir. Ancak, bir sonuca varmadan önce, model eğitiminde kullanılan etiketlerin doğru olduğundan ve modelleme verilerinin mümkün olduğunca çok sayıda dolandırıcılık modelini kapsadığından emin olmanız gerekir. Örneğin, belirli bir sistemden tüm uygulamaları etiketlemek gibi kurallara dayalı olarak dolandırıcılık olaylarınızı etiketlerseniz. BILLING_ZIP artı PRODUCT_CATEGORY dolandırıcılık olarak, model, kuralları simüle ederek ve yüksek bir AUC elde ederek bu sahtekarlıkları kolayca yakalayabilir.

Aşağıdakileri kullanarak her özelliğin farklı kategorileri veya kutuları arasında etiket dağılımını kontrol edebilirsiniz. Veri Profili Oluşturucu. Örneğin, çoğu dolandırıcılık olayının bir veya birkaç ürün kategorisinden geldiğini gözlemlerseniz, bu basit dolandırıcılık kalıplarının bir göstergesi olabilir ve bunun bir veri toplama veya işlem hatası olmadığını onaylamanız gerekir. özellik gibi ise CUSTOMER_ID, özelliği model eğitiminde hariç tutmalısınız.

Aşağıdaki örnek, farklı kategorilerdeki etiket dağılımını gösterir: product_category. Tüm dolandırıcılık iki ürün kategorisinden gelir.

Yanlış veri örneklemesi

Örnekleme yaptığınızda ve verilerinizin yalnızca bir kısmını Amazon Fraud Detector'a gönderdiğinizde uygun olmayan veri örneklemesi olabilir. Veriler düzgün bir şekilde örneklenmezse ve üretimdeki trafiği temsil etmiyorsa, rapor edilen model performansı yanlış olur ve model, üretim tahmini için işe yaramaz olabilir. Örneğin, modelleme verilerindeki tüm dolandırıcılık olayları Asya'dan örneklenirse ve tüm yasal olaylar ABD'den örneklenirse, model, BILLING_COUNTRY. Bu durumda, model diğer popülasyonlara uygulanacak genel değildir.

Genellikle, en son olayların tümünü örnekleme olmadan göndermenizi öneririz. Amazon Fraud Detector, veri boyutuna ve dolandırıcılık oranına göre sizin için model eğitiminden önce örnekleme yapar. Verileriniz çok büyükse (100 GB'ın üzerinde) ve yalnızca bir alt kümeyi örneklemeye ve göndermeye karar verirseniz, verilerinizi rastgele örneklemeli ve örneğin tüm popülasyonu temsil ettiğinden emin olmalısınız. TFI için verilerinizi varlığa göre örneklemelisiniz, yani bir varlık örneklenirse, varlık düzeyindeki toplamların doğru hesaplanması için tüm geçmişini dahil etmeniz gerekir. Amazon Fraud Detector'a yalnızca bir veri alt kümesi gönderirseniz, varlıkların önceki olayları gönderilmezse çıkarım sırasındaki gerçek zamanlı toplamaların hatalı olabileceğini unutmayın.

Başka bir uygun olmayan veri örneklemesi, modeli oluşturmak için yalnızca bir günlük veriler gibi kısa bir veri periyodu kullanmak olabilir. Özellikle iş veya dolandırıcılık saldırılarınızın mevsimselliği varsa, veriler önyargılı olabilir. Dolandırıcılık türlerinin çeşitliliğini sağlamak için genellikle modellemeye en az iki döngü (2 hafta veya 2 ay gibi) değerinde veri dahil edilmesini öneririz.

Sonuç

Tüm olası sorunları teşhis edip çözdükten sonra, kullanışlı bir Amazon Fraud Detector modeli edinmeli ve performansından emin olmalısınız. Bir sonraki adım için, sen model ve iş kurallarınız ile dedektör oluşturabilirsinizve bir gölge modu değerlendirmesi için üretime dağıtmaya hazır olun.

Ek

Model eğitimi için değişkenler nasıl hariç tutulur

Derin dalıştan sonra, değişken bir sızıntı hedefi bilgisi belirleyebilir ve bunu model eğitiminden çıkarmak isteyebilirsiniz. Aşağıdaki adımları tamamlayarak istemediğiniz değişkenler hariç bir model sürümünü yeniden eğitebilirsiniz:

Amazon Fraud Detector konsolundaki gezinme bölmesinde Modeller.
Üzerinde Modeller sayfasında yeniden eğitmek istediğiniz modeli seçin.
Üzerinde İşlemler menü seç Yeni sürümü eğit.
Kullanmak istediğiniz tarih aralığını seçin ve Sonraki.
Üzerinde Eğitimi yapılandırın sayfasında, model eğitiminde kullanmak istemediğiniz değişkenin seçimini kaldırın.
Dolandırıcılık etiketlerinizi ve yasal etiketlerinizi ve Amazon Fraud Detector'ın etiketlenmemiş olayları nasıl kullanmasını istediğinizi belirtin, ardından Sonraki.
Model yapılandırmasını gözden geçirin ve seçin Model oluştur ve eğit.

Olay değişkeni türü nasıl değiştirilir

Değişkenler, dolandırıcılığın önlenmesinde kullanılan veri öğelerini temsil eder. Amazon Fraud Detector'da tüm değişkenler geneldir ve tüm olaylar ve modeller arasında paylaşılır; bu, bir değişkenin birden fazla olayda kullanılabileceği anlamına gelir. Örneğin IP, oturum açma olaylarıyla ilişkilendirilebilir ve ayrıca işlem olaylarıyla da ilişkilendirilebilir. Doğal olarak Amazon Fraud Detector, bir değişken oluşturulduktan sonra değişken türünü ve veri türünü kilitledi. Var olan bir değişkeni silmek için önce tüm ilişkili olay türlerini ve modellerini silmeniz gerekir. Belirli bir değişkenle ilişkili kaynakları, Amazon Fraud Detector'a giderek aşağıdakileri seçerek kontrol edebilirsiniz. Değişkenler gezinme bölmesinde ve değişken adını ve ilgili kaynaklar.

Değişkeni ve ilişkili tüm olay türlerini silin

Değişkeni silmek için aşağıdaki adımları tamamlayın:

Amazon Fraud Detector konsolundaki gezinme bölmesinde Değişkenler.
Silmek istediğiniz değişkeni seçin.
Klinik ilgili kaynaklar Bu değişkeni kullanılan tüm olay türlerinin bir listesini görüntülemek için.
Değişkeni silmeden önce bu ilişkili olay türlerini silmeniz gerekir.
İlişkili olay türü sayfasına gitmek için listeden olay türlerini seçin.
Klinik Depolanan etkinlikler Bu olay türü altında herhangi bir verinin depolanıp depolanmadığını kontrol etmek için.
Amazon Fraud Detector'da depolanan olaylar varsa, Depolanan etkinlikleri sil saklanan olayları silmek için
Silme işi tamamlandığında, “Bu olay türü için saklanan olaylar başarıyla silindi” mesajı görünür.
Klinik ilgili kaynaklar.
Algılayıcılar ve modeller bu olay türüyle ilişkilendirilmişse, önce bu kaynakları silmeniz gerekir.
Dedektörler ilişkiliyse, ilişkili tüm dedektörleri silmek için aşağıdaki adımları tamamlayın:
1. gitmek için dedektörü seçin Dedektör ayrıntıları gidin.
2. içinde Model sürümleri bölmesinde dedektörün sürümünü seçin.
3. Dedektör sürümü sayfasında, İşlemler.
4. Dedektör versiyonu aktifse, seçin Devre dışı bırakmak, seçmek Bu dedektör sürümünü farklı bir sürümle değiştirmeden devre dışı bırakın, ve Seç Dedektör sürümünü devre dışı bırakın.
5. Dedektör versiyonu devre dışı bırakıldıktan sonra, İşlemler ve sonra Sil.
6. Tüm dedektör sürümlerini silmek için bu adımları tekrarlayın.
7. Üzerinde Dedektör ayrıntıları sayfasını seçin İlişkili kurallar.
8. Silinecek kuralı seçin.
9. Klinik İşlemler ve Kural sürümünü sil.
10. Onaylamak ve seçmek için kural adını girin Sürümü sil.
11. İlişkili tüm kuralları silmek için bu adımları tekrarlayın.
12. Tüm dedektör sürümleri ve ilgili kurallar silindikten sonra şuraya gidin: Dedektör ayrıntıları sayfasını seçin İşlemler, ve Seç Dedektörü sil.
13. Dedektörün adını girin ve seçin Dedektörü sil.
14. Sonraki dedektörü silmek için bu adımları tekrarlayın.
Olay türüyle ilişkili modeller varsa, bunları silmek için aşağıdaki adımları tamamlayın:
1. Modelin adını seçin.
2. içinde Model sürümleri bölmesinde sürümü seçin.
3. Model durumu ise Active, seçmek İşlemler ve Model sürümünü dağıtma.
4. Keşfet undeploy onaylamak ve seçmek için Model sürümünü dağıtma.
  Durum şu şekilde değişir: Undeploying. İşlemin tamamlanması birkaç dakika sürer.
5. Durum haline geldikten sonra Ready to deploy, Eylemler ve Sil'i seçin.
6. Tüm model sürümlerini silmek için bu adımları tekrarlayın.
7. Model ayrıntıları sayfasında, Eylemler ve Modeli sil'i seçin.
8. Modelin adını girin ve Modeli sil'i seçin.
9. Sonraki modeli silmek için bu adımları tekrarlayın.
İlişkili tüm dedektörler ve modeller silindikten sonra, İşlemler ve Etkinlik türünü sil üzerinde Etkinlik detayları gidin.
Olay türünün adını girin ve Etkinlik türünü sil.
Gezinti bölmesinde şunu seçin: Değişkenlerve silmek istediğiniz değişkeni seçin.
Değişkenle ilişkili tüm olay türlerini silmek için önceki adımları tekrarlayın.
Üzerinde Değişken ayrıntılar sayfasını seçin İşlemler ve Silin.
Değişkenin adını girin ve seçin Değişkeni sil.

Doğru değişken türüyle yeni bir değişken oluşturun

Amazon Fraud Detector'dan değişkeni ve ilişkili tüm olay türlerini, depolanan olayları, modelleri ve algılayıcıları sildikten sonra, aynı ada sahip yeni bir değişken oluşturabilir ve onu doğru değişken türüyle eşleyebilirsiniz.

Amazon Fraud Detector konsolundaki gezinme bölmesinde Değişkenler.
Klinik oluşturmak.
Değiştirmek istediğiniz değişken adını girin (daha önce sildiğiniz).
Değiştirmek istediğiniz doğru değişken türünü seçin.
Klinik Değişken oluşturun.

Verileri yükleyin ve modeli yeniden eğitin

Değişken türünü güncelledikten sonra verileri tekrar yükleyebilir ve yeni bir model eğitebilirsiniz. Talimatlar için bkz. Yeni Amazon Fraud Detector özellikleriyle çevrimiçi işlem dolandırıcılığını tespit edin.

Mevcut bir olay türüne yeni değişkenler nasıl eklenir

Mevcut olay türüne yeni değişkenler eklemek için aşağıdaki adımları tamamlayın:

Yeni değişkenleri önceki eğitim CVS dosyasına ekleyin.
Yeni eğitim veri dosyasını bir S3 klasörüne yükleyin. Eğitim dosyanızın Amazon S3 konumunu not edin (örneğin, s3://bucketname/path/to/some/object.csv) ve rol adınız.
Amazon Fraud Detector konsolundaki gezinme bölmesinde Olaylar.
Üzerinde Etkinlik türleri sayfasında, değişken eklemek istediğiniz olay türünün adını seçin.
Üzerinde Olay türü ayrıntılar sayfası, seçin İşlemler, Daha sonra Değişken ekle.
Altında Bu etkinliğin değişkenlerini nasıl tanımlayacağınızı seçin, seçmek Bir eğitim veri kümesinden değişkenleri seçin.
IAM rolü için mevcut bir IAM rolü seçin veya Amazon S3'teki verilere erişmek için yeni bir rol oluşturun.
İçin Veri konumu, yeni eğitim dosyasının S3 konumunu girin ve Yükleyin.
Mevcut olay türünde bulunmayan yeni değişkenler listede görünmelidir.
Klinik Değişkenler ekleyin.

Şimdi, mevcut olay türüne yeni değişkenler eklendi. Amazon Fraud Detector'da saklanan olayları kullanıyorsanız, saklanan olayların yeni değişkenleri hala eksiktir. Yeni değişkenlerle birlikte eğitim verilerini Amazon Fraud Detector'a aktarmanız ve ardından yeni bir model sürümünü yeniden eğitmeniz gerekir. Yeni antrenman verilerini aynı şekilde yüklerken EVENT_ID ve EVENT_TIMESTAMP, yeni olay değişkenleri, Amazon Fraud Detector'da depolanan önceki olay değişkenlerinin üzerine yazar.

Yazarlar Hakkında

Julia Xu Amazon Fraud Detector'a sahip bir Araştırma Bilimcisi. Makine Öğrenimi tekniklerini kullanarak müşteri zorluklarını çözme konusunda tutkulu. Boş zamanlarında yürüyüş yapmaktan, resim yapmaktan ve yeni kafeler keşfetmekten hoşlanır.

Hao Zhou Amazon Fraud Detector'a sahip bir Araştırma Bilimcisi. ABD'de Northwestern Üniversitesi'nden elektrik mühendisliği alanında doktora derecesine sahiptir. Dolandırıcılık ve kötüye kullanımla mücadele etmek için makine öğrenimi tekniklerini uygulama konusunda tutkulu.

Abhishek Ravi Amazon Fraud Detector'da Kıdemli Ürün Yöneticisidir. Müşterileri memnun eden ürünler oluşturmak için teknik yeteneklerden yararlanma konusunda tutkulu.

Zaman Damgası: Haziran 29, 2022

Zaman Damgası: Şubat 29, 2024

Plato tarafından yeniden yayınlandı

Amazon SageMaker jeo-uzamsal yetenekleriyle bir tarımsal veri platformu oluşturun

Sentetik verilerin kalitesi nasıl değerlendirilir – aslına uygunluk, fayda ve mahremiyet açısından ölçüm

Sokak adreslerini yakalamak için Amazon Lex'i kullanın

ThirdAI ve AWS Graviton ile CPU'larda büyük ölçekli sinir ağı eğitimini hızlandırma | Amazon Web Hizmetleri

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap