Amazon SageMaker PlatoBlockchain Data Intelligence ile makine öğrenimini kullanarak sahte işlemleri tespit edin. Dikey Arama. Ai.

Amazon SageMaker ile makine öğrenimini kullanarak sahte işlemleri tespit edin

İşletmeler, kötü niyetli kullanıcılar ve hileli işlemler nedeniyle her yıl milyarlarca dolar kaybedebilir. Giderek daha fazla ticari işlem çevrimiçi hale geldikçe, çevrimiçi sistemlerdeki dolandırıcılık ve suistimaller de artıyor. Çevrimiçi dolandırıcılıkla mücadele etmek için birçok işletme kural tabanlı dolandırıcılık tespit sistemlerini kullanıyor.

Bununla birlikte, geleneksel dolandırıcılık tespit sistemleri, insan uzmanlar tarafından el yapımı bir dizi kural ve filtreye dayanır. Filtreler genellikle kırılgan olabilir ve kurallar, hileli sinyallerin tam spektrumunu yakalamayabilir. Ayrıca, dolandırıcılık davranışları sürekli gelişirken, önceden tanımlanmış kuralların ve filtrelerin statik doğası, geleneksel dolandırıcılık tespit sistemlerinin etkin bir şekilde sürdürülmesini ve iyileştirilmesini zorlaştırmaktadır.

Bu gönderide, makine öğrenimi (ML) kullanarak dinamik, kendi kendini geliştiren ve sürdürülebilir bir kredi kartı sahtekarlık algılama sisteminin nasıl oluşturulacağını gösteriyoruz. Amazon Adaçayı Yapıcı.

Alternatif olarak, kod yazmadan özelleştirilmiş sahtekarlık algılama modelleri oluşturmak için tam olarak yönetilen bir hizmet arıyorsanız, kontrol etmenizi öneririz. Amazon Sahtekarlık Dedektörü. Amazon Fraud Detector, makine öğrenimi deneyimi olmayan müşterilerin, AWS ve Amazon.com'un 20 yılı aşkın sahtekarlık algılama uzmanlığından yararlanarak verileri için özelleştirilmiş sahtekarlık algılama modelleri oluşturmasını otomatikleştirmesine olanak tanır.

Çözüme genel bakış

Bu çözüm, SageMaker kullanan bir kredi kartı dolandırıcılık tespit sisteminin çekirdeğini oluşturur. Algoritmayı kullanarak denetimsiz bir anormallik algılama modeli eğiterek başlıyoruz. Rastgele Kesilmiş Orman (RCF). Ardından, algoritmayı kullanarak iki denetimli sınıflandırma modelini eğitiriz. XGBoost, biri temel model olarak, diğeri ise verilerdeki aşırı sınıf dengesizliğini ele almak için farklı stratejiler kullanarak tahminler yapmak için. Son olarak, en uygun XGBoost modelini şu şekilde eğitiriz: hiperparametre optimizasyonu (HPO) Model performansını daha da iyileştirmek için.

Örnek veri seti için halka açık, anonimleştirilmiş kredi kartı işlemlerini kullanıyoruz. veri kümesi başlangıçta bir parçası olarak piyasaya sürüldü araştırma Worldline ile işbirliği ULB'nin Makine Öğrenimi Grubu (Université Libre de Bruxelles). İzlenecek yolda, kendi verilerinizi kullanmak için çözümü nasıl özelleştirebileceğinizi de tartışıyoruz.

Çözümün çıktıları aşağıdaki gibidir:

  • denetimsiz Adaçayı Yapıcı RCF modeli. Model, her işlem için bir anormallik puanı verir. Düşük bir puan değeri, işlemin normal (sahtekar olmayan) olarak kabul edildiğini gösterir. Yüksek bir değer, işlemin sahte olduğunu gösterir. Düşük ve yüksek tanımları uygulamaya bağlıdır, ancak genel uygulama, ortalama puandan üç standart sapmanın ötesindeki puanların anormal olarak kabul edildiğini göstermektedir.
  • denetlenen Adaçayı Yapıcı XGBoost model, son derece dengesiz veri sorununu çözmek için yerleşik ağırlıklandırma şeması kullanılarak eğitilmiştir.
  • kullanılarak eğitilmiş, denetlenen bir SageMaker XGBoost modelidir. Sentetik Azınlık Aşırı Örnekleme Tekniği (SMOTE).
  • HPO ile eğitimli bir SageMaker XGBoost modeli.
  • Her işlemin hileli olma olasılığına ilişkin tahminler. Bir işlemin tahmini olasılığı bir eşiğin üzerindeyse, hileli olarak sınıflandırılır.

Bu çözümü mevcut iş altyapılarınızda nasıl kullanabileceğinizi göstermek için, aşağıdakileri kullanarak dağıtılan model uç noktasına REST API çağrıları yapma örneğini de ekledik: AWS Lambda hem RCF hem de XGBoost modellerini tetiklemek için.

Aşağıdaki şemada çözüm mimarisi gösterilmektedir.

Önkoşullar

Çözümü kendi hesabınızda denemek için aşağıdakilere sahip olduğunuzdan emin olun:

Studio örneği hazır olduğunda Studio'yu başlatabilir ve JumpStart'a erişebilirsiniz. JumpStart çözümleri, SageMaker not defteri örneklerinde mevcut değildir ve bunlara SageMaker API'leri veya AWS Komut Satırı Arayüzü (AWS CLI'si).

Çözümü başlatın

Çözümü başlatmak için aşağıdaki adımları tamamlayın:

  1. içindeki JumpStart başlatıcısını kullanarak JumpStart'ı açın. Şimdi Başlayın bölümünden veya sol kenar çubuğundaki JumpStart simgesini seçerek.
  2. Altında Çözümler, seçmek Kötü Amaçlı Kullanıcıları ve İşlemleri Tespit Edin çözümü başka bir Studio sekmesinde açmak için.
    Çözüm bul
  3. Çözüm sekmesinde seçin Başlatmak çözümü başlatmak için.
    Çözümü başlatın
    Çözüm kaynakları sağlanır ve dağıtım ilerlemesini gösteren başka bir sekme açılır. Dağıtım tamamlandığında, bir Not Defterini Aç düğmesi görünür.
  4. Klinik Not Defterini Aç Çözüm not defterini Studio'da açmak için
    Not defterini aç

Verileri araştırın ve işleyin

Orijinal özellikler kullanılarak dönüştürülmüş olduğundan, varsayılan veri kümesi yalnızca sayısal özellikleri içerir. Temel Bileşen Analizi (PCA) kullanıcı gizliliğini korumak için. Sonuç olarak, veri kümesi 28 PCA bileşeni, V1–V28 ve dönüştürülmemiş iki özellik, Miktar ve Zaman içerir. Tutar, işlem miktarını ifade eder ve Süre, verilerdeki herhangi bir işlem ile ilk işlem arasında geçen saniyedir.

Sınıf sütunu, bir işlemin sahte olup olmadığına karşılık gelir.

Örnek veri

Toplam 284,807 örnekten sadece 492'si (%0.173) hileli olduğu için çoğunluğun sahtekarlık yapmadığını görebiliriz. Bu, dolandırıcılık algılama senaryolarında yaygın olan bir aşırı sınıf dengesizliği durumudur.

Veri sınıfı dengesizliği

Daha sonra verilerimizi yükleme ve eğitim için hazırlıyoruz. Verileri bir tren seti ve bir test seti olarak ayırdık, ilkini eğitmek ve ikincisini modelimizin performansını değerlendirmek için kullandık. Sınıf dengesizliğini hafifletmek için herhangi bir teknik uygulamadan önce verileri bölmek önemlidir. Aksi takdirde test setinden tren setine bilgi sızdırabilir ve modelin performansına zarar verebiliriz.

Kendi egzersiz verilerinizi getirmek istiyorsanız, bunların CSV formatında tablo verileri olduğundan emin olun, verileri bir Amazon Basit Depolama Hizmeti (Amazon S3) klasörünü bulun ve not defteri kodundaki S3 nesne yolunu düzenleyin.

S3'teki veri yolu

Verileriniz sayısal olmayan değerlere sahip kategorik sütunlar içeriyorsa, bu değerleri tek seferde kodlamanız gerekir (örneğin, sklearn'in OneHotEncoder'ı) çünkü XGBoost algoritması yalnızca sayısal verileri destekler.

Denetimsiz bir Random Cut Forest modelini eğitin

Bir dolandırıcılık tespit senaryosunda, genellikle çok az sayıda etiketlenmiş örneğe sahibiz ve sahtekarlığı etiketlemek çok zaman ve çaba gerektirebilir. Bu nedenle, elimizdeki etiketlenmemiş verilerden de bilgi çıkarmak istiyoruz. Bunu, dolandırıcılık tespit veri kümelerinde yaygın olan yüksek veri dengesizliğinden yararlanarak bir anormallik tespit algoritması kullanarak yapıyoruz.

Anormallik algılama, yalnızca özellik özelliklerine dayalı olarak anormal örnekleri tanımlamaya çalıştığımız bir denetimsiz öğrenme biçimidir. Random Cut Forest, hem doğru hem de ölçeklenebilir, son teknoloji bir anormallik algılama algoritmasıdır. Her veri örneğiyle, RCF bir anormallik skorunu ilişkilendirir.

Eğitim veri kümemizde bir anormallik algılama modeli eğitmek için SageMaker yerleşik RCF algoritmasını kullanıyoruz, ardından test veri kümemizde tahminler yapıyoruz.

İlk olarak, pozitif (sahtekar) ve negatif (sahtekar olmayan) örnekler için tahmin edilen anormallik puanlarını ayrı ayrı inceler ve çizeriz, çünkü pozitif ve negatif örneklerin sayıları önemli ölçüde farklılık gösterir. Olumlu (hile amaçlı) örneklerin nispeten yüksek anormallik puanlarına sahip olmasını ve olumsuz (sahtekar olmayan) örneklerin düşük anormallik puanlarına sahip olmasını bekliyoruz. Histogramlardan aşağıdaki kalıpları görebiliriz:

  • Olumlu örneklerin (sol histogram) neredeyse yarısı 0.9'dan yüksek anormallik puanlarına sahipken, olumsuz örneklerin (sağ histogram) çoğu 0.85'ten düşük anormallik puanlarına sahiptir.
  • Denetimsiz öğrenme algoritması RCF, hileli ve hileli olmayan örnekleri doğru bir şekilde belirlemek için sınırlamalara sahiptir. Bunun nedeni, hiçbir etiket bilgisinin kullanılmamasıdır. Bu sorunu etiket bilgilerini toplayarak ve sonraki adımlarda denetimli öğrenme algoritması kullanarak ele alıyoruz.

Öngörülen anomali puanları

Ardından, anormallik puanına göre her bir test örneğini pozitif (sahte) veya negatif (sahtekar olmayan) olarak sınıflandırdığımız daha gerçek bir senaryo varsayıyoruz. Tüm test örnekleri için puan histogramını, sınıflandırma için 1.0'lık bir kesme puanı seçerek (histogramda gösterilen kalıba dayalı olarak) aşağıdaki gibi çizeriz. Spesifik olarak, örneğin anormallik puanı 1.0'dan küçük veya ona eşitse, negatif (sahtekar olmayan) olarak sınıflandırılır. Aksi takdirde, örnek olumlu (sahtekar) olarak sınıflandırılır.

Test örnekleri için puanların histogramı

Son olarak, sınıflandırma sonucunu temel doğruluk etiketleriyle karşılaştırır ve değerlendirme metriklerini hesaplarız. Veri kümemiz dengesiz olduğu için değerlendirme metriklerini kullanıyoruz dengeli doğruluk, Cohen'in Kappa puanı, F1 skoru, ve ÇHC EAA, çünkü verilerdeki her sınıfın sıklığını hesaba katarlar. Tüm bu metrikler için daha büyük bir değer, daha iyi bir tahmin performansını gösterir. Her örnekte RCF modelinden pozitif ve negatif sınıflar için tahmini bir olasılık olmadığından, bu adımda ROC AUC'yi henüz hesaplayamayacağımıza dikkat edin. Bu ölçümü daha sonraki adımlarda denetimli öğrenme algoritmalarını kullanarak hesaplıyoruz.

. RCF
Dengeli doğruluk 0.560023
Cohen'in Kappa'sı 0.003917
F1 0.007082
ÇHC EAA -

Bu adımdan, denetimsiz modelin, hileli örneklerle ilişkili daha yüksek anormallik puanları ile sınıflar arasında bir miktar ayrım sağlayabildiğini görebiliriz.

Yerleşik ağırlıklandırma şemasıyla bir XGBoost modelini eğitin

Yeterli miktarda etiketlenmiş eğitim verisi topladıktan sonra, özellikler ve sınıflar arasındaki ilişkileri keşfetmek için denetimli bir öğrenme algoritması kullanabiliriz. XGBoost algoritmasını, kanıtlanmış bir geçmişe sahip olduğu, yüksek düzeyde ölçeklenebilir olduğu ve eksik verilerle başa çıkabildiği için seçiyoruz. Bu sefer veri dengesizliğini halletmemiz gerekiyor, aksi takdirde çoğunluk sınıfı (sahtekar olmayan veya olumsuz örnekler) öğrenmeye hükmedecek.

SageMaker yerleşik XGBoost algoritma kapsayıcısını kullanarak ilk denetlenen modelimizi eğitiyor ve devreye alıyoruz. Bu bizim temel modelimiz. Veri dengesizliğini ele almak için hiperparametreyi kullanırız. scale_pos_weightpozitif sınıf örneklerinin ağırlıklarını negatif sınıf örneklerine karşı ölçeklendiren . Veri kümesi oldukça çarpık olduğundan, bu hiperparametreyi muhafazakar bir değere ayarladık: sqrt(num_nonfraud/num_fraud).

Modeli şu şekilde eğitir ve dağıtırız:

  1. SageMaker XGBoost kapsayıcı URI'sini alın.
  2. Veri dengesizliğini ele alan bahsettiğimiz de dahil olmak üzere model eğitimi için kullanmak istediğimiz hiperparametreleri ayarlayın, scale_pos_weight.
  3. Bir XGBoost tahmincisi oluşturun ve onu tren veri kümemizle eğitin.
  4. Eğitilmiş XGBoost modelini SageMaker tarafından yönetilen bir uç noktaya dağıtın.
  5. Bu temel modeli test veri kümemizle değerlendirin.

Ardından, modelimizi son adımda belirtildiği gibi aynı dört metrikle değerlendiririz. Bu sefer ROC AUC metriğini de hesaplayabiliriz.

. RCF XGBoost
Dengeli doğruluk 0.560023 0.847685
Cohen'in Kappa'sı 0.003917 0.743801
F1 0.007082 0.744186
ÇHC EAA - 0.983515

Ağırlıklandırma şemasıyla (hiper parametresini kullanarak) denetimli bir öğrenme yöntemi XGBoost olduğunu görebiliriz. scale_pos_weight) denetimsiz öğrenme yöntemi RCF'den önemli ölçüde daha iyi performans elde eder. Bununla birlikte, performansı artırmak için hala yer var. Özellikle Cohen'in Kappa puanını 0.8'in üzerine çıkarmak genellikle çok olumlu olacaktır.

Tek değerli metriklerin yanı sıra, sınıf başına performansı gösteren metriklere bakmak da yararlıdır. Örneğin, karışıklık matrisi, sınıf başına kesinlik, geri çağırma ve F1 puanı, modelimizin performansı hakkında daha fazla bilgi sağlayabilir.

XGBoost modelinin karışıklık matrisi

. hassas geri çağırmak f1-skoru destek
dolandırıcılık olmayan 1.00 1.00 1.00 28435
dolandırıcılık 0.80 0.70 0.74 46

Lambda aracılığıyla uç noktaya test trafiği göndermeye devam edin

Modellerimizi bir üretim sisteminde nasıl kullanacağımızı göstermek için bir REST API oluşturduk. Amazon API Ağ Geçidi ve bir Lambda işlevi. İstemci uygulamaları, REST API'ye HTTP çıkarım istekleri gönderdiğinde, bu, Lambda işlevini tetikler, bu da RCF ve XGBoost model uç noktalarını çağırır ve modellerden tahminleri döndürür. Lambda konsolunda Lambda fonksiyon kodunu okuyabilir ve çağrıları izleyebilirsiniz.

Ayrıca, giriş verileri olarak test verilerimizle, REST API'ye HTTP çıkarım istekleri yapan bir Python betiği oluşturduk. Bunun nasıl yapıldığını görmek için generate_endpoint_traffic.py Çözümün kaynak kodundaki dosya. Tahmin çıktıları, bir S3 kovasına bir Amazon Kinesis Veri İtfaiyesi teslimat akışı. Hedef S3 klasör adını Kinesis Data Firehose konsolunda bulabilir ve S3 klasöründe tahmin sonuçlarını kontrol edebilirsiniz.

Aşırı örnekleme tekniği SMOTE ile bir XGBoost modelini eğitin

Artık XGBoost kullanan bir temel modelimiz olduğuna göre, özellikle dengesiz problemler için tasarlanmış örnekleme tekniklerinin modelin performansını iyileştirip iyileştiremeyeceğini görebiliriz. Kullanırız Sentetik Azınlık Aşırı Örnekleme (SMOTE), mevcut olanlar arasında yeni veri noktaları enterpolasyon yaparak azınlık sınıfını aşırı örneklendirir.

Adımlar aşağıdaki gibidir:

  1. Tren veri setimizin azınlık sınıfını (sahte sınıf) aşırı örneklemek için SMOTE kullanın. SMOTE, azınlık sınıfını yaklaşık %0.17-50'den fazla örneklendirir. Bunun azınlık sınıfının aşırı derecede aşırı örneklenmesi durumu olduğuna dikkat edin. Bir alternatif, her biri için bir azınlık sınıfı örneğine sahip olmak gibi daha küçük bir yeniden örnekleme oranı kullanmak olabilir. sqrt(non_fraud/fraud) çoğunluğu örnekleme veya daha gelişmiş yeniden örnekleme teknikleri kullanma. Daha fazla aşırı örnekleme seçeneği için, bkz. Aşırı örnekleme örnekleyicilerini karşılaştırın.
  2. Scale_pos_weight kaldırılacak ve diğer hiperparametreler, temel XGBoost modelini eğitirken olduğu gibi kalacak şekilde ikinci XGBoost'u eğitmek için hiperparametreleri tanımlayın. Artık bu hiperparametre ile veri dengesizliğini ele almamıza gerek yok, çünkü bunu zaten SMOTE ile yaptık.
  3. İkinci XGBoost modelini yeni hiperparametrelerle SMOTE işlenmiş tren veri kümesinde eğitin.
  4. Yeni XGBoost modelini SageMaker tarafından yönetilen bir uç noktaya dağıtın.
  5. Yeni modeli test veri seti ile değerlendirin.

Yeni modeli değerlendirirken, SMOTE ile XGBoost'un dengeli doğrulukta daha iyi bir performans gösterdiğini, ancak Cohen'in Kappa ve F1 puanlarında olmadığını görebiliyoruz. Bunun nedeni, SMOTE'un dolandırıcılık sınıfını o kadar fazla örneklemesidir ki, özellik alanında dolandırıcılık dışı durumlarla örtüşmesini artırmıştır. Cohen'in Kappa'sı yanlış pozitiflere dengeli doğruluktan daha fazla ağırlık verdiğinden, dolandırıcılık vakaları için hassasiyet ve F1 puanı gibi metrik de önemli ölçüde düşer.

. RCF XGBoost XGBoost SMOT
Dengeli doğruluk 0.560023 0.847685 0.912657
Cohen'in Kappa'sı 0.003917 0.743801 0.716463
F1 0.007082 0.744186 0.716981
ÇHC EAA - 0.983515 0.967497

Ancak, sınıflandırma eşiğini ayarlayarak metrikler arasındaki dengeyi geri getirebiliriz. Şimdiye kadar, bir veri noktasının hileli olup olmadığını etiketlemek için eşik olarak 0.5'i kullandık. 0.1-0.9 arasındaki farklı eşikleri denedikten sonra, Cohen'in Kappa'sının, dengeli doğrulukta önemli bir kayıp olmaksızın eşikle birlikte artmaya devam ettiğini görebiliriz.

Metrikler arasındaki dengeyi geri getirmek için farklı eşikleri deneyin

Bu, modelimize faydalı bir kalibrasyon ekler. Herhangi bir hileli vakayı kaçırmamak (yanlış negatifler) bizim önceliğimiz ise düşük bir eşik kullanabiliriz veya yanlış pozitiflerin sayısını en aza indirmek için eşiği artırabiliriz.

HPO ile en uygun XGBoost modelini eğitin

Bu adımda, üçüncü XGBoost modelimizi hiper parametre optimizasyonu ile eğiterek model performansının nasıl iyileştirileceğini gösteriyoruz. Karmaşık ML sistemleri oluştururken, tüm olası hiperparametre değerleri kombinasyonlarını manuel olarak araştırmak pratik değildir. SageMaker'daki HPO özelliği, bir modelin birçok varyasyonunu sizin adınıza deneyerek üretkenliğinizi hızlandırabilir. Belirttiğiniz aralıklar içinde en umut verici hiperparametre değerleri kombinasyonlarına odaklanarak otomatik olarak en iyi modeli arar.

HPO sürecinin bir doğrulama veri kümesine ihtiyacı vardır, bu nedenle önce eğitim verilerimizi aşağıdakileri kullanarak eğitim ve doğrulama veri kümelerine ayırdık: tabakalı örnekleme. Veri dengesizliği sorununun üstesinden gelmek için, XGBoost'un ağırlıklandırma şemasını tekrar kullanarak scale_pos_weight hiper parametresi sqrt(num_nonfraud/num_fraud).

SageMaker'ın yerleşik XGBoost algoritması kapsayıcısını kullanarak bir XGBoost tahmincisi oluştururuz ve deney yapmak istediğimiz nesnel değerlendirme metriğini ve hiper parametre aralıklarını belirtiriz. Bunlarla daha sonra bir HiperparametreTuner ve birden çok modeli paralel olarak eğiten ve optimal hiperparametre kombinasyonları arayan HPO ayarlama işini başlatın.

Ayarlama işi tamamlandığında, analitik raporunu görebilir ve her modelin hiperparametrelerini, eğitim işi bilgilerini ve objektif değerlendirme metriğine göre performansını inceleyebiliriz.

Ayarlama işinden her modelin bilgilerinin listesi

Ardından en iyi modeli devreye alıyor ve test veri setimiz ile değerlendiriyoruz.

Tüm model performansını aynı test verileri üzerinde değerlendirin ve karşılaştırın

Şimdi dört modelin hepsinden değerlendirme sonuçlarına sahibiz: RCF, XGBoost taban çizgisi, SMOTE ile XGBoost ve HPO ile XGBoost. Performanslarını karşılaştıralım.

. RCF XGBoost SMOTE ile XGBoost HPO ile XGBoost
Dengeli doğruluk 0.560023 0.847685 0.912657 0.902156
Cohen'in Kappa'sı 0.003917 0.743801 0.716463 0.880778
F1 0.007082 0.744186 0.716981 0.880952
ÇHC EAA - 0.983515 0.967497 0.981564

HPO'lu XGBoost'un SMOTE yönteminden daha iyi performans gösterdiğini görebiliriz. Özellikle, Cohen'in Kappa puanları ve F1'in 0.8'in üzerinde olması, optimal bir model performansını gösterir.

Temizlemek

Bu çözümle işiniz bittiğinde, istenmeyen ücretlere maruz kalmamak için tüm istenmeyen AWS kaynaklarını sildiğinizden emin olun. İçinde Çözümü sil çözüm sekmenizdeki bölümü seçin Tüm kaynakları sil Bu çözümü başlatırken otomatik olarak oluşturulan kaynakları silmek için.

Çözümü silerek temizleyin

Alternatif olarak, kullanabilirsiniz AWS CloudFormation çözüm ve not defteri tarafından otomatik olarak oluşturulan tüm standart kaynakları silmek için. Bu yaklaşımı kullanmak için, AWS CloudFormation konsolunda, açıklaması sahtekarlık-algılama-kullanarak-makine öğrenimi içeren CloudFormation yığınını bulun ve silin. Bu bir üst yığındır ve bu yığını silmeyi seçmek, iç içe geçmiş yığınları otomatik olarak siler.

CloudFormation aracılığıyla temizleyin

Her iki yaklaşımda da, bu not defterinde oluşturmuş olabileceğiniz fazladan kaynakları el ile silmeniz gerekir. Bazı örnekler arasında fazladan S3 paketleri (çözümün varsayılan paketine ek olarak), fazladan SageMaker uç noktaları (özel bir ad kullanarak) ve ekstra Amazon Elastik Konteyner Kayıt Defteri (Amazon ECR) depoları.

Sonuç

Bu gönderide, SageMaker ile ML kullanarak dinamik, kendi kendini geliştiren ve sürdürülebilir bir kredi kartı dolandırıcılık tespit sisteminin çekirdeğini nasıl oluşturacağınızı gösterdik. Denetimsiz bir RCF anormallik algılama modeli, temel olarak denetimli bir XGBoost modeli, veri dengesizliği sorununu çözmek için SMOTE ile başka bir denetimli XGBoost modeli ve HPO ile optimize edilmiş son bir XGBoost modeli oluşturduk, eğittik ve devreye aldık. Veri dengesizliğini nasıl ele alacağınızı ve çözümde kendi verilerinizi nasıl kullanacağınızı tartıştık. Sistemin mevcut iş altyapınızda nasıl kullanılacağını göstermek için API Gateway ve Lambda ile örnek bir REST API uygulaması da ekledik.

Kendiniz denemek için açın Adaçayı Yapıcı Stüdyo ve JumpStart çözümünü başlatın. Çözüm hakkında daha fazla bilgi edinmek için GitHub deposu.


Yazarlar Hakkında

Xiaoli ŞenXiaoli Şen Amazon Web Services'de Çözüm Mimarı ve Makine Öğrenimi Teknik Alan Topluluğu (TFC) üyesidir. Müşterilerin bulut üzerinde mimari oluşturmasına ve iş değeri elde etmek için AWS hizmetlerinden yararlanmasına yardımcı olmaya odaklanmıştır. AWS'ye katılmadan önce, bulut üzerinde veri yoğun dağıtılmış sistemler oluşturan bir teknoloji lideri ve kıdemli tam yığın mühendisiydi.

Amazon SageMaker PlatoBlockchain Data Intelligence ile makine öğrenimini kullanarak sahte işlemleri tespit edin. Dikey Arama. Ai.Doktor Xin Huang Amazon SageMaker JumpStart ve Amazon SageMaker yerleşik algoritmaları için Uygulamalı Bilim Adamıdır. Ölçeklenebilir makine öğrenimi algoritmaları geliştirmeye odaklanmaktadır. Araştırma ilgi alanları, doğal dil işleme, tablo verileri üzerinde açıklanabilir derin öğrenme ve parametrik olmayan uzay-zaman kümelemesinin sağlam analizidir. ACL, ICDM, KDD konferansları ve Royal Statistical Society: Series A dergisinde birçok makalesi yayınlanmıştır.

Amazon SageMaker PlatoBlockchain Data Intelligence ile makine öğrenimini kullanarak sahte işlemleri tespit edin. Dikey Arama. Ai.Vedan Jain Müşterilerin AWS'deki Makine Öğrenimi ekosisteminden değer elde etmesine yardımcı olan bir Kıdemli AI/ML Uzman Çözüm Mimarıdır. AWS'ye katılmadan önce Vedant, Databricks, Hortonworks (şimdi Cloudera) ve JP Morgan Chase gibi çeşitli şirketlerde Makine Öğrenimi/Veri Bilimi Uzmanlığı pozisyonlarında bulundu. İşinin dışında, Vedant müzik yapmak, anlamlı bir yaşam sürmek için Bilimi kullanmak ve dünyanın dört bir yanından lezzetli vejetaryen mutfağı keşfetmek konusunda tutkulu.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi