Amazon SageMaker PlatoBlockchain Veri Zekası'ndaki sentetik verileri kullanarak dolandırıcılık işlemlerini artırın. Dikey Arama. Ai.

Amazon SageMaker'da sentetik verileri kullanarak dolandırıcılık işlemlerini artırın

Başarılı makine öğrenimi (ML) dolandırıcılık modelleri geliştirmek ve eğitmek için büyük miktarlarda yüksek kaliteli verilere erişim gerekir. Mevcut veri kümeleri bazen yeterince büyük olmadığından veya makine öğrenimi modelini yararlı bir şekilde eğitmek için yeterince tarafsız olmadığından ve önemli maliyet ve zaman gerektirebileceğinden, bu verilere kaynak sağlamak zordur. Düzenleme ve gizlilik gereklilikleri, bir kurumsal kuruluş içinde bile veri kullanımını veya paylaşımını daha da engeller. Hassas verilerin kullanımına ve bunlara erişime izin verme süreci genellikle makine öğrenimi projelerini geciktirir veya raydan çıkarır. Alternatif olarak, sentetik veriler üreterek ve kullanarak bu zorlukların üstesinden gelebiliriz.

Sentetik veriler, düzenleyici risk ve uyum, zaman ve kaynak sağlama maliyetlerini ele almak için orijinal veri kümesindeki içeriği ve kalıpları taklit eden yapay olarak oluşturulmuş veri kümelerini tanımlar. Sentetik veri üreteçleri, orijinal olarak alınan veri setinin istatistiksel nitelikleriyle eşleşen gerekli miktarda sentetik veri oluşturmak için ilgili özellikleri, korelasyonları ve kalıpları öğrenmek için gerçek verileri kullanır.

Sentetik Veriler, laboratuvar ortamlarında uzun süredir kullanılmaktadır. yirmi yıldan fazla; piyasa, ticari ve kamu sektörlerinde benimsenmeyi hızlandıran fayda kanıtına sahiptir. Gartner tahmin 2024 yılına kadar makine öğrenimi ve analitik çözümlerinin geliştirilmesi için kullanılan verilerin yüzde 60'ının sentetik olarak üretileceğini ve sentetik verilerin kullanımının önemli ölçüde artmaya devam edeceğini.

Bir Birleşik Krallık düzenleyici kurumu olan Financial Conduct Authority, kabul "Verilere erişim inovasyonun katalizörüdür ve sentetik finansal veriler inovasyonu desteklemede ve yeni girenlerin yeni çözümler geliştirmesini, test etmesini ve değerini göstermesini sağlamada rol oynayabilir."

Amazon SageMaker GroundTruth şu anda destekliyor sentetik veri üretimi etiketli yapay görüntü verisi. Bu blog gönderisi, tablo şeklinde sentetik veri oluşturmayı araştırıyor. Tek ve ilişkisel tablolar gibi yapılandırılmış veriler ve zaman serisi verileri, kurumsal analitikte en sık karşılaşılan türlerdir.

Bu iki bölümden oluşan bir blog gönderisidir; birinci bölümde sentetik veriler oluşturuyoruz ve kalitesini Bölüm iki.

Bu blog yazısında, açık kaynak kütüphanesini nasıl kullanacağınızı öğreneceksiniz. ydata-sentetik ve AWS SageMaker not defterleri yüksek doğruluk oranına sahip bir dolandırıcılık modelini eğitmek için yeterli dolandırıcılık işlemimizin olmadığı bir dolandırıcılık kullanım durumu için tablo verilerini sentezlemek. Bir dolandırıcılık modelinin genel eğitim süreci bu belgede ele alınmaktadır. Facebook post.

Çözüme genel bakış

Bu eğitimin amacı, yüksek derecede dengesiz bir kredi kartı sahtekarlığı veri setinin azınlık sınıfını optimize edilmiş bir yazılım kullanarak sentezlemektir. üretken rakip ağ (GAN) denilen WGAN GP orijinal verilerin kalıplarını ve istatistiksel özelliklerini öğrenmek ve ardından orijinal verilere benzeyen sonsuz sayıda sentetik veri örneği oluşturmak. Bu süreç aynı zamanda dolandırıcılık gibi nadir olayların üst örneklemesini yaparak orijinal verileri geliştirmek veya orijinalde olmayan uç vakalar oluşturmak için de kullanılabilir.

tarafından yayınlanan bir kredi kartı sahtekarlığı veri seti kullanıyoruz. ULBadresinden indirilebilir Kaggle. Azınlık sınıfı için sentetik veriler oluşturmak, daha doğru modeller geliştirmeye yardımcı olabilecek dengesiz veri kümeleriyle ilgili sorunların ele alınmasına yardımcı olur.

Bulut kaynaklarını kullanmanın maliyeti olan Amazon SageMaker ve Amazon S3 gibi AWS hizmetlerini kullanıyoruz.

Geliştirme ortamını ayarlayın

SageMaker, model oluşturma, eğitim ve devreye alma için yönetilen bir Jupyter not defteri eşgörünümü sağlar.

Önkoşul:

SageMaker'ı çalıştırmak için bir AWS hesabınızın olması gerekir. Alabilirsiniz başladı SageMaker ile ve deneyin uygulamalı eğitimler.

Jupyter Notebook çalışma ortamınızı kurma talimatları için bkz. Amazon SageMaker Notebook Örneklerini Kullanmaya Başlayın.

1. Adım: Amazon SageMaker bulut sunucunuzu kurun

  1. AWS konsolunda oturum açın ve "SageMaker"ı arayın.
  2. seç Stüdyo.
  3. seç Dizüstü bilgisayar örnekleri sol çubukta ve seçin Defter örneği oluştur.
  4. Sonraki sayfadan (aşağıdaki görselde gösterildiği gibi) ihtiyaçlarınıza göre sanal makinenin (VM) konfigürasyonlarını seçin ve Defter örneği oluştur. GPU ve 5 GB veri içermeyen, makine öğrenimi için optimize edilmiş bir VM, Amazon Linux 3 çalıştıran ml.t2.medium ve Jupyter Lab 3 çekirdeği kullandığımızı unutmayın.
    Defter örneği oluştur
  5. Bir not defteri örneği, birkaç dakika içinde kullanmanız için hazır olacaktır.
  6. seç JupyterLab'ı aç çalıştırmak.
    Amazon SageMaker PlatoBlockchain Veri Zekası'ndaki sentetik verileri kullanarak dolandırıcılık işlemlerini artırın. Dikey Arama. Ai.
  7. Artık gerekli özelliklere sahip bir JupyterLab'imiz olduğuna göre, sentetik kitaplığı kuracağız.
pip install ydata-synthetic

2. Adım: Yapay veriler oluşturmak için gerçek veri kümesini indirin veya ayıklayın

Referans verilerini indirin Kaggle'dan, burada yaptığımız gibi manuel olarak veya bir Kaggle hesabınız varsa Kaggle API aracılığıyla programlı olarak. Bu veri kümesini incelerseniz, "dolandırıcılık" sınıfının "dolandırıcılık değil" sınıfından çok daha az veri içerdiğini fark edeceksiniz.

Bu verileri doğrudan makine öğrenimi tahminleri için kullanırsanız, modeller her zaman "sahtekarlık yapmamayı" tahmin etmeyi öğrenebilir. Dolandırıcılık vakaları nadir olduğundan, bir modelin dolandırıcılık olmayan durumlarda kolaylıkla daha yüksek bir doğruluğu olacaktır. Ancak, bu alıştırmada amacımız dolandırıcılık vakalarını tespit etmek olduğundan, gerçek veriler üzerinde modellenen sentetik verilerle dolandırıcılık sınıfı sayılarını artıracağız.

JupyterLab'da bir veri klasörü oluşturun ve Kaggle veri dosyasını bu klasöre yükleyin. Bu, SageMaker'dan bu yana not defteri içindeki verileri kullanmanıza izin verecektir. depolama ile birlikte gelir not defterini başlattığınızda belirtmiş olacağınız.

Amazon SageMaker PlatoBlockchain Veri Zekası'ndaki sentetik verileri kullanarak dolandırıcılık işlemlerini artırın. Dikey Arama. Ai.

Bu veri kümesi 144 MB

Amazon SageMaker PlatoBlockchain Veri Zekası'ndaki sentetik verileri kullanarak dolandırıcılık işlemlerini artırın. Dikey Arama. Ai.

Daha sonra pandalar kitaplığı aracılığıyla standart kodu kullanarak verileri okuyabilirsiniz:

import pandas as pd
data = pd.read_csv('./data/creditcard.csv')

Dolandırıcılık tespit verilerinin belirli özellikleri vardır, yani:

  • Büyük sınıf dengesizlikleri (tipik olarak sahtekarlık içermeyen veri noktalarına yönelik).
  • Gizlilikle ilgili endişeler (hassas verilerin varlığı nedeniyle).
  • Kötü niyetli bir kullanıcının, hileli işlemler için izleme sistemleri tarafından her zaman tespit edilmekten kaçınmaya çalıştığı bir derece dinamizm.
  • Mevcut veri setleri çok büyüktür ve genellikle etiketlenmemiştir.

Artık veri setini incelediğinize göre, azınlık sınıfını (kredi kartı veri setinden “dolandırıcılık” sınıfı) filtreleyelim ve gerekli dönüşümleri yapalım. Veri dönüşümlerini buradan kontrol edebilirsiniz. defter.

Bu azınlık sınıfı veri kümesi sentezlendiğinde ve orijinal veri kümesine geri eklendiğinde, verilerdeki dengesizliği gideren daha büyük bir sentezlenmiş veri kümesinin oluşturulmasına izin verir. Şunları yaparak daha fazla tahmin doğruluğu elde edebiliriz: dolandırıcılık tespit modeli eğitimi yeni veri kümesini kullanarak.

Yeni dolandırıcılık veri setini sentezleyelim.

3. Adım: Sentezleyicileri eğitin ve modeli oluşturun

Verilere SageMaker'da hazır olarak sahip olduğunuza göre, sentetik GAN modellerimizi çalıştırmanın zamanı geldi.

Üretken bir düşman ağının (GAN) iki bölümü vardır:

The jeneratör makul veriler üretmeyi öğrenir. Üretilen örnekler, ayrımcı için olumsuz eğitim örnekleri haline gelir.

The ayırt edici üreticinin sahte verilerini gerçek verilerden ayırt etmeyi öğrenir. Ayrımcı, makul olmayan sonuçlar ürettiği için üreticiyi cezalandırır.

Eğitim başladığında, üreteç bariz bir şekilde sahte veriler üretir ve ayrımcı bunun sahte olduğunu çabucak anlamayı öğrenir. Eğitim ilerledikçe, üretici ayrımcıyı kandırabilecek çıktılar üretmeye yaklaşır. Son olarak, jeneratör eğitimi iyi giderse, ayrımcı gerçek ile sahte arasındaki farkı söylemekte daha da kötüleşir. Sahte verileri gerçek olarak sınıflandırmaya başlar ve doğruluğu azalır.

Hem üretici hem de ayrımcı sinir ağlarıdır. Jeneratör çıkışı doğrudan diskriminatör girişine bağlanır. Başından sonuna kadar geri yayılım, ayrımcının sınıflandırması, üreticinin ağırlıklarını güncellemek için kullandığı bir sinyal sağlar.

Adım 4: Sentezleyiciden sentetik verileri örnekleyin

Artık modelinizi oluşturup eğittiğinize göre, modele parazit besleyerek gerekli verileri örnekleme zamanı. Bu, istediğiniz kadar sentetik veri oluşturmanıza olanak tanır.

Bu durumda, gerçek veri miktarına eşit miktarda yapay veri üretirsiniz çünkü bu, Adım 5'teki benzer örneklem büyüklüklerini karşılaştırmayı kolaylaştırır.

Yapay olmayan dolandırıcılık verileriyle birleştirildiğinde "dolandırıcılık" ve "dolandırıcılık olmayan" sınıfların eşit dağılımına yol açacak olan hileli işlemleri içeren satırları örnekleme seçeneğine sahibiz. Orijinal Kaggle veri kümesi 492 işlemden 284,807 dolandırıcılık içerdiğinden, sentezleyiciden aynı örneği oluşturuyoruz.

# use the same shape as the real data
synthetic_fraud = synthesizer.sample(492)

Veri artırma adı verilen bir süreçte hileli işlemleri içeren satırları yukarı örnekleme seçeneğine sahibiz; bu, sentetik olmayan dolandırıcılık verileriyle birleştirildiğinde "dolandırıcılık" ve "dolandırıcılık olmayan" sınıfların eşit dağılımına yol açacaktır.

Adım 5: Sentetik verileri gerçek verilerle karşılaştırın ve değerlendirin

Bu adım isteğe bağlı olsa da, bir dağılım grafiği kullanarak oluşturulan sentetik verileri niteliksel olarak görselleştirebilir ve gerçek verilerle karşılaştırabilirsiniz.

Bu, en doğru sentetik verileri oluşturmak için parametreleri ayarlayarak, örnek boyutunu değiştirerek ve başka dönüşümler yaparak modelimizi yinelememize yardımcı olur. Doğruluğun bu doğası her zaman sentezin amacına bağlıdır.

Aşağıdaki resim, gerçek dolandırıcılık ve sentetik dolandırıcılık veri noktalarının eğitim adımlarında ne kadar benzer olduğunu göstermektedir. Bu, sentetik ve gerçek veriler arasındaki benzerliğin iyi bir niteliksel incelemesini ve onu daha fazla dönemde çalıştırdıkça bunun nasıl geliştiğini (algoritma aracılığıyla tüm eğitim veri setinin geçişi) iyi bir şekilde incelemenizi sağlar. Daha fazla çağ çalıştırdıkça, sentetik veri deseni kümesinin orijinal verilere yaklaştığını unutmayın.

Amazon SageMaker PlatoBlockchain Veri Zekası'ndaki sentetik verileri kullanarak dolandırıcılık işlemlerini artırın. Dikey Arama. Ai.

6. Adım: Temizleyin

Son olarak, beklenmedik maliyetlerden kaçınmak için sentezlemeyi bitirdiğinizde not defteri örneğinizi durdurun.

Sonuç

Makine öğrenimi algoritmaları ve kodlama çerçeveleri olarak hızla gelişmek, geniş ölçekte yüksek kaliteli veriler makine öğrenimindeki en kıt kaynaktır. Kaliteli sentetik veri kümeleri, çeşitli görevlerde kullanılabilir.

Bu blog gönderisinde, veri kümesini aşağıdakileri kullanan açık kaynaklı bir kitaplık kullanarak sentezlemenin önemini öğrendiniz: WGAN GP. Bu, GAN'lar hakkında yayınlanan binlerce makale ve deneyebileceğiniz yüzlerce adlandırılmış GAN ile aktif bir araştırma alanıdır. İlişkisel tablolar ve zaman serisi verileri gibi belirli kullanım durumları için optimize edilmiş varyantlar vardır.

Bu makale için kullanılan tüm kodları burada bulabilirsiniz. defterve elbette bunun gibi daha fazla eğitim SageMaker'da mevcuttur. resmi belgeler sayfası.

içinde İkinci bölüm Bu iki bölümden oluşan blog gönderisi dizisinde, sentetik verilerin kalitesini aslına uygunluk, fayda ve gizlilik açısından nasıl değerlendireceğimize derinlemesine bakacağız.


Yazar Hakkında

Amazon SageMaker PlatoBlockchain Veri Zekası'ndaki sentetik verileri kullanarak dolandırıcılık işlemlerini artırın. Dikey Arama. Ai.Faris Haddad AABG Strategic Pursuits ekibinde Data & Insights Lideridir. İşletmelerin başarılı bir şekilde veri odaklı hale gelmesine yardımcı olur.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi