Sentetik verilerin kalitesinin nasıl değerlendirileceği - aslına uygunluk, fayda ve gizlilik açısından ölçüm PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Sentetik verilerin kalitesi nasıl değerlendirilir – aslına uygunluk, fayda ve mahremiyet açısından ölçüm

Giderek veri merkezli hale gelen dünyada, işletmelerin hem değerli fiziksel bilgileri toplamaya hem de ihtiyaç duydukları ancak kolayca elde edemedikleri bilgileri üretmeye odaklanmaları gerekiyor. Veri erişimi, düzenleme ve uyumluluk, analitik ve yapay zeka (AI) alanındaki yenilikler açısından giderek artan bir sürtüşme kaynağıdır.

Finansal Hizmetler, Sağlık, Yaşam Bilimleri, Otomotiv, Robotik ve İmalat gibi sıkı düzenlemeye tabi sektörler için sorun daha da büyük. Sistem tasarımı, veri paylaşımı (dahili ve harici), para kazanma, analitik ve makine öğrenimi (ML) konularında engellere neden olur.

Sentetik veriler, başta gizliliğin korunması, mevzuata uygunluk, erişilebilirlik, veri kıtlığı ve önyargı gibi yapay zeka ve analitik sorunları olmak üzere birçok veri sorununu ele alan bir araçtır. Bu aynı zamanda veri paylaşımını ve veriye ulaşma süresini (ve dolayısıyla pazara sunma süresini) de içerir.

Sentetik veriler algoritmik olarak oluşturulur. Kaynak verilerdeki istatistiksel özellikleri ve kalıpları yansıtır. Ancak daha da önemlisi hiçbir hassas, özel veya kişisel veri noktası içermez.

Sentetik verilere sorular sorarsınız ve gerçek verilerden alacağınız yanıtların aynısını alırsınız.

Gelen eden önceki sonrası, Kredi dolandırıcılığı modeli eğitimini geliştirmek amacıyla tablo halinde veri kümeleri oluşturmak için Üretken Rekabet Ağları (GANS) gibi rakip ağların nasıl kullanılacağını gösterdik.

İş paydaşlarının makine öğrenimi ve analitik projeleri için sentetik verileri benimsemeleri için, oluşturulan sentetik verilerin yalnızca amaca ve beklenen alt uygulamalara uygun olduğundan emin olmak değil, aynı zamanda bunların kalitesini ölçebilmek ve gösterebilmek de zorunludur. oluşturulan veriler.

Gizliliğin korunmasına yönelik yasal ve etik yükümlülüklerin artmasıyla birlikte, sentetik verilerin güçlü yönlerinden biri, hassas ve orijinal bilgilerin sentezlenmesi sırasında kaldırılabilmesidir. Bu nedenle, kaliteye ek olarak, varsa özel bilgi sızıntısı riskini değerlendirmek ve üretim sürecinin orijinal verilerden herhangi birini "ezberlemek" veya kopyalamak olmadığını değerlendirmek için ölçümlere ihtiyacımız var.

Tüm bunları başarmak için sentetik verilerin kalitesini boyutlara göre haritalandırabiliriz; bu da kullanıcıların, paydaşların ve bizim, oluşturulan verileri daha iyi anlamamıza yardımcı olur.

Sentetik veri kalitesi değerlendirmesinin üç boyutu

Üretilen sentetik veriler üç temel boyuta göre ölçülür:

  1. Vefa
  2. Yarar
  3. Gizlilik

Sentetik veri kalitesi raporu tarafından yanıtlanması gereken, üretilen herhangi bir sentetik veriyle ilgili sorulardan bazıları şunlardır:

  • Bu sentetik veriler orijinal eğitim seti ile karşılaştırıldığında ne kadar benzer?
  • Bu sentetik veriler, sonraki uygulamalarımız için ne kadar faydalıdır?
  • Orijinal eğitim verilerinden sentetik verilere herhangi bir bilgi sızdırıldı mı?
  • Gerçek dünyada hassas kabul edilen herhangi bir veri (modeli eğitmek için kullanılmayan diğer veri kümelerinden) modelimiz tarafından yanlışlıkla sentezlendi mi?

Bu boyutların her birini son kullanıcılar için tercüme eden metrikler bir miktar esnektir. Sonuçta üretilecek veriler dağılımları, boyutları ve davranışları açısından farklılık gösterebilmektedir. Ayrıca anlaşılması ve yorumlanması da kolay olmalıdır.

Sonuçta metriklerin tamamen veriye dayalı olması ve herhangi bir ön bilgi veya alana özgü bilgi gerektirmemesi gerekir. Bununla birlikte, kullanıcı belirli bir iş alanı için geçerli olan belirli kuralları ve kısıtlamaları uygulamak isterse, alana özgü uygunluğun karşılandığından emin olmak için bunları sentez süreci sırasında tanımlayabilmelidir.

Aşağıdaki bölümlerde bu metriklerin her birine daha ayrıntılı olarak bakacağız.

Aslına uygunluğu anlamaya yönelik ölçümler

Herhangi bir veri bilimi projesinde, belirli bir örnek popülasyonun çözdüğümüz problemle alakalı olup olmadığını anlamalıyız. Benzer şekilde, üretilen sentetik verilerin uygunluğunu değerlendirme süreci için onu şu açılardan değerlendirmeliyiz: vefa orijinaliyle karşılaştırıldığında.

Bu metriklerin görsel temsilleri onların anlaşılmasını kolaylaştırır. Kategorilerin önem derecesine ve oranına uyulup uyulmadığını, farklı değişkenler arasındaki korelasyonların korunup korunmadığını vb. gösterebiliriz.

Verilerin görselleştirilmesi yalnızca sentetik verilerin kalitesinin değerlendirilmesine yardımcı olmakla kalmaz, aynı zamanda verilerin daha iyi anlaşılması için veri bilimi yaşam döngüsünün ilk adımlarından biri olarak da yer alır.

Bazı sadakat ölçümlerini daha ayrıntılı olarak ele alalım.

Keşif amaçlı istatistiksel karşılaştırmalar

Keşif amaçlı istatistiksel karşılaştırmalar kapsamında, orijinal ve sentetik veri kümelerinin özellikleri, ortalama, medyan, standart sapma, farklı değerler, eksik değerler, minimum, maksimum, sürekli özellikler için çeyrek aralıkları ve sayı gibi temel istatistiksel ölçümler kullanılarak araştırılır. kategori başına kayıt sayısı, kategori başına eksik değerler ve kategorik nitelikler için en çok tekrarlanan karakterler.

Bu karşılaştırma orijinal veri seti ile sentetik veriler arasında yapılmalıdır. Bu değerlendirme, karşılaştırılan veri kümelerinin istatistiksel olarak benzer olup olmadığını ortaya çıkaracaktır. Değilse hangi özelliklerin ve önlemlerin farklı olduğunu anlayabiliriz. Önemli bir fark fark edilirse sentetik verileri farklı parametrelerle yeniden eğitmeyi ve yeniden oluşturmayı düşünmelisiniz.

Bu test, sentetik verilerin orijinal veri kümesine makul derecede sadık olduğundan ve bu nedenle daha sıkı testlere tabi tutulabildiğinden emin olmak için bir başlangıç ​​taraması görevi görür.

Histogram benzerlik puanı

Histogram benzerlik puanı, her bir özelliğin sentetik ve orijinal veri kümelerinin marjinal dağılımlarını ölçer.

Benzerlik puanı sıfır ile bir arasında sınırlanmıştır; bir puan, sentetik veri dağılımlarının orijinal veri dağılımlarıyla mükemmel bir şekilde örtüştüğünü gösterir.

Bire yakın bir puan, kullanıcılara, uzatma veri kümesi ile sentetik veri kümesinin istatistiksel olarak benzer olduğuna dair güven verecektir.

Karşılıklı bilgi puanı

Ortak bilgi puanı, sayısal veya kategorik olmak üzere iki özelliğin karşılıklı bağımlılığını ölçer ve bir özelliğin diğerini gözlemleyerek ne kadar bilgi elde edilebileceğini gösterir.

Karşılıklı bilgi, doğrusal olmayan ilişkileri ölçebilir ve değişkenin ilişkilerinin korunmasının kapsamını anlamamızı sağladığı için sentetik veri kalitesinin daha kapsamlı anlaşılmasını sağlar.

Bir puan, özellikler arasındaki karşılıklı bağımlılığın sentetik verilerde mükemmel şekilde yakalandığını gösterir.

Korelasyon puanı

Korelasyon puanı, orijinal veri kümesindeki korelasyonların sentetik verilerde ne kadar iyi yakalandığını ölçer.

İki veya daha fazla sütun arasındaki korelasyonlar, özellikler ile hedef değişken arasındaki ilişkilerin ortaya çıkarılmasına ve iyi eğitilmiş bir model oluşturulmasına yardımcı olan makine öğrenimi uygulamaları için son derece önemlidir.

Korelasyon puanı sıfır ile bir arasında sınırlanmıştır; bir puan, korelasyonların mükemmel şekilde eşleştiğini gösterir.

Veri problemlerinde sıklıkla karşılaştığımız yapılandırılmış tablo halindeki verilerden farklı olarak, bazı yapılandırılmış veri türleri, geçmiş gözlemlerin bir sonraki gözlemi etkileme olasılığının olduğu belirli bir davranışa sahiptir. Bunlar, zaman serisi veya sıralı veriler olarak bilinir; örneğin, oda sıcaklığının saatlik ölçümlerini içeren bir veri kümesi.

Bu davranış, özellikle bu zaman serisi veri kümelerinin kalitesini ölçebilecek belirli ölçümlerin tanımlanması gerektiği anlamına gelir.

Otokorelasyon ve kısmi otokorelasyon puanı

Korelasyona benzer olmasına rağmen otokorelasyon, bir zaman serisinin önceki değerleriyle olan ilişkisini bugünkü değerinde gösterir. Önceki zaman gecikmelerinin etkilerinin ortadan kaldırılması kısmi otokorelasyonu sağlar. Bu nedenle otokorelasyon puanı, sentetik verilerin orijinal veri kümesindeki önemli otokorelasyonları veya kısmi korelasyonları ne kadar iyi yakaladığını ölçer.

Faydayı anlamak için ölçümler

Artık sentetik verilerin orijinal veri setine benzer olduğunu istatistiksel olarak fark etmiş olabiliriz. Ek olarak, sentezlenen veri kümesinin çeşitli makine öğrenimi algoritmaları üzerinde eğitildiğinde yaygın veri bilimi problemlerinde ne kadar başarılı olduğunu da değerlendirmemiz gerekir.

Aşağıdakileri kullanarak yarar metriklerle, orijinal verilerin nasıl performans gösterdiğine ilişkin alt uygulamalarda gerçekten performans elde edebileceğimize dair güven oluşturmayı hedefliyoruz.

Tahmin puanı

Sentetik verilerin performansının orijinal gerçek verilerle karşılaştırıldığında ölçülmesi ML modelleri aracılığıyla yapılabilir. Aşağı yöndeki model puanı, hem sentetik hem de orijinal veri kümeleri üzerinde eğitilen ve orijinal veri kümesinden saklanan test verileriyle doğrulanan ML modellerinin performansını karşılaştırarak sentetik verilerin kalitesini yakalar. Bu bir sağlar Tren Sentetik Testi Gerçek (TSTR) puanı ve Gerçek Eğitim Gerçek Testi (TRTR) sırasıyla puan.

TSTR, TRTR puanları ve Özellik Önem Puanı (Yazarın resmi)

Puan, regresyon veya sınıflandırma görevleri için en güvenilir makine öğrenimi algoritmalarının geniş bir yelpazesini içerir. Birkaç sınıflandırıcı ve regresör kullanmak, puanın çoğu algoritmada daha genelleştirilebilir olmasını sağlar, böylece sentetik veriler gelecekte faydalı olarak değerlendirilebilir.

Sonuçta, eğer TSTR puanı ile TRTR puanı karşılaştırılabilirse, bu sentetik verilerin gerçek dünya uygulamaları için etkili makine öğrenimi modellerini eğitmek için kullanılabilecek kaliteye sahip olduğunu gösterir.

Özellik önem puanı

Tahmin puanıyla büyük ölçüde ilişkili olan özellik önemi (FI) puanı, TSTR ve TRTR puanlarına yorumlanabilirlik ekleyerek tahmin puanını genişletir.

F1 puanı, özelliğin önem sırasının elde edilen değişimlerini ve kararlılığını tahmin puanıyla karşılaştırır. Sentetik bir veri kümesi, orijinal gerçek verilerle aynı özellik önem sırasını sağlıyorsa, yüksek faydaya sahip olduğu kabul edilir.

QScore

Yeni oluşturulan verilerimiz üzerinde eğitilen bir modelin, orijinal veriler kullanılarak eğitilen bir modelle aynı sorulara aynı yanıtları vereceğinden emin olmak için Qscore'u kullanırız. Bu, hem sentetik hem de orijinal (ve uzatma) veri kümeleri üzerinde birçok rastgele toplama tabanlı sorgu çalıştırarak sentetik verilerin aşağı yöndeki performansını ölçer.

Buradaki fikir, bu sorguların her ikisinin de benzer sonuçlar döndürmesidir.

Yüksek QScore, sorgulama ve toplama işlemlerini kullanan aşağı akış uygulamalarının, orijinal veri kümesininkine yakın değer sunabilmesini sağlar.

Gizliliği anlamaya yönelik ölçümler

İle gizlilik Halihazırda yürürlükte olan düzenlemeler nedeniyle, hassas bilgilerin korunmasını sağlamak etik bir zorunluluk ve yasal bir gerekliliktir.

Bu sentetik verilerin serbestçe paylaşılabilmesi ve alt uygulamalar için kullanılabilmesi için, paydaşın, sızdırılan bilgilerin kapsamı açısından orijinal verilerle karşılaştırıldığında oluşturulan sentetik verilerin nerede durduğunu anlamasına yardımcı olabilecek gizlilik ölçümlerini dikkate almalıyız. Üstelik sentetik verilerin nasıl paylaşılacağı ve kullanılacağı konusunda da kritik kararlar almamız gerekiyor.

Tam maç puanı

Gizliliğin doğrudan ve sezgisel bir değerlendirmesi, sentetik kayıtlar arasında gerçek verilerin kopyalarını aramaktır. Tam eşleşme puanı, sentetik set arasında bulunabilecek gerçek kayıtların sayısını sayar.

Sentetik verilerde hiçbir gerçek bilginin mevcut olmadığını belirten puan sıfır olmalıdır. Bu ölçüm, daha fazla gizlilik ölçümünü değerlendirmeden önce bir tarama mekanizması görevi görür.

Komşuların gizlilik puanı

Ayrıca komşuların gizlilik puanı, gerçek kayıtlara çok yakın olabilecek sentetik kayıtların oranını ölçer. Bu, doğrudan kopya olmasalar da potansiyel gizlilik sızıntısı noktaları ve çıkarım saldırıları için yararlı bir bilgi kaynağı oldukları anlamına gelir.

Skor, orijinal verilerle örtüşen sentetik veriler üzerinde yüksek boyutlu en yakın komşu araması yapılarak hesaplanır.

Üyelik çıkarım puanı

Veri bilimi yaşam döngüsünde, bir model eğitildikten sonra artık eğitim örneklerine erişmeye ihtiyaç duymaz ve görünmeyen veriler üzerinde tahminlerde bulunabilir. Benzer şekilde bizim durumumuzda sentezleyici modeli eğitildikten sonra orijinal verilere ihtiyaç duymadan sentetik veri örnekleri oluşturulabilir.

adı verilen bir saldırı türü aracılığıyla “üyelik çıkarımı saldırısı”Saldırganlar, orijinal verilere erişime sahip olmadan, sentetik verileri oluşturmak için kullanılan verileri açığa çıkarmaya çalışabilir. Bu, mahremiyetin tehlikeye girmesine neden olur.

Üyelik çıkarımı puanı, üyelik çıkarımı saldırısının başarılı olma olasılığını ölçer.

üyelik çıkarım puanı

Düşük bir puan, belirli bir kaydın sentetik verilerin oluşturulmasına yol açan eğitim veri kümesinin bir üyesi olduğuna dair çıkarımın yapılabilirliğini gösterir. Başka bir deyişle, saldırılar bireysel bir kaydın ayrıntılarını ortaya çıkararak mahremiyetten ödün verebilir.

Yüksek üyelik çıkarım puanı, saldırganın belirli bir kaydın sentetik verileri oluşturmak için kullanılan orijinal veri kümesinin parçası olup olmadığını belirleme ihtimalinin düşük olduğunu gösterir. Bu aynı zamanda sentetik veriler yoluyla hiçbir bireyin bilgilerinin tehlikeye atılmadığı anlamına da gelir.

Uzatma konsepti

İzlememiz gereken önemli bir en iyi uygulama, sentetik verilerin yeterince genel olduğundan ve üzerinde çalışıldığı orijinal verilere fazla uymadığından emin olmaktır. Tipik veri bilimi akışında, Rastgele Orman sınıflandırıcısı gibi ML modelleri oluştururken, test verilerini bir kenara bırakır, eğitim verilerini kullanarak modelleri eğitir ve görünmeyen test verileri üzerindeki metrikleri değerlendiririz.

Benzer şekilde, sentetik veriler için, orijinal verinin bir örneğini (genelde geciktirme veri kümesi veya görülmeyen saklanan test verileri olarak anılır) bir kenara bırakırız ve oluşturulan sentetik verileri, geciktirme veri kümesine göre değerlendiririz.

Uzatma veri kümesinin orijinal verileri temsil etmesi bekleniyor, ancak sentetik veriler oluşturulduğunda görülmedi. Bu nedenle, orijinali uzatma ve sentetik veri kümeleriyle karşılaştırırken tüm metrikler için benzer puanlara sahip olmak hayati önem taşıyor.

Benzer puanlar elde edildiğinde, aynı aslına uygunluk ve faydayı korurken sentetik veri noktalarının orijinal veri noktalarının ezberlenmesinin bir sonucu olmadığını tespit edebiliriz.

Nihai düşünceler

Dünya sentetik verilerin stratejik önemini anlamaya başlıyor. Veri bilimcileri ve veri üreticileri olarak, ürettiğimiz sentetik verilere güven oluşturmak ve bunların bir amaca yönelik olduğundan emin olmak bizim görevimizdir.

Sentetik veriler, veri bilimi geliştirme araç setinde mutlaka bulunması gereken bir veriye dönüşüyor. MIT Teknoloji İncelemesi ünlü Sentetik veriler, 2022'nin çığır açan teknolojilerinden biri olacak. İddialara göre, sentetik veriler olmadan mükemmel değere sahip yapay zeka modelleri oluşturmayı hayal edemiyoruz. Gartner.

Göre McKinseySentetik veriler, normalde algoritma geliştirirken veya verilere erişim sağlarken karşılaşacağınız maliyetleri ve engelleri en aza indirir.

Sentetik verilerin üretilmesi, sonraki uygulamaları bilmek ve sentetik verilerin kalitesi için farklı boyutlar arasındaki dengeleri anlamakla ilgilidir.

Özet

Sentetik verilerin kullanıcısı olarak, gelecekte her sentetik örneğinin kullanılacağı kullanım senaryosunun bağlamını tanımlamak önemlidir. Gerçek verilerde olduğu gibi, sentetik verilerin kalitesi de sentezleme için seçilen parametrelere olduğu kadar amaçlanan kullanım durumuna da bağlıdır.

Örneğin, orijinal verilerde olduğu gibi sentetik verilerde de aykırı değerlerin tutulması, dolandırıcılık tespitinde faydalıdır. Ancak, aykırı değerler genellikle bilgi sızıntısı olabileceğinden, gizlilik kaygılarının olduğu sağlık hizmetlerinde kullanışlı değildir.

Dahası, aslına uygunluk, fayda ve mahremiyet arasında bir değiş-tokuş mevcuttur. Veriler üçü için de aynı anda optimize edilemez. Bu ölçümler, paydaşların her kullanım durumu için neyin önemli olduğunu önceliklendirmesine ve oluşturulan sentetik verilerden beklentileri yönetmesine olanak tanır.

Sonuçta her bir metriğin değerini gördüğümüzde ve bunlar beklentileri karşıladığında paydaşlar sentetik verileri kullanarak oluşturdukları çözümlere güvenebilirler.

Yapılandırılmış sentetik verilere yönelik kullanım örnekleri, yazılım geliştirmeye yönelik test verilerinden klinik deneylerde Sentetik kontrol kolları oluşturmaya kadar geniş bir uygulama yelpazesini kapsar.

Bu fırsatları keşfetmek için iletişime geçin veya değeri göstermek için bir PoC oluşturun.


Sentetik verilerin kalitesinin nasıl değerlendirileceği - aslına uygunluk, fayda ve gizlilik açısından ölçüm PlatoBlockchain Veri Zekası. Dikey Arama. Ai.Faris Haddad AABG Strategic Pursuits ekibinde Data & Insights Lideridir. İşletmelerin başarılı bir şekilde veri odaklı hale gelmesine yardımcı olur.

Zaman Damgası:

Den fazla AWS Makine Öğrenimi