합성 데이터의 품질을 평가하는 방법 – 충실도, 유틸리티 및 개인 정보 보호의 관점에서 측정

플라톤에 의해 재발행

팔로워 : 0

점점 더 데이터 중심적인 세계에서 기업은 중요한 물리적 정보를 수집하고 필요하지만 쉽게 캡처할 수 없는 정보를 생성하는 데 집중해야 합니다. 데이터 액세스, 규정 및 규정 준수는 분석 및 인공 지능(AI)의 혁신에 대한 마찰의 증가하는 원인입니다.

금융 서비스, 의료, 생명 과학, 자동차, 로봇 공학 및 제조와 같이 규제가 엄격한 부문의 경우 문제가 훨씬 더 큽니다. 이는 시스템 설계, 데이터 공유(내부 및 외부), 수익 창출, 분석 및 기계 학습(ML)에 장벽을 만듭니다.

합성 데이터는 많은 데이터 문제, 특히 개인 정보 보호, 규정 준수, 접근성, 데이터 희소성 및 편견과 같은 AI 및 분석 문제를 해결하는 도구입니다. 여기에는 데이터 공유 및 데이터 출시 시간(따라서 시장 출시 시간)도 포함됩니다.

합성 데이터는 알고리즘 방식으로 생성됩니다. 원본 데이터의 통계적 속성과 패턴을 미러링합니다. 그러나 중요한 것은 여기에는 민감한 개인 데이터 포인트가 포함되어 있지 않다는 것입니다.

합성 데이터에 대해 질문하고 실제 데이터에서와 동일한 답변을 얻습니다.

우리의 이전 게시물, 우리는 GANS(Generative Adversarial Networks)와 같은 적대적 네트워크를 사용하여 신용 사기 모델 교육을 강화하기 위해 표 형식의 데이터 세트를 생성하는 방법을 시연했습니다.

비즈니스 이해 관계자가 ML 및 분석 프로젝트에 합성 데이터를 채택하려면 생성된 합성 데이터가 목적 및 예상 다운스트림 애플리케이션에 적합한지 확인하는 것뿐만 아니라 품질을 측정하고 입증할 수 있어야 합니다. 생성된 데이터.

개인 정보 보호에 대한 법적 및 윤리적 의무가 증가함에 따라 합성 데이터의 강점 중 하나는 합성 중에 민감한 원본 정보를 제거하는 기능입니다. 따라서 품질 외에도 개인 정보 유출 위험(있는 경우)을 평가하고 생성 프로세스가 원본 데이터를 "기억"하거나 복사하지 않는지 평가하기 위한 지표가 필요합니다.

이 모든 것을 달성하기 위해 우리는 합성 데이터의 품질을 차원으로 매핑하여 사용자, 이해 관계자 및 우리가 생성된 데이터를 더 잘 이해하는 데 도움을 줄 수 있습니다.

합성 데이터 품질 평가의 세 가지 차원

생성된 합성 데이터는 세 가지 주요 차원에 대해 측정됩니다.

충실도
유틸리티
개인정보보호

다음은 합성 데이터 품질 보고서에서 답변해야 하는 생성된 합성 데이터에 대한 몇 가지 질문입니다.

이 합성 데이터는 원래 교육 세트와 비교하여 얼마나 유사합니까?
이 합성 데이터가 다운스트림 애플리케이션에 얼마나 유용합니까?
원본 학습 데이터에서 합성 데이터로 유출된 정보가 있습니까?
실제 환경에서 민감한 것으로 간주되는 데이터(모델 교육에 사용되지 않은 다른 데이터 세트에서 가져온 데이터)가 실수로 모델에 의해 합성된 적이 있습니까?

최종 사용자를 위해 이러한 각 차원을 변환하는 메트릭은 다소 유연합니다. 결국 생성되는 데이터는 분포, 크기 및 동작 측면에서 다를 수 있습니다. 또한 파악하고 해석하기 쉬워야 합니다.

궁극적으로 메트릭은 완전히 데이터 기반이어야 하며 사전 지식이나 도메인별 정보가 필요하지 않습니다. 그러나 사용자가 특정 비즈니스 도메인에 적용할 수 있는 특정 규칙 및 제약 조건을 적용하려는 경우 도메인별 충실도가 충족되는지 확인하기 위해 합성 프로세스 중에 이를 정의할 수 있어야 합니다.

다음 섹션에서 이러한 각 메트릭을 자세히 살펴봅니다.

충실도를 이해하기 위한 지표

모든 데이터 과학 프로젝트에서 특정 샘플 모집단이 우리가 해결하려는 문제와 관련이 있는지 여부를 이해해야 합니다. 마찬가지로 생성된 합성 데이터의 관련성을 평가하는 과정에서 다음과 같은 측면에서 평가해야 합니다. 충실도 원작에 비해.

이러한 지표를 시각적으로 표현하면 이해하기가 더 쉽습니다. 범주의 카디널리티와 비율이 준수되었는지, 서로 다른 변수 간의 상관 관계가 유지되었는지 등을 설명할 수 있습니다.

데이터 시각화는 합성 데이터의 품질을 평가하는 데 도움이 될 뿐만 아니라 데이터를 더 잘 이해하기 위한 데이터 과학 수명 주기의 초기 단계 중 하나로 적합합니다.

몇 가지 충실도 메트릭에 대해 자세히 살펴보겠습니다.

탐색적 통계 비교

탐색적 통계 비교 내에서 원본 및 합성 데이터 세트의 기능은 평균, 중앙값, 표준 편차, 고유 값, 누락 값, 최소값, 최대값, 연속 기능의 사분위수 범위 및 숫자와 같은 주요 통계 측정을 사용하여 탐색됩니다. 범주별 레코드 수, 범주별 누락된 값 및 범주 속성에 대해 가장 많이 발생하는 문자.

이 비교는 원본 홀드아웃 데이터 세트와 합성 데이터 간에 수행되어야 합니다. 이 평가는 비교된 데이터 세트가 통계적으로 유사한지 여부를 나타냅니다. 그렇지 않은 경우 어떤 기능과 측정값이 다른지 이해할 수 있습니다. 상당한 차이가 있는 경우 다른 매개변수를 사용하여 합성 데이터를 다시 훈련하고 재생성하는 것을 고려해야 합니다.

이 테스트는 합성 데이터가 원래 데이터 세트에 대한 합리적인 충실도를 가지고 있는지 확인하기 위한 초기 스크리닝 역할을 하므로 보다 엄격한 테스트를 유용하게 수행할 수 있습니다.

히스토그램 유사성 점수

히스토그램 유사성 점수는 합성 및 원본 데이터 세트의 각 기능의 주변 분포를 측정합니다.

유사성 점수는 XNUMX과 XNUMX 사이의 범위이며 점수가 XNUMX이면 합성 데이터 분포가 원본 데이터의 분포와 완벽하게 겹친다는 것을 나타냅니다.

XNUMX에 가까운 점수는 홀드아웃 데이터 세트와 합성 데이터 세트가 통계적으로 유사하다는 확신을 사용자에게 제공합니다.

상호 정보 점수

상호 정보 점수는 두 가지 기능(숫자 또는 범주)의 상호 의존성을 측정하여 한 기능에서 다른 기능을 관찰하여 얼마나 많은 정보를 얻을 수 있는지 나타냅니다.

상호 정보는 비선형 관계를 측정할 수 있으므로 변수의 관계 보존 정도를 이해할 수 있으므로 합성 데이터 품질에 대한 보다 포괄적인 이해를 제공합니다.

XNUMX점은 기능 간의 상호 의존성이 합성 데이터에 완벽하게 캡처되었음을 나타냅니다.

상관 점수

상관 점수는 원래 데이터 세트의 상관 관계가 합성 데이터에서 얼마나 잘 캡처되었는지 측정합니다.

XNUMX개 이상의 열 간의 상관 관계는 ML 애플리케이션에 매우 중요하며, 기능과 대상 변수 간의 관계를 밝히고 잘 훈련된 모델을 만드는 데 도움이 됩니다.

상관관계 점수는 XNUMX과 XNUMX 사이로 제한되며 점수 XNUMX은 상관관계가 완벽하게 일치했음을 나타냅니다.

데이터 문제에서 일반적으로 발생하는 구조화된 표 형식 데이터와 달리 일부 유형의 구조화된 데이터에는 과거 관찰이 다음 관찰에 영향을 미칠 가능성이 있는 특정 동작이 있습니다. 이를 시계열 또는 순차 데이터라고 합니다. 예를 들어 실내 온도를 시간별로 측정한 데이터 세트입니다.

이 동작은 이러한 시계열 데이터 세트의 품질을 구체적으로 측정할 수 있는 특정 메트릭을 정의해야 한다는 요구 사항이 있음을 의미합니다.

자기 상관 및 부분 자기 상관 점수

상관관계와 유사하지만 자기상관은 이전 값과 관련하여 현재 값에서 시계열의 관계를 보여줍니다. 이전 시간 지연의 영향을 제거하면 부분적 자기 상관이 생성됩니다. 따라서 자기 상관 점수는 합성 데이터가 원래 데이터 세트에서 중요한 자기 상관 또는 부분 상관을 얼마나 잘 캡처했는지 측정합니다.

효용을 이해하기 위한 지표

이제 합성 데이터가 원래 데이터 세트와 유사하다는 것을 통계적으로 깨달았을 수 있습니다. 또한 합성된 데이터 세트가 여러 ML 알고리즘에 대해 교육을 받았을 때 일반적인 데이터 과학 문제에 대해 얼마나 잘 작동하는지 평가해야 합니다.

다음 사용하기 유틸리티 원본 데이터의 성능과 관련하여 다운스트림 애플리케이션에서 실제로 성능을 달성할 수 있다는 확신을 구축하는 것을 목표로 합니다.

예측 점수

원본 실제 데이터와 비교하여 합성 데이터의 성능을 측정하는 것은 ML 모델을 통해 수행할 수 있습니다. 다운스트림 모델 점수는 합성 데이터 세트와 원본 데이터 세트 모두에서 훈련되고 원본 데이터 세트에서 보류된 테스트 데이터에 대해 검증된 ML 모델의 성능을 비교하여 합성 데이터의 품질을 캡처합니다. 이것은 TSTR(Train Synthetic Test Real) 점수 및 훈련 실제 테스트 실제(TRTR) 각각 점수.

TSTR, TRTR 점수 및 기능 중요도 점수(작성자 이미지)

점수는 회귀 또는 분류 작업을 위해 가장 신뢰할 수 있는 광범위한 ML 알고리즘을 통합합니다. 여러 분류자와 회귀자를 사용하면 점수가 대부분의 알고리즘에서 더 일반화될 수 있으므로 합성 데이터가 미래에 유용한 것으로 간주될 수 있습니다.

결국 TSTR 점수와 TRTR 점수가 비슷하다면 이는 합성 데이터가 실제 애플리케이션을 위한 효과적인 ML 모델을 교육하는 데 사용할 수 있는 품질을 가지고 있음을 나타냅니다.

기능 중요도 점수

예측 점수와 관련성이 높은 기능 중요도(FI) 점수는 TSTR 및 TRTR 점수에 해석 가능성을 추가하여 예측 점수를 확장합니다.

F1 점수는 얻은 기능의 중요도 순서의 변화와 안정성을 예측 점수와 비교합니다. 합성 데이터 집합은 원본 실제 데이터와 동일한 기능 중요도 순서를 생성하는 경우 유용성이 높은 것으로 간주됩니다.

Q점수

새로 생성된 데이터로 훈련된 모델이 원본 데이터를 사용하여 훈련된 모델과 동일한 질문에 대해 동일한 답변을 생성하는지 확인하기 위해 Qscore를 사용합니다. 이는 합성 및 원본(및 홀드아웃) 데이터 세트 모두에서 많은 임의 집계 기반 쿼리를 실행하여 합성 데이터의 다운스트림 성능을 측정합니다.

여기서 아이디어는 이러한 두 쿼리가 비슷한 결과를 반환해야 한다는 것입니다.

QScore가 높으면 쿼리 및 집계 작업을 활용하는 다운스트림 애플리케이션이 원본 데이터 세트와 거의 동일한 가치를 제공할 수 있습니다.

프라이버시를 이해하기 위한 지표

와 개인 정보 보호 규제가 이미 시행되고 있으므로 민감한 정보를 보호하는 것은 윤리적 의무이자 법적 요구 사항입니다.

이 합성 데이터를 자유롭게 공유하고 다운스트림 애플리케이션에 사용하기 전에 이해관계자가 생성된 합성 데이터가 유출된 정보의 범위와 관련하여 원본 데이터와 비교하여 어디에 있는지 이해하는 데 도움이 되는 개인정보 보호 지표를 고려해야 합니다. 또한 합성 데이터를 공유하고 사용하는 방법과 관련하여 중요한 결정을 내려야 합니다.

정확한 일치 점수

프라이버시에 대한 직접적이고 직관적인 평가는 합성 레코드 중에서 실제 데이터의 복사본을 찾는 것입니다. 정확한 일치 점수는 합성 세트 중에서 찾을 수 있는 실제 레코드 수를 계산합니다.

점수는 XNUMX이어야 하며 합성 데이터에 있는 그대로의 실제 정보가 없음을 나타냅니다. 이 메트릭은 추가 개인 정보 메트릭을 평가하기 전에 선별 메커니즘 역할을 합니다.

이웃의 프라이버시 점수

또한 이웃의 프라이버시 점수는 실제와 유사성이 너무 높을 수 있는 합성 레코드의 비율을 측정합니다. 즉, 직접 사본은 아니지만 개인 정보 유출의 잠재적 지점이자 추론 공격에 대한 유용한 정보 소스입니다.

원본 데이터와 중첩된 합성 데이터에 대해 고차원 최근접 이웃 검색을 수행하여 점수를 계산합니다.

회원 추론 점수

데이터 과학 수명 주기에서 모델이 훈련되면 더 이상 훈련 샘플에 액세스할 필요가 없으며 보이지 않는 데이터에 대한 예측을 수행할 수 있습니다. 마찬가지로, 우리의 경우 신시사이저 모델이 훈련되면 원본 데이터 없이도 합성 데이터 샘플을 생성할 수 있습니다.

라는 공격 유형을 통해 "구성원 추론 공격", 공격자는 원본 데이터에 대한 액세스 권한 없이 합성 데이터를 만드는 데 사용된 데이터를 공개하려고 시도할 수 있습니다. 이로 인해 프라이버시가 침해됩니다.

구성원 추론 점수는 구성원 추론 공격이 성공할 가능성을 측정합니다.

낮은 점수는 특정 레코드가 합성 데이터 생성으로 이어진 훈련 데이터 세트의 구성원이라는 추론의 실행 가능성을 나타냅니다. 즉, 공격은 개인 기록의 세부 사항을 유추하여 개인 정보를 침해할 수 있습니다.

구성원 추론 점수가 높으면 공격자가 특정 레코드가 합성 데이터를 생성하는 데 사용된 원래 데이터 세트의 일부인지 판단할 가능성이 없음을 나타냅니다. 이것은 또한 합성 데이터를 통해 개인의 정보가 손상되지 않았음을 의미합니다.

홀드아웃 개념

우리가 따라야 하는 중요한 모범 사례는 합성 데이터가 충분히 일반적이고 훈련된 원본 데이터에 과적합되지 않도록 하는 것입니다. 일반적인 데이터 과학 흐름에서 Random Forest 분류기와 같은 ML 모델을 구축하는 동안 테스트 데이터를 따로 설정하고 훈련 데이터를 사용하여 모델을 훈련하고 보이지 않는 테스트 데이터에 대한 메트릭을 평가합니다.

마찬가지로 합성 데이터의 경우 일반적으로 홀드아웃 데이터세트 또는 보이지 않는 보류 테스트 데이터라고 하는 원래 데이터의 샘플을 따로 보관하고 홀드아웃 데이터세트에 대해 생성된 합성 데이터를 평가합니다.

홀드아웃 데이터 세트는 원래 데이터의 표현일 것으로 예상되지만 합성 데이터가 생성되었을 때 표시되지 않았습니다. 따라서 원본을 홀드아웃 및 합성 데이터 세트와 비교할 때 모든 메트릭에 대해 유사한 점수를 갖는 것이 중요합니다.

유사한 점수를 얻은 경우 동일한 충실도와 유용성을 유지하면서 합성 데이터 포인트가 원래 데이터 포인트를 암기한 결과가 아님을 확인할 수 있습니다.

마무리

세계는 합성 데이터의 전략적 중요성을 이해하기 시작했습니다. 데이터 과학자 및 데이터 생성자로서 우리가 생성하는 합성 데이터에 대한 신뢰를 구축하고 그것이 목적이 있는지 확인하는 것은 우리의 의무입니다.

합성 데이터는 데이터 과학 개발 툴킷에서 필수 요소로 진화하고 있습니다. MIT 테크놀로지 리뷰는 유명한 합성 데이터는 2022년의 획기적인 기술 중 하나입니다. 합성 데이터 없이 우수한 가치의 AI 모델을 구축하는 것은 상상할 수 없습니다. 주장 가트너.

에 따르면 맥킨지, 합성 데이터는 알고리즘을 개발하거나 데이터에 액세스할 때 가질 수 있는 비용과 장벽을 최소화합니다.

합성 데이터의 생성은 다운스트림 애플리케이션을 알고 합성 데이터의 품질에 대한 서로 다른 차원 간의 장단점을 이해하는 것입니다.

요약

합성 데이터의 사용자로서 모든 합성 샘플이 미래에 사용될 사용 사례의 컨텍스트를 정의하는 것이 중요합니다. 실제 데이터와 마찬가지로 합성 데이터의 품질은 의도된 사용 사례와 합성을 위해 선택한 매개 변수에 따라 달라집니다.

예를 들어 원본 데이터에서와 같이 합성 데이터에서 이상값을 유지하는 것은 사기 탐지 사용 사례에 유용합니다. 그러나 이상값은 일반적으로 정보 유출일 수 있으므로 개인 정보 보호 문제가 있는 의료 사용 사례에는 유용하지 않습니다.

또한 충실도, 유용성 및 개인정보 보호 사이에는 트레이드오프가 존재합니다. 세 가지 모두에 대해 동시에 데이터를 최적화할 수 없습니다. 이러한 메트릭을 통해 이해 관계자는 각 사용 사례에 필수적인 항목의 우선 순위를 지정하고 생성된 합성 데이터의 기대치를 관리할 수 있습니다.

궁극적으로 각 지표의 값을 확인하고 기대치를 충족할 때 이해 관계자는 합성 데이터를 사용하여 구축한 솔루션에 대해 확신을 가질 수 있습니다.

구조화된 합성 데이터의 사용 사례는 소프트웨어 개발을 위한 테스트 데이터에서 임상 시험에서 합성 대조군 생성에 이르기까지 광범위한 응용 분야를 포괄합니다.

이러한 기회를 알아보기 위해 손을 내밀거나 PoC를 구축하여 가치를 입증하십시오.

패리스 하다드 AABG Strategic Pursuits 팀의 Data & Insights Lead입니다. 그는 기업이 성공적으로 데이터 기반이 되도록 돕습니다.

타임 스탬프 : 2022 년 12 월 16 일2022 년 12 월 18 일

타임 스탬프 : 25년 2022월 XNUMX일

합성 데이터의 품질을 평가하는 방법 – 충실도, 유용성 및 개인 정보 보호의 관점에서 측정

플라톤에 의해 재발행

합성 데이터 품질 평가의 세 가지 차원

충실도를 이해하기 위한 지표

탐색적 통계 비교

히스토그램 유사성 점수

상호 정보 점수

상관 점수

자기 상관 및 부분 자기 상관 점수

효용을 이해하기 위한 지표

예측 점수

기능 중요도 점수

Q점수

프라이버시를 이해하기 위한 지표

정확한 일치 점수

이웃의 프라이버시 점수

회원 추론 점수

홀드아웃 개념

마무리

요약

더보기 AWS 기계 학습

Amazon SageMaker의 호스트 코드 서버

NHL Edge IQ의 일부인 Face-off Probability: 중계 게임 중 실시간으로 대결 승자를 예측

Python 도구 상자를 사용하여 Amazon Lookout for Equipment 모델을 구축, 교육 및 배포합니다.

T-Mobile US, Inc.는 Amazon Transcribe 및 Amazon Translate를 통해 인공 지능을 사용하여 고객이 선택한 언어로 음성 메일을 전달합니다 | 아마존 웹 서비스

AWS IoT Greengrass V2를 사용하는 Amazon SageMaker Edge Manager로 이상 감지

Amazon SageMaker의 NVIDIA Triton 추론 서버에서 의사 결정 트리 기반 ML 모델을 위한 저지연 호스팅 달성

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정