합성 데이터란 무엇입니까? 기계 학습 및 개인 정보 보호를 위한 유형, 사용 사례 및 응용 프로그램

플라톤에 의해 재발행

팔로워 : 0

데이터 과학 및 기계 학습 분야는 매일 성장하고 있습니다. 시간이 지남에 따라 새로운 모델과 알고리즘이 제안됨에 따라 이러한 새로운 알고리즘과 모델에는 교육 및 테스트를 위한 방대한 데이터가 필요합니다. 오늘날 딥 러닝 모델은 많은 인기를 얻고 있으며 이러한 모델도 데이터가 부족합니다. 서로 다른 문제 설명의 맥락에서 이러한 방대한 양의 데이터를 얻는 것은 상당히 끔찍하고 시간이 많이 걸리며 비용이 많이 드는 프로세스입니다. 데이터는 보안 책임 및 개인 정보 보호 문제를 제기하는 실제 시나리오에서 수집됩니다. 대부분의 데이터는 비공개이며 개인 정보 보호법 및 규정에 의해 보호되어 조직 간 또는 때로는 단일 조직의 여러 부서 간에 데이터 공유 및 이동을 방해하여 실험 및 제품 테스트가 지연됩니다. 그렇다면 이 문제를 어떻게 해결할 수 있느냐는 질문이 생깁니다. 누군가의 프라이버시에 대한 우려를 제기하지 않고 어떻게 데이터에 더 쉽게 접근하고 개방할 수 있습니까?

이 문제에 대한 해결책은 다음과 같이 알려져 있습니다. 합성 데이터.

합성 데이터란 무엇입니까?

정의에 따르면 합성 데이터는 인공적으로 또는 알고리즘적으로 생성되며 실제 데이터의 기본 구조 및 속성과 매우 유사합니다. 합성된 데이터가 양호하면 실제 데이터와 구별할 수 없습니다.

얼마나 많은 다른 유형의 합성 데이터가 있을 수 있습니까?

이 질문에 대한 답은 데이터가 다양한 형태를 취할 수 있기 때문에 매우 제한이 없습니다.

텍스트 데이터
오디오 또는 시각적 데이터(예: 이미지, 비디오 및 오디오)
표 형식 데이터

기계 학습을 위한 합성 데이터 사용 사례

위에서 언급한 세 가지 유형의 합성 데이터 사용 사례에 대해서만 논의할 것입니다.

NLP 모델 학습을 위한 합성 텍스트 데이터 사용

합성 데이터는 자연어 처리 분야에 적용됩니다. 예를 들어 Amazon의 Alexa AI 팀은 합성 데이터를 사용하여 NLU 시스템(자연어 이해)에 대한 교육 세트를 완료합니다. 기존 또는 충분한 소비자 상호 작용 데이터 없이 새로운 언어를 교육하기 위한 견고한 기반을 제공합니다.

비전 알고리즘 훈련을 위한 합성 데이터 사용

여기에서 널리 퍼진 사용 사례에 대해 논의해 보겠습니다. 이미지에서 얼굴의 수를 감지하거나 세는 알고리즘을 개발한다고 가정합니다. GAN 또는 다른 생성 네트워크를 사용하여 실제 사람의 얼굴, 즉 실제 세계에 존재하지 않는 얼굴을 생성하여 모델을 훈련할 수 있습니다. 또 다른 이점은 다른 사람의 개인 정보를 침해하지 않고 이러한 알고리즘에서 원하는 만큼 많은 데이터를 생성할 수 있다는 것입니다. 그러나 일부 개인의 얼굴이 포함된 실제 데이터는 사용할 수 없으므로 일부 개인 정보 보호 정책은 해당 데이터 사용을 제한합니다.

또 다른 사용 사례는 시뮬레이션 환경에서 강화 학습을 수행하는 것입니다. 물체를 잡고 상자에 넣도록 설계된 로봇 팔을 테스트하고 싶다고 가정합니다. 이를 위해 강화 학습 알고리즘이 설계되었습니다. 이것이 강화 학습 알고리즘이 학습하는 방식이기 때문에 테스트를 위해 실험을 해야 합니다. 실제 시나리오에서 실험을 설정하는 것은 비용이 많이 들고 시간이 많이 걸리므로 수행할 수 있는 다양한 실험의 수가 제한됩니다. 그러나 시뮬레이션 환경에서 실험을 수행하면 로봇 팔 프로토타입이 필요하지 않기 때문에 실험 설정이 상대적으로 저렴합니다.

테이블 형식 데이터의 사용

테이블 형식 합성 데이터는 테이블에 저장된 실제 데이터를 모방하여 인위적으로 생성된 데이터입니다. 이 데이터는 행과 열로 구성됩니다. 이 테이블에는 음악 재생 목록과 같은 모든 데이터가 포함될 수 있습니다. 각 노래에 대해 음악 플레이어는 이름, 가수, 길이, 장르 등 많은 정보를 유지합니다. 또한 은행 거래, 주식 가격 등과 같은 재무 기록일 수도 있습니다.

은행 거래와 관련된 합성 표 데이터는 사기 거래를 감지하기 위해 모델을 훈련하고 알고리즘을 설계하는 데 사용됩니다. 과거의 주가 데이터를 사용하여 미래 주식 가격을 예측하기 위한 모델을 훈련하고 테스트할 수 있습니다.

기계 학습에서 합성 데이터를 사용할 때의 중요한 이점 중 하나는 개발자가 데이터를 제어할 수 있다는 것입니다. 그는 아이디어를 테스트하고 실험해야 할 필요성에 따라 데이터를 변경할 수 있습니다. 한편, 개발자는 합성 데이터에서 모델을 테스트할 수 있으며 모델이 실제 데이터에서 어떻게 수행되는지에 대한 매우 명확한 아이디어를 제공합니다. 개발자가 모델을 시도하고 실제 데이터를 기다리는 경우 데이터를 수집하는 데 몇 주 또는 몇 달이 걸릴 수 있습니다. 따라서 기술 개발 및 혁신을 지연시킵니다.

이제 합성 데이터가 데이터 프라이버시와 관련된 문제를 해결하는 데 어떻게 도움이 되는지 논의할 준비가 되었습니다.

많은 산업이 혁신과 개발을 위해 고객이 생성한 데이터에 의존하지만 해당 데이터에는 개인 식별 정보(PII)가 포함되어 있으며 개인 정보 보호법은 이러한 데이터 처리를 엄격하게 규제합니다. 예를 들어 일반 데이터 보호 규정(GDPR)은 조직이 데이터를 수집할 때 명시적으로 동의하지 않은 사용을 금지합니다. 합성 데이터는 실제 데이터의 기본 구조와 매우 유사하기 때문에 동시에 실제 데이터에 존재하는 개인은 합성 데이터에서 재식별될 수 있습니다. 결과적으로 합성 데이터의 처리 및 공유에 대한 규제가 훨씬 적어 개발 및 혁신이 빨라지고 데이터에 쉽게 액세스할 수 있습니다.

결론

합성 데이터에는 많은 중요한 이점이 있습니다. 이제 ML 개발자가 실험을 제어하고 데이터에 더 쉽게 액세스할 수 있으므로 개발 속도가 빨라집니다. 데이터를 자유롭게 공유할 수 있기 때문에 더 큰 규모의 협업을 촉진합니다. 또한 합성 데이터는 실제 데이터로부터 개인의 개인 정보를 보호합니다.

비네

” data-medium-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-225×300.jpg” data-large-file=”https://www.marktechpost.com/wp-content/uploads/2022/11/IMG20221002180119-Vineet-kumar-768×1024.jpg”>

Vineet Kumar는 MarktechPost의 컨설팅 인턴입니다. 그는 현재 Kanpur에 있는 Indian Institute of Technology(IIT)에서 학사 과정을 밟고 있습니다. 그는 기계 학습 애호가입니다. 그는 딥 러닝, 컴퓨터 비전 및 관련 분야의 연구와 최신 발전에 열정적입니다.

<!–

–>

타임 스탬프 : 2022 년 11 월 12 일2022 년 11 월 14 일