FedML을 사용한 AWS의 연합 학습: 민감한 데이터를 공유하지 않는 상태 분석

플라톤에 의해 재발행

팔로워 : 0

이 블로그 게시물은 FedML의 Chaoyang He 및 Salman Avestimehr와 공동으로 작성되었습니다.

실제 의료 및 생명 과학(HCLS) 데이터를 분석하면 분산 데이터 사일로, 희귀 사건에 대한 단일 사이트의 데이터 부족, 데이터 공유를 금지하는 규제 지침, 인프라 요구 사항, 생성 시 발생하는 비용과 같은 몇 가지 실질적인 문제가 제기됩니다. 중앙 집중식 데이터 저장소. 규제가 엄격한 도메인에 있기 때문에 HCLS 파트너와 고객은 대규모의 분산된 민감한 데이터를 관리하고 분석하기 위한 개인 정보 보호 메커니즘을 찾고 있습니다.

이러한 문제를 완화하기 위해 우리는 오픈 소스 연합 학습(FL) 프레임워크를 사용할 것을 제안합니다. FedML, 다른 사이트에 로컬로 보관된 분산 데이터에서 글로벌 기계 학습 모델을 교육하여 민감한 HCLS 데이터를 분석할 수 있습니다. FL은 모델 교육 프로세스 중에 사이트 간에 또는 중앙 서버와 데이터를 이동하거나 공유할 필요가 없습니다.

XNUMX부로 구성된 이 시리즈에서는 AWS에서 클라우드 기반 FL 프레임워크를 배포하는 방법을 보여줍니다. 첫 번째 게시물에서는 FL 개념과 FedML 프레임워크에 대해 설명했습니다. 에서 두 번째 게시물, 우리는 사용 사례와 데이터 세트를 제시하여 다음과 같은 실제 의료 데이터 세트를 분석하는 데 그 효과를 보여줍니다. eICU 데이터, 200개 이상의 병원에서 수집한 다중 센터 중환자 치료 데이터베이스로 구성됩니다.

배경

HCLS에서 생성된 데이터의 양은 그 어느 때보다 많지만 이러한 데이터에 액세스하는 것과 관련된 문제와 제약으로 인해 향후 연구에 대한 유용성이 제한됩니다. 머신 러닝(ML)은 이러한 우려 사항 중 일부를 해결할 수 있는 기회를 제공하며 의료 제공, 임상 의사 결정 지원, 정밀 의학, 분류 및 진단, 만성 질환과 같은 사용 사례를 위해 데이터 분석을 발전시키고 다양한 HCLS 데이터에서 의미 있는 통찰력을 도출하기 위해 채택되고 있습니다. 케어 관리. ML 알고리즘은 종종 환자 수준 데이터의 개인 정보를 보호하는 데 적합하지 않기 때문에 HCLS 파트너와 고객 사이에서 개인 정보 보호 메커니즘과 인프라를 사용하여 대규모의 분산된 민감한 데이터를 관리하고 분석하는 데 대한 관심이 높아지고 있습니다. [1]

개인 정보를 보호하는 방식으로 분산된 민감한 건강 데이터를 분석할 수 있는 FL 프레임워크를 AWS에서 개발했습니다. 여기에는 모델 교육 프로세스 중에 사이트 간에 또는 중앙 집중식 서버를 사용하여 데이터를 이동하거나 공유하지 않고 공유 ML 모델 교육이 포함되며 여러 AWS 계정에서 구현할 수 있습니다. 참가자는 온프레미스 시스템 또는 자신이 제어하는 AWS 계정에 데이터를 유지하도록 선택할 수 있습니다. 따라서 데이터를 분석으로 옮기는 것이 아니라 분석을 데이터로 가져옵니다.

이 게시물에서는 AWS에서 오픈 소스 FedML 프레임워크를 배포하는 방법을 보여주었습니다. 병원 내 환자 사망률을 예측하기 위해 200개 이상의 병원에서 수집한 다중 센터 중환자 치료 데이터베이스인 eICU 데이터에 대한 프레임워크를 테스트합니다. 이 FL 프레임워크를 사용하여 게놈 및 생명 과학 데이터를 포함한 다른 데이터 세트를 분석할 수 있습니다. 또한 금융 및 교육 부문을 포함하여 분산되고 민감한 데이터가 만연한 다른 영역에서도 채택될 수 있습니다.

연합 학습

기술의 발전으로 HCLS를 비롯한 산업 전반에 걸쳐 데이터가 폭발적으로 증가했습니다. HCLS 조직은 종종 사일로에 데이터를 저장합니다. 이는 일반화를 잘하고 원하는 수준의 성능을 달성하기 위해 대규모 데이터 세트가 필요한 데이터 기반 학습에서 주요 과제를 제시합니다. 또한 고품질 데이터 세트를 수집, 큐레이팅 및 유지 관리하는 데 상당한 시간과 비용이 듭니다.

연합 학습은 분산 데이터를 사용하는 ML 모델을 공유하거나 중앙 집중화할 필요 없이 공동으로 교육하여 이러한 문제를 완화합니다. 이를 통해 최종 모델 내에서 다양한 사이트를 나타낼 수 있으므로 사이트 기반 편향의 잠재적 위험이 줄어듭니다. 프레임워크는 서버가 클라이언트와 글로벌 모델을 공유하는 클라이언트-서버 아키텍처를 따릅니다. 클라이언트는 로컬 데이터를 기반으로 모델을 훈련하고 서버와 매개변수(예: 그래디언트 또는 모델 가중치)를 공유합니다. 서버는 이러한 매개변수를 집계하여 글로벌 모델을 업데이트한 다음 다음 그림과 같이 다음 교육을 위해 클라이언트와 공유합니다. 이 반복적인 모델 학습 프로세스는 전역 모델이 수렴될 때까지 계속됩니다.

모델 학습의 반복 프로세스

최근 몇 년 동안 이 새로운 학습 패러다임은 ML 모델 교육에서 데이터 거버넌스 문제를 해결하기 위해 성공적으로 채택되었습니다. 그러한 노력 중 하나는 멜로디, IMI(Innovative Medicines Initiative)가 주도하는 컨소시엄으로, AWS를 기반으로 합니다. 3개의 제약 회사, 10개의 교육 기관 및 2개의 기술 파트너가 참여하는 3년 프로그램입니다. 주요 목표는 약물 발견 기반 모델의 예측 성능과 화학적 적용 가능성을 개선하기 위해 다중 작업 FL 프레임워크를 개발하는 것입니다. 이 플랫폼은 여러 AWS 계정으로 구성되며, 각 제약 파트너는 개인 데이터 세트를 유지하기 위해 각자의 계정을 완전히 제어하고 모델 교육 작업을 조정하는 중앙 ML 계정을 보유합니다.

이 컨소시엄은 20개 이상의 생물학적 분석에서 40,000천만 개 이상의 작은 분자로 구성된 수십억 개의 데이터 포인트에 대해 모델을 훈련했습니다. 실험 결과를 기반으로 협력 모델은 분자를 약리학적 또는 독성학적 활성 또는 비활성으로 분류하는 데 4% 개선된 것으로 나타났습니다. 또한 새로운 유형의 분자에 적용했을 때 신뢰할 수 있는 예측을 제공하는 능력이 10% 증가했습니다. 마지막으로, 협력 모델은 일반적으로 독성학적 및 약리학적 활동의 가치를 추정하는 데 2% 더 우수했습니다.

FedML

FedML은 FL 알고리즘 개발을 용이하게 하는 오픈 소스 라이브러리입니다. 에지 장치에 대한 온디바이스 교육, 분산 컴퓨팅 및 단일 머신 시뮬레이션의 세 가지 컴퓨팅 패러다임을 지원합니다. 또한 유연하고 일반적인 API 디자인과 포괄적인 참조 기준 구현(옵티마이저, 모델 및 데이터 세트)을 통해 다양한 알고리즘 연구를 제공합니다. FedML 라이브러리에 대한 자세한 설명은 다음을 참조하십시오. FedML.

다음 그림은 FedML의 오픈 소스 라이브러리 아키텍처를 나타냅니다.

FedML의 오픈 소스 라이브러리 아키텍처

앞의 그림에서 볼 수 있듯이 애플리케이션 관점에서 FedML은 기본 코드의 세부 정보와 분산 교육의 복잡한 구성을 보호합니다. 컴퓨터 비전, 자연어 처리, 데이터 마이닝과 같은 애플리케이션 수준에서 데이터 과학자와 엔지니어는 독립 실행형 프로그램과 동일한 방식으로 모델, 데이터 및 트레이너를 작성한 다음 이를 FedMLRunner 개체에 전달하여 다음 코드와 같이 모든 프로세스를 완료합니다. 이렇게 하면 응용 프로그램 개발자가 FL을 수행하는 오버헤드가 크게 줄어듭니다.

import fedml
from my_model_trainer import MyModelTrainer
from my_server_aggregator import MyServerAggregator
from fedml import FedMLRunner if __name__ == "__main__":
# init FedML framework
args = fedml.init() # init device
device = fedml.device.get_device(args) # load data
dataset, output_dim = fedml.data.load(args) # load model
model = fedml.model.create(args, output_dim) # my customized trainer and aggregator
trainer = MyModelTrainer(model, args)
aggregator = MyServerAggregator(model, args) # start training
fedml_runner = FedMLRunner(args, device, dataset, model, trainer, aggregator)
fedml_runner.run()

FedML 알고리즘은 여전히 진행 중이며 지속적으로 개선되고 있습니다. 이를 위해 FedML은 코어 트레이너와 집계자를 추상화하고 사용자에게 두 개의 추상 객체, FedML.core.ClientTrainer 및 FedML.core.ServerAggregator, 이 두 추상 개체의 인터페이스를 상속하고 FedMLRunner에 전달하기만 하면 됩니다. 이러한 사용자 정의는 ML 개발자에게 최대의 유연성을 제공합니다. 임의의 모델 구조, 옵티마이저, 손실 함수 등을 정의할 수 있습니다. 이러한 사용자 정의는 혁신적인 알고리즘에서 상용화까지의 긴 지연 문제를 완전히 해결하는 FedMLRunner의 도움으로 앞에서 언급한 오픈 소스 커뮤니티, 개방형 플랫폼 및 애플리케이션 생태계와 원활하게 연결될 수 있습니다.

마지막으로 앞의 그림과 같이 FedML은 복잡한 보안 프로토콜 및 DAG(Directed Acyclic Graph) 흐름 컴퓨팅 프로세스로서의 분산 교육과 같은 분산 컴퓨팅 프로세스를 지원하여 복잡한 프로토콜 작성을 독립 실행형 프로그램과 유사하게 만듭니다. 이러한 아이디어를 바탕으로 보안 프로토콜 Flow Layer 1과 ML 알고리즘 프로세스 Flow Layer 2를 쉽게 분리할 수 있어 보안 엔지니어와 ML 엔지니어가 모듈식 아키텍처를 유지하면서 운영할 수 있습니다.

FedML 오픈 소스 라이브러리는 에지 및 클라우드에 대한 통합 ML 사용 사례를 지원합니다. 에지에서 이 프레임워크는 휴대폰 및 사물 인터넷(IoT) 장치에 대한 에지 모델의 교육 및 배포를 용이하게 합니다. 클라우드에서 다중 리전 및 다중 테넌트 퍼블릭 클라우드 집계 서버를 포함한 글로벌 협업 ML과 Docker 모드의 프라이빗 클라우드 배포를 지원합니다. 이 프레임워크는 보안, 개인 정보 보호, 효율성, 약한 감독 및 공정성과 같은 개인 정보 보호 FL과 관련된 주요 문제를 해결합니다.

결론

이 게시물에서는 AWS에서 오픈 소스 FedML 프레임워크를 배포하는 방법을 보여주었습니다. 이를 통해 공유하거나 이동할 필요 없이 분산 데이터에서 ML 모델을 교육할 수 있습니다. 우리는 실제 시나리오에서 조직이 데이터 거버넌스를 유지하면서 협업 학습의 이점을 얻기 위해 생태계에 참여할 수 있는 다중 계정 아키텍처를 설정했습니다. 에서 다음 글, 다중 병원 eICU 데이터 세트를 사용하여 실제 시나리오에서 그 효과를 입증합니다.

"에 초점을 맞춘 re:MARS 2022 프레젠테이션을 검토하십시오.AWS의 관리형 연합 학습: 의료 서비스 사례 연구”에서 이 솔루션에 대한 자세한 설명을 참조하십시오.

참조

[1] Kaissis, GA, Makowski, MR, Rückert, D. 외. 의료 영상 분야의 보안, 개인 정보 보호 및 연합 머신 러닝. Nat Mach Intell 2, 305–311(2020). https://doi.org/10.1038/s42256-020-0186-1
[2] 페드ML https://fedml.ai

저자에 관하여

FedML을 사용한 AWS의 연합 학습: 민감한 데이터를 공유하지 않는 건강 분석 – 1부 PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 올리비아 차우두리, PhD는 AWS의 선임 파트너 솔루션 설계자입니다. 그녀는 의료 및 생명 과학 도메인의 파트너가 AWS를 활용하는 최첨단 솔루션을 설계, 개발 및 확장하도록 돕습니다. 그녀는 유전체학, 의료 분석, 연합 학습 및 개인 정보 보호 기계 학습에 대한 배경 지식을 가지고 있습니다. 일 외에는 보드 게임을 하거나 풍경화를 그리고 만화를 수집합니다.

비 디아 사가르 라비 파티 의 관리자입니다. Amazon ML 솔루션 랩에서 그는 대규모 분산 시스템에 대한 그의 방대한 경험과 기계 학습에 대한 열정을 활용하여 다양한 산업 분야의 AWS 고객이 AI 및 클라우드 채택을 가속화 할 수 있도록 지원합니다. 이전에는 Amazon Connectivity Services의 기계 학습 엔지니어로 개인화 및 예측 유지 관리 플랫폼 구축을 도왔습니다.

FedML을 사용한 AWS의 연합 학습: 민감한 데이터를 공유하지 않는 건강 분석 – 1부 PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 와자하트 아지즈 AWS의 수석 기계 학습 및 HPC 솔루션 설계자로서 의료 및 생명 과학 고객이 약물 개발과 같은 다양한 사용 사례를 위한 최첨단 ML 및 HPC 솔루션을 개발하기 위해 AWS 기술을 활용하도록 돕는 데 중점을 두고 있습니다. 임상 시험 및 개인 정보 보호 머신 러닝. 업무 외에 Wajahat은 자연 탐험, 하이킹, 독서를 좋아합니다.

디비 아 바르 가비 Amazon ML Solutions Lab의 데이터 과학자이자 미디어 및 엔터테인먼트 수직 책임자로서 기계 학습을 사용하여 AWS 고객의 고부가가치 비즈니스 문제를 해결합니다. 그녀는 이미지/비디오 이해, 지식 그래프 추천 시스템, 예측 광고 사용 사례에 대해 작업합니다.

우즈 왈 라탄 AWS 의료 및 생명 과학 사업부의 AI/ML 및 데이터 과학 부문 리더이자 수석 AI/ML 솔루션 설계자이기도 합니다. 수년 동안 Ujjwal은 의료 및 생명 과학 산업의 사고 리더로서 여러 Global Fortune 500대 기업이 기계 학습을 채택하여 혁신 목표를 달성하도록 지원했습니다. 의료 영상, 구조화되지 않은 임상 텍스트 및 유전체학 분석과 관련된 그의 작업은 AWS가 고도로 개인화되고 정밀하게 표적화된 진단 및 치료법을 제공하는 제품 및 서비스를 구축하는 데 도움이 되었습니다. 여가 시간에는 음악 감상(및 연주)과 가족과 함께 계획에 없던 자동차 여행을 즐깁니다.

FedML을 사용한 AWS의 연합 학습: 민감한 데이터를 공유하지 않는 건강 분석 – 1부 PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 허 차오양 FedML, Inc.의 공동 창립자이자 CTO입니다. FedML, Inc.는 규모와 장소에 구애받지 않고 개방적이고 협력적인 AI를 구축하는 커뮤니티를 위해 운영되는 스타트업입니다. 그의 연구는 분산/연합 기계 학습 알고리즘, 시스템 및 애플리케이션에 중점을 둡니다. 그는 박사 학위를 받았습니다. 컴퓨터 과학에서 University of Southern California, 로스앤젤레스, 미국.

FedML을 사용한 AWS의 연합 학습: 민감한 데이터를 공유하지 않는 건강 분석 – 1부 PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함. 살만 아베스티머 안전하고 신뢰할 수 있는 기계 학습(신뢰할 수 있는 AI)을 위한 USC-Amazon 센터의 초대 책임자이자 전기 및 컴퓨터 공학과 및 컴퓨터 과학과의 정보 이론 및 기계 학습(vITAL) 연구실 책임자입니다. 서던캘리포니아대학교. FedML의 공동 설립자이자 CEO이기도 합니다. 그는 내 박사 학위를 받았습니다. 2008년 UC Berkeley에서 전기 공학 및 컴퓨터 과학 학사 학위를 받았습니다. 그의 연구는 정보 이론, 분산 및 연합 기계 학습, 보안 및 개인 정보 보호 학습 및 컴퓨팅 분야에 중점을 두고 있습니다.