Federated Learning On AWS With FedML: Health Analytics Without Sharing Sensitive Data

Genudgivet af Platon

Abonnenter: 0

Dette blogindlæg er skrevet sammen med Chaoyang He og Salman Avestimehr fra FedML.

Analyse af data fra den virkelige verden af sundhedspleje og biovidenskab (HCLS) udgør adskillige praktiske udfordringer, såsom distribuerede datasiloer, mangel på tilstrækkelige data på et enkelt sted til sjældne hændelser, lovgivningsmæssige retningslinjer, der forbyder datadeling, infrastrukturkrav og omkostninger forbundet med at skabe et centraliseret datalager. Fordi de er i et stærkt reguleret domæne, søger HCLS-partnere og kunder mekanismer til beskyttelse af privatlivets fred til at administrere og analysere store, distribuerede og følsomme data.

For at afbøde disse udfordringer foreslår vi at bruge en open-source fødereret læringsramme (FL) kaldet FedML, som giver dig mulighed for at analysere følsomme HCLS-data ved at træne en global maskinlæringsmodel fra distribuerede data, der opbevares lokalt på forskellige steder. FL kræver ikke flytning eller deling af data på tværs af websteder eller med en centraliseret server under modeltræningsprocessen.

I denne todelte serie demonstrerer vi, hvordan du kan implementere en cloud-baseret FL-ramme på AWS. I det første indlæg beskrev vi FL-koncepter og FedML-rammerne. I den andet indlæg, præsenterer vi use cases og datasæt for at vise dets effektivitet i at analysere virkelige sundhedsdatasæt, som f.eks. eICU data, som omfatter en multicenter kritisk plejedatabase indsamlet fra over 200 hospitaler.

Baggrund

Selvom mængden af HCLS-genererede data aldrig har været større, begrænser udfordringerne og begrænsningerne forbundet med at få adgang til sådanne data dets anvendelighed til fremtidig forskning. Machine learning (ML) giver mulighed for at løse nogle af disse bekymringer og er ved at blive vedtaget for at fremme dataanalyse og udlede meningsfuld indsigt fra forskellige HCLS-data til brugssager som pleje, klinisk beslutningsstøtte, præcisionsmedicin, triage og diagnose og kroniske sygdomme. plejeledelse. Fordi ML-algoritmer ofte ikke er tilstrækkelige til at beskytte privatlivets fred for data på patientniveau, er der en stigende interesse blandt HCLS-partnere og kunder for at bruge privatlivsbevarende mekanismer og infrastruktur til at administrere og analysere store, distribuerede og følsomme data. [1]

Vi har udviklet en FL-ramme på AWS, der gør det muligt at analysere distribuerede og følsomme sundhedsdata på en privatlivsbevarende måde. Det involverer træning af en delt ML-model uden at flytte eller dele data på tværs af websteder eller med en centraliseret server under modeltræningsprocessen og kan implementeres på tværs af flere AWS-konti. Deltagerne kan enten vælge at vedligeholde deres data i deres lokale systemer eller på en AWS-konto, som de kontrollerer. Derfor bringer det analyser til data i stedet for at flytte data til analyser.

I dette indlæg viste vi, hvordan du kan implementere open source FedML-rammeværket på AWS. Vi tester rammerne for eICU-data, en multicenter-kritisk plejedatabase indsamlet fra over 200 hospitaler, for at forudsige patienters dødelighed på hospitalet. Vi kan bruge denne FL-ramme til at analysere andre datasæt, herunder genomiske og biovidenskabelige data. Det kan også anvendes af andre domæner, der er fyldt med distribuerede og følsomme data, herunder finans- og uddannelsessektorer.

Fødereret læring

Fremskridt inden for teknologi har ført til en eksplosiv vækst af data på tværs af industrier, herunder HCLS. HCLS-organisationer gemmer ofte data i siloer. Dette udgør en stor udfordring i datadrevet læring, som kræver store datasæt for at generalisere godt og opnå det ønskede præstationsniveau. Desuden medfører indsamling, kuratisering og vedligeholdelse af datasæt af høj kvalitet betydelig tid og omkostninger.

Fødereret læring afbøder disse udfordringer ved i fællesskab at træne ML-modeller, der bruger distribuerede data, uden at det er nødvendigt at dele eller centralisere dem. Det gør det muligt for forskellige steder at blive repræsenteret i den endelige model, hvilket reducerer den potentielle risiko for stedbaseret skævhed. Frameworket følger en klient-server-arkitektur, hvor serveren deler en global model med klienterne. Klienterne træner modellen baseret på lokale data og deler parametre (såsom gradienter eller modelvægte) med serveren. Serveren samler disse parametre for at opdatere den globale model, som derefter deles med klienterne til næste træningsrunde, som vist i den følgende figur. Denne iterative proces med modeltræning fortsætter, indtil den globale model konvergerer.

Iterativ proces med modeltræning

I de senere år er dette nye læringsparadigme blevet vedtaget med succes for at imødekomme bekymringen om datastyring i træning af ML-modeller. En sådan indsats er MELLODDY, et Innovative Medicines Initiative (IMI)-ledet konsortium, drevet af AWS. Det er et 3-årigt program, der involverer 10 medicinalvirksomheder, 2 akademiske institutioner og 3 teknologipartnere. Dets primære mål er at udvikle en multi-task FL-ramme for at forbedre den forudsigelige ydeevne og kemiske anvendelighed af lægemiddelopdagelsesbaserede modeller. Platformen omfatter flere AWS-konti, hvor hver pharma-partner bevarer fuld kontrol over deres respektive konti for at vedligeholde deres private datasæt, og en central ML-konto, der koordinerer modeltræningsopgaverne.

Konsortiet trænede modeller på milliarder af datapunkter, bestående af over 20 millioner små molekyler i over 40,000 biologiske assays. Baseret på eksperimentelle resultater viste samarbejdsmodellerne en forbedring på 4 % i at kategorisere molekyler som enten farmakologisk eller toksikologisk aktive eller inaktive. Det førte også til en stigning på 10 % i dets evne til at give sikre forudsigelser, når det blev anvendt på nye typer molekyler. Endelig var samarbejdsmodellerne typisk 2 % bedre til at estimere værdier af toksikologiske og farmakologiske aktiviteter.

FedML

FedML er et open source-bibliotek til at lette udviklingen af FL-algoritmer. Det understøtter tre computerparadigmer: on-device træning for edge-enheder, distribueret computing og single-machine simulation. Det tilbyder også forskelligartet algoritmisk forskning med fleksibelt og generisk API-design og omfattende referencebaseline-implementeringer (optimering, modeller og datasæt). For en detaljeret beskrivelse af FedML-biblioteket, se FedML.

Følgende figur viser FedML's open source-biblioteksarkitektur.

Open-source biblioteksarkitektur af FedML

Som det ses i den foregående figur, fra applikationssynspunktet, skærmer FedML detaljer om den underliggende kode og komplekse konfigurationer af distribueret træning. På applikationsniveauet, såsom computersyn, naturlig sprogbehandling og datamining, behøver datavidenskabsfolk og ingeniører kun at skrive modellen, dataene og træneren på samme måde som et selvstændigt program og derefter videregive det til FedMLRunner-objektet til fuldfør alle processerne, som vist i følgende kode. Dette reducerer i høj grad omkostningerne for applikationsudviklere til at udføre FL.

import fedml
from my_model_trainer import MyModelTrainer
from my_server_aggregator import MyServerAggregator
from fedml import FedMLRunner if __name__ == "__main__":
# init FedML framework
args = fedml.init() # init device
device = fedml.device.get_device(args) # load data
dataset, output_dim = fedml.data.load(args) # load model
model = fedml.model.create(args, output_dim) # my customized trainer and aggregator
trainer = MyModelTrainer(model, args)
aggregator = MyServerAggregator(model, args) # start training
fedml_runner = FedMLRunner(args, device, dataset, model, trainer, aggregator)
fedml_runner.run()

FedML-algoritmen er stadig et igangværende arbejde og bliver konstant forbedret. Til dette formål abstraherer FedML kernetræneren og aggregatoren og giver brugerne to abstrakte objekter, FedML.core.ClientTrainer , FedML.core.ServerAggregator, som kun behøver at arve disse to abstrakte objekters grænseflader og videregive dem til FedMLRunner. Sådan tilpasning giver ML-udviklere maksimal fleksibilitet. Du kan definere vilkårlige modelstrukturer, optimeringsværktøjer, tabsfunktioner og mere. Disse tilpasninger kan også problemfrit forbindes med open source-fællesskabet, åbne platformen og applikationsøkologien nævnt tidligere ved hjælp af FedMLRunner, som fuldstændigt løser problemet med lang forsinkelse fra innovative algoritmer til kommercialisering.

Endelig, som vist i den foregående figur, understøtter FedML distribuerede computerprocesser, såsom komplekse sikkerhedsprotokoller og distribueret træning som en Directed Acyclic Graph (DAG) flowberegningsproces, hvilket gør skrivningen af komplekse protokoller svarende til selvstændige programmer. Baseret på denne idé kan sikkerhedsprotokollen Flow Layer 1 og ML-algoritmeprocessen Flow Layer 2 let adskilles, så sikkerhedsingeniører og ML-ingeniører kan arbejde, mens de opretholder en modulær arkitektur.

FedML open source-biblioteket understøtter fødererede ML-brugssager til edge såvel som cloud. På kanten letter rammerne træning og implementering af edge-modeller til mobiltelefoner og internet of things (IoT) enheder. I skyen muliggør det global kollaborativ ML, herunder multi-region, og multi-tenant public cloud aggregeringsservere, samt privat cloud-implementering i Docker-tilstand. Rammen adresserer nøgleproblemer med hensyn til privatlivsbevarende FL, såsom sikkerhed, privatliv, effektivitet, svag overvågning og retfærdighed.

Konklusion

I dette indlæg viste vi, hvordan du kan implementere open source FedML-rammeværket på AWS. Dette giver dig mulighed for at træne en ML-model på distribuerede data uden at skulle dele eller flytte dem. Vi opretter en multi-konto arkitektur, hvor organisationer i et scenarie i den virkelige verden kan slutte sig til økosystemet for at drage fordel af kollaborativ læring og samtidig opretholde datastyring. I den næste indlæg, bruger vi multi-hospitals eICU-datasættet til at demonstrere dets effektivitet i et scenarie i den virkelige verden.

Gennemgå venligst præsentationen på re:MARS 2022 med fokus på "Managed Federated Learning på AWS: Et casestudie for sundhedspleje” for en detaljeret gennemgang af denne løsning.

Henvisning

[1] Kaissis, GA, Makowski, MR, Rückert, D. et al. Sikker, privatlivsbevarende og fødereret maskinlæring i medicinsk billedbehandling. Nat Mach Intell 2, 305-311 (2020). https://doi.org/10.1038/s42256-020-0186-1
[2] FedML https://fedml.ai

Om forfatterne

Federated Learning on AWS with FedML: Health analytics without sharing sensitive data – Part 1 PlatoBlockchain Data Intelligence. Vertical Search. Ai. Olivia Choudhury, PhD, er Senior Partner Solutions Architect hos AWS. Hun hjælper partnere inden for Healthcare and Life Sciences-domænet med at designe, udvikle og skalere state-of-the-art løsninger, der udnytter AWS. Hun har en baggrund inden for genomik, sundhedsanalyse, fødereret læring og maskinlæring, der beskytter privatlivets fred. Uden for arbejdet spiller hun brætspil, maler landskaber og samler på manga.

Vidya Sagar Ravipati er leder på Amazon ML Solutions Lab, hvor han udnytter sin store erfaring med distribuerede systemer i stor skala og sin passion for maskinlæring til at hjælpe AWS-kunder på tværs af forskellige brancher med at accelerere deres AI og cloud-adoption. Tidligere var han Machine Learning Engineer i Connectivity Services hos Amazon, som hjalp med at bygge personalisering og forudsigende vedligeholdelsesplatforme.

Federated Learning on AWS with FedML: Health analytics without sharing sensitive data – Part 1 PlatoBlockchain Data Intelligence. Vertical Search. Ai. Wajahat Aziz er Principal Machine Learning og HPC Solutions Architect hos AWS, hvor han fokuserer på at hjælpe sundheds- og biovidenskabskunder med at udnytte AWS-teknologier til at udvikle avancerede ML- og HPC-løsninger til en bred vifte af anvendelsessager såsom Drug Development, Kliniske forsøg og maskinlæring, der bevarer privatlivets fred. Uden for arbejdet kan Wajahat lide at udforske naturen, vandre og læse.

Divya Bhargavi er Data Scientist og Media and Entertainment Vertical Lead hos Amazon ML Solutions Lab, hvor hun løser forretningsproblemer af høj værdi for AWS-kunder ved hjælp af Machine Learning. Hun arbejder med billed-/videoforståelse, vidensgrafanbefalingssystemer, prædiktiv annonceringsbrug.

Ujjwal Ratan er leder for AI/ML og Data Science i AWS Healthcare and Life Science Business Unit og er også Principal AI/ML Solutions Architect. I årenes løb har Ujjwal været en tankeleder inden for sundheds- og biovidenskabsindustrien og har hjulpet flere Global Fortune 500-organisationer med at nå deres innovationsmål ved at indføre maskinlæring. Hans arbejde, der involverer analyse af medicinsk billeddannelse, ustruktureret klinisk tekst og genomik, har hjulpet AWS med at bygge produkter og tjenester, der giver meget personlig og præcist målrettet diagnostik og terapi. I sin fritid nyder han at lytte til (og spille) musik og tage på uplanlagte roadtrips med sin familie.

Federated Learning on AWS with FedML: Health analytics without sharing sensitive data – Part 1 PlatoBlockchain Data Intelligence. Vertical Search. Ai. Chaoyang He er medstifter og CTO af FedML, Inc., en startup, der kører for et samfund, der bygger åben og kollaborativ AI fra hvor som helst i enhver skala. Hans forskning fokuserer på distribuerede/fødererede maskinlæringsalgoritmer, systemer og applikationer. Han fik sin ph.d. i datalogi fra University of Southern California, Los Angeles, USA.

Federated Learning on AWS with FedML: Health analytics without sharing sensitive data – Part 1 PlatoBlockchain Data Intelligence. Vertical Search. Ai. Salman Avestimehr er professor, den konstituerende direktør for USC-Amazon Center for Secure and Trusted Machine Learning (Trusted AI), og direktør for forskningslaboratoriet Information Theory and Machine Learning (vITAL) ved Electrical and Computer Engineering Department og Computer Science Department of University of Southern California. Han er også medstifter og administrerende direktør for FedML. Han modtog min ph.d. i Electrical Engineering and Computer Sciences fra UC Berkeley i 2008. Hans forskning fokuserer på områderne informationsteori, decentraliseret og fødereret maskinlæring, sikker og privatlivsbevarende læring og computing.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
Platoblokkæde. Web3 Metaverse Intelligence. Viden forstærket. Adgang her.
Kilde: https://aws.amazon.com/blogs/machine-learning/part-1-federated-learning-on-aws-with-fedml-health-analytics-without-sharing-sensitive-data/

Tidsstempel: Januar 13, 2023

Tidsstempel: Mar 1, 2022

Genudgivet af Platon

Byg fleksible og skalerbare distribuerede træningsarkitekturer ved hjælp af Kubeflow på AWS og Amazon SageMaker

Tune ML-modeller til yderligere formål som retfærdighed med SageMaker Automatic Model Tuning

Designmønstre til seriel inferens på Amazon SageMaker

Tilvejebring og administrer ML-miljøer med Amazon SageMaker Canvas ved hjælp af AWS CDK og AWS Service Catalog

Anomalidetektion med Amazon SageMaker Edge Manager ved hjælp af AWS IoT Greengrass V2

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto