Federated Learning On AWS With FedML: Health Analytics Without Sharing Sensitive Data

Återutgiven av Platon

anhängare: 0

Det här blogginlägget är skrivet tillsammans med Chaoyang He och Salman Avestimehr från FedML.

Att analysera data från verklig vård och biovetenskap (HCLS) innebär flera praktiska utmaningar, såsom distribuerade datasilos, brist på tillräckligt med data på en enskild plats för sällsynta händelser, regulatoriska riktlinjer som förbjuder datadelning, krav på infrastruktur och kostnader för att skapa ett centraliserat datalager. Eftersom de är i en mycket reglerad domän, söker HCLS-partners och kunder mekanismer för att bevara integritet för att hantera och analysera storskalig, distribuerad och känslig data.

För att mildra dessa utmaningar föreslår vi att du använder ett ramverk för federerat lärande med öppen källkod (FL). FedML, som gör att du kan analysera känslig HCLS-data genom att träna en global maskininlärningsmodell från distribuerad data som finns lokalt på olika platser. FL kräver inte att data flyttas eller delas mellan webbplatser eller med en centraliserad server under modellutbildningsprocessen.

I denna tvådelade serie visar vi hur du kan distribuera ett molnbaserat FL-ramverk på AWS. I det första inlägget beskrev vi FL-koncept och FedML-ramverket. I den andra inlägget, presenterar vi användningsfallen och datauppsättningen för att visa dess effektivitet i att analysera verkliga datauppsättningar för hälsovård, som eICU-data, som omfattar en databas för kritisk vård med flera centra som samlats in från över 200 sjukhus.

Bakgrund

Även om volymen av HCLS-genererad data aldrig har varit större, begränsar utmaningarna och begränsningarna för att komma åt sådan data dess användbarhet för framtida forskning. Maskininlärning (ML) erbjuder en möjlighet att ta itu med några av dessa problem och används för att förbättra dataanalyser och härleda meningsfulla insikter från olika HCLS-data för användningsfall som vård, kliniskt beslutsstöd, precisionsmedicin, triage och diagnos samt kroniska sjukdomar. vårdledning. Eftersom ML-algoritmer ofta inte är tillräckliga för att skydda integriteten för data på patientnivå, finns det ett växande intresse bland HCLS-partners och kunder att använda integritetsbevarande mekanismer och infrastruktur för att hantera och analysera storskalig, distribuerad och känslig data. [1]

Vi har utvecklat ett FL-ramverk på AWS som gör det möjligt att analysera distribuerad och känslig hälsodata på ett integritetsbevarande sätt. Det innebär att träna en delad ML-modell utan att flytta eller dela data mellan webbplatser eller med en centraliserad server under modellutbildningsprocessen, och kan implementeras på flera AWS-konton. Deltagarna kan antingen välja att behålla sina data i sina lokala system eller i ett AWS-konto som de kontrollerar. Därför för den analys till data snarare än att flytta data till analys.

I det här inlägget visade vi hur du kan distribuera FedML-ramverket med öppen källkod på AWS. Vi testar ramverket på eICU-data, en multicenterdatabas för kritisk vård som samlats in från över 200 sjukhus, för att förutsäga patientdödlighet på sjukhus. Vi kan använda detta FL-ramverk för att analysera andra datauppsättningar, inklusive genomisk och biovetenskaplig data. Det kan också användas av andra domäner som är fulla av distribuerad och känslig data, inklusive finans- och utbildningssektorer.

Federerat lärande

Framsteg inom teknik har lett till en explosiv tillväxt av data över branscher, inklusive HCLS. HCLS-organisationer lagrar ofta data i silor. Detta utgör en stor utmaning inom datadrivet lärande, vilket kräver stora datamängder för att generalisera väl och uppnå önskad prestationsnivå. Dessutom innebär insamling, kurering och underhåll av högkvalitativa datauppsättningar betydande tid och kostnader.

Federerat lärande minskar dessa utmaningar genom att i samarbete träna ML-modeller som använder distribuerad data, utan att behöva dela eller centralisera dem. Det gör att olika platser kan representeras i den slutliga modellen, vilket minskar den potentiella risken för platsbaserad bias. Ramverket följer en klient-server-arkitektur, där servern delar en global modell med klienterna. Klienterna tränar modellen baserat på lokal data och delar parametrar (såsom gradienter eller modellvikter) med servern. Servern aggregerar dessa parametrar för att uppdatera den globala modellen, som sedan delas med klienterna för nästa utbildningsomgång, som visas i följande figur. Denna iterativa process med modellträning fortsätter tills den globala modellen konvergerar.

Iterativ process för modellträning

Under de senaste åren har detta nya inlärningsparadigm antagits framgångsrikt för att ta itu med problemet med datastyrning vid utbildning av ML-modeller. En sådan ansträngning är MELLODDY, ett konsortium som leds av Innovative Medicines Initiative (IMI), som drivs av AWS. Det är ett 3-årigt program som involverar 10 läkemedelsföretag, 2 akademiska institutioner och 3 teknikpartners. Dess primära mål är att utveckla ett multi-task FL-ramverk för att förbättra den prediktiva prestandan och kemiska tillämpbarheten av läkemedelsupptäcktsbaserade modeller. Plattformen består av flera AWS-konton, där varje läkemedelspartner behåller full kontroll över sina respektive konton för att underhålla sina privata datauppsättningar, och ett centralt ML-konto som koordinerar modellutbildningsuppgifterna.

Konsortiet tränade modeller på miljarder datapunkter, bestående av över 20 miljoner små molekyler i över 40,000 4 biologiska analyser. Baserat på experimentella resultat visade samarbetsmodellerna en förbättring på 10 % i att kategorisera molekyler som antingen farmakologiskt eller toxikologiskt aktiva eller inaktiva. Det ledde också till en 2-procentig ökning av dess förmåga att ge säkra förutsägelser när den tillämpades på nya typer av molekyler. Slutligen var samarbetsmodellerna vanligtvis XNUMX% bättre på att uppskatta värden av toxikologiska och farmakologiska aktiviteter.

FedML

FedML är ett bibliotek med öppen källkod för att underlätta utveckling av FL-algoritmer. Den stöder tre beräkningsparadigm: träning på enheten för edge-enheter, distribuerad beräkning och simulering av en maskin. Den erbjuder också mångsidig algoritmisk forskning med flexibel och generisk API-design och omfattande referensimplementeringar (optimerare, modeller och datauppsättningar). För en detaljerad beskrivning av FedML-biblioteket, se FedML.

Följande figur presenterar FedMLs biblioteksarkitektur med öppen källkod.

FedMLs biblioteksarkitektur med öppen källkod

Som framgår av föregående figur, från tillämpningssynpunkt, skyddar FedML detaljer om den underliggande koden och komplexa konfigurationer av distribuerad utbildning. På applikationsnivå, såsom datorseende, naturlig språkbehandling och datautvinning, behöver datavetare och ingenjörer bara skriva modellen, data och tränare på samma sätt som ett fristående program och sedan skicka det till FedMLRunner-objektet för att slutför alla processer, som visas i följande kod. Detta minskar avsevärt omkostnaderna för applikationsutvecklare att utföra FL.

import fedml
from my_model_trainer import MyModelTrainer
from my_server_aggregator import MyServerAggregator
from fedml import FedMLRunner if __name__ == "__main__":
# init FedML framework
args = fedml.init() # init device
device = fedml.device.get_device(args) # load data
dataset, output_dim = fedml.data.load(args) # load model
model = fedml.model.create(args, output_dim) # my customized trainer and aggregator
trainer = MyModelTrainer(model, args)
aggregator = MyServerAggregator(model, args) # start training
fedml_runner = FedMLRunner(args, device, dataset, model, trainer, aggregator)
fedml_runner.run()

FedML-algoritmen är fortfarande ett pågående arbete och ständigt förbättras. För detta ändamål abstraherar FedML kärntränaren och aggregatorn och förser användare med två abstrakta objekt, FedML.core.ClientTrainer och FedML.core.ServerAggregator, som bara behöver ärva gränssnitten för dessa två abstrakta objekt och skicka dem till FedMLRunner. Sådan anpassning ger ML-utvecklare maximal flexibilitet. Du kan definiera godtyckliga modellstrukturer, optimerare, förlustfunktioner och mer. Dessa anpassningar kan också sömlöst kopplas ihop med öppen källkodsgemenskap, öppen plattform och applikationsekologi som nämnts tidigare med hjälp av FedMLRunner, som helt löser problemet med lång fördröjning från innovativa algoritmer till kommersialisering.

Slutligen, som visas i föregående figur, stöder FedML distribuerade datorprocesser, såsom komplexa säkerhetsprotokoll och distribuerad utbildning som en Directed Acyclic Graph (DAG) flödesberäkningsprocess, vilket gör skrivningen av komplexa protokoll som liknar fristående program. Baserat på denna idé kan säkerhetsprotokollet Flow Layer 1 och ML-algoritmprocessen Flow Layer 2 enkelt separeras så att säkerhetsingenjörer och ML-ingenjörer kan arbeta samtidigt som de bibehåller en modulär arkitektur.

FedML-biblioteket med öppen källkod stöder federerade ML-användningsfall för edge såväl som moln. På kanten underlättar ramverket utbildning och distribution av edge-modeller till mobiltelefoner och internet of things (IoT)-enheter. I molnet möjliggör det globalt samarbetande ML, inklusive multi-Region, och multi-tenant offentliga molnaggregationsservrar, såväl som privat molndistribution i Docker-läge. Ramverket tar itu med viktiga frågor med avseende på integritetsbevarande FL såsom säkerhet, integritet, effektivitet, svag övervakning och rättvisa.

Slutsats

I det här inlägget visade vi hur du kan distribuera FedML-ramverket med öppen källkod på AWS. Detta gör att du kan träna en ML-modell på distribuerad data, utan att behöva dela eller flytta den. Vi sätter upp en arkitektur för flera konton, där organisationer i ett verkligt scenario kan ansluta sig till ekosystemet för att dra nytta av kollaborativt lärande samtidigt som datastyrningen bibehålls. I den nästa inlägg, använder vi eICU-dataset för flera sjukhus för att visa dess effektivitet i ett verkligt scenario.

Vänligen granska presentationen på re:MARS 2022 med fokus på "Managed Federated Learning on AWS: En fallstudie för sjukvård” för en detaljerad genomgång av denna lösning.

Hänvisning

[1] Kaissis, GA, Makowski, MR, Rückert, D. et al. Säker, integritetsbevarande och federerad maskininlärning inom medicinsk bildbehandling. Nat Mach Intell 2, 305–311 (2020). https://doi.org/10.1038/s42256-020-0186-1
[2] FedML https://fedml.ai

Om författarna

Federated Learning on AWS med FedML: Hälsoanalys utan att dela känslig data – Del 1 PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Olivia Choudhury, PhD, är Senior Partner Solutions Architect på AWS. Hon hjälper partners inom hälso- och livsvetenskapsdomänen att designa, utveckla och skala toppmoderna lösningar som utnyttjar AWS. Hon har en bakgrund inom genomik, hälsovårdsanalys, federerat lärande och maskininlärning som bevarar integritet. Utanför jobbet spelar hon brädspel, målar landskap och samlar på manga.

Vidya Sagar Ravipati är chef på Amazon ML Solutions Lab, där han utnyttjar sin stora erfarenhet av storskaliga distribuerade system och sin passion för maskininlärning för att hjälpa AWS-kunder inom olika branschvertikaler att påskynda deras AI- och molntillämpning. Tidigare var han maskininlärningsingenjör inom Connectivity Services på Amazon som hjälpte till att bygga personaliserings- och förutsägbara underhållsplattformar.

Federated Learning on AWS med FedML: Hälsoanalys utan att dela känslig data – Del 1 PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Wajahat Aziz är en huvudarkitekt för maskininlärning och HPC-lösningar på AWS, där han fokuserar på att hjälpa kunder inom hälso- och sjukvård och biovetenskap att utnyttja AWS-teknologier för att utveckla toppmoderna ML- och HPC-lösningar för en mängd olika användningsfall som läkemedelsutveckling, Kliniska prövningar och maskininlärning som bevarar integritet. Utanför jobbet gillar Wajahat att utforska naturen, vandra och läsa.

Divya Bhargavi är datavetare och vertikal ledare för media och underhållning vid Amazon ML Solutions Lab, där hon löser affärsproblem med högt värde för AWS-kunder med hjälp av maskininlärning. Hon arbetar med bild-/videoförståelse, rekommendationssystem för kunskapsdiagram, användningsfall för prediktiv reklam.

Ujjwal Ratan är ledare för AI/ML och Data Science i AWS Healthcare and Life Science Business Unit och är också en Principal AI/ML Solutions Architect. Under åren har Ujjwal varit en tankeledare inom hälso- och biovetenskapsbranschen och hjälpt flera Global Fortune 500-organisationer att nå sina innovationsmål genom att använda maskininlärning. Hans arbete med analys av medicinsk bildbehandling, ostrukturerad klinisk text och genomik har hjälpt AWS att bygga produkter och tjänster som tillhandahåller mycket personlig och exakt riktad diagnostik och terapi. På fritiden tycker han om att lyssna på (och spela) musik och göra oplanerade roadtrips med sin familj.

Federated Learning on AWS med FedML: Hälsoanalys utan att dela känslig data – Del 1 PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Chaoyang He är medgrundare och CTO för FedML, Inc., en startup som driver en gemenskapsbyggande öppen och samarbetande AI från var som helst i vilken skala som helst. Hans forskning fokuserar på distribuerade/federerade maskininlärningsalgoritmer, system och applikationer. Han fick sin Ph.D. i datavetenskap från University of Southern California, Los Angeles, USA.

Federated Learning on AWS med FedML: Hälsoanalys utan att dela känslig data – Del 1 PlatoBlockchain Data Intelligence. Vertikal sökning. Ai. Salman Avestimehr är professor, tillträdande chef för USC-Amazon Center for Secure and Trusted Machine Learning (Trusted AI), och chef för forskningslabbet Information Theory and Machine Learning (vITAL) vid Electrical and Computer Engineering Department och Computer Science Department of University of Southern California. Han är också medgrundare och VD för FedML. Han fick min doktorsexamen. i elektroteknik och datavetenskap från UC Berkeley 2008. Hans forskning fokuserar på områdena informationsteori, decentraliserad och federerad maskininlärning, säker och integritetsbevarande inlärning och datoranvändning.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
Platoblockchain. Web3 Metaverse Intelligence. Kunskap förstärkt. Tillgång här.
Källa: https://aws.amazon.com/blogs/machine-learning/part-1-federated-learning-on-aws-with-fedml-health-analytics-without-sharing-sensitive-data/

Tidsstämpel: Januari 13, 2023

Tidsstämpel: Mar 1, 2022

Återutgiven av Platon

Bygg flexibla och skalbara distribuerade utbildningsarkitekturer med Kubeflow på AWS och Amazon SageMaker

Trimma ML-modeller för ytterligare mål som rättvisa med SageMaker Automatic Model Tuning

Designmönster för seriell slutledning på Amazon SageMaker

Tillhandahålla och hantera ML-miljöer med Amazon SageMaker Canvas med AWS CDK och AWS Service Catalog

Anomalidetektering med Amazon SageMaker Edge Manager med AWS IoT Greengrass V2

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto