Apprendimento federato su AWS con FedML: analisi sanitaria senza condividere dati sensibili

Ripubblicato da Platone

Seguaci: 0

Questo post sul blog è stato scritto in collaborazione con Chaoyang He e Salman Avestimehr di FedML.

L'analisi dei dati sanitari e delle scienze della vita (HCLS) del mondo reale pone diverse sfide pratiche, come silos di dati distribuiti, mancanza di dati sufficienti in ogni singolo sito per eventi rari, linee guida normative che vietano la condivisione dei dati, requisiti infrastrutturali e costi sostenuti per la creazione un archivio dati centralizzato. Poiché si trovano in un dominio altamente regolamentato, i partner e i clienti di HCLS cercano meccanismi di tutela della privacy per gestire e analizzare dati sensibili, distribuiti e su larga scala.

Per mitigare queste sfide, proponiamo di utilizzare un framework di apprendimento federato (FL) open source chiamato FedML, che consente di analizzare i dati sensibili di HCLS addestrando un modello di machine learning globale da dati distribuiti conservati localmente in diversi siti. FL non richiede lo spostamento o la condivisione dei dati tra i siti o con un server centralizzato durante il processo di addestramento del modello.

In questa serie in due parti, dimostriamo come distribuire un framework FL basato su cloud su AWS. Nel primo post, abbiamo descritto i concetti FL e il framework FedML. Nel secondo post, presentiamo i casi d'uso e il set di dati per dimostrarne l'efficacia nell'analisi di set di dati sanitari del mondo reale, come il dati eICU, che comprende un database di terapia intensiva multicentrico raccolto da oltre 200 ospedali.

sfondo

Sebbene il volume dei dati generati da HCLS non sia mai stato così grande, le sfide ei vincoli associati all'accesso a tali dati ne limitano l'utilità per la ricerca futura. L'apprendimento automatico (ML) offre l'opportunità di affrontare alcune di queste preoccupazioni e viene adottato per far progredire l'analisi dei dati e ricavare approfondimenti significativi da diversi dati HCLS per casi d'uso come erogazione di cure, supporto decisionale clinico, medicina di precisione, triage e diagnosi e malattie croniche gestione delle cure. Poiché gli algoritmi ML spesso non sono adeguati per proteggere la privacy dei dati a livello di paziente, c'è un crescente interesse tra i partner e i clienti di HCLS a utilizzare meccanismi e infrastrutture di tutela della privacy per la gestione e l'analisi di dati sensibili, distribuiti e su larga scala. [1]

Abbiamo sviluppato un framework FL su AWS che consente di analizzare i dati sanitari distribuiti e sensibili nel rispetto della privacy. Implica l'addestramento di un modello ML condiviso senza spostare o condividere i dati tra i siti o con un server centralizzato durante il processo di addestramento del modello e può essere implementato su più account AWS. I partecipanti possono scegliere di mantenere i propri dati nei propri sistemi locali o in un account AWS che controllano. Pertanto, porta l'analisi ai dati, piuttosto che spostare i dati nell'analisi.

In questo post, abbiamo mostrato come distribuire il framework FedML open source su AWS. Testiamo il framework sui dati eICU, un database multicentrico di terapia intensiva raccolto da oltre 200 ospedali, per prevedere la mortalità dei pazienti in ospedale. Possiamo utilizzare questo framework FL per analizzare altri set di dati, inclusi i dati genomici e delle scienze della vita. Può anche essere adottato da altri domini che sono pieni di dati distribuiti e sensibili, compresi i settori della finanza e dell'istruzione.

Apprendimento federato

I progressi tecnologici hanno portato a una crescita esplosiva dei dati in tutti i settori, tra cui HCLS. Le organizzazioni HCLS spesso archiviano i dati in silos. Ciò rappresenta una sfida importante nell'apprendimento basato sui dati, che richiede grandi set di dati per generalizzare bene e raggiungere il livello di prestazioni desiderato. Inoltre, la raccolta, la cura e la manutenzione di set di dati di alta qualità richiedono tempi e costi significativi.

L'apprendimento federato mitiga queste sfide formando in modo collaborativo modelli ML che utilizzano dati distribuiti, senza la necessità di condividerli o centralizzarli. Consente di rappresentare diversi siti all'interno del modello finale, riducendo il potenziale rischio di bias basato sul sito. Il framework segue un'architettura client-server, in cui il server condivide un modello globale con i client. I client addestrano il modello in base a dati locali e condividono parametri (come gradienti o pesi del modello) con il server. Il server aggrega questi parametri per aggiornare il modello globale, che viene quindi condiviso con i client per il prossimo ciclo di formazione, come mostrato nella figura seguente. Questo processo iterativo di addestramento del modello continua finché il modello globale non converge.

Processo iterativo di addestramento del modello

Negli ultimi anni, questo nuovo paradigma di apprendimento è stato adottato con successo per affrontare il problema della governance dei dati nell'addestramento dei modelli ML. Uno di questi sforzi è MELLODDY, un consorzio guidato dall'Innovative Medicines Initiative (IMI), alimentato da AWS. Si tratta di un programma triennale che coinvolge 3 aziende farmaceutiche, 10 istituzioni accademiche e 2 partner tecnologici. Il suo obiettivo principale è sviluppare un framework FL multi-task per migliorare le prestazioni predittive e l'applicabilità chimica dei modelli basati sulla scoperta di farmaci. La piattaforma comprende più account AWS, con ciascun partner farmaceutico che mantiene il pieno controllo dei rispettivi account per mantenere i propri set di dati privati e un account ML centrale che coordina le attività di addestramento del modello.

Il consorzio ha addestrato modelli su miliardi di punti dati, costituiti da oltre 20 milioni di piccole molecole in oltre 40,000 analisi biologiche. Sulla base dei risultati sperimentali, i modelli collaborativi hanno dimostrato un miglioramento del 4% nella classificazione delle molecole come farmacologicamente o tossicologicamente attive o inattive. Ha anche portato a un aumento del 10% nella sua capacità di produrre previsioni sicure quando applicato a nuovi tipi di molecole. Infine, i modelli collaborativi erano in genere migliori del 2% nella stima dei valori delle attività tossicologiche e farmacologiche.

FedML

FedML è una libreria open source per facilitare lo sviluppo di algoritmi FL. Supporta tre paradigmi informatici: formazione su dispositivo per dispositivi edge, calcolo distribuito e simulazione di una singola macchina. Offre inoltre una ricerca algoritmica diversificata con un design API flessibile e generico e implementazioni di base di riferimento complete (ottimizzatore, modelli e set di dati). Per una descrizione dettagliata della libreria FedML, fare riferimento a FedML.

La figura seguente presenta l'architettura della libreria open source di FedML.

Architettura della libreria open source di FedML

Come mostrato nella figura precedente, dal punto di vista dell'applicazione, FedML protegge i dettagli del codice sottostante e le configurazioni complesse dell'addestramento distribuito. A livello di applicazione, come la visione artificiale, l'elaborazione del linguaggio naturale e il data mining, i data scientist e gli ingegneri devono solo scrivere il modello, i dati e il trainer nello stesso modo di un programma autonomo e quindi passarlo all'oggetto FedMLRunner per completare tutti i processi, come mostrato nel codice seguente. Ciò riduce notevolmente l'overhead per gli sviluppatori di applicazioni per eseguire FL.

import fedml
from my_model_trainer import MyModelTrainer
from my_server_aggregator import MyServerAggregator
from fedml import FedMLRunner if __name__ == "__main__":
# init FedML framework
args = fedml.init() # init device
device = fedml.device.get_device(args) # load data
dataset, output_dim = fedml.data.load(args) # load model
model = fedml.model.create(args, output_dim) # my customized trainer and aggregator
trainer = MyModelTrainer(model, args)
aggregator = MyServerAggregator(model, args) # start training
fedml_runner = FedMLRunner(args, device, dataset, model, trainer, aggregator)
fedml_runner.run()

L'algoritmo FedML è ancora un work in progress e viene costantemente migliorato. A tal fine, FedML astrae il core trainer e l'aggregatore e fornisce agli utenti due oggetti astratti, FedML.core.ClientTrainer ed FedML.core.ServerAggregator, che devono solo ereditare le interfacce di questi due oggetti astratti e passarle a FedMLRunner. Tale personalizzazione offre agli sviluppatori ML la massima flessibilità. Puoi definire strutture di modello arbitrarie, ottimizzatori, funzioni di perdita e altro ancora. Queste personalizzazioni possono anche essere collegate senza soluzione di continuità con la comunità open source, la piattaforma aperta e l'ecologia delle applicazioni menzionate in precedenza con l'aiuto di FedMLRunner, che risolve completamente il problema del lungo ritardo dagli algoritmi innovativi alla commercializzazione.

Infine, come mostrato nella figura precedente, FedML supporta processi di elaborazione distribuiti, come protocolli di sicurezza complessi e formazione distribuita come processo di elaborazione del flusso Directed Acyclic Graph (DAG), rendendo la scrittura di protocolli complessi simile ai programmi autonomi. Sulla base di questa idea, il protocollo di sicurezza Flow Layer 1 e il processo dell'algoritmo ML Flow Layer 2 possono essere facilmente separati in modo che gli ingegneri della sicurezza e gli ingegneri ML possano operare mantenendo un'architettura modulare.

La libreria open source FedML supporta casi d'uso ML federati per edge e cloud. Nell'edge, il framework facilita la formazione e l'implementazione di modelli edge su telefoni cellulari e dispositivi Internet of Things (IoT). Nel cloud, consente il ML collaborativo globale, inclusi i server di aggregazione del cloud pubblico multi-regione e multi-tenant, nonché l'implementazione del cloud privato in modalità Docker. Il framework affronta le preoccupazioni chiave per quanto riguarda la FL che preserva la privacy come sicurezza, privacy, efficienza, supervisione debole ed equità.

Conclusione

In questo post, abbiamo mostrato come distribuire il framework FedML open source su AWS. Ciò consente di addestrare un modello ML su dati distribuiti, senza la necessità di condividerlo o spostarlo. Abbiamo creato un'architettura multi-account in cui, in uno scenario reale, le organizzazioni possono unirsi all'ecosistema per beneficiare dell'apprendimento collaborativo mantenendo la governance dei dati. Nel prossimo post, utilizziamo il set di dati eICU multi-ospedaliero per dimostrarne l'efficacia in uno scenario reale.

Si prega di rivedere la presentazione a re:MARS 2022 incentrata su "Managed Federated Learning su AWS: un caso di studio per l'assistenza sanitaria” per una procedura dettagliata di questa soluzione.

Riferimento

[1] Kaissis, GA, Makowski, MR, Rückert, D. et al. Machine learning sicuro, rispettoso della privacy e federato nell'imaging medicale. Nat Mach Intell 2, 305–311 (2020). https://doi.org/10.1038/s42256-020-0186-1
[2] FedML https://fedml.ai

Informazioni sugli autori

Apprendimento federato su AWS con FedML: analisi sanitaria senza condivisione di dati sensibili – Parte 1 PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Olivia Choudhury, PhD, è Senior Partner Solutions Architect presso AWS. Aiuta i partner, nel settore Healthcare e Life Sciences, a progettare, sviluppare e scalare soluzioni all'avanguardia sfruttando AWS. Ha un background in genomica, analisi sanitaria, apprendimento federato e apprendimento automatico per la tutela della privacy. Al di fuori del lavoro, gioca a giochi da tavolo, dipinge paesaggi e colleziona manga.

Vidya Sagar Ravipati è Manager presso il Laboratorio di soluzioni Amazon ML, dove sfrutta la sua vasta esperienza nei sistemi distribuiti su larga scala e la sua passione per il machine learning per aiutare i clienti AWS in diversi settori verticali ad accelerare la loro adozione di intelligenza artificiale e cloud. In precedenza, era un ingegnere di machine learning nei servizi di connettività presso Amazon che ha contribuito a creare piattaforme di personalizzazione e manutenzione predittiva.

Apprendimento federato su AWS con FedML: analisi sanitaria senza condivisione di dati sensibili – Parte 1 PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Wajahat Aziz è Principal Machine Learning e HPC Solutions Architect presso AWS, dove si concentra sull'aiutare i clienti del settore sanitario e delle scienze della vita a sfruttare le tecnologie AWS per lo sviluppo di soluzioni ML e HPC all'avanguardia per un'ampia varietà di casi d'uso come lo sviluppo di farmaci, Sperimentazioni cliniche e apprendimento automatico a tutela della privacy. Al di fuori del lavoro, a Wajahat piace esplorare la natura, fare escursioni e leggere.

Divya Bhargavi è Data Scientist e Media and Entertainment Vertical Lead presso l'Amazon ML Solutions Lab, dove risolve problemi aziendali di alto valore per i clienti AWS utilizzando Machine Learning. Si occupa di comprensione di immagini/video, sistemi di raccomandazione di grafici di conoscenza, casi d'uso di pubblicità predittiva.

Ujjwal Ratan è il leader per AI/ML e Data Science nella Business Unit AWS Healthcare and Life Science ed è anche Principal AI/ML Solutions Architect. Nel corso degli anni, Ujjwal è stato un leader di pensiero nel settore sanitario e delle scienze della vita, aiutando diverse organizzazioni Global Fortune 500 a raggiungere i propri obiettivi di innovazione adottando l'apprendimento automatico. Il suo lavoro che coinvolge l'analisi dell'imaging medico, del testo clinico non strutturato e della genomica ha aiutato AWS a creare prodotti e servizi che forniscono diagnostica e terapeutica altamente personalizzate e mirate. Nel tempo libero ama ascoltare (e suonare) musica e fare viaggi imprevisti con la sua famiglia.

Apprendimento federato su AWS con FedML: analisi sanitaria senza condivisione di dati sensibili – Parte 1 PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Chaoyang He è co-fondatore e CTO di FedML, Inc., una startup in corsa per una comunità che costruisce un'IA aperta e collaborativa da qualsiasi luogo e su qualsiasi scala. La sua ricerca si concentra su algoritmi, sistemi e applicazioni di machine learning distribuiti/federati. Ha conseguito il dottorato di ricerca. in Informatica dal University of Southern California, Los Angeles, Stati Uniti.

Apprendimento federato su AWS con FedML: analisi sanitaria senza condivisione di dati sensibili – Parte 1 PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Salman Avestimehr è professore, direttore inaugurale dell'USC-Amazon Center for Secure and Trusted Machine Learning (Trusted AI) e direttore del laboratorio di ricerca di teoria dell'informazione e apprendimento automatico (vITAL) presso il dipartimento di ingegneria elettrica e informatica e il dipartimento di informatica di Università della California del Sud. È anche co-fondatore e CEO di FedML. Ha ricevuto il mio dottorato di ricerca. in Ingegneria elettrica e Scienze informatiche presso la UC Berkeley nel 2008. La sua ricerca si concentra sulle aree della teoria dell'informazione, dell'apprendimento automatico decentralizzato e federato, dell'apprendimento e dell'informatica sicuri e rispettosi della privacy.