Apprentissage fédéré sur AWS avec FedML : analyse de santé sans partage de données sensibles

Republié par Platon

Suiveurs: 0

Ce billet de blog est co-écrit avec Chaoyang He et Salman Avestimehr de FedML.

L'analyse des données du monde réel sur les soins de santé et les sciences de la vie (HCLS) pose plusieurs défis pratiques, tels que les silos de données distribués, le manque de données suffisantes sur un seul site pour les événements rares, les directives réglementaires qui interdisent le partage de données, les exigences en matière d'infrastructure et les coûts encourus pour créer un référentiel de données centralisé. Parce qu'ils se trouvent dans un domaine hautement réglementé, les partenaires et clients HCLS recherchent des mécanismes de préservation de la vie privée pour gérer et analyser des données à grande échelle, distribuées et sensibles.

Pour atténuer ces défis, nous proposons d'utiliser un cadre d'apprentissage fédéré (FL) open-source appelé FedML, qui vous permet d'analyser des données HCLS sensibles en formant un modèle global d'apprentissage automatique à partir de données distribuées détenues localement sur différents sites. FL ne nécessite pas de déplacer ou de partager des données entre les sites ou avec un serveur centralisé pendant le processus de formation du modèle.

Dans cette série en deux parties, nous montrons comment vous pouvez déployer un framework FL basé sur le cloud sur AWS. Dans le premier article, nous avons décrit les concepts FL et le framework FedML. Dans le deuxième message, nous présentons les cas d'utilisation et l'ensemble de données pour montrer son efficacité dans l'analyse d'ensembles de données de soins de santé réels, tels que le Données eICU, qui comprend une base de données multicentrique sur les soins intensifs collectée dans plus de 200 hôpitaux.

Contexte

Bien que le volume de données générées par HCLS n'ait jamais été aussi important, les défis et les contraintes associés à l'accès à ces données limitent leur utilité pour les recherches futures. L'apprentissage automatique (ML) offre une opportunité de répondre à certaines de ces préoccupations et est adopté pour faire progresser l'analyse des données et tirer des informations significatives de diverses données HCLS pour des cas d'utilisation tels que la prestation de soins, l'aide à la décision clinique, la médecine de précision, le triage et le diagnostic, et chronique gestion des soins. Étant donné que les algorithmes ML ne sont souvent pas adéquats pour protéger la confidentialité des données au niveau des patients, les partenaires et clients HCLS s'intéressent de plus en plus à l'utilisation de mécanismes et d'infrastructures de préservation de la confidentialité pour gérer et analyser des données à grande échelle, distribuées et sensibles. [1]

Nous avons développé un framework FL sur AWS qui permet d'analyser les données de santé distribuées et sensibles tout en préservant la confidentialité. Cela implique la formation d'un modèle ML partagé sans déplacer ou partager des données entre les sites ou avec un serveur centralisé pendant le processus de formation du modèle, et peut être mis en œuvre sur plusieurs comptes AWS. Les participants peuvent choisir de conserver leurs données dans leurs systèmes sur site ou dans un compte AWS qu'ils contrôlent. Par conséquent, il apporte l'analyse aux données, plutôt que de déplacer les données vers l'analyse.

Dans cet article, nous avons montré comment vous pouvez déployer le framework FedML open-source sur AWS. Nous testons le cadre sur les données eICU, une base de données multicentrique sur les soins intensifs collectée dans plus de 200 hôpitaux, pour prédire la mortalité des patients hospitalisés. Nous pouvons utiliser ce cadre FL pour analyser d'autres ensembles de données, y compris des données génomiques et des sciences de la vie. Il peut également être adopté par d'autres domaines qui regorgent de données distribuées et sensibles, notamment les secteurs de la finance et de l'éducation.

Apprentissage fédéré

Les progrès technologiques ont entraîné une croissance explosive des données dans tous les secteurs, y compris HCLS. Les organisations HCLS stockent souvent les données dans des silos. Cela pose un défi majeur dans l'apprentissage basé sur les données, qui nécessite de grands ensembles de données pour bien généraliser et atteindre le niveau de performance souhaité. De plus, la collecte, la conservation et la maintenance d'ensembles de données de haute qualité nécessitent un temps et des coûts importants.

L'apprentissage fédéré atténue ces défis en formant en collaboration des modèles ML qui utilisent des données distribuées, sans qu'il soit nécessaire de les partager ou de les centraliser. Il permet à divers sites d'être représentés dans le modèle final, réduisant ainsi le risque potentiel de biais basé sur le site. Le framework suit une architecture client-serveur, où le serveur partage un modèle global avec les clients. Les clients entraînent le modèle sur la base de données locales et partagent des paramètres (tels que des gradients ou des poids de modèle) avec le serveur. Le serveur agrège ces paramètres pour mettre à jour le modèle global, qui est ensuite partagé avec les clients pour le prochain cycle de formation, comme illustré dans la figure suivante. Ce processus itératif de formation de modèle se poursuit jusqu'à ce que le modèle global converge.

Processus itératif de formation de modèles

Ces dernières années, ce nouveau paradigme d'apprentissage a été adopté avec succès pour répondre à la préoccupation de la gouvernance des données dans la formation des modèles ML. Un tel effort est MELLODDY, un consortium dirigé par l'Innovative Medicines Initiative (IMI) et propulsé par AWS. Il s'agit d'un programme de 3 ans impliquant 10 sociétés pharmaceutiques, 2 institutions académiques et 3 partenaires technologiques. Son objectif principal est de développer un cadre FL multitâche pour améliorer les performances prédictives et l'applicabilité chimique des modèles basés sur la découverte de médicaments. La plate-forme comprend plusieurs comptes AWS, chaque partenaire pharmaceutique conservant le contrôle total de ses comptes respectifs pour maintenir ses ensembles de données privés, et un compte ML central coordonnant les tâches de formation du modèle.

Le consortium a formé des modèles sur des milliards de points de données, composés de plus de 20 millions de petites molécules dans plus de 40,000 4 tests biologiques. Sur la base des résultats expérimentaux, les modèles collaboratifs ont démontré une amélioration de 10 % dans la catégorisation des molécules comme pharmacologiquement ou toxicologiquement actives ou inactives. Cela a également conduit à une augmentation de 2% de sa capacité à produire des prédictions fiables lorsqu'elle est appliquée à de nouveaux types de molécules. Enfin, les modèles collaboratifs étaient généralement XNUMX % meilleurs pour estimer les valeurs des activités toxicologiques et pharmacologiques.

FedML

FedML est une bibliothèque open-source pour faciliter le développement d'algorithmes FL. Il prend en charge trois paradigmes informatiques : la formation sur appareil pour les appareils de périphérie, l'informatique distribuée et la simulation sur une seule machine. Il propose également diverses recherches algorithmiques avec une conception d'API flexible et générique et des implémentations de base de référence complètes (optimiseur, modèles et ensembles de données). Pour une description détaillée de la bibliothèque FedML, reportez-vous à FedML.

La figure suivante présente l'architecture de la bibliothèque open source de FedML.

Architecture de bibliothèque open source de FedML

Comme le montre la figure précédente, du point de vue de l'application, FedML protège les détails du code sous-jacent et les configurations complexes de la formation distribuée. Au niveau de l'application, comme la vision par ordinateur, le traitement du langage naturel et l'exploration de données, les scientifiques et les ingénieurs des données n'ont qu'à écrire le modèle, les données et le formateur de la même manière qu'un programme autonome, puis le transmettre à l'objet FedMLRunner pour terminez tous les processus, comme indiqué dans le code suivant. Cela réduit considérablement les frais généraux pour les développeurs d'applications pour effectuer FL.

import fedml
from my_model_trainer import MyModelTrainer
from my_server_aggregator import MyServerAggregator
from fedml import FedMLRunner if __name__ == "__main__":
# init FedML framework
args = fedml.init() # init device
device = fedml.device.get_device(args) # load data
dataset, output_dim = fedml.data.load(args) # load model
model = fedml.model.create(args, output_dim) # my customized trainer and aggregator
trainer = MyModelTrainer(model, args)
aggregator = MyServerAggregator(model, args) # start training
fedml_runner = FedMLRunner(args, device, dataset, model, trainer, aggregator)
fedml_runner.run()

L'algorithme FedML est toujours un travail en cours et constamment amélioré. À cette fin, FedML résume l'entraîneur principal et l'agrégateur et fournit aux utilisateurs deux objets abstraits, FedML.core.ClientTrainer ainsi que FedML.core.ServerAggregator, qui n'ont qu'à hériter des interfaces de ces deux objets abstraits et à les transmettre à FedMLRunner. Une telle personnalisation offre aux développeurs ML une flexibilité maximale. Vous pouvez définir des structures de modèle arbitraires, des optimiseurs, des fonctions de perte, etc. Ces personnalisations peuvent également être connectées de manière transparente à la communauté open source, à la plate-forme ouverte et à l'écologie des applications mentionnées précédemment avec l'aide de FedMLRunner, qui résout complètement le problème du long décalage entre les algorithmes innovants et la commercialisation.

Enfin, comme le montre la figure précédente, FedML prend en charge les processus informatiques distribués, tels que les protocoles de sécurité complexes et la formation distribuée en tant que processus de calcul de flux DAG (Directed Acyclic Graph), ce qui rend l'écriture de protocoles complexes similaires à des programmes autonomes. Sur la base de cette idée, le protocole de sécurité Flow Layer 1 et le processus d'algorithme ML Flow Layer 2 peuvent être facilement séparés afin que les ingénieurs en sécurité et les ingénieurs ML puissent fonctionner tout en conservant une architecture modulaire.

La bibliothèque open source FedML prend en charge les cas d'utilisation de ML fédérés pour la périphérie ainsi que le cloud. À la périphérie, le cadre facilite la formation et le déploiement de modèles de périphérie sur les téléphones mobiles et les appareils de l'Internet des objets (IoT). Dans le cloud, il permet un ML collaboratif mondial, y compris des serveurs d'agrégation de cloud public multi-régions et multi-locataires, ainsi qu'un déploiement de cloud privé en mode Docker. Le cadre répond aux principales préoccupations concernant la FL préservant la vie privée, telles que la sécurité, la confidentialité, l'efficacité, la faiblesse de la supervision et l'équité.

Conclusion

Dans cet article, nous avons montré comment vous pouvez déployer le framework FedML open-source sur AWS. Cela vous permet de former un modèle ML sur des données distribuées, sans avoir besoin de les partager ou de les déplacer. Nous avons mis en place une architecture multi-comptes, où dans un scénario réel, les organisations peuvent rejoindre l'écosystème pour bénéficier d'un apprentissage collaboratif tout en maintenant la gouvernance des données. Dans le prochain post, nous utilisons l'ensemble de données eICU multi-hôpitaux pour démontrer son efficacité dans un scénario réel.

Veuillez consulter la présentation à re:MARS 2022 axée sur "Managed Federated Learning sur AWS : une étude de cas pour les soins de santé” pour une présentation détaillée de cette solution.

Référence

[1] Kaissis, GA, Makowski, MR, Rückert, D. et al. Apprentissage automatique sécurisé, préservant la vie privée et fédéré en imagerie médicale. Nat Mach Intelligence 2, 305–311 (2020). https://doi.org/10.1038/s42256-020-0186-1
[2] FedML https://fedml.ai

À propos des auteurs

Apprentissage fédéré sur AWS avec FedML : Analyse de la santé sans partage de données sensibles – Partie 1 PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Olivia Choudhury, PhD, est Senior Partner Solutions Architect chez AWS. Elle aide les partenaires, dans le domaine de la santé et des sciences de la vie, à concevoir, développer et mettre à l'échelle des solutions de pointe tirant parti d'AWS. Elle a une formation en génomique, en analyse des soins de santé, en apprentissage fédéré et en apprentissage automatique préservant la confidentialité. En dehors du travail, elle joue à des jeux de société, peint des paysages et collectionne des mangas.

Vidya Sagar Ravipati est gestionnaire au Laboratoire de solutions Amazon ML, où il met à profit sa vaste expérience des systèmes distribués à grande échelle et sa passion pour l'apprentissage automatique pour aider les clients AWS de différents secteurs verticaux à accélérer leur adoption de l'IA et du cloud. Auparavant, il était ingénieur en apprentissage automatique dans les services de connectivité chez Amazon, qui a aidé à créer des plates-formes de personnalisation et de maintenance prédictive.

Apprentissage fédéré sur AWS avec FedML : Analyse de la santé sans partage de données sensibles – Partie 1 PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Wajahat Aziz est architecte principal de solutions d'apprentissage automatique et HPC chez AWS, où il s'attache à aider les clients des secteurs de la santé et des sciences de la vie à tirer parti des technologies AWS pour développer des solutions ML et HPC de pointe pour une grande variété de cas d'utilisation tels que le développement de médicaments, Essais cliniques et apprentissage automatique préservant la confidentialité. En dehors du travail, Wajahat aime explorer la nature, faire de la randonnée et lire.

Divya Bhargavi est Data Scientist et Media and Entertainment Vertical Lead au Amazon ML Solutions Lab, où elle résout des problèmes commerciaux de grande valeur pour les clients AWS à l'aide de Machine Learning. Elle travaille sur la compréhension des images/vidéos, les systèmes de recommandation de graphes de connaissances, les cas d'utilisation de la publicité prédictive.

Ujjwal Ratan est le leader de l'IA/ML et de la science des données dans l'unité commerciale AWS Healthcare and Life Science et est également un architecte principal des solutions AI/ML. Au fil des ans, Ujjwal a été un leader d'opinion dans l'industrie de la santé et des sciences de la vie, aidant plusieurs organisations Global Fortune 500 à atteindre leurs objectifs d'innovation en adoptant l'apprentissage automatique. Son travail impliquant l'analyse de l'imagerie médicale, du texte clinique non structuré et de la génomique a aidé AWS à créer des produits et des services qui fournissent des diagnostics et des thérapies hautement personnalisés et ciblés avec précision. Pendant son temps libre, il aime écouter (et jouer) de la musique et faire des voyages imprévus avec sa famille.

Apprentissage fédéré sur AWS avec FedML : Analyse de la santé sans partage de données sensibles – Partie 1 PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Chaoyang-il est co-fondateur et CTO de FedML, Inc., une startup fonctionnant pour une communauté qui construit une IA ouverte et collaborative de n'importe où à n'importe quelle échelle. Ses recherches portent sur les algorithmes, les systèmes et les applications d'apprentissage automatique distribués/fédérés. Il a obtenu son doctorat. en informatique de la University of Southern California, Los Angeles, États-Unis.

Apprentissage fédéré sur AWS avec FedML : Analyse de la santé sans partage de données sensibles – Partie 1 PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Salman Avestimehr est professeur, directeur inaugural de l'USC-Amazon Center for Secure and Trusted Machine Learning (Trusted AI) et directeur du laboratoire de recherche sur la théorie de l'information et l'apprentissage automatique (vITAL) au département de génie électrique et informatique et au département d'informatique de Université de Californie du Sud. Il est également co-fondateur et PDG de FedML. Il a obtenu mon doctorat. en génie électrique et en informatique de l'UC Berkeley en 2008. Ses recherches portent sur les domaines de la théorie de l'information, de l'apprentissage automatique décentralisé et fédéré, de l'apprentissage et de l'informatique sécurisés et préservant la confidentialité.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
Platoblockchain. Intelligence métaverse Web3. Connaissance Amplifiée. Accéder ici.
La source: https://aws.amazon.com/blogs/machine-learning/part-1-federated-learning-on-aws-with-fedml-health-analytics-without-sharing-sensitive-data/

Horodatage: 13 janvier 2023

Horodatage: 1 Mar 2022

Republié par Platon

Créez des architectures de formation distribuées flexibles et évolutives à l'aide de Kubeflow sur AWS et Amazon SageMaker

Ajustez les modèles ML pour des objectifs supplémentaires tels que l'équité avec SageMaker Automatic Model Tuning

Modèles de conception pour l'inférence série sur Amazon SageMaker

Provisionnez et gérez les environnements ML avec Amazon SageMaker Canvas à l'aide d'AWS CDK et d'AWS Service Catalog

Détection d'anomalies avec Amazon SageMaker Edge Manager à l'aide d'AWS IoT Greengrass V2

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte