Gefedereerd leren over AWS met FedML: gezondheidsanalyse zonder gevoelige gegevens te delen

Heruitgegeven door Plato

volgers: 0

Deze blogpost is geschreven in samenwerking met Chaoyang He en Salman Avestimehr van FedML.

Het analyseren van real-world healthcare and life sciences (HCLS)-gegevens brengt verschillende praktische uitdagingen met zich mee, zoals gedistribueerde gegevenssilo's, gebrek aan voldoende gegevens op een enkele locatie voor zeldzame gebeurtenissen, wettelijke richtlijnen die het delen van gegevens verbieden, vereiste infrastructuur en kosten die worden gemaakt bij het maken van een gecentraliseerde databank. Omdat ze zich in een sterk gereguleerd domein bevinden, zoeken HCLS-partners en klanten naar privacybeschermende mechanismen om grootschalige, gedistribueerde en gevoelige gegevens te beheren en te analyseren.

Om deze uitdagingen het hoofd te bieden, stellen we voor om een open-source federated learning (FL)-framework te gebruiken, genaamd FedML, waarmee u gevoelige HCLS-gegevens kunt analyseren door een wereldwijd machine learning-model te trainen op basis van gedistribueerde gegevens die lokaal op verschillende locaties worden bewaard. FL vereist geen verplaatsing of het delen van gegevens tussen sites of met een gecentraliseerde server tijdens het modeltrainingsproces.

In deze tweedelige serie laten we zien hoe u een cloudgebaseerd FL-framework op AWS kunt implementeren. In het eerste bericht hebben we FL-concepten en het FedML-framework beschreven. In de tweede bericht, presenteren we de use cases en dataset om de doeltreffendheid ervan aan te tonen bij het analyseren van real-world gezondheidszorgdatasets, zoals de eICU-gegevens, die bestaat uit een multi-center database voor kritieke zorg, verzameld uit meer dan 200 ziekenhuizen.

Achtergrond

Hoewel het volume van door HCLS gegenereerde gegevens nog nooit zo groot is geweest, beperken de uitdagingen en beperkingen die gepaard gaan met toegang tot dergelijke gegevens het nut ervan voor toekomstig onderzoek. Machine learning (ML) biedt een kans om een aantal van deze problemen aan te pakken en wordt toegepast om data-analyse te bevorderen en zinvolle inzichten te verkrijgen uit diverse HCLS-data voor use cases zoals zorgverlening, klinische besluitvormingsondersteuning, precisiegeneeskunde, triage en diagnose, en chronische zorg beheer. Omdat ML-algoritmen vaak niet adequaat zijn in het beschermen van de privacy van gegevens op patiëntniveau, is er een groeiende interesse onder HCLS-partners en klanten om privacybeschermende mechanismen en infrastructuur te gebruiken voor het beheren en analyseren van grootschalige, gedistribueerde en gevoelige gegevens. [1]

We hebben een FL-framework op AWS ontwikkeld waarmee gedistribueerde en gevoelige gezondheidsgegevens op een privacybeschermende manier kunnen worden geanalyseerd. Het omvat het trainen van een gedeeld ML-model zonder gegevens tussen sites of met een gecentraliseerde server te verplaatsen of te delen tijdens het modeltrainingsproces, en kan worden geïmplementeerd in meerdere AWS-accounts. Deelnemers kunnen ervoor kiezen om hun gegevens te bewaren in hun lokale systemen of in een AWS-account dat ze beheren. Daarom brengt het analyses naar gegevens, in plaats van gegevens naar analyses te verplaatsen.

In dit bericht hebben we laten zien hoe u het open-source FedML-framework op AWS kunt implementeren. We testen het raamwerk op eICU-gegevens, een multicenter-database voor kritieke zorg, verzameld uit meer dan 200 ziekenhuizen, om de mortaliteit van patiënten in het ziekenhuis te voorspellen. We kunnen dit FL-framework gebruiken om andere datasets te analyseren, waaronder genomische en life sciences-gegevens. Het kan ook worden overgenomen door andere domeinen die bol staan van gedistribueerde en gevoelige gegevens, waaronder de financiële en onderwijssector.

Federaal leren

Technologische vooruitgang heeft geleid tot een explosieve groei van gegevens in verschillende sectoren, waaronder HCLS. HCLS-organisaties slaan gegevens vaak op in silo's. Dit vormt een grote uitdaging bij datagestuurd leren, waarvoor grote datasets nodig zijn om goed te generaliseren en het gewenste prestatieniveau te bereiken. Bovendien kost het verzamelen, cureren en onderhouden van hoogwaardige datasets veel tijd en geld.

Federated learning lost deze uitdagingen op door gezamenlijk ML-modellen te trainen die gebruikmaken van gedistribueerde gegevens, zonder dat ze hoeven te worden gedeeld of gecentraliseerd. Hierdoor kunnen diverse sites worden weergegeven in het uiteindelijke model, waardoor het potentiële risico op site-based bias wordt verkleind. Het raamwerk volgt een client-serverarchitectuur, waarbij de server een globaal model deelt met de clients. De clients trainen het model op basis van lokale gegevens en delen parameters (zoals hellingen of modelgewichten) met de server. De server verzamelt deze parameters om het globale model bij te werken, dat vervolgens wordt gedeeld met de clients voor de volgende trainingsronde, zoals weergegeven in de volgende afbeelding. Dit iteratieve proces van modeltraining gaat door totdat het globale model convergeert.

Iteratief proces van modeltraining

In de afgelopen jaren is dit nieuwe leerparadigma met succes toegepast om de bezorgdheid over gegevensbeheer bij het trainen van ML-modellen aan te pakken. Een van die inspanningen is MELLODDY, een door Innovative Medicines Initiative (IMI) geleid consortium, mogelijk gemaakt door AWS. Het is een 3-jarig programma waarbij 10 farmaceutische bedrijven, 2 academische instellingen en 3 technologiepartners betrokken zijn. Het primaire doel is het ontwikkelen van een multi-task FL-raamwerk om de voorspellende prestaties en chemische toepasbaarheid van op medicijnontdekking gebaseerde modellen te verbeteren. Het platform omvat meerdere AWS-accounts, waarbij elke farmaceutische partner de volledige controle behoudt over hun respectieve accounts om hun privédatasets te onderhouden, en een centraal ML-account dat de modeltrainingstaken coördineert.

Het consortium trainde modellen op miljarden datapunten, bestaande uit meer dan 20 miljoen kleine moleculen in meer dan 40,000 biologische assays. Op basis van experimentele resultaten lieten de collaboratieve modellen een verbetering van 4% zien in het categoriseren van moleculen als farmacologisch of toxicologisch actief of inactief. Het leidde ook tot een toename van 10% in het vermogen om zelfverzekerde voorspellingen te doen bij toepassing op nieuwe soorten moleculen. Ten slotte waren de collaboratieve modellen doorgaans 2% beter in het schatten van de waarden van toxicologische en farmacologische activiteiten.

FedML

FedML is een open-sourcebibliotheek om de ontwikkeling van FL-algoritmen te vergemakkelijken. Het ondersteunt drie computerparadigma's: training op het apparaat voor edge-apparaten, gedistribueerd computergebruik en simulatie van één machine. Het biedt ook divers algoritmisch onderzoek met flexibel en generiek API-ontwerp en uitgebreide referentie-baseline-implementaties (optimizer, modellen en datasets). Voor een gedetailleerde beschrijving van de FedML-bibliotheek, zie FedML.

De volgende afbeelding toont de open-source bibliotheekarchitectuur van FedML.

Open-source bibliotheekarchitectuur van FedML

Zoals te zien is in de voorgaande afbeelding, beschermt FedML vanuit het oogpunt van de toepassing details van de onderliggende code en complexe configuraties van gedistribueerde training. Op toepassingsniveau, zoals computervisie, natuurlijke taalverwerking en datamining, hoeven datawetenschappers en ingenieurs alleen het model, de gegevens en de trainer op dezelfde manier te schrijven als een op zichzelf staand programma en het vervolgens door te geven aan het FedMLRunner-object om voltooi alle processen, zoals weergegeven in de volgende code. Dit vermindert de overhead voor toepassingsontwikkelaars aanzienlijk om FL uit te voeren.

import fedml
from my_model_trainer import MyModelTrainer
from my_server_aggregator import MyServerAggregator
from fedml import FedMLRunner if __name__ == "__main__":
# init FedML framework
args = fedml.init() # init device
device = fedml.device.get_device(args) # load data
dataset, output_dim = fedml.data.load(args) # load model
model = fedml.model.create(args, output_dim) # my customized trainer and aggregator
trainer = MyModelTrainer(model, args)
aggregator = MyServerAggregator(model, args) # start training
fedml_runner = FedMLRunner(args, device, dataset, model, trainer, aggregator)
fedml_runner.run()

Het FedML-algoritme is nog steeds een work in progress en wordt voortdurend verbeterd. Daartoe abstraheert FedML de kerntrainer en aggregator en biedt gebruikers twee abstracte objecten, FedML.core.ClientTrainer en FedML.core.ServerAggregator, die alleen de interfaces van deze twee abstracte objecten hoeven te erven en ze door te geven aan FedMLRunner. Dergelijke aanpassingen bieden ML-ontwikkelaars maximale flexibiliteit. U kunt willekeurige modelstructuren, optimizers, verliesfuncties en meer definiëren. Deze aanpassingen kunnen ook naadloos worden verbonden met de eerder genoemde open-sourcecommunity, open platform en applicatie-ecologie met behulp van FedMLRunner, die het probleem van de lange vertraging van innovatieve algoritmen tot commercialisering volledig oplost.

Ten slotte ondersteunt FedML, zoals weergegeven in de voorgaande afbeelding, gedistribueerde computerprocessen, zoals complexe beveiligingsprotocollen en gedistribueerde training als een Directed Acyclic Graph (DAG) flow computing-proces, waardoor het schrijven van complexe protocollen vergelijkbaar is met zelfstandige programma's. Op basis van dit idee kunnen het beveiligingsprotocol Flow Layer 1 en het ML-algoritmeproces Flow Layer 2 eenvoudig worden gescheiden, zodat beveiligingsengineers en ML-engineers kunnen werken met behoud van een modulaire architectuur.

De open-sourcebibliotheek van FedML ondersteunt gefedereerde ML-use-cases voor zowel edge als cloud. Aan de edge vergemakkelijkt het framework de training en implementatie van edge-modellen op mobiele telefoons en Internet of Things (IoT)-apparaten. In de cloud maakt het wereldwijde collaboratieve ML mogelijk, inclusief multi-regionale en multi-tenant public cloud-aggregatieservers, evenals private cloud-implementatie in Docker-modus. Het raamwerk pakt de belangrijkste zorgen aan met betrekking tot privacybehoud, zoals beveiliging, privacy, efficiëntie, zwak toezicht en eerlijkheid.

Conclusie

In dit bericht hebben we laten zien hoe u het open-source FedML-framework op AWS kunt implementeren. Hierdoor kunt u een ML-model trainen op gedistribueerde gegevens, zonder dat u deze hoeft te delen of te verplaatsen. We hebben een architectuur met meerdere accounts opgezet, waar organisaties in de praktijk kunnen toetreden tot het ecosysteem om te profiteren van samenwerkend leren terwijl ze gegevensbeheer behouden. In de volgende post, gebruiken we de multi-ziekenhuis eICU-dataset om de effectiviteit ervan aan te tonen in een real-world scenario.

Bekijk de presentatie op re:MARS 2022 gericht op “Managed Federated Learning op AWS: een casestudy voor de gezondheidszorg” voor een gedetailleerde uitleg van deze oplossing.

Referentie

[1] Kaissis, GA, Makowski, MR, Rückert, D. et al. Veilige, privacybehoudende en gefedereerde machine learning in medische beeldvorming. Nat Mach Intell 2, 305-311 (2020). https://doi.org/10.1038/s42256-020-0186-1
[2] FedML https://fedml.ai

Over de auteurs

Federated Learning over AWS met FedML: gezondheidsanalyses zonder gevoelige gegevens te delen – Deel 1 PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Olivia Choudhury, PhD, is een Senior Partner Solutions Architect bij AWS. Ze helpt partners in het domein van de gezondheidszorg en de levenswetenschappen bij het ontwerpen, ontwikkelen en schalen van state-of-the-art oplossingen die gebruikmaken van AWS. Ze heeft een achtergrond in genomics, gezondheidszorganalyse, gefedereerd leren en privacybeschermende machine learning. Buiten haar werk speelt ze bordspellen, schildert ze landschappen en verzamelt ze manga.

Vidya Sagar Ravipati is manager bij de Amazon ML Solutions-lab, waar hij gebruikmaakt van zijn uitgebreide ervaring in grootschalige gedistribueerde systemen en zijn passie voor machine learning om AWS-klanten in verschillende branche-branches te helpen hun AI- en cloud-acceptatie te versnellen. Eerder was hij Machine Learning Engineer in Connectivity Services bij Amazon, die hielp bij het bouwen van personalisatie- en voorspellende onderhoudsplatforms.

Federated Learning over AWS met FedML: gezondheidsanalyses zonder gevoelige gegevens te delen – Deel 1 PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Wajahat Aziz is een Principal Machine Learning en HPC Solutions Architect bij AWS, waar hij zich richt op het helpen van klanten in de gezondheidszorg en life sciences om AWS-technologieën te benutten voor het ontwikkelen van ultramoderne ML- en HPC-oplossingen voor een breed scala aan use cases, zoals medicijnontwikkeling, Klinische proeven en privacybehoud door machinaal leren. Buiten zijn werk verkent Wajahat graag de natuur, wandelen en lezen.

Divya Bhargavi is Data Scientist en Media and Entertainment Vertical Lead bij het Amazon ML Solutions Lab, waar ze hoogwaardige zakelijke problemen voor AWS-klanten oplost met behulp van Machine Learning. Ze werkt aan het begrijpen van afbeeldingen/video's, aanbevelingssystemen voor kennisgrafieken en gebruiksscenario's voor voorspellende advertenties.

Ujjwal Ratan is de leider voor AI/ML en Data Science in de AWS Healthcare en Life Science Business Unit en is ook een Principal AI/ML Solutions Architect. Door de jaren heen is Ujjwal een toonaangevend leider geweest in de gezondheidszorg en life sciences-industrie en heeft hij meerdere Global Fortune 500-organisaties geholpen hun innovatiedoelen te bereiken door machine learning toe te passen. Zijn werk met de analyse van medische beeldvorming, ongestructureerde klinische tekst en genomics heeft AWS geholpen bij het bouwen van producten en diensten die zeer gepersonaliseerde en nauwkeurig gerichte diagnostiek en therapieën bieden. In zijn vrije tijd luistert (en speelt) hij graag naar muziek en maakt hij graag ongeplande roadtrips met zijn gezin.

Federated Learning over AWS met FedML: gezondheidsanalyses zonder gevoelige gegevens te delen – Deel 1 PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Chaoyang Hij is mede-oprichter en CTO van FedML, Inc., een start-up die zich inzet voor een community die overal en op elke schaal open en collaboratieve AI bouwt. Zijn onderzoek richt zich op gedistribueerde/gefedereerde algoritmen, systemen en toepassingen voor machine learning. Hij behaalde zijn Ph.D. in de informatica van de University of Southern California, Los Angeles, VS.

Federated Learning over AWS met FedML: gezondheidsanalyses zonder gevoelige gegevens te delen – Deel 1 PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai. Salman Avesttimehr is professor, de inaugurele directeur van het USC-Amazon Center for Secure and Trusted Machine Learning (Trusted AI), en de directeur van het onderzoekslaboratorium Information Theory and Machine Learning (vITAL) bij de afdeling Electrical and Computer Engineering en Computer Science Department van Universiteit van zuid Californië. Hij is ook de mede-oprichter en CEO van FedML. Hij ontving mijn Ph.D. in Electrical Engineering and Computer Sciences van UC Berkeley in 2008. Zijn onderzoek richt zich op de gebieden informatietheorie, gedecentraliseerd en gefedereerd machinaal leren, veilig en privacybeschermend leren en computergebruik.

Door SEO aangedreven content en PR-distributie. Word vandaag nog versterkt.
Platoblockchain. Web3 Metaverse Intelligentie. Kennis versterkt. Toegang hier.
Bron: https://aws.amazon.com/blogs/machine-learning/part-1-federated-learning-on-aws-with-fedml-health-analytics-without-sharing-sensitive-data/

Tijdstempel: 13 januari 2023

Tijdstempel: 1-2022-XNUMX

Heruitgegeven door Plato

Bouw flexibele en schaalbare gedistribueerde trainingsarchitecturen met Kubeflow op AWS en Amazon SageMaker

Stem ML-modellen af voor aanvullende doelstellingen zoals eerlijkheid met SageMaker Automatic Model Tuning

Ontwerppatronen voor seriële gevolgtrekking op Amazon SageMaker

Inrichten en beheren van ML-omgevingen met Amazon SageMaker Canvas met behulp van AWS CDK en AWS Service Catalog

Anomaliedetectie met Amazon SageMaker Edge Manager met AWS IoT Greengrass V2

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account