Federated Learning On AWS With FedML: Health Analytics Without Sharing Sensitive Data

Ponovno objavil Platon

Spremljevalci: 0

Ta objava v spletnem dnevniku je napisana skupaj s Chaoyang He in Salmanom Avestimehrom iz FedML.

Analiziranje podatkov v resničnem svetu zdravstvenega varstva in znanosti o življenju (HCLS) predstavlja več praktičnih izzivov, kot so porazdeljeni podatkovni silosi, pomanjkanje zadostnih podatkov na kateri koli posamezni lokaciji za redke dogodke, regulativne smernice, ki prepovedujejo skupno rabo podatkov, infrastrukturne zahteve in stroški, nastali pri ustvarjanju centralizirano skladišče podatkov. Ker so v zelo regulirani domeni, partnerji in stranke HCLS iščejo mehanizme za ohranjanje zasebnosti za upravljanje in analizo obsežnih, porazdeljenih in občutljivih podatkov.

Za ublažitev teh izzivov predlagamo uporabo ogrodja odprtokodnega zveznega učenja (FL), imenovanega FedML, ki vam omogoča analizo občutljivih podatkov HCLS z usposabljanjem globalnega modela strojnega učenja iz porazdeljenih podatkov, ki se hranijo lokalno na različnih mestih. FL ne zahteva premikanja ali deljenja podatkov med spletnimi mesti ali s centraliziranim strežnikom med procesom usposabljanja modela.

V tej dvodelni seriji prikazujemo, kako lahko namestite ogrodje FL v oblaku na AWS. V prvi objavi smo opisali koncepte FL in okvir FedML. V druga objava, predstavljamo primere uporabe in nabor podatkov, da pokažemo njegovo učinkovitost pri analizi naborov podatkov o zdravstvenem varstvu v resničnem svetu, kot je podatki eICU, ki obsega multicentrično bazo podatkov o intenzivni negi, zbrano iz več kot 200 bolnišnic.

Ozadje

Čeprav količina podatkov, ustvarjenih s HCLS, še nikoli ni bila večja, izzivi in omejitve, povezani z dostopom do takih podatkov, omejujejo njihovo uporabnost za prihodnje raziskave. Strojno učenje (ML) predstavlja priložnost za obravnavo nekaterih teh vprašanj in se uporablja za napredek podatkovne analitike in pridobivanje pomembnih vpogledov iz različnih podatkov HCLS za primere uporabe, kot so oskrba, podpora pri kliničnem odločanju, natančna medicina, triaža in diagnoza ter kronična upravljanje oskrbe. Ker algoritmi ML pogosto niso primerni za zaščito zasebnosti podatkov na ravni pacientov, med partnerji in strankami HCLS narašča zanimanje za uporabo mehanizmov in infrastrukture za ohranjanje zasebnosti za upravljanje in analizo obsežnih, porazdeljenih in občutljivih podatkov. [1]

Na AWS smo razvili ogrodje FL, ki omogoča analiziranje porazdeljenih in občutljivih zdravstvenih podatkov na način, ki varuje zasebnost. Vključuje usposabljanje skupnega modela ML brez premikanja ali deljenja podatkov med spletnimi mesti ali s centraliziranim strežnikom med postopkom usposabljanja modela in ga je mogoče implementirati v več računih AWS. Udeleženci se lahko odločijo za vzdrževanje svojih podatkov v svojih lokalnih sistemih ali v računu AWS, ki ga nadzirajo. Zato prinaša analitiko k podatkom, namesto da podatke premika k analitiki.

V tej objavi smo pokazali, kako lahko uvedete odprtokodno ogrodje FedML na AWS. Ogrodje preizkušamo na podatkih eICU, večcentrični zbirki podatkov o intenzivni negi, zbrani v več kot 200 bolnišnicah, za napoved umrljivosti pacientov v bolnišnici. To ogrodje FL lahko uporabimo za analizo drugih naborov podatkov, vključno z genomskimi podatki in podatki znanosti o življenju. Sprejmejo ga lahko tudi druga področja, ki so polna porazdeljenih in občutljivih podatkov, vključno s finančnim in izobraževalnim sektorjem.

Zvezno učenje

Napredek tehnologije je povzročil eksplozivno rast podatkov v panogah, vključno s HCLS. Organizacije HCLS pogosto shranjujejo podatke v silosih. To predstavlja velik izziv pri učenju, ki temelji na podatkih, ki zahteva velike nabore podatkov za dobro posploševanje in doseganje želene ravni uspešnosti. Poleg tega zbiranje, urejanje in vzdrževanje visokokakovostnih podatkovnih nizov zahteva veliko časa in stroškov.

Zvezno učenje blaži te izzive s skupnim usposabljanjem modelov ML, ki uporabljajo porazdeljene podatke, ne da bi jih bilo treba deliti ali centralizirati. Omogoča, da so različna spletna mesta predstavljena v končnem modelu, s čimer se zmanjša potencialno tveganje za pristranskost na podlagi spletnega mesta. Ogrodje sledi arhitekturi odjemalec-strežnik, kjer si strežnik deli globalni model z odjemalci. Odjemalci usposabljajo model na podlagi lokalnih podatkov in delijo parametre (kot so prelivi ali uteži modela) s strežnikom. Strežnik združi te parametre za posodobitev globalnega modela, ki se nato deli z odjemalci za naslednji krog usposabljanja, kot je prikazano na naslednji sliki. Ta ponavljajoči se proces usposabljanja modela se nadaljuje, dokler se globalni model ne konvergira.

Iterativni proces usposabljanja modela

V zadnjih letih je bila ta nova učna paradigma uspešno sprejeta za obravnavo skrbi glede upravljanja podatkov pri usposabljanju modelov ML. Eno takih prizadevanj je MELLODDY, konzorcij pod vodstvom Innovative Medicines Initiative (IMI), ki ga poganja AWS. Gre za 3-letni program, ki vključuje 10 farmacevtskih podjetij, 2 akademski ustanovi in 3 tehnološke partnerje. Njegov primarni cilj je razviti večopravilni okvir FL za izboljšanje napovedne učinkovitosti in kemijske uporabnosti modelov, ki temeljijo na odkrivanju zdravil. Platforma obsega več računov AWS, pri čemer ima vsak farmacevtski partner popoln nadzor nad svojimi računi za vzdrževanje svojih zasebnih naborov podatkov, in osrednji račun ML, ki usklajuje naloge usposabljanja modela.

Konzorcij je uril modele na milijardah podatkovnih točk, sestavljenih iz več kot 20 milijonov majhnih molekul v več kot 40,000 bioloških testih. Na podlagi eksperimentalnih rezultatov so kolaborativni modeli pokazali 4-odstotno izboljšanje pri kategorizaciji molekul kot farmakološko ali toksikološko aktivnih ali neaktivnih. Prav tako je vodilo do 10-odstotnega povečanja njegove zmožnosti zagotavljanja zanesljivih napovedi pri uporabi za nove vrste molekul. Končno so bili kolaborativni modeli tipično 2 % boljši pri ocenjevanju vrednosti toksikoloških in farmakoloških aktivnosti.

FedML

FedML je odprtokodna knjižnica za lažji razvoj algoritmov FL. Podpira tri računalniške paradigme: usposabljanje na napravi za robne naprave, porazdeljeno računalništvo in simulacijo enega stroja. Ponuja tudi raznolike algoritemske raziskave s prilagodljivo in generično zasnovo API-ja ter celovitimi referenčnimi osnovnimi implementacijami (optimizator, modeli in nabori podatkov). Za podroben opis knjižnice FedML glejte FedML.

Naslednja slika predstavlja arhitekturo odprtokodne knjižnice FedML.

Odprtokodna knjižnična arhitektura FedML

Kot je razvidno iz prejšnje slike, z vidika aplikacije FedML ščiti podrobnosti osnovne kode in kompleksne konfiguracije porazdeljenega usposabljanja. Na ravni aplikacije, kot je računalniški vid, obdelava naravnega jezika in podatkovno rudarjenje, morajo podatkovni znanstveniki in inženirji le napisati model, podatke in trener na enak način kot samostojni program in jih nato posredovati objektu FedMLRunner, da dokončajte vse procese, kot je prikazano v naslednji kodi. To močno zmanjša režijske stroške za razvijalce aplikacij pri izvajanju FL.

import fedml
from my_model_trainer import MyModelTrainer
from my_server_aggregator import MyServerAggregator
from fedml import FedMLRunner if __name__ == "__main__":
# init FedML framework
args = fedml.init() # init device
device = fedml.device.get_device(args) # load data
dataset, output_dim = fedml.data.load(args) # load model
model = fedml.model.create(args, output_dim) # my customized trainer and aggregator
trainer = MyModelTrainer(model, args)
aggregator = MyServerAggregator(model, args) # start training
fedml_runner = FedMLRunner(args, device, dataset, model, trainer, aggregator)
fedml_runner.run()

Algoritem FedML še vedno poteka in se nenehno izboljšuje. V ta namen FedML abstrahira osrednji trener in zbiralnik ter uporabnikom nudi dva abstraktna predmeta, FedML.core.ClientTrainer in FedML.core.ServerAggregator, ki morajo samo podedovati vmesnika teh dveh abstraktnih objektov in ju posredovati FedMLRunnerju. Takšna prilagoditev razvijalcem ML zagotavlja največjo prilagodljivost. Definirate lahko poljubne strukture modelov, optimizatorje, funkcije izgube in drugo. Te prilagoditve je mogoče tudi nemoteno povezati z odprtokodno skupnostjo, odprto platformo in ekologijo aplikacij, omenjeno prej, s pomočjo FedMLRunnerja, ki popolnoma reši problem dolgega zamika od inovativnih algoritmov do komercializacije.

Nazadnje, kot je prikazano na prejšnji sliki, FedML podpira porazdeljene računalniške procese, kot so zapleteni varnostni protokoli in porazdeljeno usposabljanje kot tokovni računalniški proces z usmerjenim acikličnim grafom (DAG), zaradi česar je pisanje kompleksnih protokolov podobno samostojnim programom. Na podlagi te ideje je mogoče enostavno ločiti varnostni protokol Flow Layer 1 in proces algoritma ML Flow Layer 2, tako da lahko varnostni inženirji in inženirji ML delujejo ob ohranjanju modularne arhitekture.

Odprtokodna knjižnica FedML podpira zvezne primere uporabe ML za rob in oblak. Na robu ogrodje olajša usposabljanje in uvajanje robnih modelov na mobilne telefone in naprave interneta stvari (IoT). V oblaku omogoča globalno sodelovalno ML, vključno z večregijskimi in večnajemniškimi javnimi strežniki za združevanje v oblaku, kot tudi uvajanje zasebnega oblaka v načinu Docker. Okvir obravnava ključne pomisleke v zvezi s FL, ki ohranja zasebnost, kot so varnost, zasebnost, učinkovitost, šibek nadzor in pravičnost.

zaključek

V tej objavi smo pokazali, kako lahko uvedete odprtokodno ogrodje FedML na AWS. To vam omogoča usposabljanje modela ML na porazdeljenih podatkih, ne da bi jih morali deliti ali premikati. Vzpostavili smo arhitekturo z več računi, kjer se lahko v resničnem scenariju organizacije pridružijo ekosistemu in izkoristijo sodelovalno učenje ob ohranjanju upravljanja podatkov. V Naslednja objava, uporabljamo nabor podatkov eICU za več bolnišnic, da pokažemo njegovo učinkovitost v resničnem scenariju.

Oglejte si predstavitev na re:MARS 2022, ki se osredotoča na »Upravljano zvezno učenje na AWS: študija primera za zdravstveno varstvo” za podroben potek te rešitve.

Reference

[1] Kaissis, GA, Makowski, MR, Rückert, D. et al. Varno, varujoče in zvezno strojno učenje v medicinskem slikanju. Nat Mach Intell 2, 305–311 (2020). https://doi.org/10.1038/s42256-020-0186-1
[2] FedML https://fedml.ai

O avtorjih

Federated Learning on AWS with FedML: Health analytics without sharing sensitive data – Part 1 PlatoBlockchain Data Intelligence. Vertical Search. Ai. Olivia Choudhury, PhD, je višji partnerski arhitekt rešitev pri AWS. Pomaga partnerjem na področju zdravstva in bioloških ved pri načrtovanju, razvoju in prilagajanju najsodobnejših rešitev, ki uporabljajo AWS. Ima izkušnje z genomiko, zdravstveno analitiko, zveznim učenjem in strojnim učenjem, ki varuje zasebnost. Zunaj službe igra družabne igre, slika pokrajine in zbira mange.

Vidya Sagar Ravipati je vodja pri Amazon ML Solutions Lab, kjer izkorišča svoje bogate izkušnje v obsežnih porazdeljenih sistemih in svojo strast do strojnega učenja, ki strankam AWS v različnih panogah industrije pomaga pospešiti njihovo uvajanje umetne inteligence in oblakov. Prej je bil inženir strojnega učenja v storitvah povezljivosti pri Amazonu, ki je pomagal zgraditi platforme za personalizacijo in predvidevanje vzdrževanja.

Federated Learning on AWS with FedML: Health analytics without sharing sensitive data – Part 1 PlatoBlockchain Data Intelligence. Vertical Search. Ai. Wajahat Aziz je glavni arhitekt za strojno učenje in rešitve HPC pri AWS, kjer se osredotoča na pomoč strankam v zdravstvu in znanosti o življenju pri uporabi tehnologij AWS za razvoj najsodobnejših rešitev ML in HPC za najrazličnejše primere uporabe, kot je razvoj zdravil, Klinična preskušanja in strojno učenje, ki ohranja zasebnost. Zunaj službe Wajahat rad raziskuje naravo, pohodništvo in branje.

Divya Bhargavi je podatkovna znanstvenica in vodja vertikale za medije in razvedrilo v Amazon ML Solutions Lab, kjer rešuje pomembne poslovne probleme za stranke AWS s pomočjo strojnega učenja. Ukvarja se z razumevanjem slik/videoposnetkov, priporočilnimi sistemi grafov znanja, primeri uporabe napovednega oglaševanja.

Ujjwal Ratan je vodja za AI/ML in Data Science v poslovni enoti AWS Healthcare and Life Science in je tudi glavni arhitekt rešitev AI/ML. V preteklih letih je bil Ujjwal vodilni v industriji zdravstva in znanosti o življenju, saj je številnim organizacijam s seznama Global Fortune 500 pomagal doseči njihove inovacijske cilje s sprejetjem strojnega učenja. Njegovo delo, ki je vključevalo analizo medicinskega slikanja, nestrukturiranega kliničnega besedila in genomike, je AWS pomagalo zgraditi izdelke in storitve, ki zagotavljajo visoko personalizirano in natančno usmerjeno diagnostiko in terapevtiko. V prostem času rad posluša (in predvaja) glasbo in se z družino odpravi na nenačrtovane izlete.

Federated Learning on AWS with FedML: Health analytics without sharing sensitive data – Part 1 PlatoBlockchain Data Intelligence. Vertical Search. Ai. Chaoyang He je soustanovitelj in tehnični direktor FedML, Inc., zagonskega podjetja, ki se zavzema za skupnost, ki gradi odprto in sodelovalno umetno inteligenco od koder koli in v katerem koli obsegu. Njegove raziskave se osredotočajo na algoritme, sisteme in aplikacije porazdeljenega/zveznega strojnega učenja. Doktoriral je. iz računalništva iz University of Southern California, Los Angeles, ZDA.

Federated Learning on AWS with FedML: Health analytics without sharing sensitive data – Part 1 PlatoBlockchain Data Intelligence. Vertical Search. Ai. Salman Avestimehr je profesor, inavguracijski direktor USC-Amazon Centra za varno in zaupanja vredno strojno učenje (Trusted AI) in direktor raziskovalnega laboratorija za informacijsko teorijo in strojno učenje (vITAL) na oddelku za elektrotehniko in računalništvo ter oddelku za računalništvo Univerza Južne Kalifornije. Je tudi soustanovitelj in izvršni direktor FedML. Doktoriral je. doktoriral iz elektrotehnike in računalništva na UC Berkeley leta 2008. Njegove raziskave se osredotočajo na področja informacijske teorije, decentraliziranega in zveznega strojnega učenja, varnega učenja in učenja, ki varuje zasebnost, ter računalništva.

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
Platoblockchain. Web3 Metaverse Intelligence. Razširjeno znanje. Dostopite tukaj.
vir: https://aws.amazon.com/blogs/machine-learning/part-1-federated-learning-on-aws-with-fedml-health-analytics-without-sharing-sensitive-data/

Časovni žig: Januar 13, 2023

Časovni žig: Marec 1, 2022

Ponovno objavil Platon

Zgradite prilagodljive in razširljive porazdeljene arhitekture usposabljanja z uporabo Kubeflow na AWS in Amazon SageMaker

Nastavite modele ML za dodatne cilje, kot je pravičnost, s samodejno nastavitvijo modela SageMaker

Oblikovalski vzorci za serijsko sklepanje na Amazon SageMaker

Zagotavljanje in upravljanje okolij ML z Amazon SageMaker Canvas z uporabo AWS CDK in AWS Service Catalog

Zaznavanje anomalij z Amazon SageMaker Edge Manager z uporabo AWS IoT Greengrass V2

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun