Dette blogginnlegget er skrevet sammen med Chaoyang He og Salman Avestimehr fra FedML.
Analysering av data fra helsevesen og biovitenskap (HCLS) i den virkelige verden byr på flere praktiske utfordringer, for eksempel distribuerte datasiloer, mangel på tilstrekkelig data på et enkelt sted for sjeldne hendelser, regulatoriske retningslinjer som forbyr datadeling, krav til infrastruktur og kostnader som påløper for å lage et sentralisert datalager. Fordi de er i et sterkt regulert domene, søker HCLS-partnere og kunder personvernbevarende mekanismer for å administrere og analysere store, distribuerte og sensitive data.
For å dempe disse utfordringene foreslår vi å bruke et åpen kildekode-rammeverk for føderert læring (FL) kalt FedML, som lar deg analysere sensitive HCLS-data ved å trene opp en global maskinlæringsmodell fra distribuerte data som holdes lokalt på forskjellige steder. FL krever ikke flytting eller deling av data på tvers av nettsteder eller med en sentralisert server under modellopplæringsprosessen.
I denne todelte serien viser vi hvordan du kan distribuere et skybasert FL-rammeverk på AWS. I det første innlegget beskrev vi FL-konsepter og FedML-rammeverket. I andre innlegg, presenterer vi brukstilfellene og datasettet for å vise effektiviteten i å analysere virkelige helsedatasett, som eICU-data, som omfatter en multi-senter kritisk omsorgsdatabase samlet inn fra over 200 sykehus.
Bakgrunn
Selv om volumet av HCLS-genererte data aldri har vært større, begrenser utfordringene og begrensningene knyttet til tilgang til slike data deres nytteverdi for fremtidig forskning. Maskinlæring (ML) gir en mulighet til å adressere noen av disse bekymringene og blir tatt i bruk for å fremme dataanalyse og utlede meningsfull innsikt fra ulike HCLS-data for brukstilfeller som omsorgslevering, klinisk beslutningsstøtte, presisjonsmedisin, triage og diagnose og kroniske omsorgsledelse. Fordi ML-algoritmer ofte ikke er tilstrekkelige for å beskytte personvernet til data på pasientnivå, er det en økende interesse blant HCLS-partnere og kunder for å bruke personvernbevarende mekanismer og infrastruktur for å administrere og analysere storskala, distribuert og sensitiv data. [1]
Vi har utviklet et FL-rammeverk på AWS som gjør det mulig å analysere distribuerte og sensitive helsedata på en personvernbevarende måte. Det innebærer opplæring av en delt ML-modell uten å flytte eller dele data på tvers av nettsteder eller med en sentralisert server under modellopplæringsprosessen, og kan implementeres på tvers av flere AWS-kontoer. Deltakerne kan enten velge å opprettholde dataene sine i sine lokale systemer eller i en AWS-konto som de kontrollerer. Derfor bringer det analyser til data, i stedet for å flytte data til analyser.
I dette innlegget viste vi hvordan du kan distribuere FedML-rammeverket med åpen kildekode på AWS. Vi tester rammeverket på eICU-data, en multi-senter kritisk omsorgsdatabase samlet inn fra over 200 sykehus, for å forutsi dødelighet av pasienter på sykehus. Vi kan bruke dette FL-rammeverket til å analysere andre datasett, inkludert genomiske og biovitenskapelige data. Det kan også tas i bruk av andre domener som er fulle av distribuerte og sensitive data, inkludert finans- og utdanningssektorer.
Federert læring
Fremskritt innen teknologi har ført til en eksplosiv vekst av data på tvers av bransjer, inkludert HCLS. HCLS-organisasjoner lagrer ofte data i siloer. Dette utgjør en stor utfordring innen datadrevet læring, som krever store datasett for å generalisere godt og oppnå ønsket ytelsesnivå. Innsamling, kuratering og vedlikehold av datasett av høy kvalitet medfører dessuten betydelig tid og kostnader.
Forent læring reduserer disse utfordringene ved å trene opp ML-modeller som bruker distribuert data, uten å måtte dele eller sentralisere dem. Det gjør at ulike nettsteder kan representeres i den endelige modellen, og reduserer den potensielle risikoen for stedsbasert skjevhet. Rammeverket følger en klient-server-arkitektur, hvor serveren deler en global modell med klientene. Klientene trener modellen basert på lokale data og deler parametere (som gradienter eller modellvekter) med serveren. Serveren samler disse parameterne for å oppdatere den globale modellen, som deretter deles med klientene for neste runde med trening, som vist i følgende figur. Denne iterative prosessen med modelltrening fortsetter til den globale modellen konvergerer.
I de siste årene har dette nye læringsparadigmet blitt tatt i bruk for å møte bekymringen om datastyring ved opplæring av ML-modeller. En slik innsats er MELLODDY, et Innovative Medicines Initiative (IMI)-ledet konsortium, drevet av AWS. Det er et 3-årig program som involverer 10 farmasøytiske selskaper, 2 akademiske institusjoner og 3 teknologipartnere. Dets primære mål er å utvikle et multi-task FL-rammeverk for å forbedre den prediktive ytelsen og kjemiske anvendeligheten til legemiddeloppdagelsesbaserte modeller. Plattformen består av flere AWS-kontoer, hvor hver farmapartner beholder full kontroll over sine respektive kontoer for å vedlikeholde sine private datasett, og en sentral ML-konto som koordinerer modellopplæringsoppgavene.
Konsortiet trente modeller på milliarder av datapunkter, bestående av over 20 millioner små molekyler i over 40,000 4 biologiske analyser. Basert på eksperimentelle resultater, demonstrerte samarbeidsmodellene en 10 % forbedring i kategorisering av molekyler som enten farmakologisk eller toksikologisk aktive eller inaktive. Det førte også til en 2 % økning i evnen til å gi sikre spådommer når den ble brukt på nye typer molekyler. Til slutt var samarbeidsmodellene typisk XNUMX % bedre til å estimere verdier av toksikologiske og farmakologiske aktiviteter.
FedML
FedML er et åpen kildekode-bibliotek for å lette utviklingen av FL-algoritmer. Den støtter tre databehandlingsparadigmer: opplæring på enheten for edge-enheter, distribuert databehandling og enkeltmaskinsimulering. Det tilbyr også mangfoldig algoritmisk forskning med fleksibelt og generisk API-design og omfattende referanseimplementeringer (optimalisator, modeller og datasett). For en detaljert beskrivelse av FedML-biblioteket, se FedML.
Følgende figur presenterer biblioteksarkitekturen med åpen kildekode til FedML.
Som vist i den foregående figuren, fra applikasjonssynspunkt, skjermer FedML detaljer om den underliggende koden og komplekse konfigurasjoner av distribuert opplæring. På applikasjonsnivå, som datasyn, naturlig språkbehandling og datautvinning, trenger datavitere og ingeniører bare å skrive modellen, dataene og treneren på samme måte som et frittstående program og deretter sende det til FedMLRunner-objektet til fullfør alle prosessene, som vist i følgende kode. Dette reduserer kostnadene for applikasjonsutviklere til å utføre FL.
FedML-algoritmen er fortsatt et arbeid som pågår og blir stadig forbedret. For dette formål abstraherer FedML kjernetreneren og aggregatoren og gir brukerne to abstrakte objekter, FedML.core.ClientTrainer
og FedML.core.ServerAggregator
, som bare trenger å arve grensesnittene til disse to abstrakte objektene og sende dem til FedMLRunner. Slik tilpasning gir ML-utviklere maksimal fleksibilitet. Du kan definere vilkårlige modellstrukturer, optimerere, tapsfunksjoner og mer. Disse tilpasningene kan også kobles sømløst med åpen kildekode-fellesskapet, den åpne plattformen og applikasjonsøkologien nevnt tidligere ved hjelp av FedMLRunner, som fullstendig løser problemet med lang etterslep fra innovative algoritmer til kommersialisering.
Til slutt, som vist i den foregående figuren, støtter FedML distribuerte databehandlingsprosesser, for eksempel komplekse sikkerhetsprotokoller og distribuert opplæring som en Directed Acyclic Graph (DAG) flow databehandlingsprosess, noe som gjør skrivingen av komplekse protokoller som ligner på frittstående programmer. Basert på denne ideen kan sikkerhetsprotokollen Flow Layer 1 og ML-algoritmeprosessen Flow Layer 2 enkelt skilles slik at sikkerhetsingeniører og ML-ingeniører kan operere mens de opprettholder en modulær arkitektur.
FedML åpen kildekode-biblioteket støtter forent ML-brukstilfeller for edge så vel som sky. På kanten letter rammeverket opplæring og distribusjon av edge-modeller til mobiltelefoner og internett av tingene (IoT) enheter. I skyen muliggjør den global samarbeidende ML, inkludert multi-region, og multi-tenant offentlige skyaggregeringsservere, samt privat skydistribusjon i Docker-modus. Rammeverket tar for seg sentrale bekymringer med hensyn til personvernbevarende FL som sikkerhet, personvern, effektivitet, svakt tilsyn og rettferdighet.
konklusjonen
I dette innlegget viste vi hvordan du kan distribuere FedML-rammeverket med åpen kildekode på AWS. Dette lar deg trene en ML-modell på distribuert data, uten å måtte dele eller flytte den. Vi setter opp en flerkontoarkitektur, der organisasjoner i et virkelighetsscenario kan bli med i økosystemet for å dra nytte av samarbeidslæring samtidig som de opprettholder datastyring. I neste post, bruker vi eICU-datasettet for flere sykehus for å demonstrere effektiviteten i et virkelighetsscenario.
Vennligst se presentasjonen på re:MARS 2022 med fokus på "Managed Federated Learning on AWS: A case study for healthcare" for en detaljert gjennomgang av denne løsningen.
Referanse
[1] Kaissis, GA, Makowski, MR, Rückert, D. et al. Sikker, personvernbevarende og forent maskinlæring innen medisinsk bildebehandling. Nat Mach Intell 2, 305–311 (2020). https://doi.org/10.1038/s42256-020-0186-1
[2] FedML https://fedml.ai
Om forfatterne
Olivia Choudhury, PhD, er Senior Partner Solutions Architect ved AWS. Hun hjelper partnere innen Healthcare and Life Sciences-domenet med å designe, utvikle og skalere toppmoderne løsninger som utnytter AWS. Hun har bakgrunn innen genomikk, helseanalyse, føderert læring og personvernbevarende maskinlæring. Utenom jobben spiller hun brettspill, maler landskap og samler på manga.
Vidya Sagar Ravipati er leder i Amazon ML Solutions Lab, der han utnytter sin store erfaring innen store distribuerte systemer og sin lidenskap for maskinlæring for å hjelpe AWS-kunder på tvers av forskjellige bransjevirksomheter, få fart på AI og sky-adopsjon. Tidligere var han maskinlæringsingeniør i Connectivity Services hos Amazon som bidro til å bygge personaliserings- og prediktive vedlikeholdsplattformer.
Wajahat Aziz er hovedarkitekt for maskinlæring og HPC-løsninger ved AWS, hvor han fokuserer på å hjelpe kunder innen helsevesen og biovitenskap med å utnytte AWS-teknologier for å utvikle toppmoderne ML- og HPC-løsninger for et bredt spekter av brukstilfeller som for eksempel legemiddelutvikling, Kliniske forsøk og personvernbevarende maskinlæring. Utenom jobben liker Wajahat å utforske naturen, fotturer og lese.
Divya Bhargavi er dataforsker og vertikal leder for media og underholdning ved Amazon ML Solutions Lab, hvor hun løser forretningsproblemer med høy verdi for AWS-kunder ved hjelp av maskinlæring. Hun jobber med bilde-/videoforståelse, anbefalingssystemer for kunnskapsgrafer, brukstilfeller for prediktiv annonsering.
Ujjwal Ratan er leder for AI/ML og Data Science i AWS Healthcare and Life Science Business Unit og er også en rektor for AI/ML Solutions Architect. Gjennom årene har Ujjwal vært en tankeleder innen helse- og biovitenskapsindustrien, og hjulpet flere Global Fortune 500-organisasjoner med å nå sine innovasjonsmål ved å ta i bruk maskinlæring. Arbeidet hans som involverer analyse av medisinsk bildebehandling, ustrukturert klinisk tekst og genomikk har hjulpet AWS med å bygge produkter og tjenester som gir svært personlig tilpasset og presist målrettet diagnostikk og terapi. På fritiden liker han å høre på (og spille) musikk og ta uplanlagte bilturer med familien.
Chaoyang He er medgründer og CTO av FedML, Inc., en oppstart som driver for en fellesskapsbygging åpen og samarbeidende AI fra hvor som helst og uansett skala. Forskningen hans fokuserer på distribuerte/fødererte maskinlæringsalgoritmer, systemer og applikasjoner. Han fikk sin Ph.D. i informatikk fra University of Southern California, Los Angeles, USA.
Salman Avestimehr er professor, den første direktøren for USC-Amazon Center for Secure and Trusted Machine Learning (Trusted AI), og direktør for forskningslaboratoriet for informasjonsteori og maskinlæring (vITAL) ved avdelingen for elektro- og datamaskinteknikk og informatikkavdelingen. Universitetet i Sør-California. Han er også medgründer og administrerende direktør i FedML. Han fikk min Ph.D. i elektroteknikk og informatikk fra UC Berkeley i 2008. Forskningen hans fokuserer på områdene informasjonsteori, desentralisert og forent maskinlæring, sikker og personvernbevarende læring og databehandling.
- SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
- Platoblokkkjede. Web3 Metaverse Intelligence. Kunnskap forsterket. Tilgang her.
- kilde: https://aws.amazon.com/blogs/machine-learning/part-1-federated-learning-on-aws-with-fedml-health-analytics-without-sharing-sensitive-data/
- 000
- 1
- 10
- 100
- 2%
- 2020
- 2022
- 7
- a
- evne
- ABSTRACT
- sammendrag
- akademisk
- akselerere
- Tilgang
- Logg inn
- kontoer
- Oppnå
- tvers
- aktiv
- Aktiviteter
- asyklisk
- adresse
- adresser
- vedtatt
- vedta
- Adopsjon
- avansere
- Annonsering
- aggregater
- aggregering
- aggregator
- AI
- AI / ML
- algoritme
- algoritmisk
- algoritmer
- Alle
- tillater
- Amazon
- Amazon ML Solutions Lab
- blant
- analyse
- analytics
- analysere
- analyserer
- og
- og infrastruktur
- Angeles
- hvor som helst
- api
- Søknad
- søknader
- anvendt
- arkitektur
- områder
- assosiert
- AWS
- bakgrunn
- basert
- Baseline
- fordi
- være
- nytte
- Berkeley
- Bedre
- Bias
- milliarder
- Blogg
- borde
- Board Games
- Bringer
- bygge
- Bygning
- virksomhet
- california
- som heter
- hvilken
- saken
- case study
- saker
- kategorisering
- sentrum
- sentral
- sentralisert
- konsernsjef
- utfordre
- utfordringer
- kjemisk
- Velg
- klienter
- Klinisk
- kliniske studier
- Cloud
- skyadopsjon
- Med-grunnlegger
- kode
- samarbeids
- kommersialisering
- samfunnet
- samfunnsbygging
- Selskaper
- fullføre
- helt
- komplekse
- omfattende
- datamaskin
- Datateknikk
- informatikk
- Datamaskin syn
- databehandling
- konsepter
- Bekymring
- bekymringer
- trygg
- tilkoblet
- Tilkobling
- Består
- konsortium
- stadig
- begrensninger
- fortsetter
- kontroll
- koordinerende
- Kjerne
- Kostnad
- Opprette
- kritisk
- CTO
- kuratering
- Kunder
- tilpasning
- DAG
- dato
- Data Analytics
- data mining
- datapunkter
- datavitenskap
- dataforsker
- datadeling
- data-drevet
- Database
- datasett
- desentralisert
- avgjørelse
- levering
- demonstrere
- demonstrert
- Avdeling
- utplassere
- distribusjon
- beskrevet
- beskrivelse
- utforming
- detaljert
- detaljer
- utvikle
- utviklet
- utviklere
- utvikle
- Utvikling
- enhet
- Enheter
- forskjellig
- Regissør
- distribueres
- distribuert databehandling
- distribuerte systemer
- distribuert opplæring
- diverse
- Docker
- ikke
- domene
- domener
- medikament
- under
- hver enkelt
- Tidligere
- lett
- økosystem
- Edge
- Kunnskap
- effektivitet
- effektivitet
- innsats
- enten
- muliggjør
- ingeniør
- Ingeniørarbeid
- Ingeniører
- Entertainment
- hendelser
- erfaring
- utforske
- legge til rette
- forenkler
- rettferdighet
- familie
- Figur
- slutt~~POS=TRUNC
- Endelig
- finansiere
- Først
- fleksibilitet
- fleksibel
- flyten
- fokuserte
- fokuserer
- etter
- følger
- Fortune
- Rammeverk
- Gratis
- fra
- fullt
- funksjoner
- framtid
- Games
- samle
- genomikk
- Global
- mål
- Mål
- styresett
- gradienter
- graf
- større
- sterkt
- Økende
- Vekst
- retningslinjer
- Helse
- helsetjenester
- Held
- hjelpe
- hjulpet
- hjelpe
- hjelper
- høykvalitets
- svært
- sykehus
- Hvordan
- hpc
- HTTPS
- Tanken
- Imaging
- implementert
- importere
- forbedre
- forbedret
- forbedring
- in
- inaktiv
- innvielses
- Inc.
- Inkludert
- Øke
- bransjer
- industri
- informasjon
- Infrastruktur
- Initiative
- Innovasjon
- innovative
- innsikt
- institusjoner
- interesse
- grensesnitt
- Internet
- Internett av ting
- IOT
- IT
- bli medlem
- nøkkel
- kunnskap
- Kunnskap Graph
- lab
- maling
- Språk
- stor
- storskala
- lag
- lag 1
- Layer 2
- føre
- leder
- læring
- Led
- Nivå
- Leverage
- utnytter
- utnytte
- Bibliotek
- Life
- Livskunnskap
- Life Sciences
- grenser
- Lytting
- laste
- lokal
- lokalt
- Lang
- den
- Los Angeles
- tap
- maskin
- maskinlæring
- vedlikeholde
- vedlikehold
- større
- Making
- administrer
- ledelse
- leder
- administrerende
- måte
- Mars
- maksimal
- meningsfylt
- Media
- medisinsk
- medisin
- nevnt
- millioner
- Gruvedrift
- MIT
- Minske
- ML
- Mobil
- mobiltelefoner
- Mote
- modell
- modeller
- modulære
- mer
- flytte
- flytting
- flere
- musikk
- Naturlig
- Natural Language Processing
- Natur
- Trenger
- Ny
- neste
- objekt
- gjenstander
- Tilbud
- ONE
- åpen
- åpen kildekode
- betjene
- Opportunity
- organisasjoner
- Annen
- utenfor
- paradigmet
- parametere
- del
- deltakere
- partner
- partnere
- lidenskap
- pasient
- Utfør
- ytelse
- Tilpassing
- Personlig
- Farma
- Pharmaceutical
- telefoner
- plattform
- Plattformer
- plato
- Platon Data Intelligence
- PlatonData
- spiller
- Point
- Synspunkt
- poeng
- positurer
- Post
- potensiell
- powered
- Praktisk
- nettopp
- Precision
- forutsi
- Spådommer
- presentere
- presentasjon
- gaver
- tidligere
- primære
- Principal
- privatliv
- privat
- Problem
- problemer
- prosess
- Prosesser
- prosessering
- Produkter
- Professor
- program
- programmer
- Progress
- foreslå
- beskytte
- protokollen
- protokoller
- gi
- gir
- offentlig
- Offentlig sky
- SJELDEN
- RE
- Lesning
- virkelige verden
- mottatt
- nylig
- Anbefaling
- reduserer
- redusere
- hilsen
- regulert
- regulatorer
- Repository
- representert
- krever
- behov
- Krever
- forskning
- de
- Resultater
- støttemur
- anmeldelse
- Risiko
- vei
- runde
- rennende
- samme
- Skala
- Vitenskap
- VITENSKAPER
- Forsker
- forskere
- sømløst
- sektorer
- sikre
- sikkerhet
- Søke
- senior
- sensitive
- Serien
- Servere
- Tjenester
- sett
- flere
- Del
- delt
- Aksjer
- deling
- Vis
- vist
- signifikant
- lignende
- simulering
- enkelt
- nettstedet
- Nettsteder
- liten
- So
- løsning
- Solutions
- løser
- noen
- Southern
- stående
- Begynn
- oppstart
- state-of-the-art
- Still
- oppbevare
- Studer
- vellykket
- slik
- tilstrekkelig
- tilsyn
- støtte
- Støtter
- Systemer
- ta
- målrettet
- oppgaver
- Technologies
- Teknologi
- test
- De
- informasjonen
- deres
- terapeutika
- derfor
- ting
- trodde
- tre
- tid
- til
- Tog
- trent
- Kurs
- forsøk
- klarert
- typer
- typisk
- underliggende
- forståelse
- enhet
- universitet
- Oppdater
- USA
- bruke
- Brukere
- verktøyet
- Verdier
- variasjon
- enorme
- vertikaler
- Se
- syn
- vital
- volum
- walkthrough
- hvilken
- mens
- HVEM
- bred
- innenfor
- uten
- Arbeid
- virker
- skrive
- skriving
- år
- Utbytte
- Du
- zephyrnet