Această postare pe blog este scrisă împreună cu Chaoyang He și Salman Avestimehr de la FedML.
Analiza datelor din domeniul sănătății și științelor vieții (HCLS) din lumea reală ridică mai multe provocări practice, cum ar fi silozurile de date distribuite, lipsa datelor suficiente la orice loc unic pentru evenimente rare, liniile directoare de reglementare care interzic partajarea datelor, cerințele de infrastructură și costurile suportate pentru crearea. un depozit de date centralizat. Deoarece se află într-un domeniu foarte reglementat, partenerii și clienții HCLS caută mecanisme de păstrare a confidențialității pentru a gestiona și analiza date la scară largă, distribuite și sensibile.
Pentru a atenua aceste provocări, propunem utilizarea unui cadru de învățare federată (FL) open-source numit FedML, care vă permite să analizați datele sensibile HCLS prin antrenarea unui model global de învățare automată din date distribuite deținute local pe diferite site-uri. FL nu necesită mutarea sau partajarea datelor între site-uri sau cu un server centralizat în timpul procesului de formare a modelului.
În această serie în două părți, demonstrăm cum puteți implementa un cadru FL bazat pe cloud pe AWS. În primul post, am descris conceptele FL și cadrul FedML. În al doilea post, prezentăm cazurile de utilizare și setul de date pentru a-și arăta eficacitatea în analiza seturilor de date din domeniul sănătății din lumea reală, cum ar fi datele eICU, care cuprinde o bază de date de îngrijiri critice multi-centre, colectată de la peste 200 de spitale.
Context
Deși volumul de date generate de HCLS nu a fost niciodată mai mare, provocările și constrângerile asociate cu accesarea unor astfel de date limitează utilitatea acestora pentru cercetările viitoare. Învățarea automată (ML) reprezintă o oportunitate de a aborda unele dintre aceste preocupări și este adoptată pentru a avansa analiza datelor și pentru a obține perspective semnificative din diverse date HCLS pentru cazuri de utilizare, cum ar fi furnizarea de îngrijiri, asistență pentru deciziile clinice, medicina de precizie, triaj și diagnosticare și cronice. managementul îngrijirii. Deoarece algoritmii ML nu sunt adesea adecvați în protejarea confidențialității datelor la nivel de pacient, există un interes tot mai mare în rândul partenerilor și clienților HCLS de a utiliza mecanisme și infrastructură de păstrare a confidențialității pentru gestionarea și analiza datelor la scară largă, distribuite și sensibile. [1]
Am dezvoltat un cadru FL pe AWS care permite analizarea datelor de sănătate distribuite și sensibile într-o manieră de păstrare a confidențialității. Implica antrenamentul unui model ML partajat fără a muta sau partaja date între site-uri sau cu un server centralizat în timpul procesului de formare a modelului și poate fi implementat în mai multe conturi AWS. Participanții pot alege fie să-și mențină datele în sistemele lor locale, fie într-un cont AWS pe care îl controlează. Prin urmare, aduce analiza datelor, mai degrabă decât mutarea datelor în analiză.
În această postare, am arătat cum puteți implementa cadrul FedML open-source pe AWS. Testăm cadrul privind datele eICU, o bază de date de îngrijiri critice multicentre, colectată de la peste 200 de spitale, pentru a prezice mortalitatea pacienților în spital. Putem folosi acest cadru FL pentru a analiza alte seturi de date, inclusiv date genomice și științele vieții. De asemenea, poate fi adoptat de alte domenii care sunt pline de date distribuite și sensibile, inclusiv sectoarele financiare și educaționale.
Învățare federată
Progresele tehnologice au condus la o creștere explozivă a datelor în diverse industrii, inclusiv HCLS. Organizațiile HCLS stochează adesea datele în silozuri. Aceasta reprezintă o provocare majoră în învățarea bazată pe date, care necesită seturi mari de date pentru a se generaliza bine și a atinge nivelul dorit de performanță. În plus, colectarea, conservarea și menținerea seturilor de date de înaltă calitate implică timp și costuri semnificative.
Învățarea federată atenuează aceste provocări prin antrenarea în colaborare a modelelor ML care utilizează date distribuite, fără a fi nevoie să le partajați sau să le centralizați. Permite reprezentarea diferitelor site-uri în modelul final, reducând riscul potențial de părtinire bazată pe site. Cadrul urmează o arhitectură client-server, în care serverul împărtășește un model global cu clienții. Clienții antrenează modelul pe baza datelor locale și partajează parametrii (cum ar fi gradienții sau greutățile modelului) cu serverul. Serverul agregează acești parametri pentru a actualiza modelul global, care este apoi partajat cu clienții pentru următoarea rundă de instruire, așa cum se arată în figura următoare. Acest proces iterativ de formare a modelului continuă până când modelul global converge.
În ultimii ani, această nouă paradigmă de învățare a fost adoptată cu succes pentru a aborda preocuparea guvernanței datelor în formarea modelelor ML. Un astfel de efort este MELLODDY, un consorțiu condus de Inițiativa pentru medicamente inovatoare (IMI), susținut de AWS. Este un program de 3 ani care implică 10 companii farmaceutice, 2 instituții academice și 3 parteneri tehnologici. Scopul său principal este de a dezvolta un cadru FL multi-task pentru a îmbunătăți performanța predictivă și aplicabilitatea chimică a modelelor bazate pe descoperirea medicamentelor. Platforma cuprinde mai multe conturi AWS, fiecare partener farmaceutic păstrând controlul deplin asupra conturilor respective pentru a-și menține seturile de date private și un cont central de ML care coordonează sarcinile de formare a modelului.
Consorțiul a antrenat modele pe miliarde de puncte de date, constând din peste 20 de milioane de molecule mici în peste 40,000 de teste biologice. Pe baza rezultatelor experimentale, modelele de colaborare au demonstrat o îmbunătățire cu 4% în clasificarea moleculelor ca active sau inactive din punct de vedere farmacologic sau toxicologic. De asemenea, a dus la o creștere cu 10% a capacității sale de a produce predicții sigure atunci când este aplicată la noi tipuri de molecule. În cele din urmă, modelele de colaborare au fost de obicei cu 2% mai bune la estimarea valorilor activităților toxicologice și farmacologice.
FedML
FedML este o bibliotecă open-source pentru a facilita dezvoltarea algoritmului FL. Acesta acceptă trei paradigme de calcul: instruire pe dispozitiv pentru dispozitive de vârf, calcul distribuit și simulare cu o singură mașină. De asemenea, oferă cercetare algoritmică diversă, cu un design API flexibil și generic și implementări cuprinzătoare de referință (optimizator, modele și seturi de date). Pentru o descriere detaliată a bibliotecii FedML, consultați FedML.
Figura următoare prezintă arhitectura bibliotecii open-source a FedML.
După cum se vede în figura precedentă, din punct de vedere al aplicației, FedML protejează detaliile codului de bază și configurațiile complexe ale instruirii distribuite. La nivel de aplicație, cum ar fi viziunea computerizată, procesarea limbajului natural și extragerea datelor, oamenii de știință de date și inginerii trebuie doar să scrie modelul, datele și antrenorul în același mod ca un program independent și apoi să le transmită obiectului FedMLRunner către finalizați toate procesele, așa cum se arată în codul următor. Acest lucru reduce foarte mult costul general pentru dezvoltatorii de aplicații pentru a efectua FL.
Algoritmul FedML este încă în curs de desfășurare și în curs de îmbunătățire constantă. În acest scop, FedML retrage antrenorul și agregatorul de bază și oferă utilizatorilor două obiecte abstracte, FedML.core.ClientTrainer
și FedML.core.ServerAggregator
, care trebuie doar să moștenească interfețele acestor două obiecte abstracte și să le transmită FedMLRunner. O astfel de personalizare oferă dezvoltatorilor ML flexibilitate maximă. Puteți defini structuri de model arbitrare, optimizatori, funcții de pierdere și multe altele. Aceste personalizări pot fi, de asemenea, conectate perfect cu comunitatea open-source, platforma deschisă și ecologia aplicațiilor menționate mai devreme, cu ajutorul FedMLRunner, care rezolvă complet problema de întârziere lungă de la algoritmi inovatori până la comercializare.
În cele din urmă, așa cum se arată în figura anterioară, FedML acceptă procese de calcul distribuite, cum ar fi protocoale complexe de securitate și instruire distribuită ca proces de calcul al fluxului de grafic aciclic direcționat (DAG), făcând scrierea protocoalelor complexe similară cu programele independente. Pe baza acestei idei, protocolul de securitate Flow Layer 1 și procesul de algoritm ML Flow Layer 2 pot fi separate cu ușurință, astfel încât inginerii de securitate și inginerii ML să poată opera în același timp menținând o arhitectură modulară.
Biblioteca cu sursă deschisă FedML acceptă cazuri de utilizare ML federate atât pentru edge, cât și pentru cloud. Pe margine, cadrul facilitează instruirea și implementarea modelelor de margine pe telefoane mobile și dispozitive Internet of Things (IoT). În cloud, permite ML colaborativ global, inclusiv servere de agregare cloud public multi-regiuni și multi-locatari, precum și implementarea cloud privat în modul Docker. Cadrul abordează preocupările cheie în ceea ce privește conservarea confidențialității FL, cum ar fi securitatea, confidențialitatea, eficiența, supravegherea slabă și corectitudinea.
Concluzie
În această postare, am arătat cum puteți implementa cadrul FedML open-source pe AWS. Acest lucru vă permite să antrenați un model ML pe date distribuite, fără a fi nevoie să îl partajați sau să îl mutați. Am creat o arhitectură cu mai multe conturi, în care, într-un scenariu real, organizațiile se pot alătura ecosistemului pentru a beneficia de învățarea colaborativă, menținând în același timp guvernanța datelor. În următorul post, folosim setul de date eICU multi-spital pentru a-i demonstra eficacitatea într-un scenariu real.
Vă rugăm să revizuiți prezentarea de la re:MARS 2022 axată pe „Învățare federată gestionată pe AWS: un studiu de caz pentru asistența medicală” pentru o prezentare detaliată a acestei soluții.
Referinţă
[1] Kaissis, GA, Makowski, MR, Rückert, D. și colab. Învățare automată securizată, care păstrează confidențialitatea și federată în imagistica medicală. Nat Mach Intell 2, 305–311 (2020). https://doi.org/10.1038/s42256-020-0186-1
[2] FedML https://fedml.ai
Despre Autori
Olivia Choudhury, PhD, este Senior Partner Solutions Architect la AWS. Ea ajută partenerii din domeniul Sănătății și Științe ale Vieții să proiecteze, să dezvolte și să scaleze soluții de ultimă generație folosind AWS. Ea are experiență în genomică, analiză a asistenței medicale, învățarea federată și învățarea automată care păstrează confidențialitatea. În afara serviciului, joacă jocuri de societate, pictează peisaje și colecționează manga.
Vidya Sagar Ravipati este Manager la Laboratorul Amazon ML Solutions, unde își folosește vasta experiență în sisteme distribuite pe scară largă și pasiunea sa pentru învățarea automată pentru a ajuta clienții AWS din diferite verticale ale industriei să-și accelereze adoptarea AI și cloud. Anterior, a fost inginer de învățare automată în servicii de conectivitate la Amazon, care a contribuit la construirea platformelor de personalizare și de întreținere predictivă.
Wajahat Aziz este arhitect principal de învățare automată și soluții HPC la AWS, unde se concentrează pe a ajuta clienții din domeniul sănătății și științelor vieții să utilizeze tehnologiile AWS pentru a dezvolta soluții ML și HPC de ultimă generație pentru o mare varietate de cazuri de utilizare, cum ar fi dezvoltarea de medicamente, Studii clinice și învățare automată pentru păstrarea confidențialității. În afara serviciului, lui Wajahat îi place să exploreze natura, drumețiile și lectura.
Divya Bhargavi este Data Scientist și Media and Entertainment Vertical Lead la Amazon ML Solutions Lab, unde rezolvă probleme de afaceri de mare valoare pentru clienții AWS folosind Machine Learning. Lucrează pe înțelegerea imaginilor/video, sistemelor de recomandare cu grafice de cunoștințe, cazuri de utilizare a publicității predictive.
Ujjwal Ratan este lider pentru AI/ML și Data Science în Unitatea de afaceri AWS Healthcare și Life Science și este, de asemenea, arhitect principal de soluții AI/ML. De-a lungul anilor, Ujjwal a fost un lider de gândire în industria sănătății și științelor vieții, ajutând mai multe organizații Global Fortune 500 să-și atingă obiectivele de inovare prin adoptarea învățării automate. Munca sa care implică analiza imaginilor medicale, a textului clinic nestructurat și a genomicului a ajutat AWS să construiască produse și servicii care oferă diagnosticare și terapie extrem de personalizate și țintite precis. În timpul liber, îi place să asculte (și să cânte) muzică și să facă excursii neplanificate cu familia.
Chaoyang El este co-fondator și CTO al FedML, Inc., un startup care funcționează pentru o comunitate de IA deschisă și colaborativă de oriunde, la orice scară. Cercetarea sa se concentrează pe algoritmi, sisteme și aplicații de învățare automată distribuite/federate. Și-a luat doctoratul. în Informatică de la Universitatea din California de Sud, Los Angeles, SUA.
Salman Avestimehr este profesor, directorul inaugural al USC-Amazon Center for Secure and Trusted Machine Learning (Trusted AI) și director al laboratorului de cercetare Teoria informațiilor și învățare automată (vITAL) la Departamentul de Inginerie Electrică și Calculatoare și Departamentul de Informatică din Universitatea din California de Sud. El este, de asemenea, co-fondatorul și CEO-ul FedML. Mi-a primit doctoratul. în Inginerie Electrică și Științe Calculatoare de la UC Berkeley în 2008. Cercetările sale se concentrează pe domeniile teoriei informațiilor, învățării automate descentralizate și federate, învățarea și calcularea securizate și care păstrează confidențialitatea.
- Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
- Platoblockchain. Web3 Metaverse Intelligence. Cunoștințe amplificate. Accesați Aici.
- Sursa: https://aws.amazon.com/blogs/machine-learning/part-1-federated-learning-on-aws-with-fedml-health-analytics-without-sharing-sensitive-data/
- 000
- 1
- 10
- 100
- 2%
- 2020
- 2022
- 7
- a
- capacitate
- REZUMAT
- rezumate
- academic
- accelera
- accesarea
- Cont
- Conturi
- Obține
- peste
- activ
- activităţi de
- aciclic
- adresa
- adrese
- adoptată
- Adoptarea
- Adoptare
- avansa
- Promovare
- agregate
- agregare
- Agregator
- AI
- AI / ML
- Algoritmul
- algoritmică
- algoritmi
- TOATE
- permite
- Amazon
- Laboratorul Amazon ML Solutions
- printre
- analiză
- Google Analytics
- analiza
- analiza
- și
- și infrastructură
- Angeles
- oriunde
- api
- aplicație
- aplicatii
- aplicat
- arhitectură
- domenii
- asociate
- AWS
- fundal
- bazat
- De bază
- deoarece
- fiind
- beneficia
- Berkeley
- Mai bine
- părtinire
- miliarde
- Blog
- bord
- Consiliul de Jocuri
- Aduce
- construi
- Clădire
- afaceri
- California
- denumit
- pasă
- caz
- studiu de caz
- cazuri
- categorizând
- Centru
- central
- centralizat
- CEO
- contesta
- provocări
- chimic
- Alege
- clientii
- clinic
- studii clinice
- Cloud
- adoptarea norului
- Co-fondator
- cod
- colaborativ
- comercializare
- comunitate
- construirea comunității
- Companii
- Completă
- complet
- complex
- cuprinzător
- calculator
- Inginerie calculator
- Informatică
- Computer Vision
- tehnica de calcul
- Concepte
- Îngrijorare
- preocupările
- încrezător
- legat
- Suport conectare
- Constând
- consorţiu
- mereu
- constrângeri
- continuă
- Control
- coordonator
- Nucleu
- A costat
- Crearea
- critic
- CTO
- curatoriale
- clienţii care
- personalizare
- DAG
- de date
- Analiza datelor
- data mining
- puncte de date
- știința datelor
- om de știință de date
- schimbul de date
- Pe bază de date
- Baza de date
- seturi de date
- descentralizată
- decizie
- livrare
- demonstra
- demonstrat
- Departament
- implementa
- desfășurarea
- descris
- descriere
- Amenajări
- detaliat
- detalii
- dezvolta
- dezvoltat
- Dezvoltatorii
- în curs de dezvoltare
- Dezvoltare
- dispozitiv
- Dispozitive
- diferit
- Director
- distribuite
- calcul distribuit
- sisteme distribuite
- instruire distribuită
- diferit
- Docher
- Nu
- domeniu
- domenii
- medicament
- în timpul
- fiecare
- Mai devreme
- cu ușurință
- ecosistem
- Margine
- Educaţie
- eficacitate
- eficiență
- efort
- oricare
- permite
- inginer
- Inginerie
- inginerii
- Divertisment
- evenimente
- experienţă
- explora
- facilita
- facilitează
- cinste
- familie
- Figura
- final
- În cele din urmă
- finanţa
- First
- Flexibilitate
- flexibil
- debit
- concentrat
- se concentrează
- următor
- urmează
- Avere
- Cadru
- Gratuit
- din
- Complet
- funcții
- viitor
- Jocuri
- culegere
- genomica
- Caritate
- scop
- Goluri
- guvernare
- gradienți
- grafic
- mai mare
- foarte mult
- În creştere
- Creștere
- orientări
- Sănătate
- de asistență medicală
- Held
- ajutor
- a ajutat
- ajutor
- ajută
- de înaltă calitate
- extrem de
- spitale
- Cum
- hpc
- HTTPS
- idee
- Imaging
- implementat
- import
- îmbunătăţi
- îmbunătățit
- îmbunătățire
- in
- inactiv
- Inaugural
- Inc
- Inclusiv
- Crește
- industrii
- industrie
- informații
- Infrastructură
- Inițiativă
- Inovaţie
- inovatoare
- perspective
- instituții
- interes
- interfeţe
- Internet
- internetul Lucrurilor
- IoT
- IT
- alătura
- Cheie
- cunoştinţe
- Graficul de cunoștințe
- de laborator
- lipsă
- limbă
- mare
- pe scară largă
- strat
- stratul 1
- Stratul 2
- conduce
- lider
- învăţare
- Led
- Nivel
- Pârghie
- pîrghii
- efectului de pârghie
- Bibliotecă
- Viaţă
- Știința vieții
- Life Sciences
- Limitele
- Ascultare
- încărca
- local
- la nivel local
- Lung
- lor
- Los Angeles
- de pe
- maşină
- masina de învățare
- menține
- întreținere
- major
- Efectuarea
- administra
- administrare
- manager
- de conducere
- manieră
- martie
- maxim
- semnificativ
- Mass-media
- medical
- medicină
- menționat
- milion
- Minerit
- MIT
- diminua
- ML
- Mobil
- telefoane mobile
- mod
- model
- Modele
- modular
- mai mult
- muta
- în mişcare
- multiplu
- Muzică
- Natural
- Procesarea limbajului natural
- Natură
- Nevoie
- Nou
- următor
- obiect
- obiecte
- promoții
- ONE
- deschide
- open-source
- funcionar
- Oportunitate
- organizații
- Altele
- exterior
- paradigmă
- parametrii
- parte
- participanţi
- partener
- parteneri
- pasiune
- pacient
- Efectua
- performanță
- personalizare
- Personalizat
- Pharma
- Farmaceutic
- Telefoane
- platformă
- Platforme
- Plato
- Informații despre date Platon
- PlatoData
- joc
- Punct
- Punct de vedere
- puncte
- ridică
- Post
- potenţial
- alimentat
- Practic
- tocmai
- Precizie
- prezice
- Predictii
- prezenta
- prezentare
- cadouri
- în prealabil
- primar
- Principal
- intimitate
- privat
- Problemă
- probleme
- proces
- procese
- prelucrare
- Produse
- Profesor
- Program
- Programe
- Progres
- propune
- protectoare
- protocol
- protocoale
- furniza
- furnizează
- public
- Norul public
- RAR
- RE
- Citind
- lumea reală
- primit
- recent
- Recomandare
- reduce
- reducerea
- ceea ce privește
- reglementate
- autoritățile de reglementare
- depozit
- reprezentate
- necesita
- cerință
- Necesită
- cercetare
- respectiv
- REZULTATE
- reținere
- revizuiască
- Risc
- drum
- rotund
- funcţionare
- acelaşi
- Scară
- Ştiinţă
- ȘTIINȚE
- Om de stiinta
- oamenii de stiinta
- perfect
- sectoare
- sigur
- securitate
- Căuta
- senior
- sensibil
- serie
- Servere
- Servicii
- set
- câteva
- Distribuie
- comun
- Acțiuni
- partajarea
- Arăta
- indicat
- semnificativ
- asemănător
- simulare
- singur
- teren
- Centre de cercetare
- mic
- So
- soluţie
- soluţii
- rezolvă
- unele
- Sudic
- standalone
- Începe
- lansare
- de ultimă oră
- Încă
- stoca
- Studiu
- Reușit
- astfel de
- suficient
- supraveghere
- a sustine
- Sprijină
- sisteme
- luare
- vizate
- sarcini
- Tehnologii
- Tehnologia
- test
- informațiile
- lor
- terapeutică
- prin urmare
- lucruri
- gândit
- trei
- timp
- la
- Tren
- dresat
- Pregătire
- studii
- de încredere
- Tipuri
- tipic
- care stau la baza
- înţelegere
- unitate
- universitate
- Actualizează
- Statele Unite ale Americii
- utilizare
- utilizatorii
- utilitate
- Valori
- varietate
- Fixă
- verticalele
- Vizualizare
- viziune
- vital
- volum
- walkthrough
- care
- în timp ce
- OMS
- larg
- în
- fără
- Apartamente
- fabrică
- scrie
- scris
- ani
- Randament
- Tu
- zephyrnet