Entri blog ini ditulis bersama dengan Chaoyang He dan Salman Avestimehr dari FedML.
Menganalisis data kesehatan dan ilmu kehidupan dunia nyata (HCLS) menimbulkan beberapa tantangan praktis, seperti silo data terdistribusi, kurangnya data yang memadai di satu lokasi untuk kejadian langka, pedoman peraturan yang melarang berbagi data, persyaratan infrastruktur, dan biaya yang dikeluarkan untuk membuat gudang data terpusat. Karena berada dalam domain yang sangat diatur, mitra dan pelanggan HCLS mencari mekanisme perlindungan privasi untuk mengelola dan menganalisis data berskala besar, terdistribusi, dan sensitif.
Untuk mengurangi tantangan ini, kami mengusulkan penggunaan kerangka kerja pembelajaran federasi sumber terbuka (FL) yang disebut FedML, yang memungkinkan Anda menganalisis data HCLS sensitif dengan melatih model pembelajaran mesin global dari data terdistribusi yang disimpan secara lokal di situs berbeda. FL tidak memerlukan pemindahan atau berbagi data di seluruh situs atau dengan server terpusat selama proses pelatihan model.
Dalam seri dua bagian ini, kami mendemonstrasikan bagaimana Anda dapat menerapkan kerangka kerja FL berbasis cloud di AWS. Di posting pertama, kami menjelaskan konsep FL dan kerangka kerja FedML. Dalam pos kedua, kami menyajikan kasus penggunaan dan kumpulan data untuk menunjukkan keefektifannya dalam menganalisis kumpulan data perawatan kesehatan dunia nyata, seperti data ICU, yang terdiri dari database perawatan kritis multi-pusat yang dikumpulkan dari lebih dari 200 rumah sakit.
Latar Belakang
Meskipun volume data yang dihasilkan HCLS tidak pernah sebesar ini, tantangan dan kendala yang terkait dengan akses data tersebut membatasi kegunaannya untuk penelitian di masa mendatang. Pembelajaran mesin (ML) memberikan peluang untuk mengatasi beberapa masalah ini dan diadopsi untuk memajukan analitik data dan mendapatkan wawasan yang bermakna dari beragam data HCLS untuk kasus penggunaan seperti pemberian perawatan, dukungan keputusan klinis, pengobatan presisi, triase dan diagnosis, dan kronis manajemen perawatan. Karena algoritme ML sering kali tidak memadai dalam melindungi privasi data tingkat pasien, terdapat minat yang semakin besar di antara mitra HCLS dan pelanggan untuk menggunakan mekanisme dan infrastruktur yang menjaga privasi untuk mengelola dan menganalisis data berskala besar, terdistribusi, dan sensitif. [1]
Kami telah mengembangkan kerangka kerja FL di AWS yang memungkinkan analisis data kesehatan terdistribusi dan sensitif dengan cara yang menjaga privasi. Ini melibatkan pelatihan model ML bersama tanpa memindahkan atau berbagi data di seluruh situs atau dengan server terpusat selama proses pelatihan model, dan dapat diterapkan di beberapa akun AWS. Peserta dapat memilih untuk mempertahankan data mereka di sistem lokal mereka atau di akun AWS yang mereka kendalikan. Oleh karena itu, ini membawa analitik ke data, daripada memindahkan data ke analitik.
Dalam postingan ini, kami menunjukkan bagaimana Anda dapat menerapkan kerangka kerja FedML sumber terbuka di AWS. Kami menguji kerangka kerja pada data EICU, database perawatan kritis multi-pusat yang dikumpulkan dari lebih dari 200 rumah sakit, untuk memprediksi kematian pasien di rumah sakit. Kami dapat menggunakan kerangka kerja FL ini untuk menganalisis kumpulan data lain, termasuk data genomik dan ilmu hayati. Itu juga dapat diadopsi oleh domain lain yang penuh dengan data terdistribusi dan sensitif, termasuk sektor keuangan dan pendidikan.
Pembelajaran gabungan
Kemajuan teknologi telah menyebabkan ledakan pertumbuhan data di seluruh industri, termasuk HCLS. Organisasi HCLS sering menyimpan data dalam silo. Ini menimbulkan tantangan besar dalam pembelajaran berbasis data, yang membutuhkan kumpulan data besar untuk menggeneralisasi dengan baik dan mencapai tingkat kinerja yang diinginkan. Selain itu, mengumpulkan, mengatur, dan memelihara kumpulan data berkualitas tinggi membutuhkan waktu dan biaya yang signifikan.
Pembelajaran federasi mengatasi tantangan ini dengan melatih model ML secara kolaboratif yang menggunakan data terdistribusi, tanpa perlu berbagi atau memusatkannya. Ini memungkinkan situs yang beragam terwakili dalam model akhir, mengurangi potensi risiko bias berbasis situs. Framework ini mengikuti arsitektur client-server, di mana server berbagi model global dengan klien. Klien melatih model berdasarkan data lokal dan berbagi parameter (seperti gradien atau bobot model) dengan server. Server menggabungkan parameter ini untuk memperbarui model global, yang kemudian dibagikan dengan klien untuk putaran pelatihan berikutnya, seperti yang ditunjukkan pada gambar berikut. Proses pelatihan model berulang ini berlanjut hingga model global menyatu.
Dalam beberapa tahun terakhir, paradigma pembelajaran baru ini telah berhasil diadopsi untuk mengatasi masalah tata kelola data dalam pelatihan model ML. Salah satu upaya tersebut adalah MELLODDY, sebuah konsorsium yang dipimpin oleh Innovative Medicines Initiative (IMI), didukung oleh AWS. Ini adalah program 3 tahun yang melibatkan 10 perusahaan farmasi, 2 institusi akademik, dan 3 mitra teknologi. Tujuan utamanya adalah untuk mengembangkan kerangka kerja FL multi-tugas untuk meningkatkan kinerja prediktif dan penerapan kimia dari model berbasis penemuan obat. Platform ini terdiri dari beberapa akun AWS, dengan masing-masing mitra farmasi mempertahankan kontrol penuh atas akun mereka masing-masing untuk mempertahankan kumpulan data pribadi mereka, dan akun ML pusat yang mengoordinasikan tugas pelatihan model.
Konsorsium melatih model pada miliaran titik data, yang terdiri dari lebih dari 20 juta molekul kecil di lebih dari 40,000 pengujian biologis. Berdasarkan hasil eksperimen, model kolaboratif menunjukkan peningkatan 4% dalam mengkategorikan molekul sebagai aktif atau tidak aktif secara farmakologis atau toksikologis. Ini juga menyebabkan peningkatan 10% dalam kemampuannya untuk menghasilkan prediksi yang meyakinkan ketika diterapkan pada jenis molekul baru. Akhirnya, model kolaboratif biasanya 2% lebih baik dalam memperkirakan nilai aktivitas toksikologi dan farmakologi.
FedML
FedML adalah pustaka sumber terbuka untuk memfasilitasi pengembangan algoritma FL. Ini mendukung tiga paradigma komputasi: pelatihan di perangkat untuk perangkat edge, komputasi terdistribusi, dan simulasi mesin tunggal. Ini juga menawarkan penelitian algoritmik yang beragam dengan desain API yang fleksibel dan umum serta implementasi baseline referensi yang komprehensif (pengoptimal, model, dan kumpulan data). Untuk deskripsi mendetail tentang pustaka FedML, lihat FedML.
Gambar berikut menampilkan arsitektur pustaka sumber terbuka FedML.
Seperti yang terlihat pada gambar sebelumnya, dari sudut pandang aplikasi, FedML melindungi detail kode dasar dan konfigurasi kompleks dari pelatihan terdistribusi. Pada level aplikasi, seperti computer vision, natural language processing, dan data mining, data scientist dan engineer hanya perlu menulis model, data, dan trainer dengan cara yang sama seperti program mandiri, lalu meneruskannya ke objek FedMLRunner untuk selesaikan semua proses, seperti yang ditunjukkan pada kode berikut. Ini sangat mengurangi biaya overhead bagi pengembang aplikasi untuk melakukan FL.
Algoritme FedML masih dalam proses dan terus ditingkatkan. Untuk tujuan ini, FedML mengabstraksi pelatih inti dan agregator dan memberi pengguna dua objek abstrak, FedML.core.ClientTrainer
dan FedML.core.ServerAggregator
, yang hanya perlu mewarisi antarmuka dari dua objek abstrak ini dan meneruskannya ke FedMLRunner. Kustomisasi semacam itu memberi pengembang ML fleksibilitas maksimum. Anda dapat menentukan struktur model arbitrer, pengoptimal, fungsi kerugian, dan banyak lagi. Penyesuaian ini juga dapat terhubung dengan mulus dengan komunitas sumber terbuka, platform terbuka, dan ekologi aplikasi yang disebutkan sebelumnya dengan bantuan FedMLRunner, yang sepenuhnya menyelesaikan masalah kelambatan yang panjang dari algoritme inovatif hingga komersialisasi.
Terakhir, seperti yang ditunjukkan pada gambar sebelumnya, FedML mendukung proses komputasi terdistribusi, seperti protokol keamanan kompleks dan pelatihan terdistribusi sebagai proses komputasi aliran Directed Acyclic Graph (DAG), membuat penulisan protokol kompleks serupa dengan program mandiri. Berdasarkan ide ini, protokol keamanan Flow Layer 1 dan proses algoritme ML Flow Layer 2 dapat dengan mudah dipisahkan sehingga teknisi keamanan dan teknisi ML dapat beroperasi sambil mempertahankan arsitektur modular.
Pustaka sumber terbuka FedML mendukung kasus penggunaan federasi ML untuk edge dan juga cloud. Di edge, framework memfasilitasi pelatihan dan penerapan model edge ke ponsel dan perangkat internet of things (IoT). Di cloud, ini memungkinkan ML kolaboratif global, termasuk server agregasi cloud publik multi-Wilayah, dan multi-penyewa, serta penerapan cloud pribadi dalam mode Docker. Kerangka kerja tersebut membahas masalah utama terkait dengan perlindungan privasi FL seperti keamanan, privasi, efisiensi, pengawasan yang lemah, dan keadilan.
Kesimpulan
Dalam postingan ini, kami menunjukkan bagaimana Anda dapat menerapkan kerangka kerja FedML sumber terbuka di AWS. Hal ini memungkinkan Anda melatih model ML pada data terdistribusi, tanpa perlu membagikan atau memindahkannya. Kami menyiapkan arsitektur multi-akun, di mana dalam skenario dunia nyata, organisasi dapat bergabung dengan ekosistem untuk mendapatkan keuntungan dari pembelajaran kolaboratif sambil mempertahankan tata kelola data. Dalam posting berikutnya, kami menggunakan kumpulan data eICU multi-rumah sakit untuk menunjukkan keefektifannya dalam skenario dunia nyata.
Harap tinjau presentasi di re:MARS 2022 yang berfokus pada “Pembelajaran Federasi Terkelola di AWS: Studi kasus untuk perawatan kesehatan” untuk panduan mendetail tentang solusi ini.
Referensi
[1] Kaissis, GA, Makowski, MR, Rückert, D. et al. Pembelajaran mesin yang aman, menjaga privasi, dan federasi dalam pencitraan medis. Nat Mach Intell 2, 305–311 (2020). https://doi.org/10.1038/s42256-020-0186-1
[2] FedML https://fedml.ai
Tentang Penulis
Olivia Choudhury, PhD, adalah Arsitek Solusi Mitra Senior di AWS. Dia membantu mitra, dalam domain Kesehatan dan Ilmu Hayati, merancang, mengembangkan, dan menskalakan solusi canggih yang memanfaatkan AWS. Dia memiliki latar belakang genomik, analitik perawatan kesehatan, pembelajaran federasi, dan pembelajaran mesin yang menjaga privasi. Di luar pekerjaannya, dia bermain permainan papan, melukis pemandangan, dan mengoleksi manga.
Vidya Sagar Ravipati adalah Manajer di Lab Solusi Amazon ML, di mana dia memanfaatkan pengalamannya yang luas dalam sistem terdistribusi skala besar dan hasratnya pada pembelajaran mesin untuk membantu pelanggan AWS di berbagai vertikal industri mempercepat adopsi AI dan cloud mereka. Sebelumnya, dia adalah Insinyur Pembelajaran Mesin di Layanan Konektivitas di Amazon yang membantu membangun platform personalisasi dan pemeliharaan prediktif.
Wajah Aziz adalah Principal Machine Learning dan Arsitek Solusi HPC di AWS, di mana dia berfokus untuk membantu pelanggan perawatan kesehatan dan ilmu kehidupan memanfaatkan teknologi AWS untuk mengembangkan solusi ML dan HPC yang canggih untuk berbagai kasus penggunaan seperti Pengembangan Obat, Uji Klinis, dan Pembelajaran Mesin yang Menjaga Privasi. Di luar pekerjaan, Wajahat gemar menjelajah alam, hiking, dan membaca.
Divya Bhargavi adalah Ilmuwan Data dan Pimpinan Vertikal Media dan Hiburan di Amazon ML Solutions Lab, tempat dia memecahkan masalah bisnis bernilai tinggi bagi pelanggan AWS menggunakan Pembelajaran Mesin. Dia mengerjakan pemahaman gambar/video, sistem rekomendasi grafik pengetahuan, kasus penggunaan iklan prediktif.
Ujjwal Ratan adalah pemimpin untuk AI/ML dan Ilmu Data di Unit Bisnis AWS Healthcare dan Life Science dan juga Arsitek Solusi AI/ML Utama. Selama bertahun-tahun, Ujjwal telah menjadi pemimpin pemikiran dalam industri perawatan kesehatan dan ilmu kehidupan, membantu beberapa organisasi Global Fortune 500 mencapai tujuan inovasi mereka dengan mengadopsi pembelajaran mesin. Karyanya yang melibatkan analisis pencitraan medis, teks klinis tidak terstruktur, dan genomik telah membantu AWS membangun produk dan layanan yang menyediakan diagnosis dan terapi yang sangat dipersonalisasi dan tepat sasaran. Di waktu luangnya, dia senang mendengarkan (dan memainkan) musik dan melakukan perjalanan yang tidak direncanakan bersama keluarganya.
Chaoyang Dia adalah Co-founder dan CTO dari FedML, Inc., sebuah startup yang berjalan untuk membangun komunitas AI yang terbuka dan kolaboratif dari mana saja dalam skala apa pun. Penelitiannya berfokus pada algoritma, sistem, dan aplikasi pembelajaran mesin terdistribusi/federasi. Ia menerima gelar Ph.D. dalam Ilmu Komputer dari University of Southern California, Los Angeles, AS.
Salman Avestimehr adalah Profesor, direktur pengukuhan USC-Amazon Center for Secure and Trusted Machine Learning (Trusted AI), dan direktur lab penelitian Information Theory and Machine Learning (vITAL) di Departemen Teknik Elektro dan Komputer dan Departemen Ilmu Komputer di Universitas California Selatan. Dia juga salah satu pendiri dan CEO FedML. Dia menerima Ph.D. dalam Teknik Elektro dan Ilmu Komputer dari UC Berkeley pada tahun 2008. Penelitiannya berfokus pada bidang teori informasi, pembelajaran mesin terdesentralisasi dan federasi, pembelajaran dan komputasi yang aman dan menjaga privasi.
- Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
- Platoblockchain. Intelijen Metaverse Web3. Pengetahuan Diperkuat. Akses Di Sini.
- Sumber: https://aws.amazon.com/blogs/machine-learning/part-1-federated-learning-on-aws-with-fedml-health-analytics-without-sharing-sensitive-data/
- 000
- 1
- 10
- 100
- 2%
- 2020
- 2022
- 7
- a
- kemampuan
- ABSTRAK
- abstrak
- akademik
- mempercepat
- mengakses
- Akun
- Akun
- Mencapai
- di seluruh
- aktif
- kegiatan
- asiklik
- alamat
- alamat
- diadopsi
- Mengadopsi
- Adopsi
- memajukan
- pengiklanan
- agregat
- pengumpulan
- Agregator
- AI
- AI / ML
- algoritma
- algoritmik
- algoritma
- Semua
- memungkinkan
- Amazon
- Lab Solusi Amazon ML
- antara
- analisis
- analisis
- menganalisa
- menganalisis
- dan
- dan infrastruktur
- Angeles
- di manapun
- api
- Aplikasi
- aplikasi
- terapan
- arsitektur
- daerah
- terkait
- AWS
- latar belakang
- berdasarkan
- Dasar
- karena
- makhluk
- manfaat
- Berkeley
- Lebih baik
- prasangka
- miliaran
- Blog
- papan
- Permainan papan
- Membawa
- membangun
- Bangunan
- bisnis
- california
- bernama
- yang
- kasus
- studi kasus
- kasus
- mengkategorikan
- pusat
- pusat
- terpusat
- ceo
- menantang
- tantangan
- kimia
- Pilih
- klien
- Klinis
- uji klinis
- awan
- adopsi cloud
- Co-founder
- kode
- kolaboratif
- komersialisasi
- masyarakat
- membangun komunitas
- Perusahaan
- lengkap
- sama sekali
- kompleks
- luas
- komputer
- Teknik Komputer
- Komputer Ilmu
- Visi Komputer
- komputasi
- konsep
- Perhatian
- Kekhawatiran
- yakin
- terhubung
- Konektivitas
- Terdiri dari
- konsorsium
- terus-menerus
- kendala
- terus
- kontrol
- koordinasi
- Core
- Biaya
- membuat
- kritis
- CTO
- kurasi
- pelanggan
- kustomisasi
- DAG
- data
- Data Analytics
- data mining
- titik data
- ilmu data
- ilmuwan data
- berbagi data
- Data-driven
- Basis Data
- kumpulan data
- Terdesentralisasi
- keputusan
- pengiriman
- mendemonstrasikan
- menunjukkan
- Departemen
- menyebarkan
- penyebaran
- dijelaskan
- deskripsi
- Mendesain
- terperinci
- rincian
- mengembangkan
- dikembangkan
- pengembang
- berkembang
- Pengembangan
- alat
- Devices
- berbeda
- Kepala
- didistribusikan
- komputasi terdistribusi
- sistem terdistribusi
- pelatihan terdistribusi
- beberapa
- Buruh pelabuhan
- Tidak
- domain
- domain
- obat
- selama
- setiap
- Terdahulu
- mudah
- ekosistem
- Tepi
- Pendidikan
- efektivitas
- efisiensi
- usaha
- antara
- memungkinkan
- insinyur
- Teknik
- Insinyur
- Menghibur
- peristiwa
- pengalaman
- menyelidiki
- memudahkan
- memfasilitasi
- keadilan
- keluarga
- Angka
- terakhir
- Akhirnya
- keuangan
- Pertama
- keluwesan
- fleksibel
- aliran
- terfokus
- berfokus
- berikut
- berikut
- Nasib
- Kerangka
- Gratis
- dari
- penuh
- fungsi
- masa depan
- Games
- pertemuan
- genomik
- Aksi
- tujuan
- Anda
- pemerintahan
- gradien
- grafik
- lebih besar
- sangat
- Pertumbuhan
- Pertumbuhan
- pedoman
- Kesehatan
- kesehatan
- Dimiliki
- membantu
- membantu
- membantu
- membantu
- berkualitas tinggi
- sangat
- rumah sakit
- Seterpercayaapakah Olymp Trade? Kesimpulan
- HPC
- HTTPS
- ide
- Pencitraan
- diimplementasikan
- mengimpor
- memperbaiki
- ditingkatkan
- perbaikan
- in
- non-aktif
- Perdana
- Inc
- Termasuk
- Meningkatkan
- industri
- industri
- informasi
- Infrastruktur
- Prakarsa
- Innovation
- inovatif
- wawasan
- lembaga
- bunga
- interface
- Internet
- internet hal-hal
- idiot
- IT
- ikut
- kunci
- pengetahuan
- Pengetahuan Grafik
- laboratorium
- Kekurangan
- bahasa
- besar
- besar-besaran
- lapisan
- lapisan 1
- Lapisan 2
- memimpin
- pemimpin
- pengetahuan
- Dipimpin
- Tingkat
- Leverage
- memanfaatkan
- leveraging
- Perpustakaan
- Hidup
- Ilmu Kehidupan
- Biologi
- batas
- Listening
- memuat
- lokal
- lokal
- Panjang
- itu
- Los Angeles
- lepas
- mesin
- Mesin belajar
- memelihara
- pemeliharaan
- utama
- Membuat
- mengelola
- pengelolaan
- manajer
- pelaksana
- cara
- Maret
- maksimum
- berarti
- Media
- medis
- obat
- tersebut
- juta
- Pertambangan
- MIT
- Mengurangi
- ML
- mobil
- ponsel
- mode
- model
- model
- modular
- lebih
- pindah
- bergerak
- beberapa
- musik
- Alam
- Pengolahan Bahasa alami
- Alam
- Perlu
- New
- berikutnya
- obyek
- objek
- Penawaran
- ONE
- Buka
- open source
- beroperasi
- Kesempatan
- organisasi
- Lainnya
- di luar
- pola pikir
- parameter
- bagian
- peserta
- pasangan
- rekan
- gairah
- pasien
- Melakukan
- prestasi
- Personalisasi
- Personalized
- Pharma
- farmasi
- ponsel
- Platform
- Platform
- plato
- Kecerdasan Data Plato
- Data Plato
- bermain
- Titik
- Sudut pandang
- poin
- pose
- Pos
- potensi
- didukung
- Praktis
- tepat
- Ketelitian
- meramalkan
- Prediksi
- menyajikan
- presentasi
- hadiah
- sebelumnya
- primer
- Utama
- pribadi
- swasta
- Masalah
- masalah
- proses
- proses
- pengolahan
- Produk
- Profesor
- program
- program
- Kemajuan
- mengusulkan
- melindungi
- protokol
- protokol
- memberikan
- menyediakan
- publik
- Awan publik
- LANGKA
- RE
- Bacaan
- dunia nyata
- diterima
- baru
- Rekomendasi
- mengurangi
- mengurangi
- salam
- beregulasi
- regulator
- gudang
- diwakili
- membutuhkan
- kebutuhan
- membutuhkan
- penelitian
- itu
- Hasil
- penahan
- ulasan
- Risiko
- jalan
- bulat
- berjalan
- sama
- Skala
- Ilmu
- ILMU PENGETAHUAN
- ilmuwan
- ilmuwan
- mulus
- Sektor
- aman
- keamanan
- Mencari
- senior
- peka
- Seri
- Server
- Layanan
- set
- beberapa
- Share
- berbagi
- saham
- berbagi
- Menunjukkan
- ditunjukkan
- penting
- mirip
- simulasi
- tunggal
- situs web
- Situs
- kecil
- So
- larutan
- Solusi
- Memecahkan
- beberapa
- Selatan
- standalone
- awal
- startup
- state-of-the-art
- Masih
- menyimpan
- Belajar
- berhasil
- seperti itu
- cukup
- pengawasan
- mendukung
- Mendukung
- sistem
- pengambilan
- ditargetkan
- tugas
- Teknologi
- Teknologi
- uji
- Grafik
- informasi
- mereka
- terapi
- karena itu
- hal
- pikir
- tiga
- waktu
- untuk
- Pelatihan VE
- terlatih
- Pelatihan
- uji
- Terpercaya
- jenis
- khas
- pokok
- pemahaman
- satuan
- universitas
- Memperbarui
- Amerika Serikat
- menggunakan
- Pengguna
- kegunaan
- Nilai - Nilai
- variasi
- Luas
- vertikal
- View
- penglihatan
- vital
- volume
- walkthrough
- yang
- sementara
- SIAPA
- lebar
- dalam
- tanpa
- Kerja
- bekerja
- menulis
- penulisan
- tahun
- Menghasilkan
- Kamu
- zephyrnet.dll