Stowarzyszone uczenie się na platformie AWS z FedML: analiza stanu zdrowia bez udostępniania wrażliwych danych

Opublikowane ponownie przez Plato

Obserwuje: 0

Ten post na blogu został napisany wspólnie z Chaoyangiem He i Salmanem Avestimehrem z FedML.

Analizowanie rzeczywistych danych z zakresu opieki zdrowotnej i nauk przyrodniczych (HCLS) wiąże się z kilkoma praktycznymi wyzwaniami, takimi jak rozproszone silosy danych, brak wystarczających danych w jednym miejscu w przypadku rzadkich zdarzeń, wytyczne regulacyjne zabraniające udostępniania danych, wymagania dotyczące infrastruktury i koszty ponoszone przy tworzeniu scentralizowane repozytorium danych. Ponieważ znajdują się w wysoce regulowanej domenie, partnerzy i klienci HCLS poszukują mechanizmów chroniących prywatność w celu zarządzania i analizowania dużych, rozproszonych i wrażliwych danych.

Aby złagodzić te wyzwania, proponujemy użycie struktury federacyjnego uczenia się typu open source (FL) o nazwie FedML, która umożliwia analizowanie poufnych danych HCLS przez uczenie globalnego modelu uczenia maszynowego na podstawie rozproszonych danych przechowywanych lokalnie w różnych lokalizacjach. FL nie wymaga przenoszenia ani udostępniania danych między lokalizacjami ani na scentralizowanym serwerze podczas procesu uczenia modelu.

W tej dwuczęściowej serii pokazujemy, jak wdrożyć platformę FL opartą na chmurze w AWS. W pierwszym poście opisaliśmy koncepcje FL oraz framework FedML. w drugi post, przedstawiamy przypadki użycia i zestaw danych, aby pokazać jego skuteczność w analizie rzeczywistych zestawów danych dotyczących opieki zdrowotnej, takich jak dane eICU, która obejmuje wieloośrodkową bazę danych dotyczącą intensywnej opieki zebraną z ponad 200 szpitali.

Tło

Chociaż ilość danych generowanych przez HCLS nigdy nie była większa, wyzwania i ograniczenia związane z dostępem do takich danych ograniczają ich użyteczność w przyszłych badaniach. Uczenie maszynowe (ML) stanowi okazję do rozwiązania niektórych z tych problemów i jest wdrażane w celu zaawansowanej analizy danych i uzyskiwania znaczących spostrzeżeń z różnych danych HCLS w przypadkach użycia, takich jak świadczenie opieki, wspomaganie decyzji klinicznych, medycyna precyzyjna, segregacja i diagnostyka oraz przewlekłe zarządzanie opieką. Ponieważ algorytmy uczenia maszynowego często nie są odpowiednie do ochrony prywatności danych na poziomie pacjenta, wśród partnerów i klientów HCLS rośnie zainteresowanie wykorzystaniem mechanizmów i infrastruktury chroniących prywatność do zarządzania i analizowania dużych, rozproszonych i wrażliwych danych. [1]

Opracowaliśmy platformę FL w AWS, która umożliwia analizowanie rozproszonych i wrażliwych danych zdrowotnych w sposób chroniący prywatność. Obejmuje trenowanie udostępnionego modelu ML bez przenoszenia lub udostępniania danych między witrynami lub na scentralizowanym serwerze podczas procesu szkolenia modelu i może być wdrażane na wielu kontach AWS. Uczestnicy mogą wybrać przechowywanie swoich danych w swoich systemach lokalnych lub na kontrolowanym przez siebie koncie AWS. Dlatego przenosi analitykę do danych, zamiast przenosić dane do analityki.

W tym poście pokazaliśmy, jak można wdrożyć platformę FedML typu open source na AWS. Testujemy ramy na danych eICU, wieloośrodkowej bazie danych dotyczącej intensywnej opieki zebranej z ponad 200 szpitali, aby przewidzieć śmiertelność pacjentów w szpitalu. Możemy użyć tej struktury FL do analizy innych zestawów danych, w tym danych genomicznych i nauk przyrodniczych. Może być również przyjęty przez inne domeny, które obfitują w rozproszone i wrażliwe dane, w tym sektory finansów i edukacji.

Sfederowane uczenie się

Postęp technologiczny doprowadził do gwałtownego wzrostu ilości danych w różnych branżach, w tym HCLS. Organizacje HCLS często przechowują dane w silosach. Stanowi to poważne wyzwanie w nauczaniu opartym na danych, które wymaga dużych zbiorów danych, aby dobrze uogólnić i osiągnąć pożądany poziom wydajności. Ponadto gromadzenie, nadzorowanie i utrzymywanie zestawów danych wysokiej jakości wiąże się ze znacznym nakładem czasu i kosztów.

Federacyjne uczenie się łagodzi te wyzwania, trenując wspólnie modele uczenia maszynowego, które wykorzystują rozproszone dane, bez konieczności ich udostępniania lub centralizacji. Pozwala to na reprezentację różnych witryn w ostatecznym modelu, zmniejszając potencjalne ryzyko stronniczości opartej na witrynach. Ramy są zgodne z architekturą klient-serwer, w której serwer współdzieli model globalny z klientami. Klienci uczą model na podstawie danych lokalnych i udostępniają serwerowi parametry (takie jak nachylenia lub wagi modeli). Serwer agreguje te parametry w celu aktualizacji modelu globalnego, który jest następnie udostępniany klientom na potrzeby następnej rundy szkolenia, jak pokazano na poniższym rysunku. Ten iteracyjny proces uczenia modelu trwa do momentu uzyskania zbieżności modelu globalnego.

Iteracyjny proces uczenia modeli

W ostatnich latach ten nowy paradygmat uczenia się został pomyślnie przyjęty, aby rozwiązać problem zarządzania danymi w modelach uczenia maszynowego. Jednym z takich wysiłków jest MELLODDY, konsorcjum kierowane przez Innovative Medicines Initiative (IMI), wspierane przez AWS. Jest to 3-letni program, w którym bierze udział 10 firm farmaceutycznych, 2 instytucje akademickie i 3 partnerów technologicznych. Jego głównym celem jest opracowanie wielozadaniowych ram FL w celu poprawy wydajności predykcyjnej i chemicznej przydatności modeli opartych na odkrywaniu leków. Platforma obejmuje wiele kont AWS, przy czym każdy partner farmaceutyczny zachowuje pełną kontrolę nad swoimi kontami w celu utrzymywania prywatnych zbiorów danych, a także centralne konto ML koordynujące zadania szkolenia modeli.

Konsorcjum przeszkoliło modele na miliardach punktów danych, składających się z ponad 20 milionów małych cząsteczek w ponad 40,000 4 testów biologicznych. W oparciu o wyniki eksperymentalne modele oparte na współpracy wykazały 10% poprawę w kategoryzowaniu cząsteczek jako aktywnych lub nieaktywnych farmakologicznie lub toksykologicznie. Doprowadziło to również do 2% wzrostu jego zdolności do generowania pewnych przewidywań w przypadku zastosowania do nowych typów cząsteczek. Wreszcie modele współpracujące były zazwyczaj o XNUMX% lepsze w szacowaniu wartości działań toksykologicznych i farmakologicznych.

FedML

FedML to biblioteka typu open source ułatwiająca opracowywanie algorytmów FL. Obsługuje trzy paradygmaty obliczeniowe: szkolenie na urządzeniu dla urządzeń brzegowych, przetwarzanie rozproszone i symulację pojedynczej maszyny. Oferuje również różnorodne badania algorytmiczne z elastycznym i ogólnym projektem API oraz kompleksowymi referencyjnymi implementacjami bazowymi (optymalizator, modele i zestawy danych). Aby uzyskać szczegółowy opis biblioteki FedML, patrz FedML.

Poniższy rysunek przedstawia architekturę biblioteki open-source FedML.

Architektura biblioteki open-source FedML

Jak widać na powyższym rysunku, z punktu widzenia aplikacji, FedML chroni szczegóły podstawowego kodu i złożone konfiguracje rozproszonego szkolenia. Na poziomie aplikacji, takich jak wizja komputerowa, przetwarzanie języka naturalnego i eksploracja danych, analitycy danych i inżynierowie muszą tylko napisać model, dane i trener w taki sam sposób, jak samodzielny program, a następnie przekazać je do obiektu FedMLRunner do zakończ wszystkie procesy, jak pokazano w poniższym kodzie. To znacznie zmniejsza obciążenie programistów aplikacji związane z wykonywaniem FL.

import fedml
from my_model_trainer import MyModelTrainer
from my_server_aggregator import MyServerAggregator
from fedml import FedMLRunner if __name__ == "__main__":
# init FedML framework
args = fedml.init() # init device
device = fedml.device.get_device(args) # load data
dataset, output_dim = fedml.data.load(args) # load model
model = fedml.model.create(args, output_dim) # my customized trainer and aggregator
trainer = MyModelTrainer(model, args)
aggregator = MyServerAggregator(model, args) # start training
fedml_runner = FedMLRunner(args, device, dataset, model, trainer, aggregator)
fedml_runner.run()

Algorytm FedML jest wciąż w toku i jest stale ulepszany. W tym celu FedML wyodrębnia podstawowego trenera i agregatora oraz udostępnia użytkownikom dwa obiekty abstrakcyjne, FedML.core.ClientTrainer i FedML.core.ServerAggregator, które muszą tylko odziedziczyć interfejsy tych dwóch abstrakcyjnych obiektów i przekazać je do FedMLRunner. Takie dostosowanie zapewnia programistom ML maksymalną elastyczność. Możesz zdefiniować dowolne struktury modelu, optymalizatory, funkcje strat i wiele więcej. Te dostosowania można również bezproblemowo połączyć ze społecznością open source, otwartą platformą i ekologią aplikacji wspomnianą wcześniej za pomocą FedMLRunner, który całkowicie rozwiązuje problem długich opóźnień od innowacyjnych algorytmów do komercjalizacji.

Wreszcie, jak pokazano na powyższym rysunku, FedML obsługuje rozproszone procesy obliczeniowe, takie jak złożone protokoły bezpieczeństwa i nauczanie rozproszone jako proces obliczeniowy ukierunkowanego grafu acyklicznego (DAG), dzięki czemu pisanie złożonych protokołów jest podobne do samodzielnych programów. W oparciu o tę ideę protokół bezpieczeństwa Flow Layer 1 i proces algorytmu ML Flow Layer 2 można łatwo rozdzielić, aby inżynierowie bezpieczeństwa i inżynierowie ML mogli działać przy zachowaniu architektury modułowej.

Biblioteka open-source FedML obsługuje federacyjne przypadki użycia ML zarówno na brzegu sieci, jak iw chmurze. Na brzegu platforma ułatwia szkolenie i wdrażanie modeli brzegowych w telefonach komórkowych i urządzeniach Internetu rzeczy (IoT). W chmurze umożliwia globalną współpracę ML, w tym serwery agregujące w chmurze publicznej obejmujące wiele regionów i wielu dzierżawców, a także wdrażanie chmury prywatnej w trybie Docker. Ramy dotyczą kluczowych problemów związanych z zachowaniem prywatności FL, takich jak bezpieczeństwo, prywatność, wydajność, słaby nadzór i uczciwość.

Wnioski

W tym poście pokazaliśmy, jak można wdrożyć platformę FedML typu open source na AWS. Pozwala to trenować model ML na rozproszonych danych, bez konieczności ich udostępniania lub przenoszenia. Stworzyliśmy architekturę wielokontową, w której w rzeczywistym scenariuszu organizacje mogą dołączyć do ekosystemu, aby czerpać korzyści ze wspólnego uczenia się przy jednoczesnym zachowaniu zarządzania danymi. w Następny wpis, używamy wieloszpitalnego zestawu danych eICU, aby zademonstrować jego skuteczność w rzeczywistym scenariuszu.

Zapoznaj się z prezentacją pod adresem re:MARS 2022 skoncentrowaną na „Managed Federated Learning on AWS: studium przypadku dla służby zdrowia”, aby uzyskać szczegółowy opis tego rozwiązania.

Numer Referencyjny

[1] GA Kaissis, MR Makowski, D. Rückert i in. Bezpieczne, chroniące prywatność i stowarzyszone uczenie maszynowe w obrazowaniu medycznym. Nat Mach Intell 2, 305–311 (2020). https://doi.org/10.1038/s42256-020-0186-1
[2] FedML https://fedml.ai

O autorach

Federacyjne uczenie się na AWS z FedML: analityka stanu zdrowia bez udostępniania wrażliwych danych – część 1 PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Oliwia Choudhury, PhD, jest starszym architektem rozwiązań partnerskich w AWS. Pomaga partnerom w dziedzinie opieki zdrowotnej i nauk przyrodniczych projektować, rozwijać i skalować najnowocześniejsze rozwiązania wykorzystujące AWS. Ma doświadczenie w genomice, analityce opieki zdrowotnej, uczeniu federacyjnym i uczeniu maszynowym chroniącym prywatność. Poza pracą gra w planszówki, maluje pejzaże i kolekcjonuje mangi.

Widja Sagar Rawipati jest Menedżerem w Laboratorium rozwiązań Amazon ML, gdzie wykorzystuje swoje bogate doświadczenie w wielkoskalowych systemach rozproszonych i swoją pasję do uczenia maszynowego, aby pomóc klientom AWS z różnych branż w przyspieszeniu wdrażania sztucznej inteligencji i chmury. Wcześniej był inżynierem uczenia maszynowego w Connectivity Services w Amazon, który pomagał budować platformy do personalizacji i konserwacji predykcyjnej.

Federacyjne uczenie się na AWS z FedML: analityka stanu zdrowia bez udostępniania wrażliwych danych – część 1 PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Wajahat Aziz jest głównym architektem rozwiązań Machine Learning i HPC w AWS, gdzie koncentruje się na pomaganiu klientom z sektora opieki zdrowotnej i nauk przyrodniczych w wykorzystaniu technologii AWS do opracowywania najnowocześniejszych rozwiązań ML i HPC dla szerokiej gamy zastosowań, takich jak opracowywanie leków, Badania kliniczne i uczenie maszynowe chroniące prywatność. Poza pracą Wajahat lubi odkrywać przyrodę, piesze wędrówki i czytać.

Divya Bhargawi jest Data Scientist i Media and Entertainment Vertical Lead w Amazon ML Solutions Lab, gdzie rozwiązuje problemy biznesowe o dużej wartości dla klientów AWS za pomocą uczenia maszynowego. Zajmuje się rozumieniem obrazu/wideo, systemami rekomendacji opartymi na grafach wiedzy, predykcyjnymi przypadkami użycia reklamy.

Ujjwal Ratan jest liderem AI/ML i Data Science w AWS Healthcare and Life Science Business Unit, a także jest głównym architektem rozwiązań AI/ML. Przez lata Ujjwal był liderem w branży opieki zdrowotnej i nauk przyrodniczych, pomagając wielu organizacjom z listy Global Fortune 500 osiągnąć ich cele w zakresie innowacji poprzez przyjęcie uczenia maszynowego. Jego praca obejmująca analizę obrazowania medycznego, nieustrukturyzowanego tekstu klinicznego i genomiki pomogła AWS zbudować produkty i usługi, które zapewniają wysoce spersonalizowaną i precyzyjnie ukierunkowaną diagnostykę i terapię. W wolnym czasie lubi słuchać (i grać) muzyki oraz odbywać nieplanowane wycieczki samochodowe z rodziną.

Federacyjne uczenie się na AWS z FedML: analityka stanu zdrowia bez udostępniania wrażliwych danych – część 1 PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Chaoyang He jest współzałożycielem i CTO FedML, Inc., startupu działającego na rzecz społeczności budującej otwartą i współpracującą sztuczną inteligencję z dowolnego miejsca i na dowolną skalę. Jego badania koncentrują się na rozproszonych/sfederowanych algorytmach, systemach i aplikacjach uczenia maszynowego. Uzyskał tytuł doktora. na kierunku Informatyka z kl University of Southern California, Los Angeles, USA.

Federacyjne uczenie się na AWS z FedML: analityka stanu zdrowia bez udostępniania wrażliwych danych – część 1 PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Salmana Avestimehra jest profesorem, inauguracyjnym dyrektorem USC-Amazon Center for Secure and Trusted Machine Learning (Trusted AI) oraz dyrektorem laboratorium badawczego Teorii Informacji i Uczenia Maszynowego (vITAL) na Wydziale Inżynierii Elektrycznej i Komputerowej oraz Wydziale Informatyki Uniwersytetu im. Uniwersytet Południowej Kalifornii. Jest także współzałożycielem i dyrektorem generalnym FedML. Otrzymał mój doktorat. w dziedzinie elektrotechniki i informatyki na Uniwersytecie Kalifornijskim w Berkeley w 2008 r. Jego badania koncentrują się na obszarach teorii informacji, zdecentralizowanego i sfederowanego uczenia maszynowego, bezpiecznego i chroniącego prywatność uczenia się i informatyki.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
Platoblockchain. Web3 Inteligencja Metaverse. Wzmocniona wiedza. Dostęp tutaj.
Źródło: https://aws.amazon.com/blogs/machine-learning/part-1-federated-learning-on-aws-with-fedml-health-analytics-without-sharing-sensitive-data/

Znak czasu: 13 stycznia 2023 r.

Znak czasu: Mar 1, 2022

Opublikowane ponownie przez Plato

Twórz elastyczne i skalowalne rozproszone architektury szkoleniowe za pomocą Kubeflow na AWS i Amazon SageMaker

Dostosuj modele ML pod kątem dodatkowych celów, takich jak rzetelność, dzięki automatycznemu dostrajaniu modeli SageMaker

Wzorce projektowe do szeregowego wnioskowania w Amazon SageMaker

Dostarczaj i zarządzaj środowiskami ML za pomocą Amazon SageMaker Canvas za pomocą AWS CDK i AWS Service Catalog

Wykrywanie anomalii za pomocą Amazon SageMaker Edge Manager przy użyciu AWS IoT Greengrass V2

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto