Об’єднане навчання на AWS із FedML: аналітика здоров’я без обміну конфіденційними даними

Перевидано Платоном

читають: 0

Цей допис у блозі написано спільно з Чаоян Хе та Салманом Авестімером із FedML.

Аналіз реальних даних охорони здоров’я та наук про життя (HCLS) створює кілька практичних проблем, таких як розподілені дані, відсутність достатньої кількості даних на будь-якому окремому місці для рідкісних подій, нормативні вказівки, які забороняють обмін даними, вимоги до інфраструктури та витрати на створення централізоване сховище даних. Оскільки вони перебувають у суворо регульованому домені, партнери та клієнти HCLS шукають механізми збереження конфіденційності для керування й аналізу великомасштабних, розподілених і конфіденційних даних.

Щоб пом’якшити ці проблеми, ми пропонуємо використовувати фреймворк федеративного навчання (FL) з відкритим кодом під назвою FedML, який дає змогу аналізувати конфіденційні дані HCLS шляхом навчання глобальної моделі машинного навчання з розподілених даних, що зберігаються локально на різних сайтах. FL не потребує переміщення чи обміну даними між сайтами чи централізованим сервером під час процесу навчання моделі.

У цій серії з двох частин ми демонструємо, як можна розгорнути хмарну структуру FL на AWS. У першій публікації ми описали концепції FL і структуру FedML. В друга посада, ми представляємо випадки використання та набір даних, щоб показати його ефективність в аналізі реальних наборів даних охорони здоров’я, таких як дані eICU, яка містить багатоцентрову базу даних інтенсивної терапії, зібрану з понад 200 лікарень.

фон

Хоча обсяг даних, створених HCLS, ніколи не був таким великим, проблеми та обмеження, пов’язані з доступом до таких даних, обмежують їхню корисність для майбутніх досліджень. Машинне навчання (ML) дає можливість вирішити деякі з цих проблем і використовується для вдосконалення аналітики даних і отримання значущої інформації з різноманітних даних HCLS для таких випадків, як надання медичної допомоги, підтримка клінічних рішень, прецизійна медицина, сортування та діагностика та хронічні захворювання. управління доглядом. Оскільки алгоритми ML часто недостатні для захисту конфіденційності даних на рівні пацієнта, серед партнерів і клієнтів HCLS зростає інтерес до використання механізмів та інфраструктури збереження конфіденційності для керування й аналізу великомасштабних, розподілених і конфіденційних даних. [1]

Ми розробили фреймворк FL на AWS, який дає змогу аналізувати розповсюджені та конфіденційні дані про стан здоров’я, зберігаючи конфіденційність. Це передбачає навчання спільної моделі ML без переміщення чи обміну даними між сайтами або централізованим сервером під час процесу навчання моделі та може бути реалізовано в кількох облікових записах AWS. Учасники можуть зберігати свої дані у своїх локальних системах або в обліковому записі AWS, яким вони керують. Тому він переносить аналітику в дані, а не переносить дані в аналітику.

У цій публікації ми показали, як можна розгорнути фреймворк FedML з відкритим кодом на AWS. Ми перевіряємо структуру на основі даних eICU, багатоцентрової бази даних інтенсивної терапії, зібраної з понад 200 лікарень, щоб прогнозувати смертність пацієнтів у лікарні. Ми можемо використовувати цю структуру FL для аналізу інших наборів даних, у тому числі даних генома та наук про життя. Він також може бути прийнятий в інших сферах, які рясніють розподіленими та конфіденційними даними, включаючи фінансовий і освітній сектори.

Федеративне навчання

Удосконалення технологій призвело до вибухового зростання даних у різних галузях, зокрема HCLS. Організації HCLS часто зберігають дані в силосах. Це створює серйозну проблему для навчання, керованого даними, яке вимагає великих наборів даних для якісного узагальнення та досягнення бажаного рівня продуктивності. Крім того, збирання, курування та підтримка високоякісних наборів даних вимагає значного часу та витрат.

Інтегроване навчання пом’якшує ці проблеми шляхом спільного навчання моделей машинного навчання, які використовують розподілені дані, без необхідності їх спільного використання чи централізації. Це дозволяє відобразити різноманітні сайти в остаточній моделі, зменшуючи потенційний ризик упередженості на основі сайту. Фреймворк відповідає архітектурі клієнт-сервер, де сервер ділиться глобальною моделлю з клієнтами. Клієнти навчають модель на основі локальних даних і обмінюються параметрами (такими як градієнти або ваги моделі) із сервером. Сервер агрегує ці параметри для оновлення глобальної моделі, яка потім передається клієнтам для наступного раунду навчання, як показано на малюнку нижче. Цей ітеративний процес навчання моделі триває, доки глобальна модель не зійдеться.

Ітераційний процес навчання моделі

Останніми роками цю нову парадигму навчання було успішно прийнято, щоб вирішити проблему керування даними під час навчання моделям ML. Одним із таких зусиль є МЕЛОДДІ, консорціум під керівництвом Innovative Medicines Initiative (IMI) на базі AWS. Це 3-річна програма, в якій беруть участь 10 фармацевтичних компаній, 2 академічні установи та 3 технологічні партнери. Основна мета — розробити багатозадачну структуру FL для покращення прогнозної ефективності та хімічної застосовності моделей, заснованих на відкритті ліків. Платформа містить кілька облікових записів AWS, при цьому кожен фармацевтичний партнер зберігає повний контроль над своїми відповідними обліковими записами для підтримки своїх приватних наборів даних, а також центральний обліковий запис ML, який координує завдання навчання моделі.

Консорціум навчив моделі на мільярдах точок даних, що складаються з понад 20 мільйонів малих молекул у понад 40,000 4 біологічних аналізів. На підставі експериментальних результатів спільні моделі продемонстрували покращення на 10% класифікації молекул як фармакологічно чи токсикологічно активних або неактивних. Це також призвело до 2% збільшення його здатності давати впевнені прогнози при застосуванні до нових типів молекул. Нарешті, спільні моделі зазвичай на XNUMX% краще оцінювали значення токсикологічної та фармакологічної активності.

FedML

FedML — це бібліотека з відкритим кодом для полегшення розробки алгоритму FL. Він підтримує три обчислювальні парадигми: навчання на пристрої для крайніх пристроїв, розподілене обчислення та моделювання на одній машині. Він також пропонує різноманітні алгоритмічні дослідження з гнучким і загальним дизайном API та всеосяжними базовими реалізаціями (оптимізатор, моделі та набори даних). Докладний опис бібліотеки FedML див FedML.

На наступному малюнку представлено архітектуру бібліотеки з відкритим кодом FedML.

Архітектура бібліотеки з відкритим кодом FedML

Як показано на попередньому малюнку, з прикладної точки зору FedML приховує деталі основного коду та складні конфігурації розподіленого навчання. На прикладному рівні, як-от комп’ютерне бачення, обробка природної мови та інтелектуальний аналіз даних, дослідникам даних та інженерам потрібно лише написати модель, дані та тренер так само, як окрему програму, а потім передати їх об’єкту FedMLRunner для завершити всі процеси, як показано в наступному коді. Це значно зменшує витрати розробників додатків на виконання FL.

import fedml
from my_model_trainer import MyModelTrainer
from my_server_aggregator import MyServerAggregator
from fedml import FedMLRunner if __name__ == "__main__":
# init FedML framework
args = fedml.init() # init device
device = fedml.device.get_device(args) # load data
dataset, output_dim = fedml.data.load(args) # load model
model = fedml.model.create(args, output_dim) # my customized trainer and aggregator
trainer = MyModelTrainer(model, args)
aggregator = MyServerAggregator(model, args) # start training
fedml_runner = FedMLRunner(args, device, dataset, model, trainer, aggregator)
fedml_runner.run()

Алгоритм FedML все ще розробляється та постійно вдосконалюється. З цією метою FedML абстрагує основний тренер і агрегатор і надає користувачам два абстрактні об’єкти, FedML.core.ClientTrainer та FedML.core.ServerAggregator, яким потрібно лише успадкувати інтерфейси цих двох абстрактних об’єктів і передати їх FedMLRunner. Така настройка надає розробникам ML максимальну гнучкість. Ви можете визначити довільні структури моделі, оптимізатори, функції втрат тощо. Ці налаштування також можна легко пов’язати з спільнотою відкритих вихідних кодів, відкритою платформою та екологією додатків, згаданими раніше, за допомогою FedMLRunner, який повністю вирішує проблему тривалого затримки від інноваційних алгоритмів до комерціалізації.

Нарешті, як показано на попередньому малюнку, FedML підтримує розподілені обчислювальні процеси, такі як складні протоколи безпеки та розподілене навчання як процес обчислення потоку спрямованого ациклічного графа (DAG), що робить написання складних протоколів подібним до окремих програм. Базуючись на цій ідеї, протокол безпеки Flow Layer 1 і алгоритм ML процес Flow Layer 2 можуть бути легко розділені, щоб інженери безпеки та інженери ML могли працювати, зберігаючи модульну архітектуру.

Бібліотека з відкритим вихідним кодом FedML підтримує сценарії використання об’єднаного ML як для периферії, так і для хмари. На периферії платформа полегшує навчання та розгортання периферійних моделей на мобільних телефонах і пристроях Інтернету речей (IoT). У хмарі він забезпечує глобальне спільне машинне навчання, включаючи багаторегіональні та багатокористувальницькі публічні хмарні агрегаційні сервери, а також розгортання приватної хмари в режимі Docker. Структура вирішує ключові проблеми щодо збереження конфіденційності FL, такі як безпека, конфіденційність, ефективність, слабкий нагляд і справедливість.

Висновок

У цій публікації ми показали, як можна розгорнути фреймворк FedML з відкритим кодом на AWS. Це дає змогу навчати модель ML на розподілених даних без необхідності їх переміщення чи спільного використання. Ми створили архітектуру з декількома обліковими записами, де в реальному житті організації можуть приєднатися до екосистеми, щоб отримати вигоду від спільного навчання, зберігаючи керування даними. В наступний пост, ми використовуємо набір даних eICU для кількох лікарень, щоб продемонструвати його ефективність у реальному сценарії.

Будь ласка, перегляньте презентацію на re:MARS 2022, присвячену «Кероване інтегроване навчання на AWS: практичне дослідження для охорони здоров’я», щоб отримати детальний опис цього рішення.

Посилання

[1] Кайсіс Г.А., Маковський М.Р., Рюкерт Д. та ін. Безпечне, конфіденційне та об’єднане машинне навчання в медичній візуалізації. Nat Mach Intell 2, 305–311 (2020). https://doi.org/10.1038/s42256-020-0186-1
[2] FedML https://fedml.ai

Про авторів

Федеративне навчання на AWS із FedML: аналітика здоров’я без обміну конфіденційними даними – частина 1 PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Олівія Чоудхурі, PhD, є старшим архітектором партнерських рішень в AWS. Вона допомагає партнерам у сфері охорони здоров’я та наук про життя проектувати, розробляти та масштабувати найсучасніші рішення з використанням AWS. Вона має досвід роботи з геномікою, аналітикою охорони здоров’я, федеративним навчанням і машинним навчанням із збереженням конфіденційності. Поза роботою вона грає в настільні ігри, малює пейзажі та колекціонує мангу.

Від'я Сагар Равіпаті є менеджером в Лабораторія рішень Amazon ML, де він використовує свій величезний досвід у широкомасштабних розподілених системах та свою пристрасть до машинного навчання, щоб допомогти клієнтам AWS у різних галузевих галузях пришвидшити прийняття ШІ та хмарних технологій. Раніше він був інженером машинного навчання у службі підключення в Amazon, який допомагав створювати платформи персоналізації та інтелектуального обслуговування.

Федеративне навчання на AWS із FedML: аналітика здоров’я без обміну конфіденційними даними – частина 1 PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Ваджахат Азіз є головним архітектором машинного навчання та рішень HPC в AWS, де він зосереджується на тому, щоб допомогти клієнтам із охорони здоров’я та наук про життя використовувати технології AWS для розробки найсучасніших рішень ML та HPC для різноманітних випадків використання, таких як розробка ліків, Клінічні випробування та машинне навчання із збереженням конфіденційності. Поза роботою Ваджахат любить досліджувати природу, піші прогулянки та читання.

Дів'я Бхаргаві є спеціалістом із обробки даних і головним спеціалістом із медіа та розваг у Amazon ML Solutions Lab, де вона вирішує важливі бізнес-проблеми для клієнтів AWS за допомогою машинного навчання. Вона працює над розумінням зображень/відео, системами рекомендацій графів знань, сценаріями використання прогнозної реклами.

Уджвал Ратан є керівником AI/ML і Data Science у бізнес-підрозділі AWS Healthcare and Life Sciences, а також є головним архітектором рішень AI/ML. Протягом багатьох років Ujjwal був лідером думок у галузі охорони здоров’я та наук про життя, допомагаючи багатьом організаціям зі списку Global Fortune 500 досягти їхніх інноваційних цілей шляхом впровадження машинного навчання. Його робота, пов’язана з аналізом медичної візуалізації, неструктурованого клінічного тексту та геноміки, допомогла AWS створювати продукти та послуги, які забезпечують персоналізовану та точно спрямовану діагностику та лікування. У вільний час він любить слухати (і грати) музику та здійснювати незаплановані подорожі з родиною.

Федеративне навчання на AWS із FedML: аналітика здоров’я без обміну конфіденційними даними – частина 1 PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Чаоян Хе є співзасновником і технічним директором FedML, Inc., стартапу, який працює для спільноти, яка створює відкритий і спільний ШІ з будь-якого місця та будь-якого масштабу. Його дослідження зосереджені на розподілених/об’єднаних алгоритмах машинного навчання, системах і програмах. Отримав ступінь доктора філософії. в комп'ютерних науках від Університет Південної Каліфорнії, Лос-Анджелес, США.

Федеративне навчання на AWS із FedML: аналітика здоров’я без обміну конфіденційними даними – частина 1 PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Салман Авестимер є професором, першим директором USC-Amazon Center for Secure and Trusted Machine Learning (Trusted AI) і директором дослідницької лабораторії теорії інформації та машинного навчання (vITAL) на кафедрі електротехніки та комп’ютерної інженерії та кафедрі комп’ютерних наук Університет Південної Каліфорнії. Він також є співзасновником і генеральним директором FedML. Він отримав мій докторський ступінь. Він отримав ступінь доктора електротехніки та комп’ютерних наук у Каліфорнійському університеті в Берклі у 2008 році. Його дослідження зосереджені на теорії інформації, децентралізованому та об’єднаному машинному навчанні, безпечному та конфіденційному навчанні та обчисленнях.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/part-1-federated-learning-on-aws-with-fedml-health-analytics-without-sharing-sensitive-data/

Часова мітка: Січень 13, 2023

Часова мітка: Березень 1, 2022

Перевидано Платоном

Створюйте гнучку та масштабовану розподілену навчальну архітектуру за допомогою Kubeflow на AWS і Amazon SageMaker

Налаштуйте моделі ML для додаткових цілей, як-от справедливості, за допомогою автоматичного налаштування моделі SageMaker

Шаблони проектування для послідовного висновку на Amazon SageMaker

Надання та керування середовищами ML за допомогою Amazon SageMaker Canvas за допомогою AWS CDK і AWS Service Catalog

Виявлення аномалій за допомогою Amazon SageMaker Edge Manager за допомогою AWS IoT Greengrass V2

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки