Цей допис у блозі написано спільно з Чаоян Хе та Салманом Авестімером із FedML.
Аналіз реальних даних охорони здоров’я та наук про життя (HCLS) створює кілька практичних проблем, таких як розподілені дані, відсутність достатньої кількості даних на будь-якому окремому місці для рідкісних подій, нормативні вказівки, які забороняють обмін даними, вимоги до інфраструктури та витрати на створення централізоване сховище даних. Оскільки вони перебувають у суворо регульованому домені, партнери та клієнти HCLS шукають механізми збереження конфіденційності для керування й аналізу великомасштабних, розподілених і конфіденційних даних.
Щоб пом’якшити ці проблеми, ми пропонуємо використовувати фреймворк федеративного навчання (FL) з відкритим кодом під назвою FedML, який дає змогу аналізувати конфіденційні дані HCLS шляхом навчання глобальної моделі машинного навчання з розподілених даних, що зберігаються локально на різних сайтах. FL не потребує переміщення чи обміну даними між сайтами чи централізованим сервером під час процесу навчання моделі.
У цій серії з двох частин ми демонструємо, як можна розгорнути хмарну структуру FL на AWS. У першій публікації ми описали концепції FL і структуру FedML. В друга посада, ми представляємо випадки використання та набір даних, щоб показати його ефективність в аналізі реальних наборів даних охорони здоров’я, таких як дані eICU, яка містить багатоцентрову базу даних інтенсивної терапії, зібрану з понад 200 лікарень.
фон
Хоча обсяг даних, створених HCLS, ніколи не був таким великим, проблеми та обмеження, пов’язані з доступом до таких даних, обмежують їхню корисність для майбутніх досліджень. Машинне навчання (ML) дає можливість вирішити деякі з цих проблем і використовується для вдосконалення аналітики даних і отримання значущої інформації з різноманітних даних HCLS для таких випадків, як надання медичної допомоги, підтримка клінічних рішень, прецизійна медицина, сортування та діагностика та хронічні захворювання. управління доглядом. Оскільки алгоритми ML часто недостатні для захисту конфіденційності даних на рівні пацієнта, серед партнерів і клієнтів HCLS зростає інтерес до використання механізмів та інфраструктури збереження конфіденційності для керування й аналізу великомасштабних, розподілених і конфіденційних даних. [1]
Ми розробили фреймворк FL на AWS, який дає змогу аналізувати розповсюджені та конфіденційні дані про стан здоров’я, зберігаючи конфіденційність. Це передбачає навчання спільної моделі ML без переміщення чи обміну даними між сайтами або централізованим сервером під час процесу навчання моделі та може бути реалізовано в кількох облікових записах AWS. Учасники можуть зберігати свої дані у своїх локальних системах або в обліковому записі AWS, яким вони керують. Тому він переносить аналітику в дані, а не переносить дані в аналітику.
У цій публікації ми показали, як можна розгорнути фреймворк FedML з відкритим кодом на AWS. Ми перевіряємо структуру на основі даних eICU, багатоцентрової бази даних інтенсивної терапії, зібраної з понад 200 лікарень, щоб прогнозувати смертність пацієнтів у лікарні. Ми можемо використовувати цю структуру FL для аналізу інших наборів даних, у тому числі даних генома та наук про життя. Він також може бути прийнятий в інших сферах, які рясніють розподіленими та конфіденційними даними, включаючи фінансовий і освітній сектори.
Федеративне навчання
Удосконалення технологій призвело до вибухового зростання даних у різних галузях, зокрема HCLS. Організації HCLS часто зберігають дані в силосах. Це створює серйозну проблему для навчання, керованого даними, яке вимагає великих наборів даних для якісного узагальнення та досягнення бажаного рівня продуктивності. Крім того, збирання, курування та підтримка високоякісних наборів даних вимагає значного часу та витрат.
Інтегроване навчання пом’якшує ці проблеми шляхом спільного навчання моделей машинного навчання, які використовують розподілені дані, без необхідності їх спільного використання чи централізації. Це дозволяє відобразити різноманітні сайти в остаточній моделі, зменшуючи потенційний ризик упередженості на основі сайту. Фреймворк відповідає архітектурі клієнт-сервер, де сервер ділиться глобальною моделлю з клієнтами. Клієнти навчають модель на основі локальних даних і обмінюються параметрами (такими як градієнти або ваги моделі) із сервером. Сервер агрегує ці параметри для оновлення глобальної моделі, яка потім передається клієнтам для наступного раунду навчання, як показано на малюнку нижче. Цей ітеративний процес навчання моделі триває, доки глобальна модель не зійдеться.
Останніми роками цю нову парадигму навчання було успішно прийнято, щоб вирішити проблему керування даними під час навчання моделям ML. Одним із таких зусиль є МЕЛОДДІ, консорціум під керівництвом Innovative Medicines Initiative (IMI) на базі AWS. Це 3-річна програма, в якій беруть участь 10 фармацевтичних компаній, 2 академічні установи та 3 технологічні партнери. Основна мета — розробити багатозадачну структуру FL для покращення прогнозної ефективності та хімічної застосовності моделей, заснованих на відкритті ліків. Платформа містить кілька облікових записів AWS, при цьому кожен фармацевтичний партнер зберігає повний контроль над своїми відповідними обліковими записами для підтримки своїх приватних наборів даних, а також центральний обліковий запис ML, який координує завдання навчання моделі.
Консорціум навчив моделі на мільярдах точок даних, що складаються з понад 20 мільйонів малих молекул у понад 40,000 4 біологічних аналізів. На підставі експериментальних результатів спільні моделі продемонстрували покращення на 10% класифікації молекул як фармакологічно чи токсикологічно активних або неактивних. Це також призвело до 2% збільшення його здатності давати впевнені прогнози при застосуванні до нових типів молекул. Нарешті, спільні моделі зазвичай на XNUMX% краще оцінювали значення токсикологічної та фармакологічної активності.
FedML
FedML — це бібліотека з відкритим кодом для полегшення розробки алгоритму FL. Він підтримує три обчислювальні парадигми: навчання на пристрої для крайніх пристроїв, розподілене обчислення та моделювання на одній машині. Він також пропонує різноманітні алгоритмічні дослідження з гнучким і загальним дизайном API та всеосяжними базовими реалізаціями (оптимізатор, моделі та набори даних). Докладний опис бібліотеки FedML див FedML.
На наступному малюнку представлено архітектуру бібліотеки з відкритим кодом FedML.
Як показано на попередньому малюнку, з прикладної точки зору FedML приховує деталі основного коду та складні конфігурації розподіленого навчання. На прикладному рівні, як-от комп’ютерне бачення, обробка природної мови та інтелектуальний аналіз даних, дослідникам даних та інженерам потрібно лише написати модель, дані та тренер так само, як окрему програму, а потім передати їх об’єкту FedMLRunner для завершити всі процеси, як показано в наступному коді. Це значно зменшує витрати розробників додатків на виконання FL.
Алгоритм FedML все ще розробляється та постійно вдосконалюється. З цією метою FedML абстрагує основний тренер і агрегатор і надає користувачам два абстрактні об’єкти, FedML.core.ClientTrainer
та FedML.core.ServerAggregator
, яким потрібно лише успадкувати інтерфейси цих двох абстрактних об’єктів і передати їх FedMLRunner. Така настройка надає розробникам ML максимальну гнучкість. Ви можете визначити довільні структури моделі, оптимізатори, функції втрат тощо. Ці налаштування також можна легко пов’язати з спільнотою відкритих вихідних кодів, відкритою платформою та екологією додатків, згаданими раніше, за допомогою FedMLRunner, який повністю вирішує проблему тривалого затримки від інноваційних алгоритмів до комерціалізації.
Нарешті, як показано на попередньому малюнку, FedML підтримує розподілені обчислювальні процеси, такі як складні протоколи безпеки та розподілене навчання як процес обчислення потоку спрямованого ациклічного графа (DAG), що робить написання складних протоколів подібним до окремих програм. Базуючись на цій ідеї, протокол безпеки Flow Layer 1 і алгоритм ML процес Flow Layer 2 можуть бути легко розділені, щоб інженери безпеки та інженери ML могли працювати, зберігаючи модульну архітектуру.
Бібліотека з відкритим вихідним кодом FedML підтримує сценарії використання об’єднаного ML як для периферії, так і для хмари. На периферії платформа полегшує навчання та розгортання периферійних моделей на мобільних телефонах і пристроях Інтернету речей (IoT). У хмарі він забезпечує глобальне спільне машинне навчання, включаючи багаторегіональні та багатокористувальницькі публічні хмарні агрегаційні сервери, а також розгортання приватної хмари в режимі Docker. Структура вирішує ключові проблеми щодо збереження конфіденційності FL, такі як безпека, конфіденційність, ефективність, слабкий нагляд і справедливість.
Висновок
У цій публікації ми показали, як можна розгорнути фреймворк FedML з відкритим кодом на AWS. Це дає змогу навчати модель ML на розподілених даних без необхідності їх переміщення чи спільного використання. Ми створили архітектуру з декількома обліковими записами, де в реальному житті організації можуть приєднатися до екосистеми, щоб отримати вигоду від спільного навчання, зберігаючи керування даними. В наступний пост, ми використовуємо набір даних eICU для кількох лікарень, щоб продемонструвати його ефективність у реальному сценарії.
Будь ласка, перегляньте презентацію на re:MARS 2022, присвячену «Кероване інтегроване навчання на AWS: практичне дослідження для охорони здоров’я», щоб отримати детальний опис цього рішення.
Посилання
[1] Кайсіс Г.А., Маковський М.Р., Рюкерт Д. та ін. Безпечне, конфіденційне та об’єднане машинне навчання в медичній візуалізації. Nat Mach Intell 2, 305–311 (2020). https://doi.org/10.1038/s42256-020-0186-1
[2] FedML https://fedml.ai
Про авторів
Олівія Чоудхурі, PhD, є старшим архітектором партнерських рішень в AWS. Вона допомагає партнерам у сфері охорони здоров’я та наук про життя проектувати, розробляти та масштабувати найсучасніші рішення з використанням AWS. Вона має досвід роботи з геномікою, аналітикою охорони здоров’я, федеративним навчанням і машинним навчанням із збереженням конфіденційності. Поза роботою вона грає в настільні ігри, малює пейзажі та колекціонує мангу.
Від'я Сагар Равіпаті є менеджером в Лабораторія рішень Amazon ML, де він використовує свій величезний досвід у широкомасштабних розподілених системах та свою пристрасть до машинного навчання, щоб допомогти клієнтам AWS у різних галузевих галузях пришвидшити прийняття ШІ та хмарних технологій. Раніше він був інженером машинного навчання у службі підключення в Amazon, який допомагав створювати платформи персоналізації та інтелектуального обслуговування.
Ваджахат Азіз є головним архітектором машинного навчання та рішень HPC в AWS, де він зосереджується на тому, щоб допомогти клієнтам із охорони здоров’я та наук про життя використовувати технології AWS для розробки найсучасніших рішень ML та HPC для різноманітних випадків використання, таких як розробка ліків, Клінічні випробування та машинне навчання із збереженням конфіденційності. Поза роботою Ваджахат любить досліджувати природу, піші прогулянки та читання.
Дів'я Бхаргаві є спеціалістом із обробки даних і головним спеціалістом із медіа та розваг у Amazon ML Solutions Lab, де вона вирішує важливі бізнес-проблеми для клієнтів AWS за допомогою машинного навчання. Вона працює над розумінням зображень/відео, системами рекомендацій графів знань, сценаріями використання прогнозної реклами.
Уджвал Ратан є керівником AI/ML і Data Science у бізнес-підрозділі AWS Healthcare and Life Sciences, а також є головним архітектором рішень AI/ML. Протягом багатьох років Ujjwal був лідером думок у галузі охорони здоров’я та наук про життя, допомагаючи багатьом організаціям зі списку Global Fortune 500 досягти їхніх інноваційних цілей шляхом впровадження машинного навчання. Його робота, пов’язана з аналізом медичної візуалізації, неструктурованого клінічного тексту та геноміки, допомогла AWS створювати продукти та послуги, які забезпечують персоналізовану та точно спрямовану діагностику та лікування. У вільний час він любить слухати (і грати) музику та здійснювати незаплановані подорожі з родиною.
Чаоян Хе є співзасновником і технічним директором FedML, Inc., стартапу, який працює для спільноти, яка створює відкритий і спільний ШІ з будь-якого місця та будь-якого масштабу. Його дослідження зосереджені на розподілених/об’єднаних алгоритмах машинного навчання, системах і програмах. Отримав ступінь доктора філософії. в комп'ютерних науках від Університет Південної Каліфорнії, Лос-Анджелес, США.
Салман Авестимер є професором, першим директором USC-Amazon Center for Secure and Trusted Machine Learning (Trusted AI) і директором дослідницької лабораторії теорії інформації та машинного навчання (vITAL) на кафедрі електротехніки та комп’ютерної інженерії та кафедрі комп’ютерних наук Університет Південної Каліфорнії. Він також є співзасновником і генеральним директором FedML. Він отримав мій докторський ступінь. Він отримав ступінь доктора електротехніки та комп’ютерних наук у Каліфорнійському університеті в Берклі у 2008 році. Його дослідження зосереджені на теорії інформації, децентралізованому та об’єднаному машинному навчанні, безпечному та конфіденційному навчанні та обчисленнях.
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- Платоблокчейн. Web3 Metaverse Intelligence. Розширені знання. Доступ тут.
- джерело: https://aws.amazon.com/blogs/machine-learning/part-1-federated-learning-on-aws-with-fedml-health-analytics-without-sharing-sensitive-data/
- 000
- 1
- 10
- 100
- 2%
- 2020
- 2022
- 7
- a
- здатність
- РЕЗЮМЕ
- тези
- академічний
- прискорювати
- доступ до
- рахунки
- Рахунки
- Achieve
- через
- активний
- діяльності
- ациклічні
- адреса
- адреси
- прийнята
- Прийняття
- Прийняття
- просування
- реклама
- агрегати
- агрегація
- Агрегатор
- AI
- AI / ML
- алгоритм
- алгоритмічний
- алгоритми
- ВСІ
- дозволяє
- Amazon
- Лабораторія рішень Amazon ML
- серед
- аналіз
- аналітика
- аналізувати
- Аналізуючи
- та
- та інфраструктури
- -Анджелесі
- де-небудь
- API
- додаток
- застосування
- прикладної
- архітектура
- області
- асоційований
- AWS
- фон
- заснований
- Базова лінія
- оскільки
- буття
- користь
- Берклі
- Краще
- зміщення
- мільярди
- Блог
- рада
- Настільні ігри
- Приносить
- будувати
- Створюємо
- бізнес
- Каліфорнія
- званий
- який
- випадок
- тематичне дослідження
- випадків
- категоризація
- Центр
- центральний
- централізована
- Генеральний директор
- виклик
- проблеми
- хімічний
- Вибирати
- клієнтів
- Клінічний
- клінічні випробування
- хмара
- прийняття хмари
- Співзасновник
- код
- спільний
- комерціалізація
- співтовариство
- будівництво громади
- Компанії
- повний
- повністю
- комплекс
- всеосяжний
- комп'ютер
- Комп'ютерна інженерія
- Інформатика
- Комп'ютерне бачення
- обчислення
- поняття
- Занепокоєння
- Турбота
- впевнений
- підключений
- зв'язок
- Складається
- консорціуму
- постійно
- обмеження
- триває
- контроль
- координуючи
- Core
- Коштувати
- створення
- критичний
- CTO
- кураторство
- Клієнти
- настройка
- DAG
- дані
- Analytics даних
- видобуток даних
- точки даних
- наука про дані
- вчений даних
- обмін даними
- керовані даними
- Database
- набори даних
- Децентралізований
- рішення
- доставка
- демонструвати
- продемонстрований
- відділ
- розгортання
- розгортання
- описаний
- description
- дизайн
- докладно
- деталі
- розвивати
- розвиненою
- розробників
- розвивається
- розробка
- пристрій
- прилади
- різний
- Директор
- розподілений
- розподілені обчислення
- розподілені системи
- розподілене навчання
- Різне
- Docker
- Ні
- домен
- домени
- наркотик
- під час
- кожен
- Раніше
- легко
- екосистема
- край
- Освіта
- ефективність
- ефективність
- зусилля
- або
- дозволяє
- інженер
- Машинобудування
- Інженери
- розваги
- Події
- досвід
- дослідити
- фасилітувати
- полегшує
- справедливість
- сім'я
- Рисунок
- остаточний
- в кінці кінців
- фінансування
- Перший
- Гнучкість
- гнучкий
- потік
- увагу
- фокусується
- після
- слідує
- стан
- Рамки
- Безкоштовна
- від
- Повний
- Функції
- майбутнє
- Games
- збір
- геномика
- Глобальний
- мета
- Цілі
- управління
- градієнти
- графік
- великий
- значно
- Зростання
- Зростання
- керівні вказівки
- здоров'я
- охорона здоров'я
- Герой
- допомога
- допоміг
- допомогу
- допомагає
- високоякісний
- дуже
- лікарні
- Як
- к.с.
- HTTPS
- ідея
- Зображеннями
- реалізовані
- імпорт
- удосконалювати
- поліпшений
- поліпшення
- in
- неактивний
- Невдалий
- Инк
- У тому числі
- Augmenter
- промисловості
- промисловість
- інформація
- Інфраструктура
- Ініціатива
- інновація
- інноваційний
- розуміння
- установи
- інтерес
- Інтерфейси
- інтернет
- Інтернет речей
- КАТО
- IT
- приєднатися
- ключ
- знання
- Графік знань
- lab
- відсутність
- мова
- великий
- масштабний
- шар
- шар 1
- Layer 2
- вести
- лідер
- вивчення
- Led
- рівень
- Важіль
- важелі
- використання
- бібліотека
- життя
- Науки про життя
- Life Sciences
- рамки
- Прослуховування
- загрузка
- місцевий
- локально
- Довго
- в
- Лос-Анджелес
- від
- машина
- навчання за допомогою машини
- підтримувати
- обслуговування
- основний
- Робить
- управляти
- управління
- менеджер
- управління
- манера
- березня
- максимальний
- значущим
- Медіа
- медичний
- медицина
- згаданий
- мільйона
- Mining
- MIT
- Пом'якшити
- ML
- Mobile
- мобільні телефони
- режим
- модель
- Моделі
- модульний
- більше
- рухатися
- переміщення
- множинний
- музика
- Природний
- Обробка природних мов
- природа
- Необхідність
- Нові
- наступний
- об'єкт
- об'єкти
- Пропозиції
- ONE
- відкрити
- з відкритим вихідним кодом
- працювати
- Можливість
- організації
- Інше
- поза
- парадигма
- параметри
- частина
- Учасники
- партнер
- партнери
- пристрасть
- пацієнт
- Виконувати
- продуктивність
- Втілення
- Персоналізовані
- Pharma
- фармацевтична
- телефони
- платформа
- Платформи
- plato
- Інформація про дані Платона
- PlatoData
- ігри
- точка
- Точка зору
- точок
- позах
- пошта
- потенціал
- Харчування
- Практичний
- точно
- Точність
- передбачати
- Прогнози
- представити
- Presentation
- подарунки
- раніше
- первинний
- Головний
- недоторканність приватного життя
- приватний
- Проблема
- проблеми
- процес
- процеси
- обробка
- Продукти
- Професор
- програма
- програми
- прогрес
- пропонувати
- захищає
- протокол
- протоколи
- забезпечувати
- забезпечує
- громадськість
- Публічна хмара
- РІДНІ
- RE
- читання
- Реальний світ
- отримано
- останній
- Рекомендація
- знижує
- зниження
- що стосується
- регулюється
- регуляторні
- Сховище
- представлений
- вимагати
- вимога
- Вимагається
- дослідження
- ті
- результати
- утримує
- огляд
- Risk
- дорога
- круглий
- біг
- то ж
- шкала
- наука
- НАУКИ
- вчений
- Вчені
- плавно
- Сектори
- безпечний
- безпеку
- Шукати
- старший
- чутливий
- Серія
- Сервери
- Послуги
- комплект
- кілька
- Поділитись
- загальні
- акції
- поділ
- Показувати
- показаний
- значний
- аналогічний
- моделювання
- один
- сайт
- сайти
- невеликий
- So
- рішення
- Рішення
- Вирішує
- деякі
- Південний
- автономні
- старт
- введення в експлуатацію
- впроваджений
- Як і раніше
- зберігати
- Вивчення
- Успішно
- такі
- достатній
- нагляд
- підтримка
- Опори
- Systems
- взяття
- цільове
- завдання
- Технології
- Технологія
- тест
- Команда
- інформація
- їх
- терапевтичні засоби
- отже
- речі
- думка
- три
- час
- до
- поїзд
- навчений
- Навчання
- випробування
- Довірений
- Типи
- типово
- що лежить в основі
- розуміння
- блок
- університет
- Оновити
- USA
- використання
- користувачі
- утиліта
- Цінності
- різноманітність
- величезний
- вертикалі
- вид
- бачення
- життєво важливий
- обсяг
- покрокове керівництво
- який
- в той час як
- ВООЗ
- широкий
- в
- без
- Work
- працює
- запис
- лист
- років
- вихід
- Ти
- зефірнет