Этот пост в блоге написан в соавторстве с Чаояном Хэ и Салманом Авестимером из FedML.
Анализ реальных данных в области здравоохранения и наук о жизни (HCLS) сопряжен с рядом практических проблем, таких как распределенные хранилища данных, отсутствие достаточного количества данных на любом отдельном сайте для редких событий, нормативные требования, запрещающие совместное использование данных, требования к инфраструктуре и затраты, связанные с созданием централизованное хранилище данных. Поскольку они находятся в строго регулируемой области, партнеры и клиенты HCLS ищут механизмы сохранения конфиденциальности для управления и анализа крупномасштабных, распределенных и конфиденциальных данных.
Чтобы смягчить эти проблемы, мы предлагаем использовать платформу федеративного обучения (FL) с открытым исходным кодом под названием FedML, который позволяет анализировать конфиденциальные данные HCLS путем обучения глобальной модели машинного обучения на основе распределенных данных, хранящихся локально на разных сайтах. FL не требует перемещения или совместного использования данных между сайтами или с централизованным сервером в процессе обучения модели.
В этой серии из двух частей мы покажем, как можно развернуть облачную среду FL на AWS. В первом посте мы описали концепции FL и структуру FedML. в вторая должность, мы представляем варианты использования и набор данных, чтобы показать его эффективность при анализе реальных наборов данных здравоохранения, таких как данные eICU, которая включает многоцентровую базу данных интенсивной терапии, собранную из более чем 200 больниц.
проверка данных
Хотя объем данных, сгенерированных HCLS, никогда не был больше, проблемы и ограничения, связанные с доступом к таким данным, ограничивают их полезность для будущих исследований. Машинное обучение (МО) дает возможность решить некоторые из этих проблем и внедряется для улучшения анализа данных и получения значимой информации из разнообразных данных HCLS для таких случаев использования, как оказание медицинской помощи, поддержка принятия клинических решений, точная медицина, сортировка и диагностика, а также лечение хронических заболеваний. управление уходом. Поскольку алгоритмы машинного обучения часто неадекватны для защиты конфиденциальности данных на уровне пациентов, среди партнеров и клиентов HCLS растет интерес к использованию механизмов и инфраструктуры сохранения конфиденциальности для управления и анализа крупномасштабных, распределенных и конфиденциальных данных. [1]
Мы разработали платформу FL на AWS, которая позволяет анализировать распределенные и конфиденциальные данные о состоянии здоровья с соблюдением конфиденциальности. Он включает в себя обучение общей модели машинного обучения без перемещения или совместного использования данных между сайтами или с централизованным сервером в процессе обучения модели и может быть реализован в нескольких учетных записях AWS. Участники могут хранить свои данные либо в своих локальных системах, либо в контролируемой ими учетной записи AWS. Поэтому он привносит аналитику в данные, а не перемещает данные в аналитику.
В этом посте мы показали, как можно развернуть платформу FedML с открытым исходным кодом на AWS. Мы тестируем структуру на данных eICU, многоцентровой базе данных интенсивной терапии, собранной из более чем 200 больниц, для прогнозирования внутрибольничной смертности пациентов. Мы можем использовать эту структуру FL для анализа других наборов данных, включая геномные данные и данные наук о жизни. Он также может быть принят другими областями, изобилующими распределенными и конфиденциальными данными, включая финансовый и образовательный секторы.
Федеративное обучение
Достижения в области технологий привели к взрывному росту данных в различных отраслях, включая HCLS. Организации HCLS часто хранят данные разрозненно. Это создает серьезную проблему в обучении на основе данных, которое требует больших наборов данных для хорошего обобщения и достижения желаемого уровня производительности. Более того, сбор, обработка и поддержание высококачественных наборов данных требуют значительных затрат времени и средств.
Федеративное обучение смягчает эти проблемы за счет совместного обучения моделей машинного обучения, использующих распределенные данные, без необходимости их совместного использования или централизации. Это позволяет представить различные сайты в окончательной модели, снижая потенциальный риск предвзятости на основе сайта. Платформа следует архитектуре клиент-сервер, где сервер разделяет глобальную модель с клиентами. Клиенты обучают модель на основе локальных данных и обмениваются параметрами (такими как градиенты или веса модели) с сервером. Сервер объединяет эти параметры для обновления глобальной модели, которая затем передается клиентам для следующего этапа обучения, как показано на следующем рисунке. Этот итеративный процесс обучения модели продолжается до тех пор, пока глобальная модель не сойдется.
В последние годы эта новая парадигма обучения была успешно принята для решения проблемы управления данными при обучении моделей машинного обучения. Одним из таких усилий является МЕЛЛОДДИ, консорциум под руководством Innovative Medicines Initiative (IMI) на базе AWS. Это трехлетняя программа, в которой участвуют 3 фармацевтических компаний, 10 академических учреждения и 2 технологических партнера. Его основная цель - разработать многозадачную структуру FL для улучшения прогностической эффективности и химической применимости моделей, основанных на открытии лекарств. Платформа включает в себя несколько учетных записей AWS, при этом каждый партнер-фармацевт сохраняет полный контроль над своими соответствующими учетными записями для ведения своих частных наборов данных, а также центральную учетную запись машинного обучения, координирующую задачи обучения модели.
Консорциум подготовил модели на миллиардах точек данных, состоящих из более чем 20 миллионов малых молекул в более чем 40,000 4 биологических анализов. Основываясь на экспериментальных результатах, совместные модели продемонстрировали улучшение на 10% в классификации молекул как фармакологически или токсикологически активных или неактивных. Это также привело к 2-процентному увеличению его способности давать достоверные прогнозы применительно к новым типам молекул. Наконец, совместные модели обычно на XNUMX% лучше оценивали значения токсикологической и фармакологической активности.
FedML
FedML — это библиотека с открытым исходным кодом, упрощающая разработку алгоритмов FL. Он поддерживает три вычислительные парадигмы: обучение работе на периферийных устройствах, распределенные вычисления и моделирование на одном компьютере. Он также предлагает разнообразные алгоритмические исследования с гибким и универсальным дизайном API и комплексными эталонными базовыми реализациями (оптимизатор, модели и наборы данных). Подробное описание библиотеки FedML см. FedML.
На следующем рисунке представлена архитектура библиотеки FedML с открытым исходным кодом.
Как видно на предыдущем рисунке, с точки зрения приложения FedML скрывает детали базового кода и сложные конфигурации распределенного обучения. На уровне приложений, таких как компьютерное зрение, обработка естественного языка и интеллектуальный анализ данных, ученым и инженерам по обработке и анализу данных нужно только написать модель, данные и средство обучения так же, как и отдельную программу, а затем передать их объекту FedMLRunner для завершите все процессы, как показано в следующем коде. Это значительно снижает накладные расходы разработчиков приложений на выполнение FL.
Алгоритм FedML все еще находится в стадии разработки и постоянно совершенствуется. С этой целью FedML абстрагирует основной тренажер и агрегатор и предоставляет пользователям два абстрактных объекта: FedML.core.ClientTrainer
и FedML.core.ServerAggregator
, которому нужно только наследовать интерфейсы этих двух абстрактных объектов и передать их FedMLRunner. Такая настройка предоставляет разработчикам машинного обучения максимальную гибкость. Вы можете определить произвольные структуры моделей, оптимизаторы, функции потерь и многое другое. Эти настройки также могут быть легко связаны с сообществом открытого исходного кода, открытой платформой и экологией приложений, упомянутыми ранее, с помощью FedMLRunner, который полностью решает проблему длительного отставания от инновационных алгоритмов до коммерциализации.
Наконец, как показано на предыдущем рисунке, FedML поддерживает распределенные вычислительные процессы, такие как сложные протоколы безопасности и распределенное обучение в виде потокового вычислительного процесса с направленным ациклическим графом (DAG), что делает написание сложных протоколов похожим на автономные программы. Основываясь на этой идее, протокол безопасности Flow Layer 1 и процесс алгоритма ML Flow Layer 2 можно легко разделить, чтобы инженеры по безопасности и инженеры ML могли работать, сохраняя при этом модульную архитектуру.
Библиотека FedML с открытым исходным кодом поддерживает варианты использования федеративного машинного обучения как для периферии, так и для облака. На периферии платформа упрощает обучение и развертывание граничных моделей на мобильных телефонах и устройствах Интернета вещей (IoT). В облаке он обеспечивает глобальное совместное машинное обучение, включая серверы агрегации общедоступных облаков с несколькими регионами и несколькими арендаторами, а также развертывание в частном облаке в режиме Docker. Платформа решает ключевые проблемы, связанные с сохранением конфиденциальности FL, такие как безопасность, конфиденциальность, эффективность, слабый контроль и справедливость.
Заключение
В этом посте мы показали, как можно развернуть платформу FedML с открытым исходным кодом на AWS. Это позволяет обучать модель машинного обучения на распределенных данных без необходимости делиться ими или перемещать их. Мы создали архитектуру с несколькими учетными записями, где в реальном сценарии организации могут присоединиться к экосистеме, чтобы извлечь выгоду из совместного обучения, сохраняя при этом управление данными. в следующий пост, мы используем набор данных eICU для нескольких больниц, чтобы продемонстрировать его эффективность в реальном сценарии.
Пожалуйста, ознакомьтесь с презентацией на re:MARS 2022, посвященной «Управляемое федеративное обучение на AWS: пример использования в сфере здравоохранения” для подробного ознакомления с этим решением.
Справка
[1] Kaissis, GA, Makowski, MR, Rückert, D. et al. Безопасное, сохраняющее конфиденциальность и федеративное машинное обучение в медицинской визуализации. Нат Мах Интелл 2, 305–311 (2020). https://doi.org/10.1038/s42256-020-0186-1
[2] ФедМл https://fedml.ai
Об авторах
Оливия Чоудхури, кандидат наук, старший архитектор партнерских решений в AWS. Она помогает партнерам в области здравоохранения и медико-биологических наук проектировать, разрабатывать и масштабировать современные решения с использованием AWS. Она имеет опыт работы в области геномики, медицинской аналитики, федеративного обучения и машинного обучения с сохранением конфиденциальности. Вне работы она играет в настольные игры, рисует пейзажи и собирает мангу.
Видья Сагар Равипати является менеджером в Лаборатория решений Amazon ML, где он использует свой обширный опыт работы с крупномасштабными распределенными системами и свою страсть к машинному обучению, чтобы помочь клиентам AWS из различных отраслевых вертикалей ускорить внедрение ИИ и облачных технологий. Ранее он был инженером по машинному обучению в службах подключения в Amazon, который помогал создавать платформы персонализации и профилактического обслуживания.
Ваджахат Азиз является главным архитектором решений по машинному обучению и высокопроизводительным вычислениям в AWS, где он помогает клиентам из сферы здравоохранения и медико-биологических наук использовать технологии AWS для разработки современных решений машинного обучения и высокопроизводительных вычислений для самых разных областей применения, таких как разработка лекарств, Клинические испытания и машинное обучение с сохранением конфиденциальности. Вне работы Ваджахат любит исследовать природу, ходить в походы и читать.
Дивья Бхаргави является специалистом по данным и руководителем отдела медиа и развлечений в лаборатории решений Amazon ML, где она решает важные бизнес-задачи для клиентов AWS с помощью машинного обучения. Она работает над пониманием изображений/видео, рекомендательными системами графов знаний, предиктивными примерами использования рекламы.
Уджвал Ратан является руководителем направления AI/ML и науки о данных в бизнес-подразделении AWS Healthcare and Life Science, а также является главным архитектором решений AI/ML. На протяжении многих лет Уджвал был идейным лидером в области здравоохранения и медико-биологических наук, помогая нескольким организациям из списка Global Fortune 500 достигать своих целей в области инноваций, внедряя машинное обучение. Его работа, связанная с анализом медицинских изображений, неструктурированных клинических текстов и геномики, помогла AWS создать продукты и сервисы, обеспечивающие персонализированную и точную диагностику и лечение. В свободное время он любит слушать (и играть) музыку и совершать незапланированные поездки со своей семьей.
Чаоян Хэ является соучредителем и техническим директором FedML, Inc., стартапа, работающего для сообщества, создающего открытый и совместный ИИ из любого места и любого масштаба. Его исследования сосредоточены на алгоритмах, системах и приложениях распределенного/федеративного машинного обучения. Он получил докторскую степень. по информатике от Университет Южной Калифорнии, Лос-Анджелес, США.
Салман Авестимер является профессором, первым директором Центра безопасного и надежного машинного обучения USC-Amazon (Trusted AI) и директором исследовательской лаборатории теории информации и машинного обучения (vITAL) на факультете электротехники и вычислительной техники и факультете компьютерных наук Университет Южной Калифорнии. Он также является соучредителем и генеральным директором FedML. Он получил мою докторскую степень. получил степень бакалавра электротехники и компьютерных наук в Калифорнийском университете в Беркли в 2008 году. Его исследования сосредоточены на таких областях, как теория информации, децентрализованное и федеративное машинное обучение, безопасное и конфиденциальное обучение и вычисления.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/part-1-federated-learning-on-aws-with-fedml-health-analytics-without-sharing-sensitive-data/
- 000
- 1
- 10
- 100
- 2%
- 2020
- 2022
- 7
- a
- способность
- АБСТРАКТ НАЯ
- рефераты
- академический
- ускорять
- доступа
- Учетная запись
- Учетные записи
- Достигать
- через
- активный
- активно
- ациклический
- адрес
- адреса
- принял
- Принятие
- Принятие
- продвижение
- Реклама
- сводные показатели
- агрегирование
- Агрегатор
- AI
- AI / ML
- алгоритм
- алгоритмический
- алгоритмы
- Все
- позволяет
- Amazon
- Лаборатория решений Amazon ML
- среди
- анализ
- аналитика
- анализировать
- анализ
- и
- и инфраструктура
- -Анджелесе
- откуда угодно
- API
- Применение
- Приложения
- прикладной
- архитектура
- области
- связанный
- AWS
- фон
- основанный
- Базовая линия
- , так как:
- не являетесь
- польза
- Беркли
- Лучшая
- смещение
- миллиарды
- Блог
- доска
- Настольные игры
- Приносит
- строить
- Строительство
- бизнес
- Калифорния
- под названием
- заботится
- случаев
- тематическое исследование
- случаев
- категоризации
- Центр
- центральный
- централизованная
- Генеральный директор
- вызов
- проблемы
- химический
- Выберите
- клиентов
- Клинический
- клинические испытания
- облако
- принятие облака
- Соучредитель
- код
- совместный
- коммерциализация
- сообщество
- общественное строительство
- Компании
- полный
- полностью
- комплекс
- комплексный
- компьютер
- Компьютерная инженерия
- Информатика
- Компьютерное зрение
- вычисление
- понятия
- Беспокойство
- Обеспокоенность
- уверенный
- подключенный
- связь
- Состоящий из
- консорциум
- постоянно
- ограничения
- продолжается
- контроль
- координирующий
- Основные
- Цена
- Создающий
- критической
- CTO
- курирование
- Клиенты
- настройка
- DAG
- данным
- Анализ данных
- добыча данных
- точки данных
- наука о данных
- ученый данных
- обмен данными
- управляемых данными
- База данных
- Наборы данных
- децентрализованная
- решение
- поставка
- демонстрировать
- убивают
- Кафедра
- развертывание
- развертывание
- описано
- описание
- Проект
- подробный
- подробнее
- развивать
- развитый
- застройщиков
- развивающийся
- Развитие
- устройство
- Устройства
- различный
- директор
- распределенный
- распределенных вычислений
- распределенные системы
- распределенное обучение
- Разное
- Docker
- не
- домен
- доменов
- наркотик
- в течение
- каждый
- Ранее
- легко
- экосистема
- Edge
- Обучение
- эффективность
- затрат
- усилие
- или
- позволяет
- инженер
- Проект и
- Инженеры
- Развлечения
- События
- опыт
- Больше
- содействовал
- облегчает
- справедливость
- семья
- фигура
- окончательный
- в заключение
- финансы
- Во-первых,
- Трансформируемость
- гибкого
- поток
- внимание
- фокусируется
- после
- следующим образом
- Fortune
- Рамки
- Бесплатно
- от
- полный
- Функции
- будущее
- Игры
- сбор
- геномика
- Глобальный
- цель
- Цели
- управление
- градиенты
- график
- большой
- значительно
- Рост
- Рост
- методические рекомендации
- Медицина
- здравоохранение
- Герой
- помощь
- помог
- помощь
- помогает
- высококачественный
- очень
- больницы
- Как
- HPC
- HTTPS
- идея
- Изображениями
- в XNUMX году
- Импортировать
- улучшать
- улучшенный
- улучшение
- in
- неактивный
- вступительный
- Инк
- В том числе
- Увеличение
- промышленности
- промышленность
- информация
- Инфраструктура
- Инициатива
- Инновации
- инновационный
- размышления
- учреждения
- интерес
- интерфейсы
- Интернет
- Интернет вещей
- КАТО
- IT
- присоединиться
- Основные
- знания
- График знаний
- лаборатория
- Отсутствие
- язык
- большой
- крупномасштабный
- слой
- слой 1
- Уровень 2
- вести
- лидер
- изучение
- привело
- уровень
- Кредитное плечо
- рычаги
- Используя
- Библиотека
- ЖИЗНЬЮ
- Наука о жизни
- Медико-биологическая промышленность
- рамки
- Listening
- загрузка
- локальным
- в местном масштабе
- Длинное
- лос
- Лос-Анджелес
- от
- машина
- обучение с помощью машины
- поддерживать
- техническое обслуживание
- основной
- Создание
- управлять
- управление
- менеджер
- управления
- способ
- марш
- максимальный
- значимым
- Медиа
- основным медицинским
- медицина
- упомянутый
- миллиона
- Горнодобывающая промышленность
- MIT
- смягчать
- ML
- Мобильный телефон
- мобильные телефоны
- режим
- модель
- Модели
- модульный
- БОЛЕЕ
- двигаться
- перемещение
- с разными
- Музыка
- натуральный
- Обработка естественного языка
- природа
- Необходимость
- Новые
- следующий
- объект
- объекты
- Предложения
- ONE
- открытый
- с открытым исходным кодом
- работать
- Возможность
- организации
- Другое
- внешнюю
- парадигма
- параметры
- часть
- новыми участниками
- партнер
- партнеры
- страсть
- пациент
- Выполнять
- производительность
- воплощение
- Персонализированные
- Фармацевтика
- в Фармацевтической отрасли
- телефоны
- Платформа
- Платформы
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- игры
- Точка
- Точка зрения
- пунктов
- представляет
- После
- потенциал
- Питание
- практическое
- Точно
- Точность
- предсказывать
- Predictions
- представить
- presentation
- разрабатывает
- предварительно
- первичный
- Основной
- политикой конфиденциальности.
- частная
- Проблема
- проблемам
- процесс
- Процессы
- обработка
- Продукция
- Профессор
- FitPartner™
- Программы
- Прогресс
- предлагает
- защищающий
- протокол
- протоколы
- обеспечивать
- приводит
- что такое варган?
- Открытое облако
- РЕДКИЙ
- RE
- Reading
- реальный мир
- получила
- последний
- Рекомендация
- снижает
- снижение
- С уважением
- регулируемых брокеров
- регуляторы
- хранилище
- представленный
- требовать
- требование
- требуется
- исследованиям
- те
- Итоги
- удерживающий
- обзоре
- Снижение
- Дорога
- год
- Бег
- то же
- Шкала
- Наука
- НАУКА
- Ученый
- Ученые
- легко
- Сектора юридического права
- безопасный
- безопасность
- Искать
- старший
- чувствительный
- Серии
- Серверы
- Услуги
- набор
- несколько
- Поделиться
- общие
- Акции
- разделение
- показывать
- показанный
- значительный
- аналогичный
- моделирование
- одинарной
- сайте
- Сайтов
- небольшой
- So
- Решение
- Решения
- Решает
- некоторые
- южный
- автономные
- Начало
- ввод в эксплуатацию
- современное состояние
- По-прежнему
- магазин
- Кабинет
- Успешно
- такие
- достаточный
- надзор
- поддержка
- Поддержка
- системы
- с
- целевое
- задачи
- технологии
- Технологии
- тестXNUMX
- Ассоциация
- информация
- их
- терапевтика
- следовательно
- вещи
- мысль
- три
- время
- в
- Train
- специалистов
- Обучение
- испытания
- надежных
- Типы
- типично
- лежащий в основе
- понимание
- Ед. изм
- Университет
- Обновление ПО
- США
- использование
- пользователей
- утилита
- Наши ценности
- разнообразие
- Огромная
- вертикалей
- Вид
- видение
- жизненный
- объем
- прохождение
- который
- в то время как
- КТО
- широкий
- в
- без
- Работа
- работает
- записывать
- письмо
- лет
- Уступать
- Ты
- зефирнет