Федеративное обучение на AWS с помощью FedML: аналитика состояния здоровья без обмена конфиденциальными данными

Переиздано Платоном

Читают: 0

Этот пост в блоге написан в соавторстве с Чаояном Хэ и Салманом Авестимером из FedML.

Анализ реальных данных в области здравоохранения и наук о жизни (HCLS) сопряжен с рядом практических проблем, таких как распределенные хранилища данных, отсутствие достаточного количества данных на любом отдельном сайте для редких событий, нормативные требования, запрещающие совместное использование данных, требования к инфраструктуре и затраты, связанные с созданием централизованное хранилище данных. Поскольку они находятся в строго регулируемой области, партнеры и клиенты HCLS ищут механизмы сохранения конфиденциальности для управления и анализа крупномасштабных, распределенных и конфиденциальных данных.

Чтобы смягчить эти проблемы, мы предлагаем использовать платформу федеративного обучения (FL) с открытым исходным кодом под названием FedML, который позволяет анализировать конфиденциальные данные HCLS путем обучения глобальной модели машинного обучения на основе распределенных данных, хранящихся локально на разных сайтах. FL не требует перемещения или совместного использования данных между сайтами или с централизованным сервером в процессе обучения модели.

В этой серии из двух частей мы покажем, как можно развернуть облачную среду FL на AWS. В первом посте мы описали концепции FL и структуру FedML. в вторая должность, мы представляем варианты использования и набор данных, чтобы показать его эффективность при анализе реальных наборов данных здравоохранения, таких как данные eICU, которая включает многоцентровую базу данных интенсивной терапии, собранную из более чем 200 больниц.

проверка данных

Хотя объем данных, сгенерированных HCLS, никогда не был больше, проблемы и ограничения, связанные с доступом к таким данным, ограничивают их полезность для будущих исследований. Машинное обучение (МО) дает возможность решить некоторые из этих проблем и внедряется для улучшения анализа данных и получения значимой информации из разнообразных данных HCLS для таких случаев использования, как оказание медицинской помощи, поддержка принятия клинических решений, точная медицина, сортировка и диагностика, а также лечение хронических заболеваний. управление уходом. Поскольку алгоритмы машинного обучения часто неадекватны для защиты конфиденциальности данных на уровне пациентов, среди партнеров и клиентов HCLS растет интерес к использованию механизмов и инфраструктуры сохранения конфиденциальности для управления и анализа крупномасштабных, распределенных и конфиденциальных данных. [1]

Мы разработали платформу FL на AWS, которая позволяет анализировать распределенные и конфиденциальные данные о состоянии здоровья с соблюдением конфиденциальности. Он включает в себя обучение общей модели машинного обучения без перемещения или совместного использования данных между сайтами или с централизованным сервером в процессе обучения модели и может быть реализован в нескольких учетных записях AWS. Участники могут хранить свои данные либо в своих локальных системах, либо в контролируемой ими учетной записи AWS. Поэтому он привносит аналитику в данные, а не перемещает данные в аналитику.

В этом посте мы показали, как можно развернуть платформу FedML с открытым исходным кодом на AWS. Мы тестируем структуру на данных eICU, многоцентровой базе данных интенсивной терапии, собранной из более чем 200 больниц, для прогнозирования внутрибольничной смертности пациентов. Мы можем использовать эту структуру FL для анализа других наборов данных, включая геномные данные и данные наук о жизни. Он также может быть принят другими областями, изобилующими распределенными и конфиденциальными данными, включая финансовый и образовательный секторы.

Федеративное обучение

Достижения в области технологий привели к взрывному росту данных в различных отраслях, включая HCLS. Организации HCLS часто хранят данные разрозненно. Это создает серьезную проблему в обучении на основе данных, которое требует больших наборов данных для хорошего обобщения и достижения желаемого уровня производительности. Более того, сбор, обработка и поддержание высококачественных наборов данных требуют значительных затрат времени и средств.

Федеративное обучение смягчает эти проблемы за счет совместного обучения моделей машинного обучения, использующих распределенные данные, без необходимости их совместного использования или централизации. Это позволяет представить различные сайты в окончательной модели, снижая потенциальный риск предвзятости на основе сайта. Платформа следует архитектуре клиент-сервер, где сервер разделяет глобальную модель с клиентами. Клиенты обучают модель на основе локальных данных и обмениваются параметрами (такими как градиенты или веса модели) с сервером. Сервер объединяет эти параметры для обновления глобальной модели, которая затем передается клиентам для следующего этапа обучения, как показано на следующем рисунке. Этот итеративный процесс обучения модели продолжается до тех пор, пока глобальная модель не сойдется.

Итерационный процесс обучения модели

В последние годы эта новая парадигма обучения была успешно принята для решения проблемы управления данными при обучении моделей машинного обучения. Одним из таких усилий является МЕЛЛОДДИ, консорциум под руководством Innovative Medicines Initiative (IMI) на базе AWS. Это трехлетняя программа, в которой участвуют 3 фармацевтических компаний, 10 академических учреждения и 2 технологических партнера. Его основная цель - разработать многозадачную структуру FL для улучшения прогностической эффективности и химической применимости моделей, основанных на открытии лекарств. Платформа включает в себя несколько учетных записей AWS, при этом каждый партнер-фармацевт сохраняет полный контроль над своими соответствующими учетными записями для ведения своих частных наборов данных, а также центральную учетную запись машинного обучения, координирующую задачи обучения модели.

Консорциум подготовил модели на миллиардах точек данных, состоящих из более чем 20 миллионов малых молекул в более чем 40,000 4 биологических анализов. Основываясь на экспериментальных результатах, совместные модели продемонстрировали улучшение на 10% в классификации молекул как фармакологически или токсикологически активных или неактивных. Это также привело к 2-процентному увеличению его способности давать достоверные прогнозы применительно к новым типам молекул. Наконец, совместные модели обычно на XNUMX% лучше оценивали значения токсикологической и фармакологической активности.

FedML

FedML — это библиотека с открытым исходным кодом, упрощающая разработку алгоритмов FL. Он поддерживает три вычислительные парадигмы: обучение работе на периферийных устройствах, распределенные вычисления и моделирование на одном компьютере. Он также предлагает разнообразные алгоритмические исследования с гибким и универсальным дизайном API и комплексными эталонными базовыми реализациями (оптимизатор, модели и наборы данных). Подробное описание библиотеки FedML см. FedML.

На следующем рисунке представлена архитектура библиотеки FedML с открытым исходным кодом.

Архитектура библиотеки с открытым исходным кодом FedML

Как видно на предыдущем рисунке, с точки зрения приложения FedML скрывает детали базового кода и сложные конфигурации распределенного обучения. На уровне приложений, таких как компьютерное зрение, обработка естественного языка и интеллектуальный анализ данных, ученым и инженерам по обработке и анализу данных нужно только написать модель, данные и средство обучения так же, как и отдельную программу, а затем передать их объекту FedMLRunner для завершите все процессы, как показано в следующем коде. Это значительно снижает накладные расходы разработчиков приложений на выполнение FL.

import fedml
from my_model_trainer import MyModelTrainer
from my_server_aggregator import MyServerAggregator
from fedml import FedMLRunner if __name__ == "__main__":
# init FedML framework
args = fedml.init() # init device
device = fedml.device.get_device(args) # load data
dataset, output_dim = fedml.data.load(args) # load model
model = fedml.model.create(args, output_dim) # my customized trainer and aggregator
trainer = MyModelTrainer(model, args)
aggregator = MyServerAggregator(model, args) # start training
fedml_runner = FedMLRunner(args, device, dataset, model, trainer, aggregator)
fedml_runner.run()

Алгоритм FedML все еще находится в стадии разработки и постоянно совершенствуется. С этой целью FedML абстрагирует основной тренажер и агрегатор и предоставляет пользователям два абстрактных объекта: FedML.core.ClientTrainer и FedML.core.ServerAggregator, которому нужно только наследовать интерфейсы этих двух абстрактных объектов и передать их FedMLRunner. Такая настройка предоставляет разработчикам машинного обучения максимальную гибкость. Вы можете определить произвольные структуры моделей, оптимизаторы, функции потерь и многое другое. Эти настройки также могут быть легко связаны с сообществом открытого исходного кода, открытой платформой и экологией приложений, упомянутыми ранее, с помощью FedMLRunner, который полностью решает проблему длительного отставания от инновационных алгоритмов до коммерциализации.

Наконец, как показано на предыдущем рисунке, FedML поддерживает распределенные вычислительные процессы, такие как сложные протоколы безопасности и распределенное обучение в виде потокового вычислительного процесса с направленным ациклическим графом (DAG), что делает написание сложных протоколов похожим на автономные программы. Основываясь на этой идее, протокол безопасности Flow Layer 1 и процесс алгоритма ML Flow Layer 2 можно легко разделить, чтобы инженеры по безопасности и инженеры ML могли работать, сохраняя при этом модульную архитектуру.

Библиотека FedML с открытым исходным кодом поддерживает варианты использования федеративного машинного обучения как для периферии, так и для облака. На периферии платформа упрощает обучение и развертывание граничных моделей на мобильных телефонах и устройствах Интернета вещей (IoT). В облаке он обеспечивает глобальное совместное машинное обучение, включая серверы агрегации общедоступных облаков с несколькими регионами и несколькими арендаторами, а также развертывание в частном облаке в режиме Docker. Платформа решает ключевые проблемы, связанные с сохранением конфиденциальности FL, такие как безопасность, конфиденциальность, эффективность, слабый контроль и справедливость.

Заключение

В этом посте мы показали, как можно развернуть платформу FedML с открытым исходным кодом на AWS. Это позволяет обучать модель машинного обучения на распределенных данных без необходимости делиться ими или перемещать их. Мы создали архитектуру с несколькими учетными записями, где в реальном сценарии организации могут присоединиться к экосистеме, чтобы извлечь выгоду из совместного обучения, сохраняя при этом управление данными. в следующий пост, мы используем набор данных eICU для нескольких больниц, чтобы продемонстрировать его эффективность в реальном сценарии.

Пожалуйста, ознакомьтесь с презентацией на re:MARS 2022, посвященной «Управляемое федеративное обучение на AWS: пример использования в сфере здравоохранения” для подробного ознакомления с этим решением.

Справка

[1] Kaissis, GA, Makowski, MR, Rückert, D. et al. Безопасное, сохраняющее конфиденциальность и федеративное машинное обучение в медицинской визуализации. Нат Мах Интелл 2, 305–311 (2020). https://doi.org/10.1038/s42256-020-0186-1
[2] ФедМл https://fedml.ai

Об авторах

Федеративное обучение на AWS с FedML: аналитика состояния здоровья без обмена конфиденциальными данными — часть 1. PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Оливия Чоудхури, кандидат наук, старший архитектор партнерских решений в AWS. Она помогает партнерам в области здравоохранения и медико-биологических наук проектировать, разрабатывать и масштабировать современные решения с использованием AWS. Она имеет опыт работы в области геномики, медицинской аналитики, федеративного обучения и машинного обучения с сохранением конфиденциальности. Вне работы она играет в настольные игры, рисует пейзажи и собирает мангу.

Видья Сагар Равипати является менеджером в Лаборатория решений Amazon ML, где он использует свой обширный опыт работы с крупномасштабными распределенными системами и свою страсть к машинному обучению, чтобы помочь клиентам AWS из различных отраслевых вертикалей ускорить внедрение ИИ и облачных технологий. Ранее он был инженером по машинному обучению в службах подключения в Amazon, который помогал создавать платформы персонализации и профилактического обслуживания.

Федеративное обучение на AWS с FedML: аналитика состояния здоровья без обмена конфиденциальными данными — часть 1. PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Ваджахат Азиз является главным архитектором решений по машинному обучению и высокопроизводительным вычислениям в AWS, где он помогает клиентам из сферы здравоохранения и медико-биологических наук использовать технологии AWS для разработки современных решений машинного обучения и высокопроизводительных вычислений для самых разных областей применения, таких как разработка лекарств, Клинические испытания и машинное обучение с сохранением конфиденциальности. Вне работы Ваджахат любит исследовать природу, ходить в походы и читать.

Дивья Бхаргави является специалистом по данным и руководителем отдела медиа и развлечений в лаборатории решений Amazon ML, где она решает важные бизнес-задачи для клиентов AWS с помощью машинного обучения. Она работает над пониманием изображений/видео, рекомендательными системами графов знаний, предиктивными примерами использования рекламы.

Уджвал Ратан является руководителем направления AI/ML и науки о данных в бизнес-подразделении AWS Healthcare and Life Science, а также является главным архитектором решений AI/ML. На протяжении многих лет Уджвал был идейным лидером в области здравоохранения и медико-биологических наук, помогая нескольким организациям из списка Global Fortune 500 достигать своих целей в области инноваций, внедряя машинное обучение. Его работа, связанная с анализом медицинских изображений, неструктурированных клинических текстов и геномики, помогла AWS создать продукты и сервисы, обеспечивающие персонализированную и точную диагностику и лечение. В свободное время он любит слушать (и играть) музыку и совершать незапланированные поездки со своей семьей.

Федеративное обучение на AWS с FedML: аналитика состояния здоровья без обмена конфиденциальными данными — часть 1. PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Чаоян Хэ является соучредителем и техническим директором FedML, Inc., стартапа, работающего для сообщества, создающего открытый и совместный ИИ из любого места и любого масштаба. Его исследования сосредоточены на алгоритмах, системах и приложениях распределенного/федеративного машинного обучения. Он получил докторскую степень. по информатике от Университет Южной Калифорнии, Лос-Анджелес, США.

Федеративное обучение на AWS с FedML: аналитика состояния здоровья без обмена конфиденциальными данными — часть 1. PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. Салман Авестимер является профессором, первым директором Центра безопасного и надежного машинного обучения USC-Amazon (Trusted AI) и директором исследовательской лаборатории теории информации и машинного обучения (vITAL) на факультете электротехники и вычислительной техники и факультете компьютерных наук Университет Южной Калифорнии. Он также является соучредителем и генеральным директором FedML. Он получил мою докторскую степень. получил степень бакалавра электротехники и компьютерных наук в Калифорнийском университете в Беркли в 2008 году. Его исследования сосредоточены на таких областях, как теория информации, децентрализованное и федеративное машинное обучение, безопасное и конфиденциальное обучение и вычисления.

SEO-контент и PR-распределение. Получите усиление сегодня.
Платоблокчейн. Интеллект метавселенной Web3. Расширение знаний. Доступ здесь.
Источник: https://aws.amazon.com/blogs/machine-learning/part-1-federated-learning-on-aws-with-fedml-health-analytics-without-sharing-sensitive-data/

Отметка времени: 13 января 2023

Отметка времени: Август 2, 2023

Snapper обеспечивает маркировку с помощью машинного обучения для обнаружения объектов изображения с точностью до пикселя.

Исходный кластер:

Машинное обучение AWS

Исходный узел: 1820241

Отметка времени: 30 Марта, 2023

Создавайте высокопроизводительные модели классификации изображений с помощью Amazon SageMaker JumpStart

Исходный кластер:

Машинное обучение AWS

Исходный узел: 1759135

Отметка времени: 17 ноября, 2022

Размещение пользовательского интерфейса Spark в Amazon SageMaker Studio | Веб-сервисы Амазонки

Исходный кластер:

Машинное обучение AWS

Исходный узел: 1872930

Отметка времени: Август 8, 2023

Переиздано Платоном

Сократите затраты и время разработки с помощью локального режима Amazon SageMaker Pipelines

Amazon Personalize запускает новые рецепты, поддерживающие более крупные каталоги товаров с меньшей задержкой | Веб-сервисы Amazon

Сокращение энергопотребления рабочих нагрузок машинного обучения до 90 % с помощью специально разработанных ускорителей AWS | Веб-сервисы Амазонки

Обобщение текста с помощью Amazon SageMaker и Hugging Face

Улучшите управление своими моделями машинного обучения с помощью Amazon SageMaker

Обслуживайте несколько моделей с помощью Amazon SageMaker и Triton Inference Server

Amazon SageMaker Automatic Model Tuning теперь обеспечивает до трех раз более быструю настройку гиперпараметров с помощью Hyperband.

Оптимизируйте производительность оборудования с помощью исторических данных, Ray и Amazon SageMaker | Веб-сервисы Amazon

Snapper обеспечивает маркировку с помощью машинного обучения для обнаружения объектов изображения с точностью до пикселя.

Создавайте высокопроизводительные модели классификации изображений с помощью Amazon SageMaker JumpStart

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись