这篇博文是与来自 FedML 的 Chaoyang He 和 Salman Avestimehr 共同撰写的。
分析现实世界的医疗保健和生命科学 (HCLS) 数据会带来一些实际挑战,例如分布式数据孤岛、任何单个站点都缺乏足够的数据来应对罕见事件、禁止数据共享的监管指南、基础设施要求以及创建过程中产生的成本一个集中的数据存储库。 由于处于高度监管的领域,HCLS 合作伙伴和客户寻求隐私保护机制来管理和分析大规模、分布式和敏感的数据。
为了缓解这些挑战,我们建议使用一个名为 FedML,它使您能够通过从不同站点本地保存的分布式数据训练全局机器学习模型来分析敏感的 HCLS 数据。 FL 不需要在模型训练过程中跨站点或与中央服务器移动或共享数据。
在这个由两部分组成的系列中,我们演示了如何在 AWS 上部署基于云的 FL 框架。 在第一篇文章中,我们描述了 FL 概念和 FedML 框架。 在里面 第二篇文章,我们展示了用例和数据集,以展示其在分析现实世界医疗保健数据集方面的有效性,例如 eICU数据,其中包括从 200 多家医院收集的多中心重症监护数据库。
背景
尽管 HCLS 生成的数据量从未如此庞大,但与访问此类数据相关的挑战和限制限制了其在未来研究中的实用性。 机器学习 (ML) 提供了解决其中一些问题的机会,并被用于推进数据分析,并从不同的 HCLS 数据中获得有意义的见解,用于护理交付、临床决策支持、精准医学、分类和诊断以及慢性病等用例护理管理。 由于 ML 算法通常不足以保护患者级数据的隐私,因此 HCLS 合作伙伴和客户越来越有兴趣使用隐私保护机制和基础设施来管理和分析大规模、分布式和敏感的数据。 [1]
我们在 AWS 上开发了一个 FL 框架,能够以保护隐私的方式分析分布式和敏感的健康数据。 它涉及训练一个共享的 ML 模型,而无需在模型训练过程中跨站点或与中央服务器移动或共享数据,并且可以跨多个 AWS 账户实施。 参与者可以选择在本地系统或他们控制的 AWS 账户中维护他们的数据。 因此,它将分析带入数据,而不是将数据移至分析。
在本文中,我们展示了如何在 AWS 上部署开源 FedML 框架。 我们测试了 eICU 数据的框架,eICU 数据是一个从 200 多家医院收集的多中心重症监护数据库,用于预测住院患者死亡率。 我们可以使用这个 FL 框架来分析其他数据集,包括基因组和生命科学数据。 它也可以被其他充斥着分布式和敏感数据的领域所采用,包括金融和教育部门。
联合学习
技术进步导致跨行业数据的爆炸式增长,包括 HCLS。 HCLS 组织通常将数据存储在孤岛中。 这对数据驱动学习提出了重大挑战,它需要大型数据集才能很好地泛化并达到所需的性能水平。 此外,收集、管理和维护高质量的数据集会花费大量时间和成本。
联合学习通过协作训练使用分布式数据的 ML 模型来缓解这些挑战,而无需共享或集中它们。 它允许在最终模型中表示不同的站点,从而减少基于站点的偏差的潜在风险。 该框架遵循客户端-服务器架构,其中服务器与客户端共享一个全局模型。 客户端根据本地数据训练模型并与服务器共享参数(例如梯度或模型权重)。 服务器聚合这些参数更新全局模型,然后共享给客户端进行下一轮训练,如下图所示。 这种模型训练的迭代过程一直持续到全局模型收敛。
近年来,这种新的学习范式已被成功采用,以解决训练 ML 模型中的数据治理问题。 其中一项努力是 旋律,一个创新药物计划 (IMI) 领导的联盟,由 AWS 提供支持。 这是一个为期 3 年的计划,涉及 10 家制药公司、2 家学术机构和 3 家技术合作伙伴。 它的主要目标是开发一个多任务 FL 框架,以提高基于药物发现的模型的预测性能和化学适用性。 该平台包括多个 AWS 账户,每个制药合作伙伴保留对其各自账户的完全控制以维护其私有数据集,以及一个协调模型训练任务的中央 ML 账户。
该联盟在数十亿个数据点上训练了模型,这些数据点包括超过 20 次生物测定中的超过 40,000 万个小分子。 根据实验结果,协作模型在将分子分类为具有药理学或毒理学活性或非活性方面提高了 4%。 当应用于新型分子时,它还导致其产生自信预测的能力提高了 10%。 最后,协作模型在估计毒理学和药理学活动值方面通常要好 2%。
FedML
FedML 是一个促进 FL 算法开发的开源库。 它支持三种计算范式:边缘设备的设备上训练、分布式计算和单机模拟。 它还通过灵活通用的 API 设计和全面的参考基线实现(优化器、模型和数据集)提供多样化的算法研究。 有关 FedML 库的详细说明,请参阅 FedML.
下图展示了 FedML 的开源库架构。
从上图可以看出,从应用的角度来看,FedML屏蔽了底层代码的细节和分布式训练的复杂配置。 在计算机视觉、自然语言处理、数据挖掘等应用层面,数据科学家和工程师只需要像独立程序一样编写模型、数据和训练器,然后传递给FedMLRunner对象即可完成所有流程,如下代码所示。 这大大降低了应用程序开发人员执行 FL 的开销。
FedML 算法仍在进行中并不断改进。 为此,FedML 对核心的训练器和聚合器进行了抽象,并为用户提供了两个抽象对象, FedML.core.ClientTrainer
和 FedML.core.ServerAggregator
,只需要继承这两个抽象对象的接口,传递给FedMLRunner即可。 这种定制为 ML 开发人员提供了最大的灵活性。 您可以定义任意模型结构、优化器、损失函数等。 这些定制化还可以借助FedMLRunner与前面提到的开源社区、开放平台、应用生态无缝对接,彻底解决从创新算法到商业化的长期滞后问题。
最后,如上图所示,FedML支持分布式计算过程,例如复杂的安全协议,分布式训练作为有向无环图(Directed Acyclic Graph,DAG)流计算过程,使得复杂协议的编写类似于单机程序。 基于这种思路,安全协议Flow Layer 1和ML算法过程Flow Layer 2可以很容易地分离,从而使安全工程师和ML工程师可以在保持模块化架构的同时进行操作。
FedML 开源库支持边缘和云的联合 ML 用例。 在边缘,该框架有助于训练边缘模型并将其部署到手机和物联网 (IoT) 设备。 在云端,实现全球协同ML,包括多Region、多租户的公有云聚合服务器,以及Docker模式下的私有云部署。 该框架解决了与隐私保护 FL 有关的关键问题,例如安全性、隐私、效率、监管薄弱和公平性。
结论
在本文中,我们展示了如何在 AWS 上部署开源 FedML 框架。 这使您可以在分布式数据上训练 ML 模型,而无需共享或移动它。 我们建立了一个多账户架构,在真实场景中,组织可以加入生态系统以从协作学习中受益,同时维护数据治理。 在里面 下一篇文章,我们使用多医院 eICU 数据集来证明其在真实场景中的有效性。
请查看 re:MARS 2022 上的演示文稿,重点是“AWS 上的托管联合学习:医疗保健案例研究” 了解此解决方案的详细演练。
参考文献
[1] Kaissis, GA, Makowski, MR, Rückert, D. 等。 医学成像中的安全、隐私保护和联合机器学习。 Nat Mach Intell 2, 305–311 (2020)。 https://doi.org/10.1038/s42256-020-0186-1
[2] 联邦机器学习 https://fedml.ai
作者简介
奥利维亚·乔杜里,博士,是 AWS 的高级合作伙伴解决方案架构师。 她帮助医疗保健和生命科学领域的合作伙伴设计、开发和扩展利用 AWS 的最先进的解决方案。 她拥有基因组学、医疗保健分析、联合学习和隐私保护机器学习方面的背景。 工作之余,她玩棋盘游戏、画风景和收集漫画。
维迪亚·萨加尔·拉维帕蒂(Vidya Sagar Ravipati) 是经理 亚马逊机器学习解决方案实验室,他利用在大型分布式系统方面的丰富经验以及对机器学习的热情,帮助跨不同行业的AWS客户加速其AI和云技术的采用。 之前,他是Amazon Connectivity Services的机器学习工程师,曾帮助构建个性化和预测性维护平台。
瓦贾哈特阿齐兹 是 AWS 的首席机器学习和 HPC 解决方案架构师,他专注于帮助医疗保健和生命科学客户利用 AWS 技术为药物开发等各种用例开发最先进的 ML 和 HPC 解决方案,临床试验和隐私保护机器学习。 工作之余,Wajahat 喜欢探索大自然、远足和阅读。
迪维亚·巴尔加维(Divya Bhargavi) 是 Amazon ML 解决方案实验室的数据科学家和媒体和娱乐垂直主管,她使用机器学习为 AWS 客户解决高价值业务问题。 她致力于图像/视频理解、知识图谱推荐系统、预测性广告用例。
乌伊瓦尔·拉坦(Ujjwal Ratan) 是 AWS 医疗保健和生命科学业务部门 AI/ML 和数据科学的领导者,也是首席 AI/ML 解决方案架构师。 多年来,Ujjwal 一直是医疗保健和生命科学行业的思想领袖,帮助多家全球财富 500 强组织通过采用机器学习实现创新目标。 他的工作涉及医学影像分析、非结构化临床文本和基因组学,帮助 AWS 构建了产品和服务,提供高度个性化和精确定位的诊断和治疗。 在空闲时间,他喜欢听(和演奏)音乐以及与家人一起进行计划外的公路旅行。
朝阳河 是 FedML, Inc. 的联合创始人兼首席技术官,FedML, Inc. 是一家初创公司,致力于在任何地方、任何规模构建开放和协作 AI 的社区。 他的研究重点是分布式/联邦机器学习算法、系统和应用程序。 他获得了博士学位。 计算机科学从 美国南加州大学,洛杉矶,美国。
萨尔曼·阿维斯蒂尔 教授,南加州大学-亚马逊安全与可信机器学习中心(Trusted AI)首任主任,电气与计算机工程系和计算机科学系信息理论与机器学习(vITAL)研究实验室主任南加州大学。 他还是 FedML 的联合创始人兼首席执行官。 他获得了我的博士学位。 2008 年获得加州大学伯克利分校电气工程和计算机科学博士学位。他的研究重点是信息论、分散式和联合式机器学习、安全和隐私保护学习和计算领域。
- SEO 支持的内容和 PR 分发。 今天得到放大。
- 柏拉图区块链。 Web3 元宇宙智能。 知识放大。 访问这里。
- Sumber: https://aws.amazon.com/blogs/machine-learning/part-1-federated-learning-on-aws-with-fedml-health-analytics-without-sharing-sensitive-data/
- 000
- 1
- 10
- 100
- 2%
- 2020
- 2022
- 7
- a
- 对,能力--
- 摘要
- 摘要
- 学者
- 加快
- 访问
- 账号管理
- 账户
- 横过
- 要积极。
- 活动
- 无环
- 地址
- 地址
- 采用
- 采用
- 采用
- 推进
- 广告
- 聚集
- 聚合
- 聚合
- AI
- AI / ML
- 算法
- 算法
- 算法
- 所有类型
- 允许
- Amazon
- 亚马逊机器学习解决方案实验室
- 其中
- 分析
- 分析
- 分析
- 分析
- 和
- 和基础设施
- 洛杉矶
- 分析数据
- API
- 应用领域
- 应用领域
- 应用的
- 架构
- 地区
- 相关
- AWS
- 背景
- 基于
- 底线
- 因为
- 作为
- 得益
- 伯克利
- 更好
- 偏见
- 十亿美元
- 博客
- 板
- 棋盘游戏
- 带来
- 建立
- 建筑物
- 商业
- 加州
- 被称为
- 关心
- 案件
- 案例研究
- 例
- 分类
- Center
- 中央
- 集中
- CEO
- 挑战
- 挑战
- 化学
- 客户
- 临床资料
- 临床试验
- 云端技术
- 云采用
- 联合创始人
- 码
- 共同
- 商业化
- 社体的一部分
- 社区建设
- 公司
- 完成
- 完全
- 复杂
- 全面
- 一台
- 计算机工程
- 计算机科学
- 计算机视觉
- 计算
- 概念
- 关心
- 关注
- 信心
- 已联繫
- 连接方式
- 组成
- 财团
- 经常
- 约束
- 继续
- 控制
- 协调
- 核心
- 价格
- 创造
- 危急
- 首席技术官
- 策展
- 合作伙伴
- 定制
- DAG
- data
- 数据分析
- 数据挖掘
- 数据点
- 数据科学
- 数据科学家
- 数据共享
- 数据驱动
- 数据库
- 数据集
- 分散
- 决定
- 交货
- 演示
- 证明
- 问题类型
- 部署
- 部署
- 描述
- 描述
- 设计
- 详细
- 详情
- 开发
- 发达
- 开发
- 发展
- 研发支持
- 设备
- 设备
- 不同
- 副总经理
- 分布
- 分布式计算
- 分布式系统
- 分布式培训
- 不同
- 码头工人
- 不会
- 域
- 域名
- 药物
- ,我们将参加
- 每
- 此前
- 容易
- 生态系统
- 边缘
- 教育
- 效用
- 效率
- 努力
- 或
- 使
- 工程师
- 工程师
- 工程师
- 娱乐
- 事件
- 体验
- 探索
- 促进
- 功能有助于
- 公平
- 家庭
- 数字
- 最后
- 终于
- 金融
- 姓氏:
- 高度灵活
- 柔软
- 流
- 重点
- 重点
- 以下
- 如下
- 运气
- 骨架
- Free
- 止
- ,
- 功能
- 未来
- Games
- 搜集
- 基因组学
- 全球
- 目标
- 理想中
- 治理
- 渐变
- 图形
- 更大的
- 非常
- 成长
- 事业发展
- 方针
- 健康管理
- 医疗保健
- 保持
- 帮助
- 帮助
- 帮助
- 帮助
- 高品质
- 高度
- 医院
- 创新中心
- HPC
- HTTPS
- 主意
- 同步成像
- 实施
- 进口
- 改善
- 改善
- 改进
- in
- 不活跃
- 就职典礼
- 公司
- 包含
- 增加
- 行业
- 行业中的应用:
- 信息
- 基础设施
- 倡议
- 創新
- 创新
- 可行的洞见
- 机构
- 兴趣
- 接口
- 网络
- 物联网
- 物联网
- IT
- 加入
- 键
- 知识
- 知识图
- 实验室
- 缺乏
- 语言
- 大
- 大规模
- 层
- 图层1
- 图层2
- 铅
- 领导者
- 学习
- 导致
- Level
- 杠杆作用
- 杠杆
- 借力
- 自学资料库
- 生活
- 生命科学
- 生命科学
- 范围
- 听力
- 加载
- 本地
- 当地
- 长
- 该
- 洛杉矶
- 离
- 机
- 机器学习
- 保持
- 保养
- 主要
- 制作
- 管理
- 颠覆性技术
- 经理
- 管理的
- 方式
- 火星
- 最多
- 有意义的
- 媒体
- 医生
- 药物
- 提到
- 百万
- 采矿
- 麻省理工学院简介
- 减轻
- ML
- 联络号码
- 手机
- 时尚
- 模型
- 模型
- 模块化
- 更多
- 移动
- 移动
- 多
- 音乐
- 自然
- 自然语言处理
- 自然
- 需求
- 全新
- 下页
- 对象
- 对象
- 优惠精选
- 一
- 打开
- 开放源码
- 操作
- ZAP优势
- 组织
- 其他名称
- 学校以外
- 范例
- 参数
- 部分
- 与会者
- 合伙人
- 伙伴
- 情
- 病人
- 演出
- 性能
- 个性化
- 个性化你的
- 制药
- 制药
- 手机
- 平台
- 平台
- 柏拉图
- 柏拉图数据智能
- 柏拉图数据
- 播放
- 点
- 观点
- 点
- 构成
- 帖子
- 潜力
- 供电
- 实用
- 恰恰
- 平台精度
- 预测
- 预测
- 当下
- 礼物
- 先前
- 小学
- 校长
- 隐私
- 私立
- 市场问题
- 问题
- 过程
- 过程
- 处理
- 热销产品
- 教授
- 曲目
- 训练课程
- 进展
- 提供
- 保护
- 协议
- 协议
- 提供
- 提供
- 国家
- 公共云
- 罕见
- RE
- 阅读
- 真实的世界
- 收到
- 最近
- 推荐
- 减少
- 减少
- 问候
- 监管
- 监管
- 知识库
- 代表
- 要求
- 需求
- 需要
- 研究
- 那些
- 成果
- 护
- 检讨
- 风险
- 路
- 圆
- 运行
- 同
- 鳞片
- 科学
- 科学
- 科学家
- 科学家
- 无缝
- 行业
- 安全
- 保安
- 寻找
- 前辈
- 敏感
- 系列
- 服务器
- 特色服务
- 集
- 几个
- Share
- 共用的,
- 分享
- 共享
- 显示
- 如图
- 显著
- 类似
- 模拟
- 单
- 网站
- 网站
- 小
- So
- 方案,
- 解决方案
- 解决
- 一些
- 南
- 独立
- 开始
- 启动
- 国家的最先进的
- 仍
- 商店
- 学习
- 顺利
- 这样
- 足够
- 监管
- SUPPORT
- 支持
- 产品
- 服用
- 针对
- 任务
- 技术
- 专业技术
- test
- 信息
- 其
- 疗法
- 因此
- 事
- 思想
- 三
- 次
- 至
- 培训
- 熟练
- 产品培训
- 试验
- 信任
- 类型
- 一般
- 相关
- 理解
- 单元
- 大学
- 更新
- 美国
- 使用
- 用户
- 效用
- 价值观
- 各种
- 广阔
- 垂直
- 查看
- 愿景
- 重要
- 体积
- 演练
- 这
- 而
- WHO
- 宽
- 中
- 也完全不需要
- 工作
- 合作
- 写
- 写作
- 年
- 产量
- 完全
- 和风网