Aprendizado federado na AWS com FedML: análise de saúde sem compartilhamento de dados confidenciais

Republicado por Platão

seguidores: 0

Esta postagem no blog foi escrita em parceria com Chaoyang He e Salman Avestimehr, da FedML.

A análise de dados de saúde e ciências biológicas do mundo real (HCLS) apresenta vários desafios práticos, como silos de dados distribuídos, falta de dados suficientes em um único local para eventos raros, diretrizes regulatórias que proíbem o compartilhamento de dados, requisitos de infraestrutura e custos incorridos na criação um repositório de dados centralizado. Por estarem em um domínio altamente regulamentado, os parceiros e clientes da HCLS buscam mecanismos de preservação da privacidade para gerenciar e analisar dados confidenciais, distribuídos e de grande escala.

Para mitigar esses desafios, propomos o uso de uma estrutura de aprendizado federado (FL) de código aberto chamada FedML, que permite analisar dados HCLS confidenciais treinando um modelo global de aprendizado de máquina a partir de dados distribuídos mantidos localmente em diferentes locais. O FL não requer movimentação ou compartilhamento de dados entre sites ou com um servidor centralizado durante o processo de treinamento do modelo.

Nesta série de duas partes, demonstramos como você pode implantar uma estrutura FL baseada em nuvem na AWS. No primeiro post, descrevemos os conceitos de FL e o framework FedML. No segundo post, apresentamos os casos de uso e o conjunto de dados para mostrar sua eficácia na análise de conjuntos de dados de saúde do mundo real, como o dados da eICU, que compreende um banco de dados de cuidados intensivos multicêntricos coletados de mais de 200 hospitais.

BACKGROUND

Embora o volume de dados gerados pelo HCLS nunca tenha sido tão grande, os desafios e restrições associados ao acesso a esses dados limitam sua utilidade para pesquisas futuras. O aprendizado de máquina (ML) apresenta uma oportunidade para abordar algumas dessas preocupações e está sendo adotado para avançar na análise de dados e obter insights significativos de diversos dados HCLS para casos de uso como prestação de cuidados, suporte à decisão clínica, medicina de precisão, triagem e diagnóstico e doenças crônicas gestão do cuidado. Como os algoritmos de ML geralmente não são adequados para proteger a privacidade dos dados no nível do paciente, há um interesse crescente entre os parceiros e clientes da HCLS em usar mecanismos e infraestrutura de preservação da privacidade para gerenciar e analisar dados confidenciais, distribuídos e em grande escala. [1]

Desenvolvemos uma estrutura FL na AWS que permite analisar dados de saúde distribuídos e confidenciais de maneira a preservar a privacidade. Envolve treinar um modelo de ML compartilhado sem mover ou compartilhar dados entre sites ou com um servidor centralizado durante o processo de treinamento do modelo e pode ser implementado em várias contas da AWS. Os participantes podem optar por manter seus dados em seus sistemas locais ou em uma conta da AWS controlada por eles. Portanto, traz análises para dados, em vez de mover dados para análises.

Nesta postagem, mostramos como você pode implantar a estrutura FedML de código aberto na AWS. Testamos a estrutura nos dados da eICU, um banco de dados de cuidados intensivos multicêntricos coletados em mais de 200 hospitais, para prever a mortalidade de pacientes intra-hospitalares. Podemos usar essa estrutura FL para analisar outros conjuntos de dados, incluindo dados genômicos e de ciências da vida. Também pode ser adotado por outros domínios repletos de dados distribuídos e confidenciais, incluindo os setores financeiro e educacional.

Aprendizado Federado

Os avanços na tecnologia levaram a um crescimento explosivo de dados em todos os setores, incluindo HCLS. As organizações HCLS geralmente armazenam dados em silos. Isso representa um grande desafio no aprendizado orientado a dados, que requer grandes conjuntos de dados para generalizar bem e atingir o nível de desempenho desejado. Além disso, a coleta, curadoria e manutenção de conjuntos de dados de alta qualidade incorrem em tempo e custo significativos.

O aprendizado federado atenua esses desafios treinando de forma colaborativa modelos de ML que usam dados distribuídos, sem a necessidade de compartilhá-los ou centralizá-los. Ele permite que diversos locais sejam representados no modelo final, reduzindo o risco potencial de viés baseado no local. O framework segue uma arquitetura cliente-servidor, onde o servidor compartilha um modelo global com os clientes. Os clientes treinam o modelo com base em dados locais e compartilham parâmetros (como gradientes ou pesos do modelo) com o servidor. O servidor agrega esses parâmetros para atualizar o modelo global, que é então compartilhado com os clientes para a próxima rodada de treinamento, conforme mostrado na figura a seguir. Esse processo iterativo de treinamento do modelo continua até que o modelo global converja.

Processo iterativo de treinamento de modelo

Nos últimos anos, esse novo paradigma de aprendizado foi adotado com sucesso para atender à preocupação de governança de dados no treinamento de modelos de ML. Um desses esforços é MELODY, um consórcio liderado pela Innovative Medicines Initiative (IMI), desenvolvido pela AWS. É um programa de 3 anos envolvendo 10 empresas farmacêuticas, 2 instituições acadêmicas e 3 parceiros de tecnologia. Seu principal objetivo é desenvolver uma estrutura FL multitarefa para melhorar o desempenho preditivo e a aplicabilidade química de modelos baseados na descoberta de medicamentos. A plataforma compreende várias contas da AWS, com cada parceiro farmacêutico mantendo o controle total de suas respectivas contas para manter seus conjuntos de dados privados e uma conta central de ML coordenando as tarefas de treinamento do modelo.

O consórcio treinou modelos em bilhões de pontos de dados, consistindo em mais de 20 milhões de pequenas moléculas em mais de 40,000 ensaios biológicos. Com base em resultados experimentais, os modelos colaborativos demonstraram uma melhoria de 4% na classificação de moléculas como farmacologicamente ou toxicologicamente ativas ou inativas. Também levou a um aumento de 10% em sua capacidade de gerar previsões confiáveis quando aplicado a novos tipos de moléculas. Finalmente, os modelos colaborativos foram tipicamente 2% melhores na estimativa de valores de atividades toxicológicas e farmacológicas.

FedML

FedML é uma biblioteca de código aberto para facilitar o desenvolvimento do algoritmo FL. Ele oferece suporte a três paradigmas de computação: treinamento no dispositivo para dispositivos de ponta, computação distribuída e simulação de máquina única. Ele também oferece diversas pesquisas algorítmicas com design de API flexível e genérico e implementações de linha de base de referência abrangentes (otimizador, modelos e conjuntos de dados). Para obter uma descrição detalhada da biblioteca FedML, consulte FedML.

A figura a seguir apresenta a arquitetura da biblioteca de software livre do FedML.

Arquitetura de biblioteca de código aberto do FedML

Conforme visto na figura anterior, do ponto de vista do aplicativo, o FedML protege os detalhes do código subjacente e as configurações complexas do treinamento distribuído. No nível do aplicativo, como visão computacional, processamento de linguagem natural e mineração de dados, os cientistas e engenheiros de dados precisam apenas escrever o modelo, os dados e o treinador da mesma forma que um programa autônomo e depois passá-lo para o objeto FedMLRunner para conclua todos os processos, conforme mostrado no código a seguir. Isso reduz muito a sobrecarga para os desenvolvedores de aplicativos executarem o FL.

import fedml
from my_model_trainer import MyModelTrainer
from my_server_aggregator import MyServerAggregator
from fedml import FedMLRunner if __name__ == "__main__":
# init FedML framework
args = fedml.init() # init device
device = fedml.device.get_device(args) # load data
dataset, output_dim = fedml.data.load(args) # load model
model = fedml.model.create(args, output_dim) # my customized trainer and aggregator
trainer = MyModelTrainer(model, args)
aggregator = MyServerAggregator(model, args) # start training
fedml_runner = FedMLRunner(args, device, dataset, model, trainer, aggregator)
fedml_runner.run()

O algoritmo FedML ainda é um trabalho em andamento e constantemente aprimorado. Para esse fim, o FedML abstrai o treinador e o agregador principais e fornece aos usuários dois objetos abstratos, FedML.core.ClientTrainer e FedML.core.ServerAggregator, que só precisam herdar as interfaces desses dois objetos abstratos e passá-los para FedMLRunner. Essa personalização fornece aos desenvolvedores de ML flexibilidade máxima. Você pode definir estruturas de modelo arbitrárias, otimizadores, funções de perda e muito mais. Essas personalizações também podem ser conectadas perfeitamente com a comunidade de código aberto, plataforma aberta e ecologia de aplicativos mencionados anteriormente com a ajuda do FedMLRunner, que resolve completamente o problema de longo atraso de algoritmos inovadores à comercialização.

Por fim, conforme mostrado na figura anterior, o FedML oferece suporte a processos de computação distribuída, como protocolos de segurança complexos e treinamento distribuído como um processo de computação de fluxo Directed Acyclic Graph (DAG), tornando a gravação de protocolos complexos semelhante a programas autônomos. Com base nessa ideia, o protocolo de segurança Flow Layer 1 e o processo de algoritmo de ML Flow Layer 2 podem ser facilmente separados para que engenheiros de segurança e engenheiros de ML possam operar mantendo uma arquitetura modular.

A biblioteca de código aberto FedML oferece suporte a casos de uso de ML federados para borda e nuvem. Na borda, a estrutura facilita o treinamento e a implantação de modelos de borda para telefones celulares e dispositivos de internet das coisas (IoT). Na nuvem, ele permite ML colaborativo global, incluindo servidores de agregação de nuvem pública multiregionais e multilocatários, bem como implantação de nuvem privada no modo Docker. A estrutura aborda as principais preocupações com relação à preservação da privacidade FL, como segurança, privacidade, eficiência, supervisão fraca e justiça.

Conclusão

Nesta postagem, mostramos como você pode implantar a estrutura FedML de código aberto na AWS. Isso permite que você treine um modelo de ML em dados distribuídos, sem a necessidade de compartilhá-lo ou movê-lo. Montamos uma arquitetura multiconta, onde em um cenário do mundo real, as organizações podem ingressar no ecossistema para se beneficiar do aprendizado colaborativo, mantendo a governança de dados. No próximo post, usamos o conjunto de dados eICU multi-hospitalar para demonstrar sua eficácia em um cenário do mundo real.

Revise a apresentação em re:MARS 2022 focada em “Aprendizado federado gerenciado na AWS: um estudo de caso para assistência médica” para obter um passo a passo detalhado desta solução.

Referência

[1] Kaissis, GA, Makowski, MR, Rückert, D. et al. Aprendizado de máquina seguro, preservador da privacidade e federado em imagens médicas. Nat Mach Intell 2, 305–311 (2020). https://doi.org/10.1038/s42256-020-0186-1
[2] FedML https://fedml.ai

Sobre os autores

Aprendizado federado na AWS com FedML: análise de saúde sem compartilhamento de dados confidenciais – Parte 1 PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai. Olivia Choudhury, PhD, é Arquiteto de Soluções de Parceiros Sênior na AWS. Ela ajuda parceiros, no domínio de saúde e ciências biológicas, a projetar, desenvolver e dimensionar soluções de ponta usando a AWS. Ela tem experiência em genômica, análise de saúde, aprendizado federado e aprendizado de máquina para preservação da privacidade. Fora do trabalho, ela joga jogos de tabuleiro, pinta paisagens e coleciona mangás.

Vidya Sagar Ravipati é gerente da Laboratório de soluções de ML da Amazon, onde ele aproveita sua vasta experiência em sistemas distribuídos de grande escala e sua paixão pelo aprendizado de máquina para ajudar os clientes da AWS em diferentes setores da indústria a acelerar sua adoção de IA e nuvem. Anteriormente, ele foi engenheiro de aprendizado de máquina em serviços de conectividade na Amazon, que ajudou a construir plataformas de personalização e manutenção preditiva.

Aprendizado federado na AWS com FedML: análise de saúde sem compartilhamento de dados confidenciais – Parte 1 PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai. Wajahat Aziz é principal arquiteto de soluções de aprendizado de máquina e HPC na AWS, onde se concentra em ajudar clientes de saúde e ciências biológicas a aproveitar as tecnologias da AWS para desenvolver soluções de ML e HPC de última geração para uma ampla variedade de casos de uso, como desenvolvimento de medicamentos, Ensaios Clínicos e Aprendizado de Máquina com Preservação da Privacidade. Fora do trabalho, Wajahat gosta de explorar a natureza, fazer caminhadas e ler.

Divya Bhargavi é cientista de dados e líder vertical de mídia e entretenimento no Amazon ML Solutions Lab, onde resolve problemas de negócios de alto valor para clientes da AWS usando Machine Learning. Ela trabalha com compreensão de imagem/vídeo, sistemas de recomendação de gráfico de conhecimento, casos de uso de publicidade preditiva.

Ujjwal Ratan é líder em IA/ML e ciência de dados na Unidade de negócios de saúde e ciências biológicas da AWS e também é arquiteto principal de soluções de IA/ML. Ao longo dos anos, Ujjwal tem sido um líder de pensamento no setor de saúde e ciências biológicas, ajudando várias organizações da Global Fortune 500 a atingir suas metas de inovação adotando o aprendizado de máquina. Seu trabalho envolvendo a análise de imagens médicas, texto clínico não estruturado e genômica ajudou a AWS a criar produtos e serviços que fornecem diagnósticos e terapias altamente personalizados e direcionados com precisão. Em seu tempo livre, ele gosta de ouvir (e tocar) música e fazer viagens não planejadas com sua família.

Aprendizado federado na AWS com FedML: análise de saúde sem compartilhamento de dados confidenciais – Parte 1 PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai. Chaoyang Ele é cofundador e CTO da FedML, Inc., uma startup que trabalha para uma comunidade que constrói IA aberta e colaborativa de qualquer lugar em qualquer escala. Sua pesquisa se concentra em algoritmos, sistemas e aplicativos de aprendizado de máquina distribuído/federado. Ele recebeu seu Ph.D. em Ciência da Computação pela University of Southern California, Los Angeles, EUA.

Aprendizado federado na AWS com FedML: análise de saúde sem compartilhamento de dados confidenciais – Parte 1 PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai. Salman Avestimehr é professor, diretor inaugural do USC-Amazon Center for Secure and Trusted Machine Learning (Trusted AI) e diretor do laboratório de pesquisa de Teoria da Informação e Aprendizado de Máquina (vITAL) no Departamento de Engenharia Elétrica e de Computação e no Departamento de Ciência da Computação da Universidade do Sul da California. Ele também é cofundador e CEO da FedML. Ele recebeu meu Ph.D. em Engenharia Elétrica e Ciências da Computação pela UC Berkeley em 2008. Sua pesquisa se concentra nas áreas de teoria da informação, aprendizado de máquina descentralizado e federado, aprendizado e computação seguros e preservadores da privacidade.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
Platoblockchain. Inteligência Metaverso Web3. Conhecimento Ampliado. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/machine-learning/part-1-federated-learning-on-aws-with-fedml-health-analytics-without-sharing-sensitive-data/

Carimbo de hora: 13 de janeiro de 2023

Carimbo de hora: 1 de março de 2022

Republicado por Platão

Crie arquiteturas de treinamento distribuídas flexíveis e escaláveis usando Kubeflow na AWS e Amazon SageMaker

Ajuste os modelos de ML para obter objetivos adicionais, como justiça, com o SageMaker Automatic Model Tuning

Padrões de design para inferência serial no Amazon SageMaker

Provisione e gerencie ambientes de ML com o Amazon SageMaker Canvas usando o AWS CDK e o AWS Service Catalog

Detecção de anomalias com o Amazon SageMaker Edge Manager usando AWS IoT Greengrass V2

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta