Por que aplicar o aprendizado de máquina à biologia é difícil – mas vale a pena PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Por que aplicar o aprendizado de máquina à biologia é difícil – mas vale a pena

Jimmy Lin é CSO da FreenomeName, que está desenvolvendo testes baseados em sangue para detecção precoce de câncer, começando com câncer de cólon. Ele é um pioneiro no desenvolvimento de abordagens computacionais para extrair insights de dados genômicos em larga escala, tendo liderado as análises computacionais dos primeiros estudos de sequenciamento genômico em vários tipos de câncer. 

Lin conversou com Future sobre os desafios de executar uma missão da empresa para combinar abordagens de aprendizado de máquina e dados biológicos. Ele explica quais são os três tipos de pessoas que você precisa contratar para construir uma empresa de biotecnologia equilibrada, as armadilhas que você deve evitar, como saber quando o casamento de dois campos está ou não funcionando e as nuances da adaptação de estudos biológicos e aprendizado de máquina uns aos outros.


FUTURO: Como muitas disciplinas, há muito entusiasmo em torno do potencial de aplicar o aprendizado de máquina à bio. Mas o progresso parece mais difícil de conquistar. Existe algo diferente nos dados biomoleculares em comparação com os tipos de dados normalmente usados ​​com aprendizado de máquina?

JIMMY LIN: Os dados tradicionais de aprendizado de máquina são muito amplos e superficiais. O tipo de problema que o aprendizado de máquina costuma resolver é o que os humanos podem resolver em um nanossegundo, como o reconhecimento de imagens. Para ensinar um computador a reconhecer a imagem de um gato, você teria bilhões e bilhões de imagens para treinar, mas cada imagem é relativamente limitada em seu conteúdo de dados. Os dados biológicos são geralmente o inverso. Não temos bilhões de indivíduos. Temos sorte de conseguir milhares. Mas para cada indivíduo, temos bilhões e bilhões de pontos de dados. Temos números menores de dados muito profundos.

Ao mesmo tempo, as questões biológicas são menos frequentemente os problemas que os humanos podem resolver. Estamos fazendo coisas que nem mesmo os especialistas mundiais nisso são capazes de fazer. Assim, a natureza dos problemas é muito diferente, por isso requer novo pensamento sobre como abordamos isso.

As abordagens precisam ser construídas do zero para dados biomoleculares ou você pode adaptar os métodos existentes?

Existem maneiras de pegar essas informações profundas e apresentá-las para que você possa tirar proveito das ferramentas existentes, seja aprendizado estatístico ou métodos de aprendizado profundo. Não é um copiar e colar direto, mas há muitas maneiras de transferir muitos dos métodos de aprendizado de máquina e aplicá-los a problemas biológicos, mesmo que não seja um mapa direto de um para um.

Aprofundando um pouco mais na questão dos dados, com dados biológicos há muita variabilidade – há ruído biológico, há ruído experimental. Qual é a melhor maneira de abordar a geração de dados biomédicos prontos para aprendizado de máquina? 

Essa é uma ótima pergunta. Desde o início, a Freenome levou em consideração como gerar os melhores dados adequados para aprendizado de máquina. Ao longo de todo o processo, desde o design do estudo até a coleta de amostras, a execução dos ensaios e a análise de dados, é preciso ter cuidado em cada etapa para poder otimizar o aprendizado de máquina, especialmente quando você tem muito mais recursos do que amostras. É o problema clássico de p grande e n pequeno.

Em primeiro lugar, projetamos nosso estudo para minimizar fatores de confusão. Muitas empresas confiaram em conjuntos de dados históricos e fizeram muito trabalho para tentar minimizar os efeitos de coorte e remover fatores de confusão. Mas será que essa é realmente a melhor maneira de fazer isso? Bem, não, a melhor maneira de fazer isso é um estudo prospectivo onde você controla os fatores de confusão antecipadamente. É por isso que, mesmo em nossos esforços de descoberta, decidimos fazer um grande estudo prospectivo em vários locais que coleta dados padrão-ouro antecipadamente, como em nosso Teste AI-EMERGE.

Felizmente temos investidores que acreditaram em nós o suficiente para nos permitir gerar esses dados. Isso foi realmente um grande risco, porque esses estudos são muito caros. 

Depois de obter os dados, o que você faz com eles?

Bem, você precisa treinar todos os locais de maneira consistente e controlar os fatores de confusão de todos os locais diferentes para que os pacientes pareçam o mais semelhantes possível. E depois de executar as amostras, você precisa pensar em como minimizar os efeitos do lote, como colocar a mistura certa de amostras em diferentes máquinas nas proporções certas.

Isso é muito difícil quando você está fazendo multiômica porque as máquinas que analisam uma classe de biomoléculas podem coletar centenas de amostras em uma corrida, enquanto as máquinas que analisam outra classe de biomoléculas podem levar apenas algumas. Além disso, você deseja remover o erro humano. Então, nós introduzimos a automação bem de antemão, no estágio de apenas gerar dados de treinamento.

Além disso, quando você tem bilhões de pontos de dados por pessoa, torna-se muito, muito fácil potencialmente overfit. Portanto, garantimos que nosso treinamento seja generalizável para as populações às quais desejamos aplicá-lo, com as correções estatísticas corretas e muitos conjuntos sucessivos de treinamento e teste.

Combinar aprendizado de máquina com dados biomoleculares é algo que muitas empresas de biotecnologia estão tentando fazer, mas muitas vezes há muita imprecisão sobre como eles farão isso. O que você vê como uma característica essencial para integrá-los efetivamente?

At FreenomeName estamos combinando aprendizado de máquina e multiômica. Para fazer isso, você precisa fazer as duas coisas bem. A chave aqui é que você precisa ter uma forte experiência em ambos e, em seguida, ser capaz de falar a língua de ambos. Você precisa ser bilíngue. 

Existem muitas empresas que são especialistas em um e depois espalham uma camada do outro. Por exemplo, existem empresas de tecnologia que decidem que querem pular para a bio, mas tudo o que fazem é contratar um punhado de cientistas de laboratórios úmidos. Por outro lado, existem empresas de biologia que contratam alguns cientistas de aprendizado de máquina, então eles declaram que são uma empresa de IA/ML agora. 

O que você realmente precisa é de uma força de bancada profunda em ambos. Você precisa de uma compreensão biológica profunda do sistema, dos diferentes ensaios, das características do espaço do conhecimento. Mas você também precisa ter uma compreensão profunda de aprendizado de máquina, ciência de dados, métodos computacionais e aprendizado estatístico, e ter as plataformas para aplicar isso. 

Isso é realmente desafiador porque essas duas áreas geralmente são muito isoladas. Quando você pensa nas pessoas que está contratando para a empresa, como cria pontes entre esses dois domínios diferentes?

Acho que existem três tipos de pessoas que você quer contratar para fazer a ponte entre tecnologia e bio. Os dois primeiros são os seus padrões, os especialistas de domínio em aprendizado de máquina ou biologia. Mas eles também precisam estar abertos e dispostos a aprender sobre o outro domínio ou, melhor ainda, ter exposição e experiência trabalhando nesses domínios adicionais.

Para especialistas em aprendizado de máquina, escolhemos pessoas que não estão lá apenas para desenvolver o algoritmo mais recente, mas que desejam pegar os algoritmos mais recentes e aplicá-los a questões biológicas. 

Biologia é bagunçado. Não apenas não temos todos os métodos para medir os diferentes analitos, mas estamos descobrindo novas biomoléculas e recursos continuamente. Há também muitos fatores de confusão e ruídos que devem ser levados em consideração. Esses problemas são geralmente mais complexos do que os problemas padrão de aprendizado de máquina, onde o problema e o espaço de conhecimento são muito mais bem definidos. Os especialistas em ML que desejam aplicar seu ofício na biologia precisam ter humildade para aprender sobre a complexidade que existe na biologia e estar dispostos a trabalhar com condições e diferenças na disponibilidade de dados menos do que ideais.

O outro lado é contratar biólogos que pensam em seus problemas em termos de geração de dados quantitativos em larga escala, estudos de design para otimizar as relações sinal-ruído e estão cientes das ressalvas de fatores de confusão e generalização. É mais do que apenas ser capaz de falar e pensar na linguagem do código. Muitos de nossos biólogos já codificam e têm uma boa base estatística, e estão dispostos e querendo crescer nessas áreas. Na verdade, na Freenome, temos programas de treinamento para biólogos que querem aprender mais sobre codificação para poder desenvolver seu raciocínio estatístico.

O que é ainda mais importante é que o design do estudo e as perguntas que podemos fazer parecem diferentes quando projetados no contexto de big data e ML.

Qual é o terceiro tipo?

O terceiro tipo de pessoa a contratar é o mais difícil de encontrar. Estes são os bridgers – pessoas que trabalharam fluentemente em ambas as áreas. Existem muito poucos lugares e laboratórios no mundo que estão bem nesta interseção. Conseguir as pessoas que podem traduzir e unir as duas áreas é muito, muito importante. Mas você não quer construir uma empresa apenas de pontes, porque muitas vezes essas pessoas não são especialistas em uma área ou outra, devido ao que fazem. Eles são muitas vezes mais gerais em sua compreensão. No entanto, eles fornecem o trabalho crítico de unir os dois campos.

Portanto, ter todos os três grupos de pessoas é importante. Se você tiver apenas um dos especialistas especialistas em domínio, você só será forte em uma área. Ou, se você não tem os construtores de pontes, então você tem silos de pessoas que não poderão falar umas com as outras. Idealmente, as equipes devem incluir cada um desses três tipos de pessoas para permitir uma compreensão profunda do ML e da biologia, além de fornecer uma sinergia eficaz de ambos os campos.

Você vê diferenças em como os especialistas em tecnologia ou computação atacam problemas versus como os biólogos abordam os problemas? 

Sim. Em um extremo, definitivamente temos pessoas que vêm de uma formação estatística e quantitativa e falam em código e equações. Precisamos ajudá-los a pegar essas equações e explicá-las de maneira clara para que o público em geral possa entender. 

Os biólogos têm grande imaginação porque trabalham com coisas que são invisíveis. Eles usam muitas ilustrações nas apresentações para ajudar a visualizar o que está acontecendo molecularmente e têm grande intuição sobre mecanismos e complexidade. Muito desse pensamento é mais qualitativo. Isso proporciona uma maneira diferente de pensar e se comunicar.

Então, como as pessoas se comunicam vai ser muito, muito diferente. A chave é – dizemos brincando – precisamos nos comunicar de uma maneira que até sua avó possa entender. 

Requer um verdadeiro domínio do seu conhecimento para poder simplificá-lo para que até mesmo um novato possa entender. Eu acho que é realmente um ótimo treinamento para alguém aprender a comunicar conceitos muito difíceis fora dos atalhos normais, jargões e linguagem técnica.

O que inspirou seu ponto de vista particular sobre como casar aprendizado de máquina e biologia?

Portanto, o problema não é novo, mas sim a última iteração de um problema antigo. Quando os campos de Biologia Computacional e Bioinformática foram criados pela primeira vez, o mesmo problema existia. Cientistas da computação, estatísticos, cientistas de dados ou mesmo físicos ingressaram no campo da biologia e trouxeram seu pensamento quantitativo para o campo. Ao mesmo tempo, os biólogos tiveram que começar a modelar além da caracterização de genes como regulados para cima e para baixo, e começar a abordar os dados de forma mais quantitativa. A digitalização de dados biológicos acabou de crescer exponencialmente em escala. O problema é mais agudo e abrangente em escopo, mas os desafios fundamentais permanecem os mesmos.

O que você vê como métricas de sucesso ou sinais de alerta que dizem se o casamento está funcionando ou não?

Se você observar as empresas que estão tentando combinar áreas, poderá ver rapidamente quanto elas investem em um lado ou no outro. Então, se é uma empresa em que 90% das pessoas são cientistas de laboratório, e eles apenas contrataram um ou dois cientistas de aprendizado de máquina e estão se chamando de empresa de ML, isso provavelmente é mais uma reflexão tardia.

Existe uma lição para levar para casa que você aprendeu em todo esse processo de casar biologia e aprendizado de máquina?

Acho que humildade intelectual, especialmente vindo do lado da tecnologia. Com algo como resolver por busca, por exemplo, todas as informações já estão em um formato de texto que você pode acessar facilmente, e você sabe o que está procurando. Então, torna-se um problema solucionável, certo? O problema com a biologia é que nem sabemos quais conjuntos de dados estamos procurando, se temos a lanterna certa para iluminar as áreas certas. 

Então, às vezes, quando especialistas em tecnologia entram na bio, caem em uma armadilha de simplificação excessiva. Digamos, como exemplo, para o sequenciamento da próxima geração, eles podem dizer: “Uau. Podemos sequenciar o DNA. Por que não sequenciamos muito e muito DNA? Torna-se um problema de dados e então resolvemos a biologia.” 

Mas o problema é que o DNA é uma das dezenas de analitos diferentes no corpo. Há RNA, proteína,modificações pós-traducionais, diferentes compartimentos como vesículas extracelulares, e diferenças de tempo, espaço, tipo celular, entre outros. Precisamos entender as possibilidades, bem como as limitações de cada modalidade de dados que usamos.

Embora possa ser difícil de acreditar, a biologia ainda é um campo em sua infância. Nós apenas sequenciou um genoma humano há pouco mais de duas décadas. Na maioria das vezes, não podemos acessar sinais biológicos individuais, então ainda estamos fazendo medições que são um conglomerado ou média em muitos sinais. Estamos apenas começando a medir uma célula de cada vez. Ainda há muito a fazer e é por isso que é um momento emocionante para entrar na biologia. 

Mas com essa infância vem um grande potencial para resolver problemas que terão enormes impactos na saúde e no bem-estar humano. É um momento incrível porque estamos abrindo novas fronteiras da biologia.

Que tipos de fronteiras? Existe alguma área da biologia ou medicina em que você está mais animado para ver a computação aplicada?

Sim - tudo! Mas deixe-me pensar. No câncer, acredito que em nossa geração as novas terapias e os esforços de detecção precoce que estão surgindo transformarão o câncer em uma doença crônica que não é mais tão assustadora, como fizemos para o HIV. E provavelmente podemos usar tipos muito semelhantes de métodos para analisar a detecção e a prevenção de doenças de maneira mais geral. A principal coisa que me deixa animado é que podemos começar a detectar se a doença já está lá antes dos sintomas. 

Fora do diagnóstico de câncer, o que também é muito legal é a transição para a construção com biologia em vez de apenas ler e escrever. Estou entusiasmado com as áreas da biologia sintética em que estamos usando a biologia como tecnologia, seja CRISPR ou peptídeos sintéticos ou nucleotídeos sintéticos. Aproveitar a biologia como uma ferramenta cria possibilidades expansivas para transformar completamente as indústrias tradicionais de geração de recursos, da agricultura à energia. Este é realmente um momento incrível para ser um biólogo!

Postado em 5 de outubro de 2022

Tecnologia, inovação e o futuro, contados por quem o constrói.

Obrigado por inscrever-se.

Verifique sua caixa de entrada para uma nota de boas-vindas.

Carimbo de hora:

Mais de Andreessen Horowitz