Por qué es difícil aplicar el aprendizaje automático a la biología, pero vale la pena

Reeditado por Platón

seguidores: 0

Jimmy Lin es CSO de nombre libre, que está desarrollando pruebas en sangre para la detección precoz del cáncer, empezando por el cáncer de colon. Es pionero en el desarrollo de enfoques computacionales para extraer información de datos genómicos a gran escala, y ha encabezado los análisis computacionales de los primeros estudios de secuenciación del genoma completo en múltiples tipos de cáncer.

Lin habló con Future sobre los desafíos de ejecutar una misión de la empresa para casar los enfoques de aprendizaje automático y los datos biológicos. Explica qué tres tipos de personas necesita contratar para construir una empresa techbio equilibrada, las trampas que debe evitar, cómo saber cuándo el matrimonio de dos campos funciona o no, y los matices de adaptar los estudios biológicos y el aprendizaje automático. el uno al otro

FUTURO: Al igual que muchas disciplinas, existe mucho entusiasmo en torno al potencial de aplicar el aprendizaje automático a la biología. Pero el progreso ha parecido más difícil de conseguir. ¿Hay algo diferente en los datos biomoleculares en comparación con los tipos de datos que normalmente se usan con el aprendizaje automático?

JIMMY LIN: Los datos tradicionales de aprendizaje automático son muy amplios y superficiales. El tipo de problemas que el aprendizaje automático suele resolver son los que los humanos pueden resolver en un nanosegundo, como el reconocimiento de imágenes. Para enseñarle a una computadora a reconocer la imagen de un gato, tendría miles de millones de imágenes para entrenar, pero cada imagen está relativamente limitada en su contenido de datos. Los datos biológicos suelen ser al revés. No tenemos miles de millones de individuos. Tenemos suerte de conseguir miles. Pero para cada individuo, tenemos miles y miles de millones de puntos de datos. Tenemos cantidades más pequeñas de datos muy profundos.

Al mismo tiempo, las cuestiones biológicas son menos frecuentes los problemas que los humanos pueden resolver. Estamos haciendo cosas que ni siquiera los expertos mundiales en esto pueden hacer. Entonces, la naturaleza de los problemas es muy diferente, por lo que requiere Nuevo pensamiento sobre cómo abordamos esto.

¿Es necesario construir los enfoques desde cero para los datos biomoleculares, o puede adaptar los métodos existentes?

Hay formas en que puede tomar esta información profunda y presentarla para que pueda aprovechar las herramientas existentes, ya sea aprendizaje estadístico o métodos de aprendizaje profundo. No es un copiar y pegar directo, pero hay muchas maneras de transferir muchos de los métodos de aprendizaje automático y aplicarlos a problemas biológicos, incluso si no es un mapa directo uno a uno.

Profundizando un poco más en el tema de los datos, con los datos biológicos hay mucha variabilidad, hay ruido biológico, hay ruido experimental. ¿Cuál es la mejor manera de abordar la generación de datos biomédicos listos para el aprendizaje automático?

Esa es una gran pregunta. Desde el principio, Freenome ha tenido en cuenta cómo generar los mejores datos adecuados para el aprendizaje automático. A lo largo de todo el proceso, desde el diseño del estudio hasta la recolección de muestras, la ejecución de los ensayos y el análisis de datos, se debe tener cuidado en cada paso para poder optimizar el aprendizaje automático, especialmente cuando tiene muchas más funciones que muestras. Es el clásico problema de p grande y pequeña n.

En primer lugar, hemos diseñado nuestro estudio para minimizar los factores de confusión. Muchas empresas se han basado en conjuntos de datos históricos y han trabajado mucho para tratar de minimizar los efectos de cohorte y eliminar los factores de confusión. Pero, ¿es esa realmente la mejor manera de hacerlo? Bueno, no, la mejor manera de hacerlo es un estudio prospectivo en el que controle los factores de confusión por adelantado. Esta es la razón por la que, incluso en nuestros esfuerzos de descubrimiento, decidimos realizar un gran ensayo prospectivo multisitio que recopile datos estándar de oro por adelantado, como en nuestro Ensayo AI-EMERGE.

Afortunadamente tenemos inversores que creyeron en nosotros lo suficiente como para permitirnos generar estos datos. En realidad, fue un gran riesgo porque estos estudios son muy costosos.

Luego, una vez que obtienes los datos, ¿qué haces con ellos?

Bueno, debe entrenar todos los sitios de manera consistente y controlar los factores de confusión de todos los sitios diferentes para que los pacientes se vean lo más similares posible. Y luego, una vez que analiza las muestras, debe pensar en cómo minimizar los efectos de los lotes, como colocar la combinación correcta de muestras en diferentes máquinas en las proporciones correctas.

Esto es muy difícil cuando estás haciendo multiómica porque las máquinas que analizan una clase de biomoléculas pueden tomar cientos de muestras de una sola vez, mientras que las máquinas que analizan otra clase de biomoléculas pueden tomar solo unas pocas. Además de eso, desea eliminar el error humano. Entonces, introdujimos la automatización prácticamente por adelantado, en la etapa de solo generar datos de entrenamiento.

Además, cuando tiene miles de millones de puntos de datos por persona, se vuelve muy, muy fácil sobreajustar potencialmente. Por lo tanto, nos aseguramos de que nuestro entrenamiento sea generalizable a las poblaciones a las que finalmente queremos aplicarlo, con las correcciones estadísticas correctas y muchos conjuntos de retención de prueba y entrenamiento sucesivos.

Combinar el aprendizaje automático con datos biomoleculares es algo que muchas empresas de biotecnología están tratando de hacer, pero a menudo hay mucha vaguedad sobre cómo lo harán. ¿Qué considera que es una característica esencial para integrarlos de manera efectiva?

At nombre libre Estamos fusionando el aprendizaje automático y la multiómica. Para hacer eso, necesitas hacer ambas cosas bien. La clave aquí es que debe tener una gran experiencia en ambos y luego ser capaz de hablar el idioma de ambos. Tienes que ser bilingüe.

Hay muchas empresas que son expertas en uno y luego espolvorean una capa del otro. Por ejemplo, hay empresas de tecnología que deciden que quieren saltar a la biología, pero todo lo que hacen es contratar a un puñado de científicos de laboratorio húmedo. Por otro lado, hay empresas de biología que contratan a algunos científicos de aprendizaje automático, luego declaran que ahora son una empresa de IA/ML.

Lo que realmente necesitas es fuerza profunda en el banco en ambos. Necesita una comprensión biológica profunda del sistema, de los diferentes ensayos, de las características del espacio de conocimiento. Pero también debe tener una comprensión profunda del aprendizaje automático, la ciencia de datos, los métodos computacionales y el aprendizaje estadístico, y tener las plataformas para aplicar eso.

Eso es realmente desafiante porque esas dos áreas a menudo están muy separadas. Cuando piensa en las personas que está contratando para la empresa, ¿cómo crea puentes entre estos dos dominios diferentes?

Creo que hay una especie de tres tipos de personas que desea contratar para unir la tecnología y la biografía. Los dos primeros son los estándar, los expertos en el dominio del aprendizaje automático o la biología. Pero también deben estar abiertos y dispuestos a aprender sobre el otro dominio, o incluso mejor, haber tenido exposición y experiencia trabajando en estos dominios adicionales.

Para los expertos en aprendizaje automático, elegimos personas que no solo están ahí para desarrollar el algoritmo más reciente, sino que quieren tomar los algoritmos más recientes y aplicarlos a cuestiones biológicas.

La biología es confuso. No solo no tenemos todos los métodos para medir los diferentes analitos, sino que estamos descubriendo nuevas biomoléculas y características continuamente. También hay muchos factores de confusión y ruido que se deben tener en cuenta. Estos problemas son generalmente más complejos que los problemas estándar de aprendizaje automático, donde el problema y el espacio de conocimiento están mucho más definidos. Los expertos en ML que deseen aplicar su oficio en biología deben tener humildad para aprender sobre la complejidad que existe dentro de la biología y estar dispuestos a trabajar con condiciones menos que óptimas y diferencias en la disponibilidad de datos.

La otra cara de la moneda es contratar biólogos que piensen en sus problemas en términos de generación de datos cuantitativos a mayor escala, diseñen estudios para optimizar la relación señal-ruido y sean conscientes de las advertencias de los factores de confusión y la generalización. Es más que solo poder hablar y pensar en el lenguaje del código. Muchos de nuestros biólogos ya codifican y tienen una buena formación estadística, y están dispuestos y deseosos de crecer en estas áreas. De hecho, en Freenome tenemos programas de formación para biólogos que quieran aprender más sobre codificación para poder desarrollar su razonamiento estadístico.

Lo que es aún más importante es que el diseño del estudio y las preguntas que podemos hacer se ven diferentes cuando se diseñan en el contexto de big data y ML.

¿Cuál es el tercer tipo?

El tercer tipo de persona a contratar es el más difícil de encontrar. Estos son los puentes: personas que han trabajado con fluidez en ambas áreas. Hay muy pocos lugares y laboratorios en el mundo que estén justo en esta intersección. Conseguir personas que puedan traducir y conectar ambas áreas es muy, muy importante. Pero no desea construir una empresa de solo puentes porque a menudo estas personas no son los expertos en un área u otra, debido a lo que hacen. Suelen ser más generales en su comprensión. Sin embargo, proporcionan el trabajo crítico de unir los dos campos.

Entonces, tener los tres grupos de personas es importante. Si solo tiene uno de los especialistas expertos en dominios, solo será fuerte en un área. O, si no tiene los constructores de puentes, entonces tiene silos de personas que no podrán hablar entre sí. De manera óptima, los equipos deben incluir cada uno de estos tres tipos de personas para permitir una comprensión profunda tanto del ML como de la biología, además de proporcionar una sinergia efectiva de ambos campos.

¿Ve diferencias en cómo los especialistas en tecnología o computación abordan los problemas versus cómo los biólogos abordan los problemas?

Sí. En un extremo, definitivamente tenemos personas que provienen de una formación estadística y cuantitativa y hablan en código y ecuaciones. Necesitamos ayudarlos a tomar esas ecuaciones y explicarlas de manera clara para que una audiencia general pueda entenderlas.

Los biólogos tienen una gran imaginación porque trabajan con cosas que son invisibles. Usan muchas ilustraciones en las presentaciones para ayudar a visualizar lo que sucede molecularmente y tienen una gran intuición sobre los mecanismos y la complejidad. Mucho de este pensamiento es más cualitativo. Esto proporciona una forma diferente de pensar y comunicarse.

Entonces, la forma en que la gente se comunica va a ser muy, muy diferente. La clave es, decimos en broma, que debemos comunicarnos de una manera que incluso su abuela pueda entender.

Se requiere un verdadero dominio de su conocimiento para poder simplificarlo de modo que incluso un novato pueda entender. Creo que en realidad es un gran entrenamiento para que alguien aprenda a comunicar conceptos muy difíciles fuera de los atajos, la jerga y el lenguaje técnico normales.

¿Qué ha inspirado su punto de vista particular sobre cómo unir el aprendizaje automático y la biología?

Entonces, el problema no es nuevo, sino más bien la última iteración de un problema antiguo. Cuando los campos de biología computacional y bioinformática fueron creados por primera vez, existía el mismo problema. Informáticos, estadísticos, científicos de datos o incluso físicos se unieron al campo de la biología y llevaron su pensamiento cuantitativo al campo. Al mismo tiempo, los biólogos tuvieron que comenzar a modelar más allá de caracterizar los genes como regulados al alza y a la baja, y comenzar a abordar los datos de manera más cuantitativa. La digitalización de los datos biológicos ahora ha crecido exponencialmente en escala. El problema es más agudo y de mayor alcance, pero los desafíos fundamentales siguen siendo los mismos.

¿Cuáles considera que son las métricas de éxito o las señales de alerta que le indican si el matrimonio está funcionando o no?

Si observa las empresas que están tratando de combinar campos, puede ver rápidamente cuánto invierten en un lado o en el otro. Por lo tanto, si se trata de una empresa en la que el 90 % de las personas son científicos de laboratorio, y luego contrataron a uno o dos científicos de aprendizaje automático y se llaman a sí mismos una empresa de aprendizaje automático, probablemente sea más una ocurrencia tardía.

¿Hay alguna lección para llevar a casa que haya aprendido en todo este proceso de unir la biología y el aprendizaje automático?

Creo que la humildad intelectual, especialmente viniendo del lado tecnológico. Con algo como resolver para la búsqueda, por ejemplo, toda la información ya está en forma de texto a la que puede acceder fácilmente y sabe lo que está buscando. Entonces, se convierte en un problema solucionable, ¿verdad? El problema con la biología es que ni siquiera sabemos qué conjuntos de datos estamos buscando, ni siquiera si tenemos la linterna adecuada para iluminar las áreas correctas.

Entonces, a veces, cuando los expertos en tecnología saltan a la biografía, caen en la trampa de la simplificación excesiva. Digamos, como ejemplo, para la secuenciación de próxima generación que podrían decir: “Guau. Podemos secuenciar el ADN. ¿Por qué no secuenciamos montones, montones de ADN? Se convierte en un problema de datos y luego resolvemos la biología”.

Pero el problema es que el ADN es uno de docenas de diferentes analitos en el cuerpo. Hay ARN, proteína,modificaciones postraduccionales, diferentes compartimentos como vesículas extracelulares, y diferencias en tiempo, espacio, tipo celular, entre otros. Necesitamos comprender las posibilidades y las limitaciones de cada modalidad de datos que utilizamos.

Si bien puede ser difícil de creer, la biología es todavía un campo en pañales. Nosotros solo secuenciado un genoma humano hace poco más de dos décadas. La mayoría de las veces, no podemos acceder a señales biológicas individuales, por lo que todavía estamos tomando medidas que son un conglomerado o un promedio de muchas señales. Apenas estamos comenzando a medir una celda a la vez. Todavía hay mucho por hacer y es por eso que es un momento emocionante para entrar en biología.

Pero con esa infancia viene un gran potencial para resolver problemas que tendrán un gran impacto en la salud y el bienestar humanos. Es un momento bastante sorprendente porque estamos abriendo nuevas fronteras de la biología.

¿Qué tipo de fronteras? ¿Hay algún área de la biología o la medicina en la que esté más emocionado de ver la computación aplicada?

Sí, ¡todo! Pero déjame pensar. En cuanto al cáncer, creo que dentro de nuestra generación, las nuevas terapias y los esfuerzos de detección temprana que están surgiendo transformarán el cáncer en una enfermedad crónica que ya no dará tanto miedo, como lo hemos hecho con el VIH. Y probablemente podamos usar tipos de métodos muy similares para observar la detección y prevención de enfermedades de manera más general. Lo más importante que me entusiasma es que podemos comenzar a detectar si la enfermedad ya está presente antes de los síntomas.

Fuera del diagnóstico del cáncer, lo que también es genial es la transición a construir con biología en lugar de solo leer y escribir. Estoy entusiasmado con las áreas de la biología sintética en las que usamos la biología como tecnología, ya sea CRISPR, péptidos sintéticos o nucleótidos sintéticos. Aprovechar la biología como herramienta crea amplias posibilidades para transformar por completo las industrias tradicionales de generación de recursos, desde la agricultura hasta la energía. ¡Este es realmente un momento increíble para ser biólogo!

Publicado en octubre 5, 2022

Tecnología, innovación y el futuro, contado por quienes lo construyen.

Gracias por registrarte.

Revise su bandeja de entrada para obtener una nota de bienvenida.

Sello de tiempo: 5 de Octubre de 20226 de Octubre de 2022

Por qué es difícil aplicar el aprendizaje automático a la biología, pero vale la pena

Reeditado por Platón

Gracias por registrarte.

Mas de Andreessen Horowitz

Asiacrypt '22: Notas de campo

Lightspeed Democracy: lo que las organizaciones web3 pueden aprender de la historia de la gobernanza

invertir en azteca

Invertir en Juegos Azra

El oleoducto lo cura todo

Resumen de mitad de año: Web3 y Science Collide

Hacer más con Moore: el momento tecnológico de Biotech

Invertir en MVMNT

Invertir en MotherDuck

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta