Warum es schwierig ist, maschinelles Lernen auf die Biologie anzuwenden – aber es lohnt sich PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Warum die Anwendung des maschinellen Lernens auf die Biologie schwierig ist – aber es wert ist

Jimmy Lin ist CSO von Freenom, das blutbasierte Tests zur Krebsfrüherkennung entwickelt, beginnend mit Dickdarmkrebs. Er ist ein Pionier in der Entwicklung von Computeransätzen, um Erkenntnisse aus umfangreichen Genomdaten zu gewinnen, und hat die Computeranalysen der ersten genomweiten Sequenzierungsstudien bei mehreren Krebsarten angeführt. 

Lin sprach mit Future über die Herausforderungen bei der Umsetzung einer Unternehmensmission, maschinelle Lernansätze und biologische Daten zu verbinden. Er erklärt, welche drei Arten von Menschen Sie einstellen müssen, um ein ausgewogenes Techbio-Unternehmen aufzubauen, die Fallen, die Sie vermeiden sollten, wie Sie feststellen können, wann die Verbindung zweier Bereiche funktioniert oder nicht funktioniert, und die Nuancen der Anpassung biologischer Studien und maschinellen Lernens zueinander.


ZUKUNFT: Wie in vielen Disziplinen gibt es viel Aufregung um das Potenzial, maschinelles Lernen auf Bio anzuwenden. Aber der Fortschritt scheint mühsamer erkämpft zu sein. Unterscheiden sich biomolekulare Daten im Vergleich zu den Datentypen, die typischerweise beim maschinellen Lernen verwendet werden?

JIMMY LIN: Herkömmliche maschinelle Lerndaten sind sehr umfangreich und oberflächlich. Die Art von Problemen, die maschinelles Lernen oft löst, sind die, die Menschen in einer Nanosekunde lösen können, wie z. B. die Bilderkennung. Um einem Computer beizubringen, das Bild einer Katze zu erkennen, müssten Sie mit Milliarden und Abermilliarden von Bildern trainieren, aber jedes Bild ist in seinem Dateninhalt relativ begrenzt. Biologische Daten sind in der Regel umgekehrt. Wir haben keine Milliarden von Individuen. Wir haben das Glück, Tausende zu bekommen. Aber für jeden Einzelnen haben wir Milliarden und Abermilliarden von Datenpunkten. Wir haben eine kleinere Anzahl sehr tiefer Daten.

Gleichzeitig sind biologische Fragestellungen seltener die Probleme, die der Mensch lösen kann. Wir tun Dinge, zu denen selbst Weltexperten auf diesem Gebiet nicht in der Lage sind. Die Art der Probleme ist also sehr unterschiedlich, so dass es erforderlich ist neues Denken darüber, wie wir das angehen.

Müssen die Ansätze für biomolekulare Daten von Grund auf neu entwickelt werden oder können Sie bestehende Methoden anpassen?

Es gibt Möglichkeiten, diese tiefgreifenden Informationen zu nutzen und sie mit Features zu versehen, sodass Sie die Vorteile der vorhandenen Tools nutzen können, sei es statistisches Lernen oder Deep-Learning-Methoden. Es ist kein direktes Kopieren und Einfügen, aber es gibt viele Möglichkeiten, wie Sie viele der maschinellen Lernmethoden übertragen und auf biologische Probleme anwenden können, auch wenn es sich nicht um eine direkte Eins-zu-Eins-Karte handelt.

Wenn wir uns noch etwas mehr mit dem Datenproblem befassen, gibt es bei biologischen Daten eine Menge Variabilität – es gibt biologisches Rauschen, es gibt experimentelles Rauschen. Wie geht man am besten vor, um für maschinelles Lernen geeignete biomedizinische Daten zu generieren? 

Das ist eine großartige Frage. Von Anfang an hat Freenome berücksichtigt, wie man die besten Daten generiert, die für maschinelles Lernen geeignet sind. Während des gesamten Prozesses, vom Studiendesign über die Probenentnahme, die Durchführung der Assays bis hin zur Datenanalyse, muss bei jedem Schritt sorgfältig vorgegangen werden, um das maschinelle Lernen optimieren zu können, insbesondere wenn Sie so viel mehr Funktionen als Proben haben. Es ist das klassische Big-p-little-n-Problem.

In erster Linie haben wir unsere Studie so konzipiert, dass Confounder minimiert werden. Viele Unternehmen haben sich auf historische Datensätze verlassen und viel Arbeit investiert, um Kohorteneffekte zu minimieren und Confounder zu beseitigen. Aber ist das wirklich der beste Weg? Nun, nein, der beste Weg, dies zu tun, ist eine prospektive Studie, bei der Sie die Confounder im Voraus kontrollieren. Aus diesem Grund haben wir uns selbst bei unseren Entdeckungsbemühungen für eine große prospektive Studie an mehreren Standorten entschieden, bei der im Voraus Daten nach dem Goldstandard erhoben werden, wie in unserer AI-EMERGE-Studie.

Glücklicherweise haben wir Investoren, die genug an uns geglaubt haben, um uns zu erlauben, diese Daten zu generieren. Das war eigentlich ein großes Risiko, denn diese Studien sind sehr teuer. 

Wenn Sie dann die Daten erhalten haben, was machen Sie damit?

Nun, Sie müssen alle Standorte auf konsistente Weise trainieren und Confounder von allen verschiedenen Standorten kontrollieren, damit die Patienten so ähnlich wie möglich aussehen. Und sobald Sie die Proben analysiert haben, müssen Sie darüber nachdenken, wie Sie Batch-Effekte minimieren können, z. B. indem Sie die richtige Mischung von Proben in den richtigen Anteilen auf verschiedenen Maschinen platzieren.

Das ist sehr schwierig, wenn Sie das tun Multiomik weil die Maschinen, die eine Klasse von Biomolekülen analysieren, möglicherweise Hunderte von Proben auf einmal nehmen, während die Maschinen, die eine andere Klasse von Biomolekülen analysieren, möglicherweise nur wenige nehmen. Darüber hinaus möchten Sie menschliche Fehler beseitigen. Also haben wir die Automatisierung ziemlich im Voraus eingeführt, in der Phase der reinen Generierung von Trainingsdaten.

Auch wenn Sie Milliarden von Datenpunkten pro Person haben, wird es sehr, sehr einfach, möglicherweise zu überpassen. Daher stellen wir sicher, dass unser Training auf die Populationen verallgemeinerbar ist, auf die wir es letztendlich anwenden möchten, mit den richtigen statistischen Korrekturen und vielen aufeinander folgenden Trainings- und Test-Holdout-Sets.

Die Kombination von maschinellem Lernen mit biomolekularen Daten ist etwas, was viele Biotech-Unternehmen versuchen, aber oft gibt es viele Unklarheiten darüber, wie sie dies tun werden. Was ist Ihrer Meinung nach ein wesentliches Merkmal, um sie effektiv zu integrieren?

At Freenom Wir verschmelzen maschinelles Lernen und Multiomics. Dazu muss man beides gut machen. Der Schlüssel hier ist, dass Sie über starke Fachkenntnisse in beiden verfügen und dann in der Lage sein müssen, die Sprache beider zu sprechen. Sie müssen zweisprachig sein. 

Es gibt viele Unternehmen, die Experten in einem sind und dann eine Schicht des anderen einstreuen. Zum Beispiel gibt es Technologieunternehmen, die beschließen, in die Biobranche einzusteigen, aber alles, was sie tun, ist, eine Handvoll Nasslaborwissenschaftler einzustellen. Auf der anderen Seite gibt es Biologieunternehmen, die einige Wissenschaftler für maschinelles Lernen einstellen und dann erklären, dass sie jetzt ein KI/ML-Unternehmen sind. 

Was Sie wirklich brauchen, ist tiefe Bankkraft in beiden. Sie benötigen ein tiefes biologisches Verständnis des Systems, der verschiedenen Assays und der Merkmale des Wissensraums. Aber Sie müssen auch ein tiefes Verständnis für maschinelles Lernen, Datenwissenschaft, Berechnungsmethoden und statistisches Lernen haben und über die Plattformen verfügen, um dies anzuwenden. 

Das ist wirklich herausfordernd, weil diese beiden Bereiche oft sehr isoliert sind. Wenn Sie an die Mitarbeiter denken, die Sie für das Unternehmen einstellen, wie schaffen Sie Brücken zwischen diesen beiden unterschiedlichen Bereichen?

Ich denke, es gibt drei Arten von Leuten, die man einstellen möchte, um eine Brücke zwischen Technik und Bio zu schlagen. Die ersten beiden sind Ihre Standardexperten, die Domänenexperten für maschinelles Lernen oder Biologie. Aber sie müssen auch offen und bereit sein, etwas über die andere Domäne zu lernen, oder noch besser, in diesen zusätzlichen Domänen gearbeitet und Erfahrungen gesammelt haben.

Als Experten für maschinelles Lernen wählen wir Menschen aus, die nicht nur den neuesten Algorithmus entwickeln, sondern die neuesten Algorithmen nehmen und auf biologische Fragestellungen anwenden möchten. 

Biologie ist unordentlich. Wir haben nicht nur nicht alle Methoden, um die verschiedenen Analyten zu messen, sondern wir entdecken auch ständig neue Biomoleküle und Merkmale. Es gibt auch viele Störfaktoren und Rauschen, die man berücksichtigen muss. Diese Probleme sind im Allgemeinen komplexer als die Standardprobleme des maschinellen Lernens, bei denen der Problem- und Wissensraum viel besser definiert ist. ML-Experten, die ihr Handwerk in der Biologie anwenden möchten, müssen demütig sein, um die Komplexität innerhalb der Biologie kennenzulernen, und bereit sein, mit suboptimalen Bedingungen und Unterschieden in der Datenverfügbarkeit zu arbeiten.

Die Kehrseite stellt die Einstellung von Biologen dar, die ihre Probleme in Bezug auf die Generierung quantitativer Daten in größerem Maßstab betrachten, Studien zur Optimierung des Signal-Rausch-Verhältnisses entwerfen und sich der Vorbehalte von Confoundern und Verallgemeinerbarkeit bewusst sind. Es ist mehr als nur in der Lage zu sein, in der Sprache des Codes zu sprechen und zu denken. Viele unserer Biologen codieren bereits und haben einen guten statistischen Hintergrund und sind bereit und wollen in diese Bereiche hineinwachsen. Tatsächlich haben wir bei Freenome Trainingsprogramme für Biologen, die mehr über das Codieren lernen möchten, um ihr statistisches Denken zu entwickeln.

Noch wichtiger ist, dass das Studiendesign und die Fragen, die wir stellen können, im Kontext von Big Data und ML anders aussehen.

Was ist der dritte Typ?

Die dritte Art von einzustellenden Personen ist am schwierigsten zu finden. Das sind die Bridger – Menschen, die in beiden Bereichen fließend gearbeitet haben. Es gibt nur sehr wenige Orte und Labore auf der Welt, die direkt an dieser Kreuzung liegen. Es ist sehr, sehr wichtig, Leute zu finden, die beide Bereiche übersetzen und überbrücken können. Aber Sie wollen kein Unternehmen nur aus Brückenbauern aufbauen, denn oft sind diese Leute aufgrund ihrer Tätigkeit nicht die Experten auf dem einen oder anderen Gebiet. Sie sind oft allgemeiner in ihrem Verständnis. Sie leisten jedoch die entscheidende Arbeit, die beiden Bereiche zusammenzubringen.

Es ist also wichtig, alle drei Personengruppen zu haben. Wenn Sie nur einen der Domänenexperten haben, sind Sie nur in einem Bereich stark. Oder, wenn Sie keine Brückenbauer haben, dann haben Sie Silos von Menschen, die nicht miteinander reden können. Optimalerweise sollten Teams jeden dieser drei Arten von Menschen umfassen, um ein tiefes Verständnis von ML und Biologie zu ermöglichen und eine effektive Synergie dieser beiden Bereiche bereitzustellen.

Sehen Sie Unterschiede darin, wie Spezialisten für Technik oder Berechnungen Probleme angehen, und wie Biologen an Probleme herangehen? 

Ja. Auf der einen Seite haben wir definitiv Leute, die einen statistischen und quantitativen Hintergrund haben und in Codes und Gleichungen sprechen. Wir müssen ihnen helfen, diese Gleichungen zu nehmen und sie klar zu erklären, damit ein allgemeines Publikum sie verstehen kann. 

Biologen haben eine große Vorstellungskraft, weil sie mit Dingen arbeiten, die unsichtbar sind. Sie verwenden viele Illustrationen in Präsentationen, um zu visualisieren, was auf molekularer Ebene passiert, und sie haben eine großartige Intuition für Mechanismen und Komplexität. Ein Großteil dieses Denkens ist eher qualitativ. Dies ermöglicht eine andere Art zu denken und zu kommunizieren.

Die Art und Weise, wie Menschen kommunizieren, wird also sehr, sehr unterschiedlich sein. Der Schlüssel ist – sagen wir scherzhaft – wir müssen auf eine Weise kommunizieren, die sogar deine Oma verstehen kann. 

Es erfordert eine wahre Beherrschung Ihres Wissens, um es so vereinfachen zu können, dass selbst ein Anfänger es verstehen kann. Ich denke, es ist wirklich ein großartiges Training für jemanden, zu lernen, sehr schwierige Konzepte außerhalb der normalen Abkürzungen, des Jargons und der Fachsprache zu kommunizieren.

Was hat Sie dazu inspiriert, maschinelles Lernen und Biologie miteinander zu verbinden?

Das Problem ist also nicht neu, sondern die neueste Iteration eines uralten Problems. Wenn die Felder von Computerbiologie und Bioinformatik wurden zuerst erstellt, bestand das gleiche Problem. Informatiker, Statistiker, Data Scientists oder sogar Physiker schlossen sich dem Bereich der Biologie an und brachten ihr quantitatives Denken in das Feld ein. Gleichzeitig mussten Biologen mit der Modellierung beginnen, die über die Charakterisierung von Genen als hoch- und herunterreguliert hinausgeht, und beginnen, die Daten quantitativer anzugehen. Die Digitalisierung biologischer Daten hat gerade exponentiell zugenommen. Das Problem ist akuter und umfassender, aber die grundlegenden Herausforderungen bleiben dieselben.

Was sehen Sie als Erfolgsmetriken oder rote Fahnen, die Ihnen sagen, ob die Ehe funktioniert oder nicht?

Wenn man sich Unternehmen anschaut, die versuchen, Felder zu kombinieren, sieht man sehr schnell, wie viel sie in die eine oder andere Seite investieren. Wenn es sich also um ein Unternehmen handelt, in dem 90 % der Mitarbeiter Laborwissenschaftler sind, und dann haben sie nur ein oder zwei Wissenschaftler für maschinelles Lernen eingestellt und nennen sich selbst ML-Unternehmen, dann ist das wahrscheinlich eher ein nachträglicher Einfall.

Gibt es eine Lektion zum Mitnehmen, die Sie in diesem ganzen Prozess der Verbindung von Biologie und maschinellem Lernen gelernt haben?

Ich denke, intellektuelle Demut, besonders von der technischen Seite. Bei so etwas wie dem Auflösen nach der Suche liegen beispielsweise alle Informationen bereits in einer Textform vor, auf die Sie leicht zugreifen können, und Sie wissen, wonach Sie suchen. Es wird also zu einem lösbaren Problem, oder? Das Problem mit der Biologie ist, dass wir nicht einmal wissen, nach welchen Datensätzen wir suchen, ob wir überhaupt die richtige Taschenlampe haben, um die richtigen Bereiche zu beleuchten. 

Wenn Tech-Experten also manchmal in Bio springen, tappen sie in eine Falle der übermäßigen Vereinfachung. Sagen wir als Beispiel, für die Sequenzierung der nächsten Generation könnten sie sagen: „Wow. Wir können DNA sequenzieren. Warum sequenzieren wir nicht einfach jede Menge DNA? Es wird zu einem Datenproblem, und dann lösen wir die Biologie.“ 

Das Problem ist jedoch, dass die DNA einer von Dutzenden verschiedener Analyten im Körper ist. Es gibt RNA, Protein,posttranslationale Modifikationen, verschiedene Kompartimente wie extrazelluläre Vesikel und Unterschiede in Zeit, Raum, Zelltyp und anderen. Wir müssen die Möglichkeiten sowie die Grenzen jeder von uns verwendeten Datenmodalität verstehen.

Auch wenn es kaum zu glauben ist, steckt die Biologie noch in den Kinderschuhen. Wir gerade ein menschliches Genom sequenziert vor etwas mehr als zwei Jahrzehnten. Meistens haben wir keinen Zugriff auf einzelne biologische Signale, also nehmen wir immer noch Messungen vor, die ein Konglomerat oder ein Durchschnitt über viele Signale sind. Wir fangen gerade erst an, eine Zelle nach der anderen zu messen. Es gibt noch viel zu tun und deshalb ist es eine spannende Zeit, in die Biologie zu gehen. 

Aber mit dieser Kindheit geht ein großes Potenzial einher, Probleme zu lösen, die enorme Auswirkungen auf die menschliche Gesundheit und das Wohlbefinden haben werden. Es ist eine ziemlich erstaunliche Zeit, weil wir neue Grenzen der Biologie eröffnen.

Was für Grenzen? Gibt es einen Bereich der Biologie oder Medizin, in dem Sie sich am meisten über die Anwendung von Berechnungen freuen?

Ja – alles! Aber lass mich nachdenken. In Bezug auf Krebs glaube ich, dass innerhalb unserer Generation die neuen Therapien und Früherkennungsbemühungen, die herauskommen, Krebs in eine chronische Krankheit verwandeln werden, die nicht mehr so ​​beängstigend ist, wie wir es bei HIV getan haben. Und wir können wahrscheinlich sehr ähnliche Arten von Methoden verwenden, um die Krankheitserkennung und -prävention allgemeiner zu betrachten. Das Wichtigste, worüber ich mich freue, ist, dass wir damit beginnen können, festzustellen, ob die Krankheit bereits vor den Symptomen vorhanden ist. 

Außerhalb der Krebsdiagnostik ist auch der Übergang zum Bauen mit Biologie statt nur Lesen und Schreiben wirklich cool. Ich bin begeistert von den Bereichen der synthetischen Biologie, in denen wir Biologie als Technologie einsetzen, sei es CRISPR oder synthetische Peptide oder synthetische Nukleotide. Die Nutzung der Biologie als Werkzeug schafft weitreichende Möglichkeiten, traditionelle ressourcenerzeugende Industrien von der Landwirtschaft bis zur Energie vollständig umzuwandeln. Dies ist wirklich eine erstaunliche Zeit, um Biologe zu sein!

Gepostet am 5. Oktober 2022

Technologie, Innovation und die Zukunft, wie sie von denen erzählt wird, die sie bauen.

Danke für's Registrieren.

Überprüfen Sie Ihren Posteingang auf eine Willkommensnachricht.

Zeitstempel:

Mehr von Andreessen Horowitz