Waarom het toepassen van machinaal leren in de biologie moeilijk is – maar de moeite waard PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Waarom machinaal leren toepassen op biologie moeilijk is - maar de moeite waard

Jimmy Lin is CSO van vrij, dat op bloed gebaseerde tests ontwikkelt voor vroege opsporing van kanker, te beginnen met darmkanker. Hij is een pionier in het ontwikkelen van computationele benaderingen om inzichten te extraheren uit grootschalige genomische gegevens. 

Lin sprak met Future over de uitdagingen van het uitvoeren van een bedrijfsmissie om machine learning-benaderingen en biologische gegevens te combineren. Hij legt uit welke drie soorten mensen je moet inhuren om een ​​uitgebalanceerd techbio-bedrijf op te bouwen, de valstrikken die je moet vermijden, hoe je kunt zien wanneer het huwelijk van twee velden wel of niet werkt, en de nuances van het aanpassen van biologische studies en machine learning naar elkaar.


TOEKOMST: Net als veel andere disciplines is er veel opwinding over het potentieel om machine learning toe te passen op bio. Maar vooruitgang leek meer zwaarbevochten. Is er iets anders aan biomoleculaire gegevens in vergelijking met de soorten gegevens die doorgaans worden gebruikt bij machine learning?

JIMMY LIN: Traditionele gegevens over machine learning zijn erg breed en oppervlakkig. Het soort problemen dat machine learning vaak oplost, is wat mensen in een nanoseconde kunnen oplossen, zoals beeldherkenning. Om een ​​computer te leren de afbeelding van een kat te herkennen, zou je miljarden en miljarden afbeeldingen hebben om op te trainen, maar elke afbeelding is relatief beperkt in zijn gegevensinhoud. Biologische gegevens zijn meestal omgekeerd. We hebben geen miljarden individuen. We hebben geluk dat we er duizenden hebben. Maar voor elk individu hebben we miljarden en miljarden datapunten. We hebben kleinere aantallen zeer diepe gegevens.

Tegelijkertijd zijn biologische vragen minder vaak de problemen die mensen kunnen oplossen. We doen dingen die zelfs wereldexperts hierin niet kunnen. De aard van de problemen is dus heel verschillend, dus het vereist: nieuw denken over hoe we dit aanpakken.

Moeten de benaderingen van de grond af worden opgebouwd voor biomoleculaire gegevens, of kun je bestaande methoden aanpassen?

Er zijn manieren waarop u deze diepgaande informatie kunt gebruiken en kenmerken, zodat u kunt profiteren van de bestaande tools, of het nu gaat om statistisch leren of diepgaande leermethoden. Het is geen direct kopiëren en plakken, maar er zijn veel manieren waarop je veel van de machine learning-methoden kunt overdragen en toepassen op biologische problemen, zelfs als het geen directe één-op-één-kaart is.

Om nog wat meer in de datakwestie te graven, met biologische data is er veel variabiliteit - er is biologische ruis, er is experimentele ruis. Wat is de beste manier om biomedische gegevens te genereren die klaar zijn voor machine learning? 

Dat is een geweldige vraag. Vanaf het allereerste begin heeft Freenome overwogen hoe de beste gegevens kunnen worden gegenereerd die geschikt zijn voor machine learning. Gedurende het hele proces, van het ontwerp van de studie tot het verzamelen van monsters, het uitvoeren van de tests en de gegevensanalyse, moet er bij elke stap zorgvuldigheid worden betracht om te kunnen optimaliseren voor machine learning, vooral wanneer je zoveel meer functies hebt dan monsters. Het is het klassieke big-p little-n-probleem.

Eerst en vooral hebben we onze studie ontworpen om confounders te minimaliseren. Veel bedrijven hebben vertrouwd op historische datasets en hebben veel werk verzet om cohorteffecten te minimaliseren en confounders te verwijderen. Maar is dat echt de beste manier om het te doen? Nou, nee, de beste manier om het te doen is een prospectieve studie waarbij je vooraf de confounders controleert. Dit is de reden waarom we, zelfs tijdens onze ontdekkingspogingen, besloten om een ​​grote prospectieve studie op meerdere locaties uit te voeren die vooraf gouden standaardgegevens verzamelt, zoals in onze AI-EMERGE-proefversie.

Gelukkig hebben we investeerders die genoeg in ons geloofden om ons in staat te stellen deze gegevens te genereren. Dat was eigenlijk een groot risico om te nemen, want deze onderzoeken zijn erg duur. 

En als je eenmaal de gegevens hebt, wat doe je ermee?

Wel, je moet alle sites op een consistente manier trainen, en controle op confounders van alle verschillende sites, zodat de patiënten er zo veel mogelijk op lijken. En als u de monsters eenmaal hebt uitgevoerd, moet u bedenken hoe u batcheffecten kunt minimaliseren, bijvoorbeeld door de juiste mix van monsters op verschillende machines in de juiste verhoudingen te plaatsen.

Dit is erg moeilijk als je aan het doen bent multiomica omdat de machines die één klasse biomoleculen analyseren honderden monsters in één keer kunnen nemen, terwijl de machines die een andere klasse biomoleculen analyseren er misschien maar een paar nemen. Bovendien wil je menselijke fouten verwijderen. Dus hebben we automatisering vrijwel vooraf geïntroduceerd, in de fase van alleen het genereren van trainingsgegevens.

Ook als je miljarden datapunten per persoon hebt, wordt het heel, heel gemakkelijk om potentieel te overfitten. We zorgen er dus voor dat onze training generaliseerbaar is naar de populaties waarop we deze uiteindelijk willen toepassen, met de juiste statistische correcties en veel opeenvolgende trainings- en testholdout-sets.

Het combineren van machine learning met biomoleculaire data is iets wat veel biotechbedrijven proberen te doen, maar vaak is er veel onduidelijkheid over hoe ze dit zullen doen. Wat beschouwt u als een essentieel kenmerk van een effectieve integratie ervan?

At vrij we combineren machine learning en multiomics. Om dat te doen, moet je beide goed doen. De sleutel hier is dat je een sterke expertise in beide moet hebben en vervolgens de taal van beide moet kunnen spreken. Je moet tweetalig zijn. 

Er zijn veel bedrijven die experts zijn in de ene en vervolgens een laag van de andere strooien. Er zijn bijvoorbeeld technologiebedrijven die besluiten dat ze in bio willen duiken, maar het enige dat ze doen is een handvol wetlab-wetenschappers inhuren. Aan de andere kant zijn er biologiebedrijven die enkele machine learning-wetenschappers inhuren, en dan zullen ze verklaren dat ze nu een AI/ML-bedrijf zijn. 

Wat je echt nodig hebt, is diepe bankkracht in beide. Je hebt een diep biologisch begrip nodig van het systeem, van de verschillende analyses, van de kenmerken van de kennisruimte. Maar je moet ook een diepgaand begrip hebben van machine learning, datawetenschap, computationele methoden en statistisch leren, en de platforms hebben om dat toe te passen. 

Dat is echt een uitdaging, want die twee gebieden zijn vaak erg geïsoleerd. Als u denkt aan de mensen die u voor het bedrijf aanneemt, hoe slaat u dan bruggen tussen deze twee verschillende domeinen?

Ik denk dat er drie soorten mensen zijn die je wilt inhuren om een ​​brug te slaan tussen technologie en bio. De eerste twee zijn uw standaard, de domeinexperts in machine learning of biologie. Maar ze moeten ook openstaan ​​en bereid zijn om meer te weten te komen over het andere domein, of beter nog, blootstelling en ervaring hebben gehad met het werken in deze aanvullende domeinen.

Voor machine learning-experts kiezen we mensen die er niet alleen zijn om het nieuwste algoritme te ontwikkelen, maar die de nieuwste algoritmen willen gebruiken en toepassen op biologische vragen. 

Biologie is rommelig. Niet alleen hebben we niet alle methoden om de verschillende analyten te meten, maar we ontdekken voortdurend nieuwe biomoleculen en kenmerken. Er zijn ook veel verstorende factoren en geluid waarmee rekening moet worden gehouden. Deze problemen zijn over het algemeen complexer dan de standaard machine learning-problemen, waarbij het probleem en de kennisruimte veel beter gedefinieerd zijn. ML-experts die hun vak in de biologie willen toepassen, moeten nederig zijn om te leren over de complexiteit die binnen de biologie bestaat en bereid zijn om te werken met minder dan optimale omstandigheden en verschillen in de beschikbaarheid van gegevens.

De keerzijde is het inhuren van biologen die hun problemen beschouwen in termen van grootschalige kwantitatieve gegevensgeneratie, ontwerpen van studies om signaal-ruisverhoudingen te optimaliseren en zich bewust zijn van de kanttekeningen van confounders en generaliseerbaarheid. Het is meer dan alleen kunnen spreken en denken in de taal van code. Veel van onze biologen coderen en hebben al een goede statistische achtergrond, en willen en willen hierin doorgroeien. Bij Freenome hebben we zelfs trainingsprogramma's voor biologen die meer willen leren over coderen om hun statistisch redeneren te kunnen ontwikkelen.

Wat nog belangrijker is, is dat het ontwerp van een studie, en de vragen die we kunnen stellen, er anders uitzien wanneer ze worden ontworpen in de context van big data en ML.

Wat is het derde type?

Het derde type persoon om in te huren is het moeilijkst te vinden. Dit zijn de bridgers – mensen die op beide gebieden vloeiend hebben gewerkt. Er zijn maar weinig plaatsen en laboratoria in de wereld die op dit kruispunt liggen. Het is heel erg belangrijk om de mensen te krijgen die beide gebieden kunnen vertalen en overbruggen. Maar je wilt geen bedrijf bouwen van alleen brugfiguren, omdat deze mensen vaak niet de experts zijn op het ene of het andere gebied, vanwege wat ze doen. Ze zijn vaak algemener in hun begrip. Ze leveren echter het cruciale werk om de twee velden bij elkaar te brengen.

Het is dus belangrijk om alle drie de groepen mensen te hebben. Als u slechts één van de specialisten op het gebied van domeinexperts heeft, bent u maar op één gebied sterk. Of, als je de bruggenbouwers niet hebt, dan heb je silo's van mensen die niet met elkaar kunnen praten. In het beste geval zouden teams elk van deze drie soorten mensen moeten omvatten om een ​​diepgaand begrip van zowel ML als biologie mogelijk te maken en om effectieve synergie van beide gebieden te bieden.

Zie je verschillen in hoe specialisten in tech of computer problemen aanpakken versus hoe biologen problemen benaderen? 

Ja. Aan het ene uiterste hebben we zeker mensen met een statistische en kwantitatieve achtergrond en ze spreken in code en vergelijkingen. We moeten ze helpen om die vergelijkingen op een duidelijke manier uit te leggen, zodat een algemeen publiek het kan begrijpen. 

Biologen hebben een grote fantasie omdat ze werken met dingen die onzichtbaar zijn. Ze gebruiken veel illustraties in presentaties om te visualiseren wat er moleculair gebeurt, en ze hebben een grote intuïtie over mechanismen en complexiteit. Veel van dit denken is meer kwalitatief. Dit zorgt voor een andere manier van denken en communiceren.

Dus hoe mensen communiceren zal heel, heel anders zijn. De sleutel is - zeggen we gekscherend - dat we moeten communiceren op een manier die zelfs je oma kan begrijpen. 

Het vereist echte beheersing van je kennis om het te kunnen vereenvoudigen, zodat zelfs een beginner het kan begrijpen. Ik denk dat het eigenlijk een geweldige training is voor iemand om te leren om heel moeilijke concepten te communiceren buiten de normale snelkoppelingen, jargon en technische taal om.

Wat heeft uw specifieke visie op het combineren van machine learning en biologie geïnspireerd?

Het probleem is dus niet nieuw, maar eerder de nieuwste versie van een eeuwenoud probleem. Wanneer de velden van computationele biologie en bio-informatica werden voor het eerst gemaakt, bestond hetzelfde probleem. Computerwetenschappers, statistici, datawetenschappers of zelfs natuurkundigen sloten zich aan bij het veld van de biologie en brachten hun kwantitatieve denken naar het veld. Tegelijkertijd moesten biologen beginnen met modelleren die verder ging dan het karakteriseren van genen als opwaarts gereguleerd en neerwaarts gereguleerd, en de gegevens meer kwantitatief moesten benaderen. De digitalisering van biologische gegevens is nu net exponentieel in schaal gegroeid. Het probleem is acuter en omvangrijker, maar de fundamentele uitdagingen blijven hetzelfde.

Wat beschouw je als de successtatistieken of rode vlaggen die je vertellen of het huwelijk werkt of niet?

Als je kijkt naar bedrijven die velden proberen te combineren, kun je heel snel zien hoeveel ze in de ene of de andere kant investeren. Dus als het een bedrijf is waar 90% van de mensen laboratoriumwetenschappers zijn, en dan hebben ze gewoon een of twee machine learning-wetenschappers ingehuurd en ze noemen zichzelf een ML-bedrijf, dan is dat waarschijnlijk meer een bijzaak.

Is er één les om mee naar huis te nemen die je hebt geleerd in dit hele proces van het combineren van biologie en machinaal leren?

Ik denk intellectuele nederigheid, vooral vanuit de technische kant. Met iets als het oplossen van zoeken voor bijvoorbeeld, is alle informatie al in een tekstvorm die u gemakkelijk kunt openen, en weet u wat u zoekt. Dus het wordt een oplosbaar probleem, toch? Het probleem met biologie is dat we niet eens weten naar welke datasets we op zoek zijn, of we wel de juiste zaklamp hebben om op de juiste plekken te schijnen. 

Dus soms, wanneer tech-experts in bio springen, vallen ze in een val van oversimplificatie. Laten we als voorbeeld zeggen dat ze voor sequencing van de volgende generatie zouden kunnen zeggen: “Wauw. We kunnen DNA sequencen. Waarom sequensen we niet gewoon heel veel DNA? Het wordt een dataprobleem, en dan lossen we de biologie op.” 

Maar het probleem is dat DNA een van de tientallen verschillende analyten in het lichaam is. Er is RNA, eiwit,post-translationele modificaties, verschillende compartimenten zoals extracellulaire blaasjes, en verschillen in onder andere tijd, ruimte, celtype. We moeten de mogelijkheden en de beperkingen van elke datamodaliteit die we gebruiken begrijpen.

Hoewel het misschien moeilijk te geloven is, staat biologie nog in de kinderschoenen. We hebben gewoon een menselijk genoom gesequenced iets meer dan twee decennia geleden. Meestal hebben we geen toegang tot individuele biologische signalen, dus we nemen nog steeds metingen die een conglomeraat zijn of een gemiddelde zijn voor veel signalen. We beginnen net één cel per keer te meten. Er is nog veel te doen en daarom is het een spannende tijd om biologie in te gaan. 

Maar met die kinderschoenen komt een groot potentieel om problemen op te lossen die enorme gevolgen zullen hebben voor de menselijke gezondheid en het welzijn. Het is een behoorlijk geweldige tijd omdat we nieuwe grenzen van de biologie openen.

Welke soorten grenzen? Is er een gebied van biologie of geneeskunde waar je het meest enthousiast bent om te zien hoe berekeningen worden toegepast?

Ja - alles! Maar laat me nadenken. Bij kanker geloof ik dat binnen onze generatie de nieuwe therapieën en vroege opsporingsinspanningen die op komst zijn, kanker zullen veranderen in een chronische ziekte die niet langer zo angstaanjagend is, zoals we hebben gedaan voor HIV. En we kunnen waarschijnlijk zeer vergelijkbare soorten methoden gebruiken om meer in het algemeen naar ziektedetectie en -preventie te kijken. Het belangrijkste waar ik enthousiast over ben, is dat we kunnen beginnen met detecteren of de ziekte er al is voordat de symptomen zich voordoen. 

Buiten de kankerdiagnostiek is de overgang naar bouwen met biologie ook echt gaaf, in plaats van alleen maar te lezen en te schrijven. Ik ben enthousiast over de gebieden van synthetische biologie waar we biologie als technologie gebruiken, of het nu gaat om CRISPR of synthetische peptiden of synthetische nucleotiden. Door biologie als hulpmiddel te gebruiken, ontstaan ​​uitgebreide mogelijkheden om traditionele hulpbronnengenererende industrieën volledig te transformeren, van landbouw naar energie. Dit is echt een geweldige tijd om bioloog te zijn!

Geplaatst op 5 oktober 2022

Technologie, innovatie en de toekomst, verteld door degenen die eraan bouwen.

Bedankt voor het aanmelden.

Kijk in je inbox voor een welkomstbericht.

Tijdstempel:

Meer van Andreessen Horowitz