Hvorfor det er vanskelig å bruke maskinlæring på biologi – men verdt det PlatoBlockchain-dataintelligens. Vertikalt søk. Ai.

Hvorfor det er vanskelig å bruke maskinlæring på biologi – men verdt det

Jimmy Lin er CSO for Freenome, som utvikler blodbaserte tester for tidlig oppdagelse av kreft, som starter med tykktarmskreft. Han er en pioner innen utvikling av beregningsmetoder for å trekke ut innsikt fra storskala genomiske data, etter å ha stått i spissen for beregningsanalysene av de første genomomfattende sekvenseringsstudiene i flere krefttyper. 

Lin snakket med Future om utfordringene ved å utføre et firmaoppdrag for å kombinere maskinlæringstilnærminger og biologiske data. Han forklarer hvilke tre typer mennesker du trenger å ansette for å bygge et balansert techbio-selskap, fellene du bør unngå, hvordan du kan finne ut når ekteskapet mellom to felt fungerer eller ikke fungerer, og nyansene ved å tilpasse biologiske studier og maskinlæring til hverandre.


FREMTID: Som mange disipliner er det mye spenning rundt potensialet for å bruke maskinlæring på bio. Men fremgangen har virket mer hardt vunnet. Er det noe annerledes med biomolekylære data sammenlignet med datatypene som vanligvis brukes med maskinlæring?

JIMMY LIN: Tradisjonelle maskinlæringsdata er veldig brede og grunne. Den typen problemer maskinlæring ofte løser er det mennesker kan løse på et nanosekund, for eksempel bildegjenkjenning. For å lære en datamaskin å gjenkjenne bildet av en katt, ville du ha milliarder på milliarder av bilder å trene på, men hvert bilde er relativt begrenset i datainnhold. Biologiske data er vanligvis omvendt. Vi har ikke milliarder av individer. Vi er heldige som får tusenvis. Men for hvert individ har vi milliarder og milliarder av datapunkter. Vi har mindre antall svært dype data.

Samtidig er biologiske spørsmål sjeldnere problemene som mennesker kan løse. Vi gjør ting som selv verdens eksperter på dette ikke er i stand til. Så, arten av problemene er veldig forskjellige, så det krever nytenkning om hvordan vi forholder oss til dette.

Må tilnærmingene bygges fra bunnen av for biomolekylære data, eller kan man tilpasse eksisterende metoder?

Det finnes måter du kan ta denne dype informasjonen og presentere den slik at du kan dra nytte av de eksisterende verktøyene, enten det er statistisk læring eller dyplæringsmetoder. Det er ikke en direkte copy-paste, men det er mange måter du kan overføre mange av maskinlæringsmetodene og bruke dem på biologiske problemer selv om det ikke er et direkte en-til-en-kart.

Å grave litt mer inn i dataproblemet, med biologiske data er det mye variasjon – det er biologisk støy, det er eksperimentell støy. Hva er den beste måten å tilnærme seg generering av maskinlæringsklare biomedisinske data? 

Det er et flott spørsmål. Helt fra begynnelsen har Freenome tatt i betraktning hvordan man kan generere de beste dataene som er egnet for maskinlæring. Gjennom hele prosessen fra studiedesign, til prøveinnsamling, til kjøring av analysene, til dataanalyse, må det være omsorg i hvert trinn for å kunne optimalisere for maskinlæring, spesielt når du har så mange flere funksjoner enn prøver. Det er det klassiske big-p little-n-problemet.

Først og fremst har vi designet studien vår for å minimere forstyrrelser. Mange selskaper har stolt på historiske datasett og har gjort mye arbeid for å prøve å minimere kohorteffekter og fjerne forstyrrelser. Men er det virkelig den beste måten å gjøre det på? Vel, nei, den beste måten å gjøre det på er en prospektiv studie der du kontrollerer for forvirrende på forhånd. Dette er grunnen til at vi, selv i vår oppdagelsesinnsats, bestemte oss for å gjøre en stor prospektiv prøveversjon som samler inn gullstandarddata på forhånd, som i vår AI-EMERGE-prøve.

Heldigvis har vi investorer som trodde på oss nok til at vi kunne generere disse dataene. Det var faktisk en stor risiko å ta fordi disse studiene er veldig dyre. 

Så når du får dataene, hva gjør du med dem?

Vel, du må trene alle sidene på en konsekvent måte, og kontrollere for confoundere fra alle de forskjellige sidene slik at pasientene ser så like ut som mulig. Og så når du har kjørt prøvene, må du tenke gjennom hvordan du kan minimere batch-effekter, for eksempel ved å sette den riktige blandingen av prøver på forskjellige maskiner i riktige proporsjoner.

Dette er veldig vanskelig når du gjør det multiomikk fordi maskinene som analyserer én klasse biomolekyler kan ta hundrevis av prøver på én gang, mens maskinene som analyserer en annen klasse biomolekyler kan ta bare noen få. På toppen av det, vil du fjerne menneskelige feil. Så vi introduserte automatisering ganske mye på forhånd, på stadiet med bare å generere treningsdata.

Dessuten, når du har milliarder av datapunkter per person, blir det veldig, veldig lett å potensielt overfitte. Så vi sørger for at treningen vår er generaliserbar til populasjonene som vi til slutt ønsker å bruke den på, med de riktige statistiske korreksjonene og mange påfølgende trenings- og testholdout-sett.

Å kombinere maskinlæring med biomolekylære data er noe mange bioteknologiselskaper prøver å gjøre, men ofte er det mye vagt om hvordan de vil gjøre dette. Hva ser du på som en viktig funksjon for å effektivt integrere dem?

At Freenome vi kombinerer maskinlæring og multiomikk. For å gjøre det, må du gjøre begge deler bra. Nøkkelen her er at du må ha sterk ekspertise på begge, og deretter kunne snakke språket til begge. Du må være tospråklig. 

Det er mange selskaper som er eksperter på det ene og deretter drysser i et lag av det andre. For eksempel er det teknologiselskaper som bestemmer seg for å gå inn i bio, men alt de gjør er å ansette en håndfull våte laboratorieforskere. På den annen side er det biologiselskaper som ansetter noen maskinlæringsforskere, så vil de erklære at de er et AI/ML-selskap nå. 

Det du virkelig trenger er dyp benkstyrke i begge. Du trenger en dyp biologisk forståelse av systemet, av de forskjellige analysene, av egenskapene til kunnskapsrommet. Men du må også ha en dyp forståelse av maskinlæring, datavitenskap, beregningsmetoder og statistisk læring, og ha plattformene for å bruke det. 

Det er virkelig utfordrende fordi disse to områdene ofte er svært silo. Når du tenker på personene du ansetter for selskapet, hvordan skaper du broer mellom disse to forskjellige domenene?

Jeg tror det er tre typer mennesker du vil ansette for å bygge bro mellom teknologi og bio. De to første er dine standard, domeneekspertene innen maskinlæring eller biologi. Men de må også være åpne og villige til å lære om det andre domenet, eller enda bedre, ha hatt eksponering og erfaring med å jobbe i disse tilleggsdomenene.

For maskinlæringseksperter velger vi folk som ikke bare er der for å utvikle den nyeste algoritmen, men som ønsker å ta de nyeste algoritmene og bruke dem på biologiske spørsmål. 

Biologi er rotete. Ikke bare har vi ikke alle metodene for å måle de forskjellige analyttene, men vi oppdager stadig nye biomolekyler og funksjoner. Det er også mange forvirrende faktorer og støy man må ta i betraktning. Disse problemene er generelt mer komplekse enn standard maskinlæringsproblemene, hvor problemet og kunnskapsrommet er mye mer veldefinert. ML-eksperter som ønsker å bruke håndverket sitt i biologi, må ha ydmykhet for å lære om kompleksiteten som finnes innen biologi og være villige til å jobbe med mindre enn optimale forhold og forskjeller i datatilgjengelighet.

Baksiden er å ansette biologer som tenker på problemene deres i form av kvantitativ datagenerering i større skala, designstudier for å optimere signal-til-støy-forhold, og som er klar over forbeholdene til konfoundere og generaliserbarhet. Det er mer enn bare å kunne snakke og tenke på kodespråket. Mange av våre biologer koder allerede og har god statistisk bakgrunn, og er villige og ønsker å vokse inn i disse områdene. Faktisk, på Freenome har vi faktisk treningsprogrammer for biologer som ønsker å lære mer om koding for å kunne utvikle sine statistiske resonnementer.

Det som er enda viktigere er at studiedesign, og spørsmålene vi kan stille, ser annerledes ut når de utformes i sammenheng med big data og ML.

Hva er den tredje typen?

Den tredje typen person å ansette er den vanskeligste å finne. Dette er brobyggerne – folk som har jobbet flytende på begge disse områdene. Det er svært få steder og laboratorier i verden som er rett ved dette krysset. Å få tak i folk som kan oversette og bygge bro mellom begge områdene er veldig, veldig viktig. Men du ønsker ikke å bygge et selskap med bare brobyggere fordi ofte er ikke disse menneskene ekspertene på det ene eller det andre området, på grunn av det de gjør. De er ofte mer generelle i sin forståelse. Imidlertid gir de det kritiske arbeidet med å bringe de to feltene sammen.

Så det er viktig å ha alle tre gruppene mennesker. Hvis du bare har én av domeneekspertene, vil du bare være sterk på ett område. Eller, hvis du ikke har brobyggerne, så har du siloer av folk som ikke vil kunne snakke med hverandre. Optimalt sett bør team inkludere hver av disse tre typene mennesker for å gi en dyp forståelse av både ML og biologi, samt gi effektiv synergi mellom begge disse feltene.

Ser du forskjeller i hvordan spesialister innen teknologi eller databehandling angriper problemer kontra hvordan biologer nærmer seg problemer? 

Ja. Til det ytterste har vi definitivt mennesker som kommer fra en statistisk og kvantitativ bakgrunn, og de snakker i kode og ligninger. Vi må hjelpe dem til å ta disse ligningene og forklare det på en klar måte slik at et generelt publikum kan forstå. 

Biologer har stor fantasi fordi de jobber med ting som er usynlige. De bruker mange illustrasjoner i presentasjoner for å visualisere hva som skjer molekylært, og de har stor intuisjon om mekanismer og kompleksitet. Mye av denne tenkningen er mer kvalitativ. Dette gir en annen måte å tenke og kommunisere på.

Så hvordan folk kommuniserer kommer til å være veldig, veldig forskjellig. Nøkkelen er – vi sier på en spøk – vi må kommunisere på en måte som til og med bestemoren din kan forstå. 

Det krever ekte mestring av kunnskapen din for å kunne forenkle den slik at selv en nybegynner kan forstå. Jeg tror det faktisk er flott trening for noen å lære å kommunisere veldig harde konsepter utenom de vanlige snarveiene, sjargongen og fagspråket.

Hva har inspirert ditt spesielle syn på hvordan man kan kombinere maskinlæring og biologi?

Så problemet er ikke nytt, men snarere den siste iterasjonen av et eldgammelt problem. Når feltene til beregningsbiologi og bioinformatikk ble først opprettet, det samme problemet eksisterte. Datavitere, statistikere, dataforskere eller til og med fysikere sluttet seg til biologifeltet og brakte sin kvantitative tenkning til feltet. Samtidig måtte biologer begynne å modellere utover å karakterisere gener som opp- og nedregulerte, og begynne å nærme seg dataene mer kvantitativt. Digitaliseringen av biologiske data har nå nettopp vokst eksponentielt i skala. Problemet er mer akutt og omfattende i omfang, men de grunnleggende utfordringene forblir de samme.

Hva ser du på som suksessberegninger eller røde flagg som forteller deg om ekteskapet fungerer eller ikke?

Hvis du ser på selskaper som prøver å kombinere felt, kan du veldig raskt se hvor mye de investerer i den ene eller den andre siden. Så hvis det er et selskap der 90 % av folket er laboratorieforskere, og så har de bare ansatt en eller to maskinlæringsforskere og de kaller seg et ML-selskap, så er det sannsynligvis mer en ettertanke.

Er det én leksjon du har tatt med hjem i hele denne prosessen med å kombinere biologi og maskinlæring?

Jeg tror intellektuell ydmykhet, spesielt kommer fra teknologisiden. Med noe som å løse for søk, for eksempel, er all informasjon allerede i en tekstform som du enkelt kan få tilgang til, og du vet hva du leter etter. Så det blir et løsbart problem, ikke sant? Problemet med biologi er at vi ikke engang vet hvilke datasett vi ser etter, om vi i det hele tatt har riktig lommelykt til å lyse på de riktige områdene. 

Så, noen ganger når tekniske eksperter hopper inn i bio, faller de i en felle av overforenkling. La oss si, som et eksempel, for neste generasjons sekvensering kan de si: "Wow. Vi kan sekvensere DNA. Hvorfor sekvenserer vi ikke bare massevis av DNA? Det blir et dataproblem, og da løser vi biologi.» 

Men problemet er at DNA er en av dusinvis av forskjellige analytter i kroppen. Det er RNA, protein,post-translasjonelle modifikasjoner, forskjellige rom som ekstracellulære vesikler, og forskjeller i tid, rom, celletype, blant andre. Vi må forstå mulighetene så vel som begrensningene for hver datamodalitet vi bruker.

Selv om det kan være vanskelig å tro, er biologi fortsatt et felt i sin spede begynnelse. Vi bare sekvenserte et menneskelig genom for litt over to tiår siden. Mesteparten av tiden har vi ikke tilgang til individuelle biologiske signaler, så vi tar fortsatt målinger som er et konglomerat eller gjennomsnitt over mange signaler. Vi begynner akkurat å måle én celle om gangen. Det er fortsatt mye å gjøre, og det er derfor det er en spennende tid å gå inn i biologi. 

Men med den spedbarnsalderen følger et stort potensial for å løse problemer som vil ha stor innvirkning på menneskers helse og velvære. Det er en ganske fantastisk tid fordi vi åpner nye grenser for biologi.

Hva slags grenser? Er det et område innen biologi eller medisin der du gleder deg mest til å se beregning brukt?

Ja – alt! Men la meg tenke. Når det gjelder kreft, tror jeg at i vår generasjon vil de nye terapiene og tidlig oppdagelsestiltak som kommer ut, forvandle kreft til en kronisk sykdom som ikke lenger er så skummel, som vi har gjort for HIV. Og vi kan nok bruke svært like typer metoder for å se på sykdomsoppdagelse og forebygging mer generelt. Det viktigste jeg er spent på er at vi kan begynne å oppdage om sykdommen allerede er der før symptomene. 

Utenom kreftdiagnostikk er det som også er veldig kult overgangen til å bygge med biologi i stedet for bare å lese og skrive. Jeg er spent på områdene innen syntetisk biologi hvor vi bruker biologi som teknologi, enten det er CRISPR eller syntetiske peptider eller syntetiske nukleotider. Å utnytte biologi som et verktøy skaper ekspansive muligheter for å fullstendig transformere tradisjonelle ressursgenererende industrier, fra landbruk til energi. Dette er virkelig en fantastisk tid å være biolog på!

Lagt ut 5. oktober 2022

Teknologi, innovasjon og fremtiden, som fortalt av de som bygger den.

Takk for at du registrerte deg.

Sjekk innboksen din for et velkomstbrev.

Tidstempel:

Mer fra Andreessen Horowitz