Hvorfor det er svært at anvende maskinlæring til biologi – men det værd PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Hvorfor det er svært at anvende maskinlæring til biologi – men det værd

Jimmy Lin er CSO for Freenom, som udvikler blodbaserede tests til tidlig opdagelse af kræft, begyndende med tyktarmskræft. Han er en pioner inden for udvikling af beregningsmæssige tilgange til at udvinde indsigt fra storskala genomiske data, efter at have stået i spidsen for beregningsanalyserne af de første genomomfattende sekventeringsundersøgelser i flere cancertyper. 

Lin talte med Future om udfordringerne ved at udføre en virksomheds mission for at forene maskinlæringstilgange og biologiske data. Han forklarer, hvilke tre typer mennesker du skal ansætte for at opbygge en afbalanceret techbio-virksomhed, de fælder du bør undgå, hvordan du kan se, hvornår ægteskabet mellem to felter fungerer eller ikke fungerer, og nuancerne ved at tilpasse biologiske undersøgelser og maskinlæring til hinanden.


FREMTID: Ligesom mange discipliner er der en masse spænding omkring potentialet for at anvende machine learning til bio. Men fremskridt har virket mere hårdt vundet. Er der noget anderledes ved biomolekylære data sammenlignet med de typer data, der typisk bruges med maskinlæring?

JIMMY LIN: Traditionelle maskinlæringsdata er meget brede og overfladiske. Den type problemer, maskinlæring ofte løser, er, hvad mennesker kan løse på et nanosekund, såsom billedgenkendelse. For at lære en computer at genkende billedet af en kat, ville du have milliarder og milliarder af billeder at træne på, men hvert billede er relativt begrænset i dets dataindhold. Biologiske data er normalt omvendt. Vi har ikke milliarder af individer. Vi er heldige at få tusindvis. Men for hver enkelt person har vi milliarder og atter milliarder af datapunkter. Vi har mindre antal meget dybe data.

Samtidig er biologiske spørgsmål sjældnere de problemer, som mennesker kan løse. Vi gør ting, som selv verdens eksperter på dette område ikke er i stand til. Så karakteren af ​​problemerne er meget forskellige, så det kræver nytænkning om, hvordan vi griber dette an.

Skal tilgangene bygges fra bunden til biomolekylære data, eller kan man tilpasse eksisterende metoder?

Der er måder, hvorpå du kan tage denne dybe information og fremhæve den, så du kan drage fordel af de eksisterende værktøjer, uanset om det er statistisk læring eller deep learning-metoder. Det er ikke en direkte copy-paste, men der er mange måder, hvorpå du kan overføre mange af maskinlæringsmetoderne og anvende dem på biologiske problemer, selvom det ikke er et direkte en-til-en-kort.

Ved at grave lidt mere i dataspørgsmålet, med biologiske data er der meget variation – der er biologisk støj, der er eksperimentel støj. Hvad er den bedste måde at nærme sig generering af maskinlæringsklare biomedicinske data? 

Det er et godt spørgsmål. Fra begyndelsen har Freenome taget i betragtning, hvordan man genererer de bedst egnede data til maskinlæring. Gennem hele processen fra undersøgelsesdesign, til prøveindsamling, til kørsel af assays til dataanalyse, skal der være omhu i hvert trin for at kunne optimere til maskinlæring, især når du har så mange flere funktioner end prøver. Det er det klassiske big-p little-n problem.

Først og fremmest har vi designet vores undersøgelse til at minimere konfoundere. Mange virksomheder har satset på historiske datasæt og har gjort en masse arbejde for at forsøge at minimere kohorteeffekter og fjerne forstyrrelser. Men er det virkelig den bedste måde at gøre det på? Nå, nej, den bedste måde at gøre det på er en prospektiv undersøgelse, hvor du på forhånd kontrollerer for confounders. Dette er grunden til, at vi selv i vores opdagelsesbestræbelser besluttede at lave et stort multisite prospektivt forsøg, der indsamler guldstandarddata på forhånd, som i vores AI-EMERGE forsøg.

Heldigvis har vi investorer, der troede nok på os til at give os mulighed for at generere disse data. Det var faktisk en stor risiko at tage, fordi disse undersøgelser er meget dyre. 

Så når du først har fået dataene, hvad gør du så med dem?

Nå, du skal træne alle webstederne på en ensartet måde og kontrollere for confoundere fra alle de forskellige websteder, så patienterne ser så ens ud som muligt. Og så når du har kørt prøverne, skal du tænke igennem, hvordan du minimerer batcheffekter, f.eks. ved at placere den rigtige blanding af prøver på forskellige maskiner i de rigtige proportioner.

Det er meget svært, når du gør det multiomics fordi de maskiner, der analyserer én klasse af biomolekyler, kan tage hundredvis af prøver på én gang, hvorimod maskinerne, der analyserer en anden klasse af biomolekyler, kun kan tage nogle få. Oven i det, vil du fjerne menneskelige fejl. Så vi introducerede automatisering stort set på forhånd, på tidspunktet for blot at generere træningsdata.

Når du har milliarder af datapunkter per person, bliver det også meget, meget nemt at potentielt overfitte. Så vi sørger for, at vores træning er generaliserbar til de populationer, som vi i sidste ende ønsker at anvende den på, med de rigtige statistiske korrektioner og mange successive trænings- og testholdout-sæt.

At kombinere maskinlæring med biomolekylære data er noget, mange biotekvirksomheder forsøger at gøre, men ofte er der en masse uklarhed om, hvordan de vil gøre dette. Hvad ser du som et væsentligt træk ved en effektiv integration af dem?

At Freenom vi kombinerer maskinlæring og multiomics. For at gøre det, skal du gøre begge dele godt. Nøglen her er, at du skal have stærk ekspertise i dem begge, og så være i stand til at tale begges sprog. Du skal være tosproget. 

Der er masser af virksomheder, der er eksperter i det ene og så drysser et lag af det andet i. For eksempel er der teknologivirksomheder, der beslutter sig for, at de vil springe ud i bio, men alt, hvad de gør, er at ansætte en håndfuld våde laboratorieforskere. På den anden side er der biologivirksomheder, der ansætter nogle maskinlæringsforskere, så vil de erklære, at de er en AI/ML-virksomhed nu. 

Hvad du virkelig har brug for er dyb bænkstyrke i begge. Du har brug for en dyb biologisk forståelse af systemet, af de forskellige assays, af funktionerne i vidensrummet. Men du skal også have en dyb forståelse af maskinlæring, datavidenskab, beregningsmetoder og statistisk læring og have platformene til at anvende det. 

Det er virkelig udfordrende, fordi de to områder ofte er meget silobelagte. Når du tænker på de mennesker, du ansætter til virksomheden, hvordan skaber du så broer mellem disse to forskellige domæner?

Jeg tror, ​​der er en slags tre typer mennesker, du vil ansætte for at bygge bro mellem teknologi og bio. De to første er dine standard, domæneeksperterne i maskinlæring eller biologi. Men de skal også være åbne og villige til at lære om det andet domæne, eller endnu bedre, have haft eksponering og erfaring med at arbejde i disse yderligere domæner.

For maskinlæringseksperter vælger vi folk, der ikke kun er der for at udvikle den nyeste algoritme, men som ønsker at tage de nyeste algoritmer og anvende dem på biologiske spørgsmål. 

Biologi er rodet. Ikke alene har vi ikke alle metoder til at måle de forskellige analytter, men vi opdager hele tiden nye biomolekyler og funktioner. Der er også en masse forvirrende faktorer og støj, man skal tage i betragtning. Disse problemer er generelt mere komplekse end standard maskinlæringsproblemer, hvor problemet og vidensrummet er meget mere veldefineret. ML-eksperter, der ønsker at anvende deres håndværk i biologi, skal have ydmyghed for at lære om den kompleksitet, der findes inden for biologi, og være villige til at arbejde med mindre end optimale forhold og forskelle i datatilgængelighed.

Bagsiden er at ansætte biologer, der tænker på deres problemer i form af større kvantitativ datagenerering, designundersøgelser for at optimere signal-til-støj-forhold og er opmærksomme på forbeholdene ved konfoundere og generaliserbarhed. Det er mere end blot at kunne tale og tænke i kodesproget. Mange af vores biologer koder allerede og har en god statistisk baggrund, og de er villige og ønsker at vokse ind i disse områder. Faktisk har vi hos Freenome faktisk træningsprogrammer for biologer, der gerne vil lære mere om kodning for at kunne udvikle deres statistiske ræsonnement.

Hvad der er endnu vigtigere er, at studiedesign, og de spørgsmål, vi er i stand til at stille, ser anderledes ud, når de er designet i sammenhæng med big data og ML.

Hvad er den tredje type?

Den tredje type person at ansætte er den sværeste at finde. Det er brobyggerne – folk, der har arbejdet flydende på begge disse områder. Der er meget få steder og laboratorier i verden, der er lige ved dette kryds. Det er meget, meget vigtigt at få fat i de mennesker, der kan oversætte og bygge bro mellem begge områder. Men du ønsker ikke at bygge et firma med kun brobyggere, fordi disse mennesker ofte ikke er eksperter på det ene eller det andet område, på grund af det, de laver. De er ofte mere generelle i deres forståelse. De yder dog det kritiske arbejde med at bringe de to felter sammen.

Så det er vigtigt at have alle tre grupper af mennesker. Hvis du kun har én af domæneeksperterne, vil du kun være stærk på ét område. Eller, hvis man ikke har brobyggere, så har man siloer af folk, der ikke vil kunne tale sammen. Optimalt set bør teams inkludere hver af disse tre typer mennesker for at give mulighed for en dyb forståelse af både ML og biologi samt give effektiv synergi mellem begge disse felter.

Kan du se forskelle i, hvordan specialister i teknologi eller beregninger angriber problemer versus hvordan biologer griber problemer an? 

Ja. Til den ene yderlighed har vi helt sikkert folk, der kommer fra en statistisk og kvantitativ baggrund, og de taler i kode og ligninger. Vi er nødt til at hjælpe dem med at tage disse ligninger og forklare det på en klar måde, så et generelt publikum kan forstå. 

Biologer har stor fantasi, fordi de arbejder med ting, der er usynlige. De bruger en masse illustrationer i præsentationer til at hjælpe med at visualisere, hvad der sker molekylært, og de har stor intuition om mekanismer og kompleksitet. Meget af denne tankegang er mere kvalitativ. Dette giver en anderledes måde at tænke og kommunikere på.

Så hvordan folk kommunikerer vil være meget, meget forskelligt. Nøglen er - siger vi lidt i spøg - vi skal kommunikere på en måde, som selv din bedstemor kan forstå. 

Det kræver ægte beherskelse af din viden at være i stand til at forenkle den, så selv en novice kan forstå. Jeg synes faktisk, det er fantastisk træning for nogen at lære at kommunikere meget svære begreber uden for de normale genveje, jargon og fagsprog.

Hvad har inspireret dit særlige syn på, hvordan man forener maskinlæring og biologi?

Så problemet er ikke nyt, men snarere den seneste iteration af et ældgammelt problem. Når felterne af beregningsbiologi og bioinformatik blev først skabt, det samme problem eksisterede. Dataloger, statistikere, dataforskere eller endda fysikere sluttede sig til biologiområdet og bragte deres kvantitative tænkning til feltet. Samtidig måtte biologer begynde at modellere ud over at karakterisere gener som opregulerede og nedregulerede og begynde at nærme sig dataene mere kvantitativt. Digitaliseringen af ​​biologiske data er nu lige vokset eksponentielt i skala. Problemet er mere akut og omfattende, men de grundlæggende udfordringer forbliver de samme.

Hvad ser du som enten succesmålingerne eller røde flag, der fortæller dig, om ægteskabet fungerer eller ej?

Hvis man ser på virksomheder, der forsøger at kombinere felter, kan man meget hurtigt se, hvor meget de investerer i den ene eller den anden side. Så hvis det er en virksomhed, hvor 90 % af folket er laboratorieforskere, og så har de bare hyret en eller to maskinlæringsforskere, og de kalder sig selv en ML-virksomhed, så er det nok mere en eftertanke.

Er der en lektie med hjem, som du har lært i hele denne proces med at forene biologi og maskinlæring?

Jeg tror, ​​at intellektuel ydmyghed, især kommer fra den tekniske side. Med noget som at løse for søgning, for eksempel, er al information allerede i en tekstform, som du nemt kan få adgang til, og du ved, hvad du leder efter. Så det bliver et løseligt problem, ikke? Problemet med biologi er, at vi ikke engang ved, hvilke datasæt vi leder efter, om vi overhovedet har den rigtige lommelygte til at lyse på de rigtige områder. 

Så nogle gange, når tekniske eksperter hopper ind i bio, falder de i en fælde af oversimplifikation. Lad os som et eksempel sige, at de til næste generations sekvensering kan sige, "Wow. Vi kan sekventere DNA. Hvorfor sekventerer vi ikke bare masser og masser af DNA? Det bliver et dataproblem, og så løser vi biologi.” 

Men problemet er, at DNA er en af ​​snesevis af forskellige analytter i kroppen. Der er RNA, protein,post-translationelle modifikationer, forskellige rum såsom ekstracellulære vesikler og forskelle i tid, rum, celletype, blandt andre. Vi er nødt til at forstå mulighederne såvel som begrænsningerne for hver datamodalitet, vi bruger.

Selvom det kan være svært at tro, er biologi stadig et felt i sin vorden. Vi har lige sekventerede et menneskeligt genom for lidt over to årtier siden. Det meste af tiden kan vi ikke få adgang til individuelle biologiske signaler, så vi tager stadig målinger, der er et konglomerat eller gennemsnit på tværs af en masse signaler. Vi er lige begyndt at måle én celle ad gangen. Der er stadig meget at gøre, og det er derfor, det er en spændende tid at gå ind i biologi. 

Men med den spæde barndom følger et stort potentiale til at løse problemer, der vil have enorme konsekvenser for menneskers sundhed og velvære. Det er en ret fantastisk tid, fordi vi åbner nye grænser for biologi.

Hvilken slags grænser? Er der et område inden for biologi eller medicin, hvor du er mest spændt på at se beregning anvendes?

Ja - alt! Men lad mig tænke. Inden for kræft tror jeg, at inden for vores generation, vil de nye terapier og tidlige detektionsbestræbelser, der kommer ud, forvandle kræft til en kronisk sygdom, der ikke længere er så skræmmende, som vi har gjort for HIV. Og vi kan formentlig bruge meget lignende typer af metoder til at se mere generelt på sygdomsopsporing og forebyggelse. Det vigtigste, jeg er spændt på, er, at vi kan begynde at opdage, om sygdommen allerede er der før symptomer. 

Uden for kræftdiagnostik er det, der også er rigtig fedt, overgangen til at bygge med biologi i stedet for bare at læse og skrive. Jeg er begejstret for de områder inden for syntetisk biologi, hvor vi bruger biologi som teknologi, uanset om det er CRISPR eller syntetiske peptider eller syntetiske nukleotider. Udnyttelse af biologi som et værktøj skaber ekspansive muligheder for fuldstændig at transformere traditionelle ressourcegenererende industrier, fra landbrug til energi. Det er virkelig et fantastisk tidspunkt at være biolog på!

Offentliggjort 5. oktober 2022

Teknologi, innovation og fremtiden, som fortalt af dem, der bygger den.

Tak for din tilmelding.

Tjek din indbakke for en velkomstbesked.

Tidsstempel:

Mere fra Andreessen Horowitz