Zakaj je uporaba strojnega učenja v biologiji težka – vendar se splača PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Zakaj je uporaba strojnega učenja v biologiji težka – vendar se splača

Jimmy Lin je CSO družbe Freenome, ki razvija krvne teste za zgodnje odkrivanje raka, začenši z rakom debelega črevesa. Je pionir pri razvoju računalniških pristopov za pridobivanje vpogledov iz obsežnih genomskih podatkov, saj je vodil računalniške analize prvih študij sekvenciranja celotnega genoma pri več vrstah raka. 

Lin se je za Future pogovarjal o izzivih izvajanja misije podjetja, ki združuje pristope strojnega učenja in biološke podatke. Pojasnjuje, katere tri vrste ljudi morate najeti, da zgradite uravnoteženo techbio podjetje, pastem, ki se jim morate izogibati, kako ugotoviti, kdaj poroka dveh področij deluje ali ne, in nianse prilagajanja bioloških študij in strojnega učenja drug drugemu.


PRIHODNOST: Tako kot pri mnogih disciplinah obstaja veliko vznemirjenja glede možnosti uporabe strojnega učenja v biografiji. Toda napredek se je zdel težje dosežen. Ali se biomolekularni podatki kaj razlikujejo od tipov podatkov, ki se običajno uporabljajo pri strojnem učenju?

JIMMY LIN: Tradicionalni podatki strojnega učenja so zelo široki in plitki. Težave, ki jih strojno učenje pogosto rešuje, so tiste, ki jih lahko ljudje rešijo v nanosekundi, na primer prepoznavanje slik. Da bi naučili računalnik prepoznati podobo mačke, bi morali imeti milijarde in milijarde slik, na katerih bi se lahko učili, vendar je vsaka slika razmeroma omejena glede vsebine podatkov. Biološki podatki so običajno obratni. Nimamo milijard posameznikov. Imamo srečo, da jih dobimo na tisoče. Toda za vsakega posameznika imamo milijarde in milijarde podatkovnih točk. Imamo manjše število zelo globokih podatkov.

Hkrati so biološka vprašanja redkeje problemi, ki jih človek lahko reši. Delamo stvari, ki jih niti svetovni strokovnjaki na tem področju ne zmorejo. Torej, narave težav so zelo različne, zato zahteva novo razmišljanje o tem, kako se tega lotimo.

Ali je treba pristope zgraditi iz nič za biomolekularne podatke ali lahko prilagodite obstoječe metode?

Obstajajo načini, kako lahko vzamete te globoke informacije in jih predstavite tako, da lahko izkoristite obstoječa orodja, ne glede na to, ali gre za statistično učenje ali metode globokega učenja. Ne gre za neposredno kopiranje in lepljenje, vendar obstaja veliko načinov, na katere lahko prenesete številne metode strojnega učenja in jih uporabite pri bioloških težavah, tudi če ne gre za neposreden zemljevid ena proti ena.

Če se še malo poglobim v vprašanje podatkov, je pri bioloških podatkih veliko variabilnosti – obstaja biološki šum, obstaja eksperimentalni šum. Kateri je najboljši način za pristop k ustvarjanju biomedicinskih podatkov, pripravljenih na strojno učenje? 

To je odlično vprašanje. Že od vsega začetka je Freenome razmišljal o tem, kako ustvariti najboljše podatke, primerne za strojno učenje. V celotnem procesu od zasnove študije do zbiranja vzorcev, izvajanja testov in analize podatkov je treba biti previden pri vsakem koraku, da lahko optimizirate za strojno učenje, še posebej, če imate toliko več funkcij kot vzorcev. To je klasični problem velikega p malega n.

Najprej in predvsem smo našo študijo zasnovali tako, da čim bolj zmanjša moteče dejavnike. Številna podjetja so se zanašala na pretekle podatkovne nize in opravila veliko dela, da bi čim bolj zmanjšala učinke kohorte in odstranila zmede. Toda ali je to res najboljši način za to? No, ne, najboljši način za to je prospektivna študija, v kateri vnaprej nadzorujete, ali so moteči. Zato smo se celo v svojih prizadevanjih za odkrivanje odločili, da izvedemo veliko prospektivno preizkušanje na več mestih, ki vnaprej zbira podatke zlatega standarda, kot v našem Preizkus AI-EMERGE.

Na srečo imamo vlagatelje, ki so dovolj verjeli vame, da so nam omogočili ustvarjanje teh podatkov. To je bilo pravzaprav veliko tveganje, saj so te študije zelo drage. 

Ko dobite podatke, kaj naredite z njimi?

No, vsa mesta morate usposabljati na dosleden način in nadzorovati zmede z vseh različnih mest, da bodo pacienti videti čim bolj podobni. In potem, ko zaženete vzorce, morate razmisliti o tem, kako čim bolj zmanjšati serijske učinke, na primer z dajanjem prave mešanice vzorcev na različne stroje v pravih razmerjih.

To je zelo težko, ko delaš multiomika ker lahko stroji, ki analizirajo en razred biomolekul, vzamejo na stotine vzorcev naenkrat, medtem ko lahko stroji, ki analizirajo drug razred biomolekul, vzamejo le nekaj. Poleg tega želite odstraniti človeške napake. Zato smo avtomatizacijo uvedli precej vnaprej, na stopnji samo generiranja podatkov o usposabljanju.

Poleg tega, ko imate milijarde podatkovnih točk na osebo, postane zelo, zelo enostavno potencialno preobremeniti. Tako zagotovimo, da je naše usposabljanje mogoče posplošiti na populacije, za katere ga končno želimo uporabiti, s pravimi statističnimi popravki in številnimi zaporednimi nizi čakajočih treningov in preizkusov.

Združevanje strojnega učenja z biomolekularnimi podatki je nekaj, kar si prizadeva veliko biotehnoloških podjetij, vendar je pogosto veliko nejasnosti o tem, kako bodo to naredili. Kaj je po vašem mnenju bistvena značilnost njihovega učinkovitega vključevanja?

At Freenome združujemo strojno učenje in multiomiko. Če želite to narediti, morate dobro narediti oboje. Ključno pri tem je, da morate imeti močno strokovno znanje o obeh in potem znati govoriti jezik obeh. Morate biti dvojezični. 

Obstaja veliko podjetij, ki so strokovnjaki za eno in nato potresejo plast drugega. Na primer, obstajajo tehnološka podjetja, ki se odločijo, da želijo skočiti v biološko področje, a vse, kar naredijo, je, da najamejo peščico znanstvenikov iz mokrih laboratorijev. Po drugi strani pa obstajajo biološka podjetja, ki najamejo nekaj znanstvenikov strojnega učenja, potem pa bodo izjavila, da so zdaj podjetje AI/ML. 

Kar resnično potrebujete, je globoka moč na klopi v obeh. Potrebujete globoko biološko razumevanje sistema, različnih testov, značilnosti prostora znanja. Morate pa tudi globoko razumeti strojno učenje, znanost o podatkih, računalniške metode in statistično učenje ter imeti platforme za uporabo tega. 

To je res izziv, ker sta ti dve področji pogosto zelo ločeni. Ko razmišljate o ljudeh, ki jih najemate za podjetje, kako ustvarite mostove med tema dvema različnima področjema?

Mislim, da obstajajo tri vrste ljudi, ki jih želite najeti, da premostijo tehnologijo in biologijo. Prva dva sta vaša standardna, domenska strokovnjaka za strojno učenje ali biologijo. Morajo pa biti tudi odprti in pripravljeni spoznati drugo področje ali še bolje, biti izpostavljeni in imeti izkušnje z delom na teh dodatnih področjih.

Za strokovnjake za strojno učenje izbiramo ljudi, ki niso tam samo zato, da bi razvili najnovejši algoritem, ampak želijo uporabiti najnovejše algoritme in jih uporabiti pri bioloških vprašanjih. 

Biologija je grdo. Ne samo, da nimamo vseh metod za merjenje različnih analitov, ampak nenehno odkrivamo nove biomolekule in lastnosti. Obstaja tudi veliko motečih dejavnikov in hrupa, ki jih je treba upoštevati. Ti problemi so na splošno bolj zapleteni kot standardni problemi strojnega učenja, kjer sta problem in prostor znanja veliko bolj natančno opredeljena. Strokovnjaki ML, ki želijo svoje znanje uporabiti v biologiji, morajo biti ponižni, da spoznajo kompleksnost, ki obstaja v biologiji, in biti pripravljeni delati z manj kot optimalnimi pogoji in razlikami v razpoložljivosti podatkov.

Druga stran je najemanje biologov, ki razmišljajo o svojih težavah v smislu generiranja kvantitativnih podatkov v večjem obsegu, načrtujejo študije za optimizacijo razmerja med signalom in šumom ter se zavedajo opozoril glede zmede in posploševanja. Je več kot le sposobnost govoriti in misliti v jeziku kode. Številni naši biologi že kodirajo in imajo dobro statistično znanje ter so pripravljeni in želijo rasti na teh področjih. Pravzaprav imamo pri Freenome programe usposabljanja za biologe, ki želijo izvedeti več o kodiranju, da bi lahko razvili svoje statistično sklepanje.

Še bolj pomembno pa je, da so zasnova študija in vprašanja, ki jih lahko postavimo, videti drugače, če so zasnovani v kontekstu velikih podatkov in strojnega učenja.

Kaj je tretja vrsta?

Tretjo vrsto ljudi za najem je najtežje najti. To so mostniki – ljudje, ki so tekoče delali na obeh področjih. Zelo malo krajev in laboratorijev na svetu je prav na tem križišču. Zelo, zelo pomembno je pridobiti ljudi, ki znajo prevesti in premostiti obe področji. Vendar ne želite zgraditi podjetja samo premostiteljev, ker ti ljudje zaradi tega, kar počnejo, pogosto niso strokovnjaki na enem ali drugem področju. Pogosto so bolj splošni v svojem razumevanju. Vendar zagotavljajo kritično delo združevanja obeh področij.

Zato je pomembno imeti vse tri skupine ljudi. Če imate le enega od strokovnjakov za področje, boste močni le na enem področju. Ali pa, če nimate graditeljev mostov, potem imate silose ljudi, ki se ne bodo mogli pogovarjati med seboj. Optimalno bi morale ekipe vključevati vsako od teh treh vrst ljudi, da bi omogočili globoko razumevanje ML in biologije ter zagotovili učinkovito sinergijo obeh področij.

Ali opazite razlike v tem, kako se strokovnjaki za tehnologijo ali računalništvo lotevajo problemov, v primerjavi s tem, kako biologi pristopijo k problemom? 

ja V eni skrajnosti zagotovo imamo ljudi, ki prihajajo iz statističnega in kvantitativnega ozadja in govorijo v kodah in enačbah. Pomagati jim moramo, da sprejmejo te enačbe in jih razložijo na jasen način, da jih lahko razume splošno občinstvo. 

Biologi imajo veliko domišljije, ker delajo s stvarmi, ki so nevidne. V predstavitvah uporabljajo veliko ilustracij, da si pomagajo vizualizirati, kaj se molekularno dogaja, in imajo odlično intuicijo glede mehanizmov in kompleksnosti. Veliko tega razmišljanja je bolj kakovostnega. To omogoča drugačen način razmišljanja in komuniciranja.

Torej bo način komuniciranja ljudi zelo, zelo drugačen. Ključno je – nekako v šali pravimo – da moramo komunicirati na način, ki ga bo razumela tudi tvoja babica. 

Zahteva resnično obvladovanje vašega znanja, da ga lahko poenostavite tako, da ga lahko razume tudi začetnik. Mislim, da je to pravzaprav odličen trening za nekoga, da se nauči sporočati zelo težke koncepte zunaj običajnih bližnjic, žargona in tehničnega jezika.

Kaj je navdihnilo vaše posebno stališče o tem, kako združiti strojno učenje in biologijo?

Težava torej ni nova, temveč zadnja ponovitev starodavne težave. Ko so polja računalniška biologija in bioinformatika so bili prvič ustvarjeni, enak problem je obstajal. Računalniški znanstveniki, statistiki, podatkovni znanstveniki ali celo fiziki so se pridružili področju biologije in na to področje prinesli svoje kvantitativno razmišljanje. Istočasno so morali biologi začeti z modeliranjem, ki presega označevanje genov kot reguliranih navzgor in navzdol, ter začeti pristopati k podatkom bolj kvantitativno. Digitalizacija bioloških podatkov je zdaj pravkar eksponentno narasla v obsegu. Problem je resnejši in obsežnejši, vendar temeljni izzivi ostajajo enaki.

Kaj vidite kot meritve uspeha ali rdeče zastavice, ki vam povedo, ali zakon deluje ali ne?

Če pogledate podjetja, ki poskušajo združevati področja, lahko zelo hitro vidite, koliko vlagajo v eno ali drugo stran. Torej, če gre za podjetje, v katerem je 90 % ljudi laboratorijskih znanstvenikov, potem pa so pravkar najeli enega ali dva znanstvenika za strojno učenje in se imenujejo podjetje ML, potem je to verjetno bolj naknadna misel.

Ali ste se v celotnem procesu združevanja biologije in strojnega učenja naučili lekcije, ki bi se je lahko naučili domov?

Mislim, da gre za intelektualno ponižnost, zlasti s tehnološke strani. Pri nečem, kot je na primer reševanje za iskanje, so vse informacije že v besedilni obliki, do katere lahko enostavno dostopate, in veste, kaj iščete. Torej postane rešljiv problem, kajne? Težava z biologijo je, da sploh ne vemo, katere podatkovne nize iščemo, ali sploh imamo pravo svetilko, da osvetlimo prava področja. 

Torej, včasih, ko tehnični strokovnjaki skočijo v biografijo, se ujamejo v past pretiranega poenostavljanja. Recimo, kot primer, za sekvenciranje naslednje generacije bi lahko rekli: »Vau. Lahko zaporedimo DNK. Zakaj preprosto ne zaporedimo veliko in veliko DNK? To postane težava s podatki, nato pa rešimo biologijo.« 

Toda težava je v tem, da je DNK eden od desetin različnih analitov v telesu. Obstajajo RNA, beljakovine,post-prevodne spremembe, različne predelke, kot so zunajcelični vezikli, in razlike v času, prostoru, vrsti celice, med drugim. Razumeti moramo možnosti in omejitve vsake modalitete podatkov, ki jo uporabljamo.

Čeprav je morda težko verjeti, je biologija še vedno področje v povojih. Mi samo sekvencirali človeški genom pred nekaj več kot dvema desetletjema. Večino časa ne moremo dostopati do posameznih bioloških signalov, zato še vedno izvajamo meritve, ki so konglomerat ali povprečje za veliko signalov. Pravkar začenjamo meriti eno celico naenkrat. Še vedno je treba veliko postoriti in zato je zdaj vznemirljiv čas za biologijo. 

Toda s tem otroštvom prihaja velik potencial za reševanje težav, ki bodo imele velik vpliv na zdravje in dobro počutje ljudi. Čas je res neverjeten, saj odpiramo nove meje biologije.

Kakšne meje? Ali obstaja področje biologije ali medicine, kjer ste najbolj navdušeni nad uporabo računalništva?

Ja – vse! Ampak naj pomislim. Pri raku verjamem, da bodo znotraj naše generacije nove terapije in prizadevanja za zgodnje odkrivanje raka spremenili v kronično bolezen, ki ni več tako strašljiva, kot smo to storili za HIV. Verjetno lahko uporabimo zelo podobne vrste metod, da gledamo na odkrivanje in preprečevanje bolezni bolj na splošno. Ključna stvar, nad katero sem navdušena, je, da lahko začnemo odkrivati, ali je bolezen že prisotna pred simptomi. 

Poleg diagnostike raka je prav tako zelo kul prehod na gradnjo z biologijo namesto samo z branjem in pisanjem. Navdušen sem nad področji sintetične biologije, kjer biologijo uporabljamo kot tehnologijo, pa naj gre za CRISPR ali sintetične peptide ali sintetične nukleotide. Izkoriščanje biologije kot orodja ustvarja široke možnosti za popolno preobrazbo tradicionalnih industrij, ki ustvarjajo vire, od kmetijstva do energetike. To je res čudovit čas za biologa!

Objavljeno 5. oktobra 2022

Tehnologija, inovacije in prihodnost, kot pravijo tisti, ki jo gradijo.

Hvala za prijavo.

Preverite svoj nabiralnik za dobrodošlico.

Časovni žig:

Več od Andreessen Horowitz