Miks on masinõppe rakendamine bioloogias raske – kuid tasub seda PlatoBlockchaini andmeluure. Vertikaalne otsing. Ai.

Miks on masinõppe rakendamine bioloogias raske – aga see on seda väärt

Jimmy Lin on CSO of Freenome, mis töötab välja verepõhiseid teste vähi varaseks avastamiseks, alustades käärsoolevähist. Ta on teerajaja arvutuslike lähenemisviiside väljatöötamisel, et saada teadmisi laiaulatuslikest genoomiandmetest, olles juhtinud arvutuslikke analüüse esimeste genoomi hõlmavate sekveneerimisuuringute käigus mitme vähitüübiga. 

Lin rääkis Future'iga väljakutsetest, mis kaasnevad ettevõtte missiooniga, mis ühendab masinõppe lähenemisviise ja bioloogilisi andmeid. Ta selgitab, milliseid kolme tüüpi inimesi on vaja tasakaalustatud tehnoloogiaettevõtte loomiseks palgata, milliseid lõkse peaksite vältima, kuidas teha kindlaks, millal kahe valdkonna abielu toimib või mitte, ning bioloogiliste uuringute ja masinõppe kohandamise nüansse. üksteisele.


TULEVIK: nagu paljudel erialadel, pakub masinõpet bioloogis palju põnevust. Kuid edusammud on tundunud raskemini saavutatavad. Kas biomolekulaarsetes andmetes on midagi erinevat tüüpidest, mida masinõppes tavaliselt kasutatakse?

JIMMY LIN: Traditsioonilised masinõppe andmed on väga laiad ja madalad. Masinõppe sageli lahendatavad probleemid on sellised, mida inimesed saavad lahendada nanosekundi jooksul, näiteks pildituvastus. Et õpetada arvutit kassi kujutist ära tundma, oleks teil treenimiseks miljardeid ja miljardeid pilte, kuid iga kujutise andmesisaldus on suhteliselt piiratud. Bioloogilised andmed on tavaliselt vastupidised. Meil ei ole miljardeid inimesi. Meil on vedanud, et saame tuhandeid. Kuid iga inimese kohta on meil miljardeid ja miljardeid andmepunkte. Meil on väiksem arv väga sügavaid andmeid.

Samas on bioloogilised küsimused harvemini need probleemid, mida inimesed suudavad lahendada. Teeme asju, mida isegi maailma asjatundjad ei suuda teha. Seega on probleemide olemus väga erinev, nii et see nõuab uus mõtlemine kuidas me sellele läheneme.

Kas lähenemisviisid tuleb biomolekulaarsete andmete jaoks nullist üles ehitada või saate olemasolevaid meetodeid kohandada?

On olemas viise, kuidas seda põhjalikku teavet kasutada ja kasutada, et saaksite kasutada olemasolevaid tööriistu, olgu selleks siis statistiline õpe või süvaõppe meetodid. See ei ole otsene kopeerimis-kleepimine, kuid on palju viise, kuidas saate paljusid masinõppemeetodeid üle kanda ja rakendada neid bioloogiliste probleemide puhul, isegi kui see pole otsene üks-ühele kaart.

Andmeprobleemi süvenedes on bioloogiliste andmete puhul palju varieeruvust – on bioloogilist müra, on eksperimentaalset müra. Milline on parim viis masinõppeks valmis biomeditsiiniliste andmete genereerimiseks? 

See on suurepärane küsimus. Freenome on algusest peale arvestanud sellega, kuidas genereerida masinõppeks sobivaimaid andmeid. Kogu protsessi vältel, alates uuringu kavandamisest kuni proovide kogumiseni, analüüside käitamise ja andmete analüüsini, tuleb igas etapis olla ettevaatlik, et saaksite masinõppe jaoks optimeerida, eriti kui teil on palju rohkem funktsioone kui proovid. See on klassikaline suure-p väikese-n probleem.

Eelkõige oleme kavandanud oma uuringu segaduste tekitajate minimeerimiseks. Paljud ettevõtted on tuginenud ajaloolistele andmekogumitele ja teinud palju tööd, et püüda minimeerida kohordi mõjusid ja eemaldada segadusi. Kuid kas see on tõesti parim viis seda teha? Noh, ei, parim viis seda teha on perspektiivuuring, mille käigus kontrollite segadusttekitajate eest eelnevalt. Seetõttu otsustasime isegi oma avastuspüüdluste käigus läbi viia suure mitme saidi võimaliku katse, mis kogub eelnevalt kuldstandardi andmeid, nagu meie AI-EMERGE prooviversioon.

Õnneks on meil investoreid, kes uskusid meisse piisavalt, et võimaldada meil neid andmeid genereerida. See oli tegelikult suur risk, mida võtta, sest need uuringud on väga kallid. 

Mida siis pärast andmete kättesaamist teha?

Noh, peate kõiki saite järjepidevalt koolitama ja kontrollima erinevatest kohtadest pärit segajaid, et patsiendid näeksid välja võimalikult sarnased. Ja siis, kui olete proovid käivitanud, peate läbi mõtlema, kuidas minimeerida partiiefekte, näiteks panna erinevatele masinatele õige proovide segu õiges vahekorras.

See on väga raske, kui te seda teete multiomika sest masinad, mis analüüsivad ühte klassi biomolekule, võivad võtta korraga sadu proove, samas kui masinad, mis analüüsivad teist klassi biomolekule, võivad võtta vaid mõne. Peale selle soovite eemaldada inimlikud vead. Niisiis võtsime automatiseerimise kasutusele üsna varakult, lihtsalt treeningandmete genereerimise etapis.

Samuti, kui teil on miljardeid andmepunkte inimese kohta, on väga-väga lihtne üle sobitada. Seega tagame, et meie koolitus on üldistatav populatsioonidele, mille puhul me seda lõppkokkuvõttes rakendada tahame, kasutades õigeid statistilisi parandusi ja paljusid järjestikuseid koolitus- ja katsetamiskomplekte.

Masinõppe kombineerimine biomolekulaarsete andmetega on midagi, mida paljud biotehnoloogiaettevõtted üritavad teha, kuid sageli on selle kohta palju ebamäärasust. Mida peate nende tõhusa integreerimise oluliseks tunnuseks?

At Freenome me ühendame masinõppe ja multiomika. Selleks peate mõlemad hästi tegema. Peamine on see, et teil peab olema mõlemas osas tugev teadmine ja seejärel suutma rääkida mõlema keelt. Peate olema kakskeelne. 

On palju ettevõtteid, kes on ühes asjatundjad ja puistavad seejärel teise kihi peale. Näiteks on tehnoloogiaettevõtteid, kes otsustavad, et tahavad biotehnoloogiaga tegeleda, kuid nad palkavad vaid käputäie märglabori teadlasi. Teisest küljest on bioloogiaettevõtteid, kes palkavad mõned masinõppeteadlased, siis teatavad nad, et nad on nüüd tehisintellekti/ML-i ettevõte. 

Mida te tõesti vajate, on mõlemas sügav pingitugevus. Teil on vaja sügavat bioloogilist arusaama süsteemist, erinevatest analüüsidest ja teadmiste ruumi omadustest. Kuid teil peab olema ka sügav arusaam masinõppest, andmeteadusest, arvutusmeetoditest ja statistilisest õppest ning teil peavad olema platvormid selle rakendamiseks. 

See on tõesti keeruline, sest need kaks valdkonda on sageli väga silotatud. Kui mõtlete inimestele, keda te ettevõttesse palkate, siis kuidas luua sildu nende kahe erineva domeeni vahel?

Ma arvan, et on olemas kolme tüüpi inimesi, keda soovite palgata, et ühendada tehnoloogia ja biotehnoloogia vahel. Kaks esimest on teie standardsed, masinõppe või bioloogia valdkonna eksperdid. Kuid nad peavad olema ka avatud ja valmis õppima teise domeeni kohta või, mis veelgi parem, neil peab olema kokkupuude ja kogemus nendes täiendavates domeenides.

Masinõppe ekspertide jaoks valime inimesed, kes ei tööta ainult uusima algoritmi väljatöötamiseks, vaid soovivad kasutada uusimaid algoritme ja rakendada neid bioloogilistes küsimustes. 

Bioloogia on räpane. Meil pole mitte ainult kõiki meetodeid erinevate analüütide mõõtmiseks, vaid me avastame pidevalt uusi biomolekule ja omadusi. Samuti on palju segavaid tegureid ja müra, millega tuleb arvestada. Need probleemid on üldiselt keerukamad kui standardsed masinõppeprobleemid, kus probleemi- ja teadmisteruum on palju paremini määratletud. ML-eksperdid, kes soovivad oma oskust bioloogias rakendada, peavad olema alandlikud, et õppida tundma bioloogia keerukust ning olema valmis töötama optimaalsetest tingimustest väiksemate tingimuste ja andmete kättesaadavuse erinevustega.

Tagakülg on bioloogide palkamine, kes mõtlevad oma probleemidele suuremahulise kvantitatiivse andmete genereerimise, signaali-müra suhete optimeerimise kavandamise uuringute kaudu ning on teadlikud segaduste ja üldistavuse hoiatustest. See on midagi enamat kui lihtsalt koodikeeles rääkimine ja mõtlemine. Paljud meie bioloogid juba kodeerivad ja neil on hea statistiline taust ning nad tahavad ja tahavad nendesse valdkondadesse kasvada. Tegelikult on meil Freenome'is koolitusprogrammid bioloogidele, kes soovivad kodeerimise kohta rohkem teada saada, et saaksid oma statistilisi arutluskäike arendada.

Veelgi olulisem on see, et uuringu ülesehitus ja küsimused, mida saame esitada, näevad suurandmete ja ML kontekstis kavandatuna erinevad välja.

Mis on kolmas tüüp?

Kolmandat tüüpi inimesi, keda palgata, on kõige raskem leida. Need on sildajad – inimesed, kes on mõlemas valdkonnas vabalt töötanud. Maailmas on väga vähe kohti ja laboreid, mis asuvad just sellel ristmikul. Väga-väga oluline on leida inimesi, kes suudavad tõlkida ja ühendada mõlemat valdkonda. Kuid te ei soovi luua ainult sildajate ettevõtet, sest sageli pole need inimesed oma tegevuse tõttu ühe või teise valdkonna eksperdid. Sageli on nad oma arusaamises üldisemad. Siiski pakuvad need kriitilist tööd kahe valdkonna ühendamisel.

Seega on kõigi kolme inimrühma olemasolu oluline. Kui teil on ainult üks domeeniekspertide spetsialist, olete tugev ainult ühes valdkonnas. Või kui teil pole sillaehitajaid, siis on teil inimeste silod, kes ei saa üksteisega rääkida. Optimaalselt peaksid meeskonnad hõlmama kõiki neid kolme tüüpi inimesi, et võimaldada sügavat arusaamist nii ML-st kui ka bioloogiast ning tagada mõlema valdkonna tõhus sünergia.

Kas näete erinevusi selles, kuidas tehnika- või arvutusspetsialistid ründavad probleeme, võrreldes sellega, kuidas bioloogid probleemidele lähenevad? 

Jah. Ühe äärmuseni on meil kindlasti statistilise ja kvantitatiivse taustaga inimesi, kes räägivad koodis ja võrrandites. Peame aitama neil neid võrrandeid võtta ja neid arusaadavalt selgitada, et üldsus mõistaks. 

Bioloogidel on suurepärane kujutlusvõime, sest nad töötavad asjadega, mis on nähtamatud. Nad kasutavad esitlustes palju illustratsioone, mis aitavad toimuvat molekulaarselt visualiseerida, ning neil on suurepärane intuitsioon mehhanismide ja keerukuse osas. Suur osa sellest mõtlemisest on kvalitatiivsem. See annab teistsuguse mõtlemis- ja suhtlemisviisi.

Niisiis, kuidas inimesed suhtlevad, on väga-väga erinev. Võti on – ütleme naljaga pooleks –, et me peame suhtlema nii, et isegi teie vanaema aru saaks. 

See nõuab teie teadmiste tõelist valdamist, et saaksite neid lihtsustada, et isegi algaja aru saaks. Ma arvan, et see on tegelikult suurepärane koolitus, kui keegi õpib suhtlema väga rasketest mõistetest väljaspool tavalisi otseteid, žargooni ja tehnilist keelt.

Mis on inspireerinud teie konkreetset seisukohta masinõppe ja bioloogia ühendamise kohta?

Seega pole probleem uus, vaid pigem igivana probleemi uusim iteratsioon. Kui väljad arvutusbioloogia ja bioinformaatika loodi esmakordselt, oli sama probleem. Arvutiteadlased, statistikud, andmeteadlased või isegi füüsikud ühinesid bioloogia valdkonnaga ja tõid valdkonda oma kvantitatiivse mõtlemise. Samal ajal pidid bioloogid hakkama modelleerima peale geenide kui üles- ja allareguleeritud iseloomustamise ning hakkama andmetele kvantitatiivsemalt lähenema. Bioloogiliste andmete digiteerimise mastaap on nüüd just hüppeliselt kasvanud. Probleem on teravam ja ulatuslikum, kuid põhiprobleemid jäävad samaks.

Mis on teie arvates edumõõdikud või punased lipud, mis näitavad, kas abielu toimib või mitte?

Kui vaadata ettevõtteid, kes üritavad valdkondi kombineerida, siis on väga kiiresti näha, kui palju nad ühte või teise poole investeerivad. Seega, kui tegemist on ettevõttega, kus 90% inimestest on laboriteadlased, ja siis nad lihtsalt palkasid ühe või kaks masinõppeteadlast ja nimetavad end ML-i ettevõtteks, siis on see tõenäoliselt pigem järelmõte.

Kas olete kogu selle bioloogia ja masinõppe ühendamise protsessi käigus õppinud ühe kaasavõetava õppetunni?

Ma arvan, et intellektuaalne alandlikkus, eriti tehnilisest küljest. Näiteks otsingu lahendamisel on kogu teave juba tekstina, millele saate hõlpsasti juurde pääseda ja teate, mida otsite. Niisiis, sellest saab lahendatav probleem, eks? Bioloogia probleem seisneb selles, et me isegi ei tea, milliseid andmekogumeid me otsime, kas meil on isegi õige taskulamp õigete piirkondade jaoks. 

Nii et mõnikord satuvad tehnikaeksperdid bioteaduse juurde hüppades liigse lihtsustamise lõksu. Oletame näiteks, et järgmise põlvkonna järjestuse jaoks võivad nad öelda: "Vau. Me saame järjestada DNA-d. Miks me lihtsalt ei järjesta palju-palju DNA-d? Sellest saab andmeprobleem ja siis me lahendame bioloogia. 

Kuid probleem on selles, et DNA on üks kümnetest erinevatest kehas leiduvatest analüütidest. Seal on RNA, valk,translatsioonijärgsed modifikatsioonid, erinevad sektsioonid, nagu ekstratsellulaarsed vesiikulid, ja erinevused ajas, ruumis, rakutüübis jne. Peame mõistma iga kasutatava andmemodaalsuse võimalusi ja piiranguid.

Kuigi seda võib olla raske uskuda, on bioloogia valdkond alles lapsekingades. Me lihtsalt sekveneeris inimese genoomi veidi üle kahe aastakümne tagasi. Enamasti ei pääse me juurde üksikutele bioloogilistele signaalidele, mistõttu teeme endiselt mõõtmisi, mis on paljude signaalide konglomeraadid või keskmised. Me alles hakkame mõõtma ühte rakku korraga. Teha on veel palju ja seepärast on põnev aeg bioloogiasse minna. 

Kuid selle lapsekingaga kaasneb suur potentsiaal lahendada probleeme, millel on tohutu mõju inimeste tervisele ja heaolule. See on päris hämmastav aeg, sest me avame bioloogias uusi piire.

Mis tüüpi piirid? Kas on mõni bioloogia või meditsiini valdkond, kus teile kõige rohkem meeldib arvutusi rakendada?

Jah - kõike! Aga las ma mõtlen. Vähi puhul usun, et meie põlvkonna uued ravimeetodid ja varajase avastamise jõupingutused muudavad vähi krooniliseks haiguseks, mis pole enam nii hirmutav, nagu oleme teinud HIV-i puhul. Tõenäoliselt saame kasutada väga sarnaseid meetodeid, et vaadata haiguste avastamist ja ennetamist üldisemalt. Peamine asi, mille üle ma olen põnevil, on see, et saame hakata tuvastama, kas haigus on juba olemas enne sümptomite ilmnemist. 

Väljaspool vähidiagnostikat on väga lahe ka üleminek bioloogiale ehitamisele, mitte ainult lugemisele ja kirjutamisele. Olen põnevil sünteetilise bioloogia valdkondade üle, kus me bioloogiat tehnoloogiana kasutame, olgu selleks CRISPR või sünteetilised peptiidid või sünteetilised nukleotiidid. Bioloogia kui vahendi kasutamine loob laialdased võimalused traditsiooniliste ressursse tootvate tööstusharude täielikuks ümberkujundamiseks, alates põllumajandusest kuni energiani. See on tõesti suurepärane aeg olla bioloog!

Postitatud 5. oktoobril 2022

Tehnoloogia, innovatsioon ja tulevik, nagu seda ehitavad inimesed.

Täname registreerumast.

Otsige oma postkastist tervitussõnum.

Ajatempel:

Veel alates Andreessen Horowitz