Miksi koneoppimisen soveltaminen biologiaan on vaikeaa – mutta sen arvoista PlatoBlockchain Data Intelligence. Pystysuuntainen haku. Ai.

Miksi koneoppimisen soveltaminen biologiaan on vaikeaa – mutta sen arvoista

Jimmy Lin on CSO Freenome, joka kehittää veripohjaisia ​​testejä syövän varhaiseen havaitsemiseen, alkaen paksusuolen syövästä. Hän on edelläkävijä laskennallisten lähestymistapojen kehittämisessä oivallusten poimimiseksi laajamittaisesta genomitiedosta, ja hän on johtanut ensimmäisten genominlaajuisten sekvensointitutkimusten laskennallisia analyyseja useissa syöpätyypeissä. 

Lin puhui Futurelle haasteista, jotka liittyvät yrityksen tehtävään yhdistää koneoppimislähestymistapoja ja biologisia tietoja. Hän selittää, millaisia ​​kolmenlaisia ​​ihmisiä sinun on palkattava tasapainoisen teknologiayrityksen rakentamiseen, mitä ansoja sinun tulee välttää, kuinka tietää, milloin kahden alan liitto toimii tai ei, sekä biologisten opintojen ja koneoppimisen mukauttamisen vivahteet toisilleen.


TULEVAISUUS: Kuten monet tieteenalat, koneoppimisen soveltaminen biossa herättää paljon jännitystä. Mutta edistyminen on näyttänyt vaikeammalta. Onko biomolekyylitiedoissa jotain eroa verrattuna tietotyyppeihin, joita tyypillisesti käytetään koneoppimisessa?

JIMMY LIN: Perinteinen koneoppimisdata on erittäin laajaa ja matalaa. Koneoppimisen usein ratkaisemat ongelmat ovat sellaisia, joita ihmiset voivat ratkaista nanosekunnissa, kuten kuvantunnistus. Jos haluat opettaa tietokoneen tunnistamaan kissan kuvan, sinulla on miljardeja ja miljardeja kuvia harjoitettavaksi, mutta jokaisen kuvan datasisältö on suhteellisen rajallinen. Biologiset tiedot ovat yleensä päinvastaisia. Meillä ei ole miljardeja yksilöitä. Olemme onnekkaita saadessamme tuhansia. Mutta jokaista yksilöä kohti meillä on miljardeja ja miljardeja tietopisteitä. Meillä on pienempi määrä erittäin syvällistä dataa.

Samaan aikaan biologiset kysymykset ovat harvemmin ongelmia, joita ihmiset voivat ratkaista. Teemme asioita, joihin edes maailman asiantuntijat eivät pysty. Joten ongelmien luonne on hyvin erilainen, joten se vaatii uutta ajattelua miten suhtaudumme tähän.

Pitääkö lähestymistavat rakentaa tyhjästä biomolekyylitietoa varten vai voitko mukauttaa olemassa olevia menetelmiä?

On olemassa tapoja, joilla voit ottaa nämä syvälliset tiedot ja esitellä niitä, jotta voit hyödyntää olemassa olevia työkaluja, olipa kyseessä tilastollinen oppiminen tai syvä oppimismenetelmä. Se ei ole suora kopiointi-liitä, mutta on monia tapoja, joilla voit siirtää monia koneoppimismenetelmiä ja soveltaa niitä biologisiin ongelmiin, vaikka se ei olisikaan suora yksi-yhteen kartta.

Kun syventyy data-asiaan lisää, biologisissa tiedoissa on paljon vaihtelua – on biologista kohinaa, on kokeellista kohinaa. Mikä on paras tapa luoda koneoppimisvalmiita biolääketieteellisiä tietoja? 

Se on hieno kysymys. Freenome on alusta alkaen miettinyt, kuinka tuottaa parasta koneoppimiseen sopivaa dataa. Koko prosessin ajan tutkimuksen suunnittelusta näytteiden keräämiseen, määritysten suorittamiseen ja data-analyysiin, jokaisessa vaiheessa on oltava huolellinen, jotta voidaan optimoida koneoppimista varten, varsinkin kun ominaisuuksia on paljon enemmän kuin näytteitä. Se on klassinen big-p little-n -ongelma.

Ensinnäkin olemme suunnitelleet tutkimuksemme minimoimaan hämmennystä. Monet yritykset ovat luottaneet historiallisiin tietokokonaisuuksiin ja tehneet paljon työtä yrittääkseen minimoida kohorttivaikutukset ja poistaa hämmentäviä. Mutta onko se todella paras tapa tehdä se? No, ei, paras tapa tehdä se on tulevaisuudentutkimus, jossa hallitset hämmennystä etukäteen. Tästä syystä päätimme jopa löytöpyrkimyksissämme tehdä suuren monisivuston mahdollisen kokeilun, joka kerää kultastandardin mukaista dataa etukäteen, kuten meidän AI-EMERGE kokeilu.

Onneksi meillä on sijoittajia, jotka uskoivat meihin tarpeeksi, jotta voimme tuottaa nämä tiedot. Se oli itse asiassa suuri riski, koska nämä tutkimukset ovat erittäin kalliita. 

Sitten kun saat tiedot, mitä teet niillä?

No, sinun on koulutettava kaikki sivustot johdonmukaisella tavalla ja valvottava hämmentäviä kaikilta eri sivustoilta, jotta potilaat näyttävät mahdollisimman samanlaisilta. Ja sitten, kun suoritat näytteet, sinun on mietittävä, kuinka voit minimoida erävaikutuksia, kuten asettamalla oikean sekoituksen näytteitä eri koneille oikeissa suhteissa.

Tämä on erittäin vaikeaa, kun teet multiomiikka koska yhden luokan biomolekyylejä analysoivat koneet voivat ottaa satoja näytteitä yhdellä ajolla, kun taas koneet, jotka analysoivat toisen luokan biomolekyylejä, voivat ottaa vain muutaman. Tämän lisäksi haluat poistaa inhimilliset virheet. Joten otimme käyttöön automaation melko paljon etukäteen, vain harjoitustietojen generointivaiheessa.

Lisäksi, kun sinulla on miljardeja datapisteitä henkilöä kohden, on erittäin helppo sovittaa liikaa. Varmistamme siis, että koulutuksemme on yleistettävissä populaatioille, joihin haluamme viime kädessä soveltaa sitä oikeilla tilastollisilla korjauksilla ja monilla peräkkäisillä harjoitus- ja testipitosarjoilla.

Koneoppimisen yhdistäminen biomolekyylitietoon on asia, jota monet bioteknologiayritykset yrittävät tehdä, mutta usein on paljon epäselvyyttä siitä, miten ne tekevät tämän. Mikä on mielestäsi niiden tehokkaan integroinnin olennainen piirre?

At Freenome yhdistämme koneoppimisen ja multiomiikan. Jotta voit tehdä sen, sinun on tehtävä molemmat hyvin. Tärkeintä tässä on, että sinulla on oltava vahva asiantuntemus molemmista ja pystyä sitten puhumaan molempien kieltä. Sinun on oltava kaksikielinen. 

On monia yrityksiä, jotka ovat asiantuntijoita yhdessä ja sitten ripottelevat kerrokseen toista. Esimerkiksi jotkut teknologiayritykset päättävät siirtyä bioalalle, mutta he vain palkkaavat kourallisen märkälaboratorion tutkijoita. Toisaalta on biologiayrityksiä, jotka palkkaavat joitain koneoppimisen tutkijoita, ja sitten he ilmoittavat olevansa AI/ML-yritys. 

Tarvitset todella syvän penkkivoiman molemmissa. Tarvitset syvän biologisen ymmärryksen järjestelmästä, eri määrityksistä ja tietotilan ominaisuuksista. Mutta sinulla on myös oltava syvä ymmärrys koneoppimisesta, datatieteestä, laskennallisista menetelmistä ja tilastooppimisesta, ja sinulla on oltava alustat niiden soveltamiseen. 

Se on todella haastavaa, koska nämä kaksi aluetta ovat usein hyvin siiloissa. Kun ajattelet ihmisiä, joita olet palkkaamassa yritykseen, kuinka luot siltoja näiden kahden eri toimialueen välille?

Luulen, että haluat palkata kolmenlaisia ​​ihmisiä yhdistämään tekniikan ja bion välillä. Kaksi ensimmäistä ovat tavallisia, koneoppimisen tai biologian toimialueen asiantuntijoita. Mutta heidän on myös oltava avoimia ja halukkaita oppimaan toisesta toimialueesta tai, mikä vielä parempi, heillä on ollut näkyvyyttä ja kokemusta työskentelystä näillä lisäalueilla.

Koneoppimisen asiantuntijoille valitsemme ihmiset, jotka eivät vain ole paikalla kehittämässä uusinta algoritmia, vaan jotka haluavat käyttää uusimpia algoritmeja ja soveltaa niitä biologisiin kysymyksiin. 

Biologia on sotkuinen. Meillä ei vain ole kaikkia menetelmiä eri analyyttien mittaamiseen, vaan löydämme jatkuvasti uusia biomolekyylejä ja ominaisuuksia. On myös monia hämmentäviä tekijöitä ja melu, joka on otettava huomioon. Nämä ongelmat ovat yleensä monimutkaisempia kuin tavalliset koneoppimisongelmat, joissa ongelma- ja tietotila on paljon paremmin määritelty. ML-asiantuntijoiden, jotka haluavat soveltaa taitojaan biologiassa, on oltava nöyryyttä oppiakseen biologian monimutkaisuudesta ja olla valmiita työskentelemään optimaalisten olosuhteiden ja tietojen saatavuuden erojen kanssa.

Kääntöpuolena on palkata biologeja, jotka ajattelevat ongelmiaan suuremman mittakaavan kvantitatiivisen tiedon tuottamisessa, suunnittelututkimuksissa signaali-kohinasuhteiden optimoimiseksi ja ovat tietoisia hämmentävien ja yleistettävyyden varoituksista. Se on enemmän kuin kykyä puhua ja ajatella koodin kielellä. Monet biologeistamme jo koodaavat ja heillä on hyvä tilastollinen tausta, ja he haluavat ja haluavat kasvaa näille alueille. Itse asiassa meillä Freenomessa on koulutusohjelmia biologeille, jotka haluavat oppia lisää koodauksesta voidakseen kehittää tilastollista päättelyään.

Vielä tärkeämpää on, että tutkimussuunnittelu ja kysymykset, joita voimme esittää, näyttävät erilaisilta, kun ne on suunniteltu big datan ja ML:n kontekstissa.

Mikä on kolmas tyyppi?

Kolmannen tyyppinen palkattava henkilö on vaikein löytää. Nämä ovat siltareita – ihmisiä, jotka ovat työskennelleet sujuvasti molemmilla näillä aloilla. Maailmassa on hyvin vähän paikkoja ja laboratorioita, jotka ovat juuri tässä risteyksessä. On erittäin tärkeää saada ihmiset, jotka pystyvät kääntämään ja yhdistämään molemmat alueet. Mutta et halua rakentaa pelkistä siltailijoista koostuvaa yritystä, koska usein nämä ihmiset eivät ole asiantuntijoita jollakin alalla, koska he tekevät. He ovat usein yleisempiä ymmärryksessään. Ne tarjoavat kuitenkin kriittistä työtä näiden kahden alan yhdistämiseksi.

Joten kaikkien kolmen ihmisryhmän omistaminen on tärkeää. Jos sinulla on vain yksi toimialueen asiantuntija-asiantuntijoista, olet vahva vain yhdellä alueella. Tai jos sinulla ei ole sillanrakentajia, sinulla on siiloissa ihmisiä, jotka eivät pysty puhumaan toisilleen. Parhaimmillaan ryhmissä tulisi olla kukin näistä kolmesta ihmistyypistä, jotta he ymmärtäisivät syvällisesti sekä ML:n että biologian sekä tarjoavat tehokkaan synergia molemmille aloille.

Näetkö eroja siinä, kuinka tekniikan tai laskennan asiantuntijat hyökkäävät siihen verrattuna, miten biologit lähestyvät ongelmia? 

Joo. Yhdessä ääripäässä meillä on varmasti ihmisiä, jotka tulevat tilastollisesta ja kvantitatiivisesta taustasta ja he puhuvat koodissa ja yhtälöissä. Meidän on autettava heitä ottamaan nämä yhtälöt ja selittämään ne selkeästi, jotta suuri yleisö voi ymmärtää. 

Biologeilla on hyvä mielikuvitus, koska he työskentelevät näkymättömien asioiden kanssa. He käyttävät esityksissä paljon kuvituksia visualisoidakseen, mitä tapahtuu molekyylisesti, ja heillä on hyvä intuitio mekanismeista ja monimutkaisuudesta. Suuri osa tästä ajattelusta on laadukkaampaa. Tämä tarjoaa erilaisen tavan ajatella ja kommunikoida.

Joten ihmisten kommunikointi on hyvin, hyvin erilaista. Avain on – me tavallaan vitsillä sanomme – meidän on kommunikoitava tavalla, jonka jopa isoäitisi ymmärtää. 

Se edellyttää tietosi todellista hallintaa, jotta voit yksinkertaistaa sitä niin, että jopa noviisi ymmärtää. Mielestäni on todella hienoa koulutusta jollekulle oppia kommunikoimaan erittäin vaikeita käsitteitä tavallisten pikanäppäinten, ammattislangen ja teknisen kielen ulkopuolella.

Mikä on inspiroinut erityistä näkemystäsi koneoppimisen ja biologian yhdistämisestä?

Joten ongelma ei ole uusi, vaan pikemminkin ikivanhan ongelman uusin iteraatio. Kun kentät laskennallinen biologia ja bioinformatiikka luotiin ensin, sama ongelma oli. Tietojenkäsittelytieteilijät, tilastotieteilijät, datatieteilijät tai jopa fyysikot liittyivät biologian alaan ja toivat kvantitatiivisen ajattelunsa alalle. Samaan aikaan biologien täytyi alkaa mallintaa geenien karakterisoimisen lisäksi ylös- ja alasäädeltyinä ja lähestyä dataa kvantitatiivisemmin. Biologisen tiedon digitalisointi on nyt juuri kasvanut eksponentiaalisesti. Ongelma on akuutimpi ja laajempi, mutta perushaasteet pysyvät samoina.

Mitä pidät joko menestysmittareina tai punaisina lippuina, jotka kertovat, toimiiko avioliitto vai ei?

Jos katsot yrityksiä, jotka yrittävät yhdistää aloja, näet hyvin nopeasti, kuinka paljon ne investoivat jompaankumpaan tai toiseen. Joten jos kyseessä on yritys, jossa 90 % ihmisistä on laboratoriotutkijoita, ja sitten he vain palkkasivat yhden tai kaksi koneoppimisen tutkijaa ja kutsuvat itseään ML-yritykseksi, se on luultavasti enemmän jälkikäteen.

Onko sinulla yksi kotioppitunti, jonka olet oppinut tässä koko prosessissa, jossa yhdistät biologian ja koneoppimisen?

Mielestäni älyllistä nöyryyttä, etenkin tekniikan puolelta. Esimerkiksi haun ratkaisemisen kaltaisella tavalla kaikki tiedot ovat jo tekstimuodossa, johon pääset helposti käsiksi, ja tiedät mitä etsit. Joten siitä tulee ratkaistava ongelma, eikö? Biologian ongelma on, että emme edes tiedä, mitä tietojoukkoja etsimme, onko meillä edes oikea taskulamppu loistamaan oikeilla alueilla. 

Joten joskus, kun tekniikan asiantuntijat hyppäävät biotekniikkaan, he joutuvat liiallisen yksinkertaistamisen ansaan. Oletetaan esimerkiksi, että seuraavan sukupolven sekvensointia varten he voivat sanoa: "Vau. Voimme sekvensoida DNA:ta. Miksi emme vain sekvensoi paljon ja paljon DNA:ta? Siitä tulee dataongelma, ja sitten ratkaisemme biologian." 

Mutta ongelmana on, että DNA on yksi kymmenistä eri analyyteistä kehossa. Siellä on RNA:ta, proteiinia,translaation jälkeiset muutokset, eri osastot, kuten solunulkoiset rakkulat, ja erot ajassa, tilassa, solutyypissä, mm. Meidän on ymmärrettävä jokaisen käyttämämme datamuodon mahdollisuudet ja rajoitukset.

Vaikka sitä voi olla vaikea uskoa, biologia on edelleen ala lapsenkengissään. Me vain sekvensoi ihmisen genomin hieman yli kaksi vuosikymmentä sitten. Suurimman osan ajasta emme pääse käsiksi yksittäisiin biologisiin signaaleihin, joten teemme edelleen mittauksia, jotka ovat ryhmittymiä tai keskiarvoja monista signaaleista. Olemme juuri alkamassa mittaamaan yhtä solua kerrallaan. Paljon on vielä tehtävää, ja siksi on jännittävää aikaa mennä biologiaan. 

Mutta tuon lapsenkengän myötä tulee suuria mahdollisuuksia ratkaista ongelmia, joilla on valtava vaikutus ihmisten terveyteen ja hyvinvointiin. Se on aika uskomatonta aikaa, koska avaamme uusia biologian rajoja.

Millaisia ​​rajoja? Onko sinulla jokin biologian tai lääketieteen ala, jolla olet eniten innoissasi laskennan soveltamisesta?

Joo - kaikki! Mutta anna minun ajatella. Uskon, että meidän sukupolvessamme tulevat uudet terapiat ja varhaisen havaitsemistoimenpiteet muuttavat syövän krooniseksi sairaudeksi, joka ei ole enää niin pelottava, kuten olemme tehneet HIV:n kohdalla. Ja voimme luultavasti käyttää hyvin samantyyppisiä menetelmiä tarkastellaksemme sairauksien havaitsemista ja ehkäisyä yleisemmin. Avainasia, josta olen innoissani, on se, että voimme alkaa havaita, onko sairaus jo olemassa ennen oireita. 

Syövän diagnostiikan ulkopuolella todella siistiä on siirtyminen biologian avulla rakentamiseen pelkän lukemisen ja kirjoittamisen sijaan. Olen innoissani synteettisen biologian alueista, joilla käytämme biologiaa teknologiana, olipa kyseessä sitten CRISPR tai synteettiset peptidit tai synteettiset nukleotidit. Biologian hyödyntäminen työkaluna luo laajoja mahdollisuuksia muuttaa perinteisiä resursseja tuottavia toimialoja kokonaan maataloudesta energiaan. Tämä on todella mahtavaa aikaa olla biologi!

Julkaistu 5. lokakuuta 2022

Tekniikka, innovaatiot ja tulevaisuus, kuten sitä rakentajat kertovat.

Kiitos rekisteröitymisestä.

Tarkista postilaatikostasi tervetuliaisviesti.

Aikaleima:

Lisää aiheesta Andreessen Horowitz