De ce este dificilă aplicarea învățării automate în biologie – dar merită PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

De ce este greu să aplici învățarea automată în biologie – dar merită

Jimmy Lin este CSO al Freenome, care dezvoltă teste pe bază de sânge pentru depistarea precoce a cancerului, începând cu cancerul de colon. El este un pionier în dezvoltarea unor abordări computaționale pentru a extrage informații din datele genomice la scară largă, având în frunte analizele computaționale ale primelor studii de secvențiere la nivelul genomului în mai multe tipuri de cancer. 

Lin a vorbit cu Future despre provocările îndeplinirii misiunii companiei de a îmbina abordările de învățare automată și datele biologice. El explică ce trei tipuri de oameni trebuie să angajezi pentru a construi o companie techbio echilibrată, capcanele pe care ar trebui să le eviți, cum să știi când căsătoria dintre două domenii funcționează sau nu și nuanțele adaptării studiilor biologice și învățării automate. unul altuia.


VIITOR: La fel ca multe discipline, există o mulțime de entuziasm în legătură cu potențialul de a aplica învățarea automată la bio. Dar progresul a părut mai greu câștigat. Există ceva diferit despre datele biomoleculare în comparație cu tipurile de date care sunt utilizate de obicei cu învățarea automată?

JIMMY LIN: Datele tradiționale de învățare automată sunt foarte largi și superficiale. Tipul de probleme pe care învățarea automată le rezolvă adesea sunt cele pe care oamenii le pot rezolva într-o nanosecundă, cum ar fi recunoașterea imaginilor. Pentru a învăța un computer să recunoască imaginea unei pisici, ai avea miliarde și miliarde de imagini pe care să le antrenezi, dar fiecare imagine este relativ limitată în conținutul său de date. Datele biologice sunt de obicei invers. Nu avem miliarde de indivizi. Suntem norocoși să obținem mii. Dar pentru fiecare individ, avem miliarde și miliarde de puncte de date. Avem un număr mai mic de date foarte profunde.

În același timp, întrebările biologice sunt mai rar problemele pe care oamenii le pot rezolva. Facem lucruri pe care nici măcar experții mondiali în acest domeniu nu sunt capabili să le facă. Deci, natura problemelor este foarte diferită, așa că necesită Gandire noua despre modul în care abordăm acest lucru.

Trebuie să fie construite abordările de la zero pentru datele biomoleculare sau puteți adapta metodele existente?

Există modalități prin care puteți lua aceste informații profunde și le puteți prezenta astfel încât să puteți profita de instrumentele existente, fie că este vorba de învățare statistică sau de metode de învățare profundă. Nu este un copy-paste direct, dar există o mulțime de moduri prin care puteți transfera multe dintre metodele de învățare automată și le puteți aplica problemelor biologice, chiar dacă nu este o hartă directă unu-la-unu.

Să mai cercetăm problema datelor, cu datele biologice există multă variabilitate – există zgomot biologic, există zgomot experimental. Care este cea mai bună modalitate de a aborda generarea de date biomedicale pregătite pentru învățarea automată? 

E o întrebare grozavă. Încă de la început, Freenome a luat în considerare modul de a genera cele mai bune date potrivite pentru învățarea automată. De-a lungul întregului proces, de la proiectarea studiului, la colectarea probelor, la rularea testelor, la analiza datelor, trebuie să aveți grijă la fiecare pas pentru a putea optimiza pentru învățarea automată, mai ales atunci când aveți atât de mult mai multe caracteristici decât mostre. Este problema clasică big-p little-n.

În primul rând, am proiectat studiul nostru pentru a minimiza factorii de confuzie. Multe companii s-au bazat pe seturi de date istorice și au depus multă muncă pentru a încerca să minimizeze efectele de cohortă și să elimine factorii de confuzie. Dar oare chiar acesta este cel mai bun mod de a face asta? Ei bine, nu, cel mai bun mod de a face acest lucru este un studiu prospectiv în care controlați din timp factorii de confuzie. Acesta este motivul pentru care, chiar și în eforturile noastre de descoperire, am decis să facem un studiu prospectiv pe mai multe site-uri care să colecteze date standard de aur în avans, ca în cazul nostru. Proba AI-EMERGE.

Din fericire, avem investitori care au crezut suficient în noi pentru a ne permite să generăm aceste date. Acesta a fost de fapt un risc mare de asumat, deoarece aceste studii sunt foarte scumpe. 

Apoi, odată ce obții datele, ce faci cu ele?

Ei bine, trebuie să instruiți toate site-urile într-o manieră consecventă și să controlați factorii de confuzie din toate site-urile diferite, astfel încât pacienții să arate cât mai asemănător. Și apoi, odată ce rulați mostrele, trebuie să vă gândiți cum să minimizați efectele lotului, cum ar fi punând amestecul potrivit de mostre pe diferite mașini la proporțiile potrivite.

Acest lucru este foarte dificil când faci multiomica deoarece mașinile care analizează o clasă de biomolecule pot lua sute de probe la o singură rulare, în timp ce mașinile care analizează o altă clasă de biomolecule pot lua doar câteva. În plus, doriți să eliminați eroarea umană. Așadar, am introdus automatizarea aproape în avans, în stadiul de generare a datelor de antrenament.

De asemenea, atunci când aveți miliarde de puncte de date per persoană, devine foarte, foarte ușor să supraîncărcați. Așadar, ne asigurăm că pregătirea noastră este generalizabilă la populațiile cărora vrem să o aplicăm în cele din urmă, cu corecțiile statistice potrivite și multe seturi succesive de antrenare și testare.

Combinarea învățării automate cu datele biomoleculare este un lucru pe care multe companii de biotehnologie încearcă să facă, dar de multe ori există multă vagitate cu privire la modul în care vor face acest lucru. Ce considerați că este o caracteristică esențială a integrării lor efective?

At Freenome îmbinăm învățarea automată și multiomica. Pentru a face asta, trebuie să le faci pe amândouă bine. Cheia aici este că trebuie să aveți o experiență puternică în ambele și apoi să fiți capabil să vorbiți limba ambelor. Trebuie să fii bilingv. 

Există o mulțime de companii care sunt experți într-una și apoi presără un strat din cealaltă. De exemplu, există companii de tehnologie care decid că vor să intre în bio, dar tot ce fac este să angajeze câțiva oameni de știință de laborator umed. Pe de altă parte, există companii de biologie care angajează niște oameni de știință de învățare automată, apoi vor declara că sunt o companie AI/ML acum. 

Ceea ce ai nevoie cu adevărat este puterea adâncă la bancă în ambele. Aveți nevoie de o înțelegere biologică profundă a sistemului, a diferitelor teste, a caracteristicilor spațiului de cunoaștere. Dar, de asemenea, trebuie să aveți o înțelegere profundă a învățării automate, a științei datelor, a metodelor de calcul și a învățării statistice și să aveți platforme pentru a aplica asta. 

Este cu adevărat o provocare, deoarece cele două zone sunt adesea foarte izolate. Când vă gândiți la oamenii pe care îi angajați pentru companie, cum creați punți între aceste două domenii diferite?

Cred că există un fel de trei tipuri de oameni pe care doriți să le angajați pentru a face legătura între tehnologie și bio. Primele două sunt cele standard, experții de domeniu în învățarea automată sau biologie. Dar, de asemenea, trebuie să fie deschiși și dispuși să învețe despre celălalt domeniu, sau chiar mai bine, au avut experiență și experiență de lucru în aceste domenii suplimentare.

Pentru experții în învățarea automată, alegem oameni care nu sunt doar acolo pentru a dezvolta cel mai recent algoritm, ci și care doresc să ia cei mai noi algoritmi și să îi aplice la întrebările biologice. 

Biologia este dezordonat. Nu numai că nu avem toate metodele pentru a măsura diferiții analiți, dar descoperim în mod continuu noi biomolecule și caracteristici. Există, de asemenea, o mulțime de factori de confuzie și de zgomot de care trebuie să luați în considerare. Aceste probleme sunt în general mai complexe decât problemele standard de învățare automată, unde problema și spațiul de cunoștințe sunt mult mai bine definite. Experții ML care doresc să-și aplice meșteșugurile în biologie trebuie să aibă umilință pentru a afla despre complexitatea care există în biologie și să fie dispuși să lucreze în condiții mai puțin decât optime și diferențe în disponibilitatea datelor.

Partea inversă este angajarea de biologi care se gândesc la problemele lor în termeni de generare de date cantitative la scară mai mare, studii de proiectare pentru a optimiza raportul semnal-zgomot și sunt conștienți de avertismentele de confuzie și de generalizare. Este mai mult decât a putea vorbi și gândi în limbajul codului. Mulți dintre biologii noștri codifică deja și au un fundal statistic bun și doresc și doresc să crească în aceste domenii. De fapt, la Freenome, avem de fapt programe de formare pentru biologii care doresc să învețe mai multe despre codificare pentru a-și putea dezvolta raționamentul statistic.

Ceea ce este și mai important este că designul studiului și întrebările pe care le putem pune, arată diferit atunci când sunt concepute în contextul datelor mari și al ML.

Care este al treilea tip?

Al treilea tip de persoană de angajat este cel mai greu de găsit. Aceștia sunt bridgeri – oameni care au lucrat fluent în ambele domenii. Există foarte puține locuri și laboratoare în lume care se află chiar la această intersecție. Este foarte, foarte important să obțineți oameni care să traducă și să facă o punte între ambele domenii. Dar nu vrei să construiești o companie din doar bridger-uri pentru că adesea acești oameni nu sunt experți într-un domeniu sau altul, din cauza a ceea ce fac. Ele sunt adesea mai generale în înțelegerea lor. Cu toate acestea, ele asigură munca critică de a aduce împreună cele două domenii.

Deci, a avea toate cele trei grupuri de oameni este important. Dacă aveți doar unul dintre specialiștii experți în domeniu, veți fi puternic doar într-un singur domeniu. Sau, dacă nu ai constructorii de poduri, atunci ai silozuri de oameni care nu vor putea vorbi între ei. În mod optim, echipele ar trebui să includă fiecare dintre aceste trei tipuri de oameni pentru a permite o înțelegere profundă atât a ML, cât și a biologiei, precum și pentru a oferi o sinergie eficientă a ambelor domenii.

Vedeți diferențe în modul în care specialiștii în tehnologie sau computere atacă problemele față de modul în care biologii abordează problemele? 

Da. Până la o extremă, avem cu siguranță oameni care provin din medii statistice și cantitative și vorbesc în cod și ecuații. Trebuie să-i ajutăm să ia acele ecuații și să le explice într-un mod clar, astfel încât publicul larg să poată înțelege. 

Biologii au o mare imaginație pentru că lucrează cu lucruri care sunt invizibile. Ei folosesc o mulțime de ilustrații în prezentări pentru a ajuta la vizualizarea a ceea ce se întâmplă din punct de vedere molecular și au o mare intuiție despre mecanisme și complexitate. O mare parte din această gândire este mai calitativă. Acest lucru oferă un mod diferit de a gândi și de a comunica.

Deci, modul în care oamenii comunică va fi foarte, foarte diferit. Cheia este – spunem în glumă – că trebuie să comunicăm într-un mod pe care până și bunica ta îl poate înțelege. 

Este nevoie de o adevărată stăpânire a cunoștințelor tale pentru a le putea simplifica, astfel încât chiar și un novice să poată înțelege. Cred că este de fapt un antrenament grozav pentru cineva să învețe să comunice concepte foarte dificile în afara comenzilor rapide, jargonului și limbajului tehnic obișnuit.

Ce v-a inspirat punctul de vedere special despre cum să îmbinați învățarea automată și biologia?

Deci, problema nu este nouă, ci mai degrabă cea mai recentă iterație a unei probleme vechi. Când câmpurile de biologie computațională și bioinformatică au fost create mai întâi, a existat aceeași problemă. Informaticienii, statisticienii, oamenii de știință în date sau chiar fizicienii s-au alăturat domeniului biologiei și și-au adus gândirea cantitativă în domeniu. În același timp, biologii au trebuit să înceapă să modeleze dincolo de caracterizarea genelor ca fiind reglate în sus și în jos și să înceapă să abordeze datele mai cantitativ. Digitalizarea datelor biologice tocmai a crescut exponențial la scară. Problema este mai acută și mai extinsă, dar provocările fundamentale rămân aceleași.

Ce considerați fie valorile de succes, fie semnalele roșii care vă spun dacă căsătoria funcționează sau nu?

Dacă te uiți la companiile care încearcă să combine domenii, poți vedea foarte repede cât de mult investesc într-o parte sau în cealaltă. Deci, dacă este o companie în care 90% dintre oameni sunt oameni de știință de laborator și apoi au angajat unul sau doi oameni de știință în învățarea automată și își spun ei înșiși o companie ML, atunci aceasta este probabil mai mult o idee ulterioară.

Există o lecție de luat acasă pe care ați învățat-o în tot acest proces de căsătorie între biologia și învățarea automată?

Cred că umilința intelectuală, mai ales din partea tehnologiei. Cu ceva precum rezolvarea căutării, de exemplu, toate informațiile sunt deja într-o formă de text pe care o puteți accesa cu ușurință și știți ce căutați. Deci, devine o problemă rezolvabilă, nu? Problema cu biologia este că nici măcar nu știm ce seturi de date căutăm, dacă avem măcar lanterna potrivită pentru a străluci în zonele potrivite. 

Așadar, uneori, când experții în tehnologie intră în bio, cad într-o capcană a simplificării excesive. Să spunem, ca exemplu, pentru secvențierea următoarei generații ar putea spune: „Uau. Putem secvenționa ADN-ul. De ce nu ordonăm o mulțime de ADN? Devine o problemă de date și apoi rezolvăm biologia.” 

Dar problema este că ADN-ul este unul dintre zecile de analiți diferiți din organism. Există ARN, proteine,modificări post-traduce, diferite compartimente, cum ar fi veziculele extracelulare, și diferențele de timp, spațiu, tip de celule, printre altele. Trebuie să înțelegem posibilitățile, precum și limitările fiecărei modalități de date pe care le folosim.

Deși poate fi greu de crezut, biologia este încă un domeniu la început. Noi doar a secvențiat un genom uman cu puțin peste două decenii în urmă. De cele mai multe ori, nu putem accesa semnale biologice individuale, așa că încă facem măsurători care sunt un conglomerat sau o medie pentru o mulțime de semnale. Tocmai începem să măsurăm câte o celulă. Mai sunt multe de făcut și de aceea este un moment interesant pentru a intra în biologie. 

Dar odată cu acea copilărie vine un potențial mare de a rezolva probleme care vor avea un impact uriaș asupra sănătății și bunăstării umane. Este o perioadă destul de uimitoare pentru că deschidem noi frontiere ale biologiei.

Ce fel de frontiere? Există un domeniu al biologiei sau medicinei în care ești cel mai încântat să vezi aplicată calculul?

Da - totul! Dar lasă-mă să mă gândesc. În cancer, cred că în generația noastră noile terapii și eforturile de depistare precoce care apar vor transforma cancerul într-o boală cronică care nu mai este atât de înfricoșătoare, așa cum am făcut-o pentru HIV. Și probabil că putem folosi tipuri foarte asemănătoare de metode pentru a analiza detectarea și prevenirea bolilor în general. Principalul lucru de care sunt încântat este că putem începe să detectăm dacă boala este deja prezentă înainte de apariția simptomelor. 

În afară de diagnosticarea cancerului, ceea ce este, de asemenea, cu adevărat mișto este trecerea la construirea cu biologie în loc de a citi și scrie. Sunt încântat de domeniile biologiei sintetice în care folosim biologia ca tehnologie, fie că este vorba de CRISPR sau de peptide sintetice sau nucleotide sintetice. Folosirea biologiei ca instrument creează posibilități extinse de a transforma complet industriile tradiționale generatoare de resurse, de la agricultură la energie. Este cu adevărat un moment minunat pentru a fi biolog!

Postat pe 5 octombrie 2022

Tehnologie, inovație și viitor, așa cum au spus cei care o construiesc.

Vă mulțumim pentru înscriere.

Verificați-vă căsuța de e-mail pentru o notă de bun venit.

Timestamp-ul:

Mai mult de la Andreessen Horowitz