Miért nehéz a gépi tanulás alkalmazása a biológiában – de megéri PlatoBlockchain adatintelligencia? Függőleges keresés. Ai.

Miért nehéz a gépi tanulást a biológiában alkalmazni – de megéri?

Jimmy Lin a CSO Freenome, amely véralapú teszteket fejleszt a rák korai felismerésére, kezdve a vastagbélráktól. Úttörő a számítástechnikai megközelítések kidolgozásában, amelyek segítségével nagyszabású genomikai adatokból nyerhet betekintést, ő vezette az első genomszintű szekvenálási tanulmányok számítógépes elemzését több ráktípuson. 

Lin a Future-nek beszélt arról, hogy milyen kihívásokkal jár a vállalati küldetés végrehajtása a gépi tanulási megközelítések és a biológiai adatok összekapcsolása érdekében. Elmondja, hogy milyen háromféle embert kell felvenni egy kiegyensúlyozott technológiai vállalat felépítéséhez, a csapdákat, amelyeket érdemes elkerülni, hogyan lehet megállapítani, hogy a két terület házassága mikor működik vagy nem, valamint a biológiai tanulmányok és a gépi tanulás adaptálásának árnyalatait. egymáshoz.


JÖVŐ: Sok tudományághoz hasonlóan nagy az izgalom a gépi tanulás biotechnológiai alkalmazásának lehetősége körül. A haladás azonban nehezebbnek tűnt. Van valami más a biomolekuláris adatokban, mint a gépi tanuláshoz jellemzően használt adattípusok?

JIMMY LIN: A hagyományos gépi tanulási adatok nagyon tágak és sekélyek. A gépi tanulás által gyakran megoldott problémákat az emberek nanoszekundum alatt meg tudják oldani, például a képfelismerést. Ha meg akarja tanítani a számítógépet egy macska képének felismerésére, milliárd meg milliárd képre lenne szüksége, amelyen edzeni, de mindegyik kép adattartalma viszonylag korlátozott. A biológiai adatok általában fordítva vannak. Nincsenek egyének milliárdjai. Szerencsések vagyunk, hogy ezreket kapunk. De minden egyénre több milliárd és milliárd adatpont áll rendelkezésünkre. Kisebb számú nagyon mély adatunk van.

Ugyanakkor a biológiai kérdések ritkábban azok a problémák, amelyeket az ember meg tud oldani. Olyan dolgokat csinálunk, amire még a világ szakértői sem képesek. Tehát a problémák természete nagyon eltérő, ezért szükséges új gondolkodás arról, hogyan állunk ehhez.

A biomolekuláris adatokhoz a nulláról kell felépíteni a megközelítéseket, vagy adaptálhatja a meglévő módszereket?

Vannak módok arra, hogy ezeket a mélyreható információkat átvegye és jellemzővé tegye, hogy kihasználhassa a meglévő eszközöket, legyen szó statisztikai tanulásról vagy mély tanulási módszerekről. Ez nem egy közvetlen másolás-beillesztés, de sokféleképpen átviheti a gépi tanulási módszereket, és alkalmazhatja azokat biológiai problémákra, még akkor is, ha ez nem egy közvetlen egy-egy térkép.

Ha jobban beleásunk az adatkérdésbe, a biológiai adatoknál nagy a változékonyság – van biológiai zaj, van kísérleti zaj. Mi a legjobb módja a gépi tanulásra alkalmas orvosbiológiai adatok előállításának? 

Ez egy nagyszerű kérdés. A Freenome a kezdetektől fogva figyelembe vette, hogyan állíthatja elő a gépi tanuláshoz legmegfelelőbb adatokat. A teljes folyamat során a vizsgálat tervezésétől a mintagyűjtésen át a vizsgálatok futtatásáig és az adatelemzésig minden lépésben oda kell figyelni, hogy optimalizálni lehessen a gépi tanuláshoz, különösen akkor, ha sokkal több funkcióval rendelkezik, mint a minták. Ez a klasszikus nagy-p kis-n probléma.

Mindenekelőtt úgy terveztük meg tanulmányunkat, hogy a lehető legkisebbre csökkentsük a zavaró tényezőket. Sok vállalat támaszkodott a múltbeli adatkészletekre, és rengeteg munkát végzett a kohorszhatások minimalizálása és a zavaró tényezők eltávolítása érdekében. De tényleg ez a legjobb módja ennek? Nos, nem, a legjobb módja ennek egy prospektív tanulmány, ahol Ön előre irányítja a zavaró tényezőket. Ez az oka annak, hogy még a felfedezési erőfeszítéseink során is úgy döntöttünk, hogy végrehajtunk egy nagy, több helyszínre kiterjedő prospektív kísérletet, amely előzetesen aranystandard adatokat gyűjt, mint a mi AI-EMERGE próba.

Szerencsére vannak befektetőink, akik eléggé hittek bennünk ahhoz, hogy előállíthassuk ezeket az adatokat. Ez valójában nagy kockázat volt, mert ezek a tanulmányok nagyon drágák. 

Aztán ha megkapod az adatokat, mit csinálsz vele?

Nos, következetes módon kell betanítania az összes helyszínt, és ellenőriznie kell a különböző helyekről származó zavaró tényezőket, hogy a betegek a lehető leghasonlóbbak legyenek. És miután futtatta a mintákat, végig kell gondolnia, hogyan minimalizálhatja a kötegelt hatásokat, például úgy, hogy a minták megfelelő keverékét a megfelelő arányban helyezi el a különböző gépeken.

Ez nagyon nehéz, amikor csinálod multiomika mert a biomolekulák egy osztályát elemző gépek több száz mintát vehetnek egy futtatás során, míg a biomolekulák egy másik osztályát elemző gépek csak néhányat. Ezen felül szeretné eltávolítani az emberi hibákat. Tehát nagyjából előre bevezettük az automatizálást, a képzési adatok generálásának szakaszában.

Ezenkívül, ha személyenként több milliárd adatponttal rendelkezik, nagyon-nagyon könnyű a túlillesztés. Így biztosítjuk, hogy képzésünk általánosítható legyen azokra a populációkra, amelyekre végül alkalmazni szeretnénk, a megfelelő statisztikai korrekciókkal és számos egymást követő képzési és tesztkitartási készlettel.

A gépi tanulás biomolekuláris adatokkal való kombinálásával sok biotechnológiai vállalat próbálkozik, de gyakran bizonytalanok, hogyan fogják ezt megtenni. Mit tekint ezek hatékony integrálásának lényeges jellemzőjének?

At Freenome ötvözzük a gépi tanulást és a multiomikát. Ennek érdekében mindkettőt jól kell csinálni. A kulcs itt az, hogy mindkettőben erős szakértelemmel kell rendelkeznie, és tudnia kell mindkettő nyelvén beszélni. Kétnyelvűnek kell lenned. 

Sok olyan cég van, amelyik szakértő az egyikben, majd beleszórja a másikat. Például vannak olyan technológiai cégek, amelyek úgy döntenek, hogy be akarnak ugrani a biotechnológiába, de nem tesznek mást, mint felvesznek egy maroknyi wet labor tudóst. Másrészt vannak biológiával foglalkozó cégek, amelyek gépi tanulással foglalkozó tudósokat vesznek fel, majd kijelentik, hogy most AI/ML vállalat. 

Amire igazán szüksége van, az a mély fekvésű erő mindkettőben. Szüksége van a rendszer, a különböző vizsgálatok és a tudástér jellemzőinek mély biológiai megértésére. De emellett mélyreható ismeretekkel kell rendelkeznie a gépi tanulásról, az adattudományról, a számítási módszerekről és a statisztikai tanulásról, és rendelkeznie kell azokkal a platformokkal, amelyekkel ezt alkalmazni tudja. 

Ez igazán nagy kihívást jelent, mert ez a két terület gyakran nagyon össze van kötve. Amikor azokra az emberekre gondol, akiket felvesz a vállalathoz, hogyan hozhat létre hidakat e két különböző terület között?

Azt hiszem, háromféle embert szeretne felvenni, hogy áthidalja a tech és a biotudományt. Az első kettő az Ön standardja, a gépi tanulás vagy a biológia terület szakértői. De nyitottnak kell lenniük és hajlandónak kell lenniük a másik tartomány megismerésére, vagy ami még jobb, ha van tapasztalatuk és tapasztalatuk ezeken a további területeken.

A gépi tanulással foglalkozó szakértők számára olyan embereket választunk, akik nem csak a legújabb algoritmus kidolgozásában dolgoznak, hanem szeretnék a legújabb algoritmusokat átvenni és alkalmazni őket biológiai kérdésekre. 

A biológia az rendetlen. Nemcsak hogy nem rendelkezünk minden módszerrel a különböző analitok mérésére, hanem folyamatosan fedezünk fel új biomolekulákat és jellemzőket. Számos zavaró tényezőt és zajt is figyelembe kell venni. Ezek a problémák általában összetettebbek, mint a szabványos gépi tanulási problémák, ahol a probléma- és tudástér sokkal jobban meghatározott. Azoknak az ML-szakértőknek, akik mesterségüket a biológiában szeretnék alkalmazni, alázattal kell rendelkezniük ahhoz, hogy megismerjék a biológiában rejlő komplexitást, és hajlandóak kell lenniük arra, hogy az optimálisnál kisebb feltételekkel és az adatok elérhetőségének különbségeivel dolgozzanak.

A másik oldal az, hogy biológusokat alkalmaznak, akik problémáikat a nagyobb léptékű kvantitatív adatgenerálásban, a jel-zaj arány optimalizálását célzó tanulmányok tervezésében gondolkodnak, és tisztában vannak a zavaró tényezőkkel és az általánosíthatósággal. Ez több annál, mint hogy a kód nyelvén tudjunk beszélni és gondolkodni. Biológusaink közül sokan már kódolnak, jó statisztikai háttérrel rendelkeznek, és szeretnek ezeken a területeken fejlődni. Valójában a Freenome-nál képzési programjaink vannak biológusok számára, akik többet szeretnének megtudni a kódolásról, hogy fejleszthessék statisztikai érvelésüket.

Ami még fontosabb, hogy a tanulmánytervezés és az általunk feltehető kérdések másképp néznek ki, ha a big data és az ML kontextusában tervezzük.

Mi a harmadik típus?

A harmadik típusú személyt a legnehezebb megtalálni. Ők a hidak – olyan emberek, akik folyékonyan dolgoztak mindkét területen. Nagyon kevés hely és laboratórium van a világon, amely éppen ebben a kereszteződésben található. Nagyon-nagyon fontos megtalálni azokat az embereket, akik képesek fordítani és áthidalni mindkét területet. De nem akarsz csak hidakból álló társaságot építeni, mert gyakran ezek az emberek nem szakértői egyik vagy másik területnek a tevékenységük miatt. Gyakran általánosabbak a megértésükben. Mindazonáltal ők biztosítják a két terület összekapcsolásának kritikus munkáját.

Tehát fontos, hogy mindhárom embercsoport legyen. Ha csak egy domain szakértője van, akkor csak egy területen lesz erős. Vagy ha nincsenek hídépítők, akkor vannak olyan emberek, akik nem fognak tudni beszélni egymással. Optimális esetben a csapatoknak e három embertípus mindegyikét magában kell foglalniuk, hogy lehetővé váljon az ML és a biológia mély megértése, valamint mindkét terület hatékony szinergiája.

Lát különbséget abban, hogy a technológiai vagy számítástechnikai szakemberek hogyan támadják meg a problémákat, és a biológusok hogyan közelítik meg a problémákat? 

Igen. Az egyik végletig határozottan vannak olyan emberek, akik statisztikai és mennyiségi háttérből származnak, és kódban és egyenletekben beszélnek. Segítenünk kell nekik, hogy felvegyék ezeket az egyenleteket, és világosan elmagyarázzák, hogy a nagyközönség is megértse. 

A biológusoknak nagy a képzelőerejük, mert láthatatlan dolgokkal dolgoznak. Rengeteg illusztrációt használnak a prezentációkban, hogy segítsenek vizualizálni, mi történik molekulárisan, és remek intuícióval rendelkeznek a mechanizmusokat és az összetettséget illetően. Sok ilyen gondolkodás inkább minőségi. Ez másfajta gondolkodást és kommunikációt biztosít.

Tehát az emberek kommunikációja nagyon-nagyon más lesz. A kulcs az – viccesen mondjuk – úgy kell kommunikálnunk, hogy még a nagymamája is megértse. 

Tudásod valódi elsajátítására van szükség ahhoz, hogy leegyszerűsítsd, hogy még egy kezdő is megértse. Azt hiszem, ez egy nagyszerű képzés, ha valaki megtanul nagyon kemény fogalmakat kommunikálni a szokásos gyorsbillentyűkön, szakzsargonon és szaknyelven kívül.

Mi ihlette az Ön sajátos nézetét a gépi tanulás és a biológia összeegyeztetésével kapcsolatban?

Tehát a probléma nem új, hanem egy ősi probléma legújabb iterációja. Amikor a mezők számítógépes biológia és bioinformatika először hozták létre, ugyanaz a probléma volt. Informatikusok, statisztikusok, adattudósok vagy akár fizikusok csatlakoztak a biológia területéhez, és kvantitatív gondolkodásukat a területre vitték. Ugyanakkor a biológusoknak el kellett kezdeniük a modellezést azon túl, hogy a géneket fel- és leszabályozottként jellemezték, és kvantitatívabban kellett megközelíteni az adatokat. A biológiai adatok digitalizálása mostanra exponenciálisan megnőtt. A probléma akutabb és kiterjedtebb, de az alapvető kihívások ugyanazok maradnak.

Mit tekintesz a sikermutatóknak vagy a piros zászlóknak, amelyek megmondják, hogy a házasság működik-e vagy sem?

Ha megnézi azokat a cégeket, amelyek megpróbálják egyesíteni a területeket, nagyon gyorsan láthatja, hogy mennyit fektetnek be az egyik vagy a másik oldalra. Tehát, ha egy olyan cégről van szó, ahol az emberek 90%-a laboratóriumi tudós, és csak felvettek egy-két gépi tanulással foglalkozó tudóst, és ML-cégnek nevezik magukat, akkor ez valószínűleg inkább csak utólagos gondolat.

Van egy hazavihető lecke, amit megtanultál a biológia és a gépi tanulás összekapcsolásának egész folyamata során?

Szerintem intellektuális alázat, főleg a technikai oldalról. Például a keresési megoldásnál minden információ már szöveges formában van, amelyhez könnyen hozzáférhet, és tudja, mit keres. Tehát megoldható probléma lesz, nem? A biológiával az a probléma, hogy azt sem tudjuk, milyen adathalmazokat keresünk, hogy van-e megfelelő zseblámpánk, hogy a megfelelő területeken világítson. 

Így néha, amikor a technológiai szakértők belevágnak a biotudományba, a túlzott leegyszerűsítés csapdájába esnek. Tegyük fel például, hogy a következő generációs szekvenáláshoz azt mondják: „Wow. Meg tudjuk szekvenálni a DNS-t. Miért nem szekvenálunk sok-sok DNS-t? Adatproblémává válik, majd megoldjuk a biológiát.” 

De a probléma az, hogy a DNS egyike a testben található több tucat különböző elemzőnek. Van RNS, fehérje,fordítás utáni módosítások, különböző kompartmentek, mint például az extracelluláris vezikulák, és többek között az idő, a tér, a sejttípus különbségei. Meg kell értenünk az általunk használt egyes adatmódok lehetőségeit és korlátait.

Bár nehéz elhinni, a biológia még mindig gyerekcipőben jár. Mi csak szekvenáltak egy emberi genomot valamivel több mint két évtizeddel ezelőtt. Legtöbbször nem férünk hozzá az egyes biológiai jelekhez, ezért továbbra is olyan méréseket végzünk, amelyek sok jel konglomerátumát vagy átlagát jelentik. Éppen most kezdjük egy-egy cella mérését. Még mindig sok a tennivaló, és ez az oka annak, hogy ez egy izgalmas időszak a biológiára. 

Ezzel a csecsemőkor azonban nagy lehetőségeket rejt magában olyan problémák megoldására, amelyek óriási hatással lesznek az emberi egészségre és jólétre. Ez egy csodálatos időszak, mert új határokat nyitunk meg a biológiában.

Milyen határok? Van a biológiának vagy az orvostudománynak olyan területe, ahol a legjobban várja a számítások alkalmazását?

Igen – mindent! De hadd gondolkozzam. A rák esetében úgy gondolom, hogy a mi generációnkon belül az új terápiák és a korai felismerési erőfeszítések, amelyek megjelennek, a rákot krónikus betegséggé alakítják, amely már nem olyan ijesztő, mint ahogyan azt a HIV esetében tettük. Valószínűleg nagyon hasonló típusú módszereket használhatunk a betegségek kimutatására és megelőzésére általánosabban. A legfontosabb dolog, ami miatt izgatott vagyok, az az, hogy elkezdhetjük kimutatni, hogy a betegség már a tünetek megjelenése előtt ott van-e. 

A rákdiagnosztikán kívül az is nagyon klassz, hogy az olvasás és írás helyett biológiával építkezünk. Izgatottak a szintetikus biológia azon területei, ahol a biológiát technológiaként használjuk, legyen szó CRISPR-ről vagy szintetikus peptidekről vagy szintetikus nukleotidokról. A biológia eszközként való kihasználása kiterjedt lehetőségeket teremt a hagyományos erőforrás-termelő iparágak teljes átalakítására, a mezőgazdaságtól az energetikáig. Ez valóban csodálatos időszak biológusnak lenni!

Közzétéve: 5. október 2022

Technológia, innováció és a jövő, ahogy azt az építők elmondták.

Köszönjük a feliratkozást.

Nézze meg a beérkezett üzeneteket, hogy van-e üdvözlő üzenet.

Időbélyeg:

Még több Andreessen Horowitz