Mengapa Menerapkan Pembelajaran Mesin ke Biologi itu Sulit – Tapi Sepadan dengan Kecerdasan Data PlatoBlockchain. Pencarian Vertikal. Ai.

Mengapa Menerapkan Pembelajaran Mesin ke Biologi Itu Sulit – Tapi Layak

Jimmy Lin adalah CSO dari nama bebas, yang mengembangkan tes berbasis darah untuk deteksi dini kanker, dimulai dengan kanker usus besar. Dia adalah pelopor dalam mengembangkan pendekatan komputasi untuk mengekstrak wawasan dari data genom skala besar, setelah mempelopori analisis komputasi dari studi sekuensing luas genom pertama dalam beberapa jenis kanker. 

Lin berbicara dengan Future tentang tantangan menjalankan misi perusahaan untuk menggabungkan pendekatan pembelajaran mesin dan data biologis. Dia menjelaskan tiga jenis orang yang perlu Anda pekerjakan untuk membangun perusahaan teknologi yang seimbang, jebakan yang harus Anda hindari, cara mengetahui kapan perkawinan dua bidang berhasil atau tidak, dan nuansa mengadaptasi studi biologi dan pembelajaran mesin. untuk satu sama lain.


MASA DEPAN: Seperti banyak disiplin ilmu, ada banyak kegembiraan seputar potensi untuk menerapkan pembelajaran mesin ke bio. Tetapi kemajuan tampaknya lebih sulit diraih. Apakah ada sesuatu yang berbeda tentang data biomolekuler dibandingkan dengan jenis data yang biasanya digunakan dengan pembelajaran mesin?

JIMMY LIN: Data pembelajaran mesin tradisional sangat luas dan dangkal. Jenis masalah yang sering dipecahkan oleh pembelajaran mesin adalah apa yang dapat diselesaikan manusia dalam nanodetik, seperti pengenalan gambar. Untuk mengajari komputer mengenali gambar kucing, Anda akan memiliki miliaran gambar untuk dilatih, tetapi setiap gambar relatif terbatas dalam konten datanya. Data biologis biasanya sebaliknya. Kami tidak memiliki miliaran individu. Kami beruntung mendapatkan ribuan. Tetapi untuk setiap individu, kami memiliki miliaran dan miliaran titik data. Kami memiliki sejumlah kecil data yang sangat dalam.

Pada saat yang sama, pertanyaan biologis lebih jarang menjadi masalah yang dapat dipecahkan manusia. Kami melakukan hal-hal yang bahkan para ahli dunia dalam hal ini tidak dapat melakukannya. Jadi, sifat masalahnya sangat berbeda, sehingga membutuhkan pemikiran baru tentang bagaimana kita mendekati ini.

Apakah pendekatan perlu dibangun dari awal untuk data biomolekuler, atau dapatkah Anda mengadaptasi metode yang ada?

Ada beberapa cara Anda dapat mengambil informasi mendalam ini dan menampilkannya sehingga Anda dapat memanfaatkan alat yang ada, apakah itu pembelajaran statistik atau metode pembelajaran mendalam. Ini bukan copy-paste langsung, tetapi ada banyak cara Anda dapat mentransfer banyak metode pembelajaran mesin dan menerapkannya pada masalah biologis bahkan jika itu bukan peta satu-ke-satu langsung.

Menggali masalah data lagi, dengan data biologis ada banyak variabilitas-ada kebisingan biologis, ada kebisingan eksperimental. Apa cara terbaik untuk mendekati menghasilkan data biomedis siap pembelajaran mesin? 

Itu pertanyaan yang bagus. Sejak awal, Freenome telah mempertimbangkan cara menghasilkan data terbaik yang cocok untuk pembelajaran mesin. Sepanjang seluruh proses mulai dari desain studi, pengumpulan sampel, hingga menjalankan pengujian, hingga analisis data, perlu ada kehati-hatian dalam setiap langkah untuk dapat mengoptimalkan pembelajaran mesin, terutama jika Anda memiliki lebih banyak fitur daripada sampel. Ini masalah klasik big-p little-n.

Pertama dan terpenting, kami telah merancang penelitian kami untuk meminimalkan perancu. Banyak perusahaan telah mengandalkan kumpulan data historis dan telah melakukan banyak pekerjaan untuk mencoba meminimalkan efek kohort dan menghilangkan perancu. Tetapi apakah itu benar-benar cara terbaik untuk melakukannya? Yah, tidak, cara terbaik untuk melakukannya adalah studi prospektif di mana Anda mengontrol pembaur di muka. Inilah sebabnya, bahkan dalam upaya penemuan kami, kami memutuskan untuk melakukan uji coba prospektif multisitus besar yang mengumpulkan data standar emas di muka, seperti dalam Uji coba AI-EMERGE.

Untungnya kami memiliki investor yang cukup percaya pada kami untuk memungkinkan kami menghasilkan data ini. Itu sebenarnya risiko besar yang harus diambil karena studi ini sangat mahal. 

Kemudian setelah Anda mendapatkan data, apa yang Anda lakukan dengan itu?

Nah, Anda perlu melatih semua situs secara konsisten, dan mengontrol perancu dari semua situs yang berbeda sehingga pasien terlihat semirip mungkin. Dan kemudian setelah Anda menjalankan sampel, Anda perlu memikirkan cara meminimalkan efek batch, seperti dengan menempatkan campuran sampel yang tepat pada mesin yang berbeda pada proporsi yang tepat.

Ini sangat sulit ketika Anda melakukannya multiomik karena mesin yang menganalisis satu kelas biomolekul dapat mengambil ratusan sampel sekaligus, sedangkan mesin yang menganalisis kelas biomolekul lain mungkin hanya membutuhkan sedikit. Selain itu, Anda ingin menghapus kesalahan manusia. Jadi, kami memperkenalkan otomatisasi cukup banyak di awal, pada tahap hanya menghasilkan data pelatihan.

Juga, ketika Anda memiliki miliaran titik data per orang, menjadi sangat, sangat mudah untuk berpotensi overfit. Jadi kami memastikan pelatihan kami dapat digeneralisasikan ke populasi yang pada akhirnya ingin kami terapkan, dengan koreksi statistik yang tepat dan banyak rangkaian ketidaksepakatan kereta dan pengujian berturut-turut.

Menggabungkan pembelajaran mesin dengan data biomolekuler adalah sesuatu yang coba dilakukan oleh banyak perusahaan biotek, tetapi seringkali ada banyak ketidakjelasan tentang bagaimana mereka akan melakukannya. Apa yang Anda pandang sebagai fitur penting untuk mengintegrasikannya secara efektif?

At nama bebas kami menggabungkan pembelajaran mesin dan multiomik. Untuk melakukan itu, Anda harus melakukan keduanya dengan baik. Kuncinya di sini adalah Anda harus memiliki keahlian yang kuat di keduanya, dan kemudian dapat berbicara dalam bahasa keduanya. Anda harus dwibahasa. 

Ada banyak perusahaan yang ahli dalam satu dan kemudian menaburkan lapisan lainnya. Misalnya, ada perusahaan teknologi yang memutuskan ingin terjun ke bio, tetapi yang mereka lakukan hanyalah mempekerjakan segelintir ilmuwan lab basah. Di sisi lain, ada perusahaan biologi yang mempekerjakan beberapa ilmuwan pembelajaran mesin, kemudian mereka akan menyatakan bahwa mereka adalah perusahaan AI/ML sekarang. 

Yang benar-benar Anda butuhkan adalah kekuatan bangku yang dalam di keduanya. Anda memerlukan pemahaman biologis yang mendalam tentang sistem, tentang berbagai pengujian, tentang fitur-fitur ruang pengetahuan. Tetapi Anda juga perlu memiliki pemahaman mendalam tentang pembelajaran mesin, ilmu data, metode komputasi, dan pembelajaran statistik, dan memiliki platform untuk menerapkannya. 

Itu benar-benar menantang karena kedua daerah itu seringkali sangat silo. Saat Anda memikirkan orang yang Anda rekrut untuk perusahaan, bagaimana Anda membuat jembatan antara dua domain yang berbeda ini?

Saya pikir ada tiga jenis orang yang ingin Anda pekerjakan untuk menjembatani antara teknologi dan bio. Dua yang pertama adalah yang standar, pakar domain dalam pembelajaran mesin atau biologi. Tetapi mereka juga harus terbuka dan mau belajar tentang domain lain, atau bahkan lebih baik, telah memiliki eksposur dan pengalaman bekerja di domain tambahan ini.

Untuk pakar pembelajaran mesin, kami memilih orang yang tidak hanya ada untuk mengembangkan algoritme terbaru, tetapi juga ingin mengambil algoritme terbaru dan menerapkannya pada pertanyaan biologis. 

biologi adalah kacau. Kami tidak hanya tidak memiliki semua metode untuk mengukur analit yang berbeda, tetapi kami terus menemukan biomolekul dan fitur baru. Ada juga banyak faktor pengganggu dan kebisingan yang perlu dipertimbangkan. Masalah-masalah ini umumnya lebih kompleks daripada masalah pembelajaran mesin standar, di mana masalah dan ruang pengetahuan jauh lebih terdefinisi dengan baik. Pakar ML yang ingin menerapkan keahlian mereka dalam biologi perlu memiliki kerendahan hati untuk mempelajari kompleksitas yang ada dalam biologi dan bersedia bekerja dengan kondisi dan perbedaan ketersediaan data yang kurang optimal.

Sisi lain adalah mempekerjakan ahli biologi yang memikirkan masalah mereka dalam hal generasi data kuantitatif skala besar, studi desain untuk mengoptimalkan rasio signal-to-noise, dan menyadari peringatan pembaur dan generalisasi. Ini lebih dari sekedar mampu berbicara dan berpikir dalam bahasa kode. Banyak ahli biologi kami yang sudah membuat kode dan memiliki latar belakang statistik yang baik, dan bersedia dan ingin berkembang di bidang ini. Bahkan, di Freenome, kami sebenarnya memiliki program pelatihan bagi para ahli biologi yang ingin belajar lebih banyak tentang pengkodean untuk dapat mengembangkan penalaran statistik mereka.

Yang lebih penting adalah bahwa desain studi, dan pertanyaan yang dapat kita ajukan, terlihat berbeda ketika dirancang dalam konteks big data dan ML.

Apa tipe ketiga?

Tipe orang ketiga untuk dipekerjakan adalah yang paling sulit ditemukan. Ini adalah jembatan – orang-orang yang telah bekerja dengan lancar di kedua bidang ini. Ada sangat sedikit tempat dan laboratorium di dunia yang berada tepat di persimpangan ini. Mendapatkan orang-orang yang bisa menerjemahkan dan menjembatani kedua bidang itu sangat, sangat penting. Tetapi Anda tidak ingin membangun perusahaan yang hanya terdiri dari jembatan karena seringkali orang-orang ini tidak ahli dalam satu bidang atau bidang lainnya, karena apa yang mereka lakukan. Mereka sering lebih umum dalam pemahaman mereka. Namun, mereka memberikan pekerjaan kritis untuk menyatukan dua bidang.

Jadi, memiliki ketiga kelompok orang itu penting. Jika Anda hanya memiliki salah satu pakar pakar domain, Anda hanya akan kuat di satu bidang. Atau, jika Anda tidak memiliki pembangun jembatan, maka Anda memiliki silo orang yang tidak dapat berbicara satu sama lain. Secara optimal, tim harus menyertakan masing-masing dari ketiga tipe orang ini untuk memungkinkan pemahaman mendalam tentang ML dan biologi serta memberikan sinergi yang efektif dari kedua bidang ini.

Apakah Anda melihat perbedaan dalam bagaimana spesialis dalam masalah teknologi atau komputasi menyerang versus bagaimana ahli biologi mendekati masalah? 

Ya. Untuk satu ekstrem, kita pasti memiliki orang-orang yang berasal dari latar belakang statistik dan kuantitatif dan mereka berbicara dalam kode dan persamaan. Kita perlu membantu mereka untuk mengambil persamaan tersebut dan menjelaskannya dengan cara yang jelas sehingga khalayak umum dapat memahaminya. 

Ahli biologi memiliki imajinasi yang hebat karena mereka bekerja dengan hal-hal yang tidak terlihat. Mereka menggunakan banyak ilustrasi dalam presentasi untuk membantu memvisualisasikan apa yang terjadi secara molekuler, dan mereka memiliki intuisi yang hebat tentang mekanisme dan kompleksitas. Banyak pemikiran ini lebih kualitatif. Ini memberikan cara berpikir dan berkomunikasi yang berbeda.

Jadi, cara orang berkomunikasi akan sangat, sangat berbeda. Kuncinya adalah – kami agak bercanda – kami perlu berkomunikasi dengan cara yang bahkan nenek Anda bisa mengerti. 

Dibutuhkan penguasaan yang benar atas pengetahuan Anda untuk dapat menyederhanakannya sehingga bahkan seorang pemula pun dapat memahaminya. Saya pikir ini sebenarnya pelatihan yang bagus bagi seseorang untuk belajar mengomunikasikan konsep yang sangat sulit di luar cara pintas, jargon, dan bahasa teknis yang normal.

Apa yang mengilhami sudut pandang Anda tentang cara menggabungkan pembelajaran mesin dan biologi?

Jadi, masalahnya bukanlah hal baru, melainkan iterasi terbaru dari masalah lama. Ketika bidang biologi komputasi dan bioinformatika pertama kali diciptakan, masalah yang sama ada. Ilmuwan komputer, ahli statistik, ilmuwan data, atau bahkan fisikawan bergabung dengan bidang biologi dan membawa pemikiran kuantitatif mereka ke lapangan. Pada saat yang sama, para ahli biologi harus mulai membuat model di luar karakterisasi gen sebagai up-regulated dan down-regulated, dan mulai mendekati data secara lebih kuantitatif. Digitalisasi data biologis kini baru saja tumbuh secara eksponensial dalam skala. Masalahnya lebih akut dan luas cakupannya, tetapi tantangan mendasarnya tetap sama.

Apa yang Anda lihat sebagai metrik keberhasilan atau tanda bahaya yang memberi tahu Anda apakah pernikahan itu berhasil atau tidak?

Jika Anda melihat perusahaan yang mencoba menggabungkan bidang, Anda dapat dengan cepat melihat berapa banyak yang mereka investasikan ke satu sisi atau sisi lainnya. Jadi, jika itu adalah perusahaan di mana 90% orangnya adalah ilmuwan lab, dan kemudian mereka hanya mempekerjakan satu atau dua ilmuwan pembelajaran mesin dan mereka menyebut diri mereka perusahaan ML, maka itu mungkin lebih merupakan renungan.

Apakah ada satu pelajaran yang dapat Anda pelajari dari seluruh proses menggabungkan biologi dan pembelajaran mesin ini?

Saya pikir kerendahan hati intelektual, terutama datang dari sisi teknologi. Dengan sesuatu seperti memecahkan pencarian, misalnya, semua informasi sudah dalam bentuk teks yang dapat Anda akses dengan mudah, dan Anda tahu apa yang Anda cari. Jadi, itu menjadi masalah yang bisa dipecahkan, bukan? Masalah dengan biologi adalah bahwa kita bahkan tidak tahu kumpulan data apa yang kita cari, apakah kita memiliki senter yang tepat untuk menyinari area yang tepat. 

Jadi, terkadang ketika pakar teknologi terjun ke bio mereka jatuh ke dalam perangkap penyederhanaan yang berlebihan. Katakanlah, sebagai contoh, untuk pengurutan generasi berikutnya mereka mungkin berkata, “Wow. Kita bisa mengurutkan DNA. Mengapa kita tidak mengurutkan banyak dan banyak DNA saja? Ini menjadi masalah data, dan kemudian kami memecahkan biologi.” 

Tetapi masalahnya adalah bahwa DNA adalah salah satu dari lusinan analit yang berbeda di dalam tubuh. Ada RNA, protein,modifikasi pasca-translasi, kompartemen yang berbeda seperti vesikel ekstraseluler, dan perbedaan waktu, ruang, jenis sel, antara lain. Kita perlu memahami kemungkinan serta keterbatasan setiap modalitas data yang kita gunakan.

Meskipun mungkin sulit dipercaya, biologi masih merupakan bidang dalam masa pertumbuhan. Kita hanya mengurutkan genom manusia sedikit lebih dari dua dekade yang lalu. Sebagian besar waktu, kami tidak dapat mengakses sinyal biologis individu sehingga kami masih melakukan pengukuran yang konglomerat atau rata-rata di banyak sinyal. Kami baru mulai mengukur satu sel pada satu waktu. Masih banyak yang harus dilakukan dan inilah mengapa saat yang menyenangkan untuk masuk ke biologi. 

Tetapi dengan masa kanak-kanak itu muncul potensi besar untuk memecahkan masalah yang akan berdampak besar pada kesehatan dan kesejahteraan manusia. Ini adalah waktu yang sangat menakjubkan karena kami membuka batas baru biologi.

Apa jenis perbatasan? Apakah ada bidang biologi atau kedokteran di mana Anda paling bersemangat untuk melihat komputasi diterapkan?

Ya - semuanya! Tapi biarkan aku berpikir. Dalam kanker, saya percaya bahwa dalam generasi kita, terapi baru dan upaya deteksi dini yang keluar akan mengubah kanker menjadi penyakit kronis yang tidak lagi menakutkan, seperti yang telah kita lakukan untuk HIV. Dan kita mungkin dapat menggunakan jenis metode yang sangat mirip untuk melihat deteksi dan pencegahan penyakit secara lebih umum. Hal utama yang membuat saya bersemangat adalah kita dapat mulai mendeteksi apakah penyakit itu sudah ada sebelum gejalanya muncul. 

Di luar diagnosa kanker, yang juga sangat keren adalah transisi untuk membangun dengan biologi, bukan hanya membaca dan menulis. Saya senang dengan bidang biologi sintetik di mana kita menggunakan biologi sebagai teknologi, apakah itu CRISPR atau peptida sintetik atau nukleotida sintetik. Memanfaatkan biologi sebagai alat menciptakan kemungkinan yang luas untuk sepenuhnya mengubah industri penghasil sumber daya tradisional, dari pertanian menjadi energi. Ini benar-benar waktu yang luar biasa untuk menjadi ahli biologi!

Diposting 5 Oktober 2022

Teknologi, inovasi, dan masa depan, seperti yang diceritakan oleh mereka yang membangunnya.

Terima kasih telah mendaftar.

Periksa kotak masuk Anda untuk pesan selamat datang.

Stempel Waktu:

Lebih dari Andreessen Horowitz