Makine Öğrenimini Biyolojiye Uygulamak Neden Zor

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Jimmy Lin, Serbest, kolon kanserinden başlayarak erken kanser tespiti için kan bazlı testler geliştiriyor. Büyük ölçekli genomik verilerden içgörüler elde etmek için hesaplamalı yaklaşımlar geliştirmede öncüdür ve çoklu kanser türlerinde ilk genom çapında dizileme çalışmalarının hesaplamalı analizlerine öncülük etmiştir.

Lin, Future ile makine öğrenimi yaklaşımlarını ve biyolojik verileri birleştirmeye yönelik bir şirket misyonunu yürütmenin zorlukları hakkında konuştu. Dengeli bir teknoloji şirketi kurmak için hangi üç tip insanı işe almanız gerektiğini, kaçınmanız gereken tuzakları, iki alanın evliliğinin işe yarayıp yaramadığını nasıl anlayacağınızı ve biyolojik araştırmaları ve makine öğrenimini uyarlamanın nüanslarını açıklıyor. birbirlerine.

GELECEK: Birçok disiplinde olduğu gibi, makine öğrenimini bio'ya uygulama potansiyeli konusunda çok fazla heyecan var. Ancak ilerleme daha zor kazanılmış görünüyor. Tipik olarak makine öğrenimi ile kullanılan veri türleriyle karşılaştırıldığında biyomoleküler verilerle ilgili farklı bir şey var mı?

JIMMY LIN: Geleneksel makine öğrenimi verileri çok geniş ve sığdır. Makine öğreniminin sıklıkla çözdüğü problem türleri, görüntü tanıma gibi insanların bir nanosaniyede çözebilecekleri problemlerdir. Bir bilgisayara bir kedinin görüntüsünü tanımayı öğretmek için üzerinde çalışabileceğiniz milyarlarca, milyarlarca görüntüye sahip olursunuz, ancak her görüntünün veri içeriği nispeten sınırlıdır. Biyolojik veriler genellikle tersidir. Milyarlarca insanımız yok. Binlerce aldığımız için şanslıyız. Ancak her bir birey için milyarlarca ve milyarlarca veri noktamız var. Daha az sayıda çok derin veriye sahibiz.

Aynı zamanda, biyolojik sorular daha az sıklıkla insanların çözebileceği problemlerdir. Bu konuda dünya uzmanlarının bile yapamadığı şeyleri yapıyoruz. Bu nedenle, sorunların doğası çok farklıdır, bu nedenle yeni düşünce buna nasıl yaklaştığımız hakkında.

Biyomoleküler veriler için yaklaşımların sıfırdan oluşturulması gerekiyor mu, yoksa mevcut yöntemleri uyarlayabilir misiniz?

İster istatistiksel öğrenme ister derin öğrenme yöntemleri olsun, mevcut araçlardan yararlanabilmeniz için bu derin bilgiyi almanın ve onu özellik haline getirmenin yolları vardır. Bu doğrudan bir kopyala-yapıştır değildir, ancak doğrudan bire bir harita olmasa bile birçok makine öğrenme yöntemini aktarıp biyolojik problemlere uygulamanın birçok yolu vardır.

Veri sorununu biraz daha derine inersek, biyolojik verilerde çok fazla değişkenlik var – biyolojik gürültü var, deneysel gürültü var. Makine öğrenimine hazır biyomedikal veriler üretmeye yaklaşmanın en iyi yolu nedir?

Bu harika bir soru. Freenome, en başından beri, makine öğrenimi için en uygun verilerin nasıl oluşturulacağını dikkate almıştır. Çalışma tasarımından numune toplamaya, tahlilleri çalıştırmaya ve veri analizine kadar tüm süreç boyunca, özellikle numunelerden çok daha fazla özelliğe sahip olduğunuzda, makine öğrenimini optimize edebilmek için her adımda özen gösterilmesi gerekir. Klasik büyük-p-küçük-n problemi.

Her şeyden önce, çalışmamızı kafa karıştırıcı faktörleri en aza indirecek şekilde tasarladık. Birçok şirket geçmiş veri kümelerine güvendi ve kohort etkilerini en aza indirmek ve kafa karıştırıcı faktörleri ortadan kaldırmak için çok çalıştı. Ama bunu yapmanın gerçekten en iyi yolu bu mu? Hayır, bunu yapmanın en iyi yolu, kafa karıştıranları önceden kontrol ettiğiniz ileriye dönük bir çalışmadır. Bu nedenle, keşif çabalarımızda bile, altın standartta verileri önceden toplayan geniş bir çok bölgeli ileriye dönük deneme yapmaya karar verdik. AI-EMERGE denemesi.

Neyse ki, bu verileri üretmemize izin verecek kadar bize inanan yatırımcılarımız var. Bu çalışmalar çok pahalı olduğu için aslında alınması büyük bir riskti.

O zaman verileri aldıktan sonra, onunla ne yaparsın?

Pekala, tüm siteleri tutarlı bir şekilde eğitmeniz ve hastaların mümkün olduğunca benzer görünmesi için tüm farklı sitelerden gelen karıştırıcıları kontrol etmeniz gerekiyor. Ve sonra numuneleri çalıştırdıktan sonra, doğru numune karışımını farklı makinelere doğru oranlarda koymak gibi parti etkilerini nasıl en aza indireceğinizi düşünmeniz gerekir.

Bunu yaparken çok zor multiomik çünkü bir biyomolekül sınıfını analiz eden makineler bir seferde yüzlerce numune alabilirken, başka bir biyomolekül sınıfını analiz eden makineler sadece birkaç tane alabilir. Bunun da ötesinde, insan hatasını ortadan kaldırmak istiyorsunuz. Bu nedenle, sadece eğitim verilerinin üretilmesi aşamasında otomasyonu hemen hemen ön plana çıkardık.

Ayrıca, kişi başına milyarlarca veri noktanız olduğunda, potansiyel olarak fazla takmak çok, çok kolay hale gelir. Bu nedenle, eğitimimizin, doğru istatistiksel düzeltmeler ve birçok ardışık eğitim ve test bekleme seti ile, nihayetinde onu uygulamak istediğimiz popülasyonlara genelleştirilebilmesini sağlıyoruz.

Makine öğrenimini biyomoleküler verilerle birleştirmek, birçok biyoteknoloji şirketinin yapmaya çalıştığı bir şeydir, ancak çoğu zaman bunu nasıl yapacakları konusunda çok fazla belirsizlik vardır. Bunları etkili bir şekilde entegre etmenin temel bir özelliği olarak neyi görüyorsunuz?

At Serbest makine öğrenimi ile multiomikleri bir araya getiriyoruz. Bunun için her ikisini de iyi yapmanız gerekir. Buradaki anahtar, her ikisinde de güçlü bir uzmanlığa sahip olmanız ve ardından her ikisinin de dilini konuşabilmeniz gerektiğidir. İki dilli olmanız gerekiyor.

Birinde uzman olan ve daha sonra diğerinin bir katmanına serpiştiren birçok şirket var. Örneğin, biyolojiye atlamak istediklerine karar veren teknoloji şirketleri var, ancak tek yaptıkları bir avuç ıslak laboratuvar bilim insanını işe almak. Öte yandan, bazı makine öğrenimi bilim adamlarını işe alan biyoloji şirketleri var, o zaman şimdi bir AI/ML şirketi olduklarını ilan edecekler.

Gerçekten ihtiyacınız olan şey, her ikisinde de derin bench gücüdür. Sistem, farklı tahliller, bilgi alanının özellikleri hakkında derin bir biyolojik anlayışa ihtiyacınız var. Ancak aynı zamanda makine öğrenimi, veri bilimi, hesaplama yöntemleri ve istatistiksel öğrenme hakkında derin bir anlayışa sahip olmanız ve bunu uygulayacak platformlara sahip olmanız gerekir.

Bu gerçekten zor, çünkü bu iki alan genellikle çok silolu. Şirket için işe alacağınız insanları düşündüğünüzde, bu iki farklı alan arasında nasıl köprüler kurarsınız?

Teknoloji ve biyo arasında köprü kurmak için kiralamak isteyeceğiniz üç tür insan olduğunu düşünüyorum. İlk ikisi standart olanlarınızdır, makine öğrenimi veya biyoloji alanındaki alan uzmanları. Ancak, diğer alan hakkında bilgi edinmek için açık ve istekli olmaları veya daha da iyisi, bu ek alanlarda çalışma deneyimine ve maruz kalmalarına sahip olmaları gerekir.

Makine öğrenimi uzmanları için, yalnızca en son algoritmayı geliştirmek için orada bulunan değil, aynı zamanda en son algoritmaları alıp biyolojik sorulara uygulamak isteyen kişileri seçiyoruz.

biyoloji dağınık. Sadece farklı analitleri ölçmek için tüm yöntemlere sahip değiliz, aynı zamanda sürekli olarak yeni biyomoleküller ve özellikler keşfediyoruz. Ayrıca, dikkate alınması gereken birçok kafa karıştırıcı faktör ve gürültü vardır. Bu problemler genellikle problemin ve bilgi alanının çok daha iyi tanımlandığı standart makine öğrenme problemlerinden daha karmaşıktır. Becerilerini biyolojide uygulamak isteyen makine öğrenimi uzmanlarının, biyolojide var olan karmaşıklığı öğrenmek için alçakgönüllü olmaları ve optimal koşullardan daha azıyla ve veri kullanılabilirliğindeki farklılıklarla çalışmaya istekli olmaları gerekir.

Diğer taraf, sorunlarını daha büyük ölçekli nicel veri üretimi, sinyal-gürültü oranlarını optimize etmek için tasarım çalışmaları açısından düşünen ve karıştırıcıların ve genelleştirilebilirliğin uyarılarının farkında olan biyologları işe alıyor. Sadece kod dilinde konuşup düşünebilmekten daha fazlasıdır. Biyologlarımızın çoğu zaten kodlama yapıyor ve iyi bir istatistiksel geçmişe sahipler ve bu alanlarda gelişmeye istekli ve istekliler. Aslında Freenome'da, istatistiksel akıl yürütmelerini geliştirebilmek için kodlama hakkında daha fazla bilgi edinmek isteyen biyologlar için eğitim programlarımız var.

Daha da önemlisi, çalışma tasarımı ve sorabileceğimiz sorular, büyük veri ve ML bağlamında tasarlandığında farklı görünüyor.

Üçüncü tip nedir?

Kiralanacak üçüncü kişi türü, bulunması en zor olanıdır. Bunlar köprücüler – bu alanların her ikisinde de akıcı bir şekilde çalışmış insanlar. Dünyada tam da bu kavşakta olan çok az yer ve laboratuvar var. Her iki alanda da tercüme yapabilecek ve köprü kurabilecek insanları bulmak çok ama çok önemli. Ancak, yalnızca köprücülerden oluşan bir şirket kurmak istemezsiniz çünkü bu insanlar genellikle yaptıkları iş nedeniyle şu veya bu alanda uzman değildir. Anlayışları genellikle daha geneldir. Ancak, iki alanı bir araya getirmenin kritik çalışmasını sağlarlar.

Bu nedenle, her üç gruba da sahip olmak önemlidir. Alan uzmanı uzmanlarından yalnızca birine sahipseniz, yalnızca bir alanda güçlü olursunuz. Ya da köprü inşaatçılarınız yoksa, birbirleriyle konuşamayacak silolarca insan var demektir. Optimal olarak, ekipler hem makine öğrenimi hem de biyoloji hakkında derinlemesine bir anlayışa izin vermek ve bu iki alanın etkili sinerjisini sağlamak için bu üç insan türünden her birini içermelidir.

Teknoloji veya hesaplama uzmanlarının sorunlara nasıl saldırdığı ile biyologların sorunlara nasıl yaklaştığı arasında farklılıklar görüyor musunuz?

Evet. Bir uçta, kesinlikle istatistiksel ve nicel bir arka plandan gelen ve kod ve denklemlerle konuşan insanlarımız var. Bu denklemleri almalarına ve genel bir izleyici kitlesinin anlayabilmesi için net bir şekilde açıklamalarına yardımcı olmalıyız.

Biyologların harika bir hayal gücü vardır çünkü görünmez şeylerle çalışırlar. Moleküler olarak neler olduğunu görselleştirmeye yardımcı olmak için sunumlarda çok sayıda illüstrasyon kullanırlar ve mekanizmalar ve karmaşıklık hakkında harika sezgileri vardır. Bu düşüncenin çoğu daha nitelikseldir. Bu, farklı bir düşünme ve iletişim yolu sağlar.

Yani, insanların iletişim kurma şekli çok, çok farklı olacak. İşin püf noktası – şaka yollu söylüyoruz – büyükannenizin bile anlayabileceği şekilde iletişim kurmamız gerekiyor.

Acemi birinin bile anlayabilmesi için onu basitleştirebilmek için bilginizde gerçek bir ustalık gerekir. Bence birisi için normal kısayollar, jargon ve teknik dil dışında çok zor kavramları iletmeyi öğrenmek gerçekten harika bir eğitim.

Makine öğrenimi ve biyolojiyi nasıl bir araya getireceğinize dair özel bakış açınıza ne ilham verdi?

Yani sorun yeni değil, daha çok asırlık bir sorunun en son yinelemesi. alanları ne zaman hesaplamalı biyoloji ve biyoinformatik ilk yaratıldı, aynı sorun vardı. Bilgisayar bilimcileri, istatistikçiler, veri bilimcileri ve hatta fizikçiler biyoloji alanına katılarak nicel düşüncelerini alana taşıdılar. Aynı zamanda, biyologlar, genleri yukarı-düzenlenmiş ve aşağı-düzenlenmiş olarak nitelendirmenin ötesinde modellemeye başlamak ve verilere daha niceliksel olarak yaklaşmaya başlamak zorunda kaldılar. Biyolojik verilerin sayısallaştırılması, şimdi ölçek olarak katlanarak büyüdü. Sorun daha akut ve kapsam olarak daha geniş, ancak temel zorluklar aynı kalıyor.

Evliliğin işe yarayıp yaramadığını size söyleyen başarı ölçütleri veya kırmızı bayraklar olarak ne düşünüyorsunuz?

Alanları birleştirmeye çalışan şirketlere bakarsanız, bir tarafa ne kadar yatırım yaptıklarını çok hızlı bir şekilde görebilirsiniz. Yani, insanların %90'ının laboratuvar bilimci olduğu bir şirketse ve bir veya iki makine öğrenimi bilimcisi işe aldılarsa ve kendilerine bir ML şirketi diyorlarsa, bu muhtemelen daha sonra düşünülmüştür.

Biyoloji ve makine öğrenimini birleştirme sürecinin tamamında öğrendiğiniz bir eve dönüş dersi var mı?

Bence entelektüel alçakgönüllülük, özellikle teknoloji tarafından geliyor. Örneğin, arama için çözme gibi bir şeyle, tüm bilgiler zaten kolayca erişebileceğiniz bir metin biçimindedir ve ne aradığınızı bilirsiniz. Yani, çözülebilir bir problem haline geliyor, değil mi? Biyoloji ile ilgili sorun, hangi veri kümelerini aradığımızı bile bilmememiz, hatta doğru alanlarda parlayacak doğru el fenerimiz olup olmadığını bile bilmememizdir.

Bu nedenle, bazen teknoloji uzmanları biyografiye atladıklarında aşırı basitleştirme tuzağına düşerler. Örnek olarak, yeni nesil dizileme için “Vay canına” diyebilirler. DNA'yı sıralayabiliriz. Neden bir sürü DNA dizilişi yapmıyoruz? Bu bir veri sorunu haline gelir ve sonra biyolojiyi çözeriz.”

Ancak sorun şu ki, DNA vücuttaki düzinelerce farklı analitten biridir. RNA, protein var,çeviri sonrası değişiklikler, hücre dışı veziküller gibi farklı bölmeler ve diğerlerinin yanı sıra zaman, uzay, hücre tipindeki farklılıklar. Kullandığımız her veri yönteminin olanaklarını ve sınırlamalarını anlamamız gerekir.

İnanması zor olsa da, biyoloji henüz emekleme aşamasında olan bir alandır. Biz yalnizca bir insan genomu dizilimi iki yıldan biraz fazla bir süre önce. Çoğu zaman, bireysel biyolojik sinyallere erişemiyoruz, bu nedenle hala birçok sinyal arasında bir küme veya ortalama olan ölçümler alıyoruz. Her seferinde bir hücreyi ölçmeye başlıyoruz. Hala yapacak çok şey var ve bu yüzden biyolojiye girmek için heyecan verici bir zaman.

Ancak bu bebeklik dönemiyle birlikte, insan sağlığı ve refahı üzerinde büyük etkileri olacak sorunları çözmek için büyük bir potansiyel ortaya çıkıyor. Oldukça harika bir zaman çünkü biyolojide yeni ufuklar açıyoruz.

Ne tür sınırlar? Hesaplamanın uygulandığını görmekten en çok heyecan duyduğunuz bir biyoloji veya tıp alanı var mı?

Evet - her şey! Ama düşünmeme izin ver. Kanserde, bizim neslimizde ortaya çıkan yeni terapiler ve erken teşhis çabalarının kanseri, HIV için yaptığımız gibi artık çok korkutucu olmayan kronik bir hastalığa dönüştüreceğine inanıyorum. Ve muhtemelen daha genel olarak hastalık tespiti ve önlenmesine bakmak için çok benzer türde yöntemler kullanabiliriz. Beni heyecanlandıran en önemli şey, hastalığın semptomlardan önce orada olup olmadığını tespit etmeye başlayabilmemiz.

Kanser teşhisi dışında, gerçekten harika olan şey, sadece okumak ve yazmak yerine biyoloji ile inşa etmeye geçiştir. CRISPR veya sentetik peptitler veya sentetik nükleotitler olsun, biyolojiyi bir teknoloji olarak kullandığımız sentetik biyoloji alanları beni heyecanlandırıyor. Biyolojiyi bir araç olarak kullanmak, tarımdan enerjiye kadar geleneksel kaynak üreten endüstrileri tamamen dönüştürmek için geniş olanaklar yaratır. Biyolog olmak için gerçekten harika bir zaman!

5 Ekim 2022'de yayınlandı

Onu inşa edenlerin söylediği gibi teknoloji, yenilik ve gelecek.

Üye olduğunuz için teşekkürler.

Karşılama notu için gelen kutunuzu kontrol edin.

Zaman Damgası: 5 Ekim 20226 Ekim 2022

Makine Öğrenimini Biyolojiye Uygulamak Neden Zor - Ama Buna Değer

Plato tarafından yeniden yayınlandı

Üye olduğunuz için teşekkürler.

Den fazla Andreessen Horowitz

Asiacrypt '22: Alan Notları

Lightspeed Democracy: Web3 organizasyonlarının yönetişim tarihinden neler öğrenebileceği

Aztek'e Yatırım

Azra Games'e Yatırım

Boru Hattı Her Şeyi İyileştirir

Yıl Ortası Özeti: Web3 ve Science Collide

Moore ile Daha Fazlasını Yapmak: Biotech'in Teknoloji Anı

MVMNT'ye yatırım yapmak

MotherDuck'a Yatırım

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap