Dlaczego zastosowanie uczenia maszynowego w biologii jest trudne – ale warto PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Dlaczego zastosowanie uczenia maszynowego w biologii jest trudne – ale warto

Jimmy Lin jest CSO w Wolny, która opracowuje testy oparte na krwi do wczesnego wykrywania raka, począwszy od raka okrężnicy. Jest pionierem w opracowywaniu podejść obliczeniowych do wydobywania spostrzeżeń z wielkoskalowych danych genomicznych, będąc pionierem w analizach obliczeniowych pierwszych badań sekwencjonowania całego genomu w wielu typach nowotworów. 

Lin rozmawiała z Future o wyzwaniach związanych z realizacją misji firmy polegającej na połączeniu metod uczenia maszynowego i danych biologicznych. Wyjaśnia, jakie trzy rodzaje ludzi trzeba zatrudnić, aby zbudować zrównoważoną firmę techbio, pułapki, których należy unikać, jak rozpoznać, kiedy mariaż dwóch dziedzin działa, a kiedy nie, oraz niuanse dostosowania badań biologicznych i uczenia maszynowego do siebie.


PRZYSZŁOŚĆ: Podobnie jak w wielu dyscyplinach, istnieje wiele emocji wokół możliwości zastosowania uczenia maszynowego w bio. Ale postęp wydawał się trudniejszy. Czy jest coś innego w danych biomolekularnych w porównaniu z typami danych, które są zwykle używane w uczeniu maszynowym?

JIMMY LIN: Tradycyjne dane uczenia maszynowego są bardzo szerokie i płytkie. Typy problemów, które często rozwiązuje uczenie maszynowe, to problemy, które ludzie mogą rozwiązać w ciągu nanosekundy, takie jak rozpoznawanie obrazu. Aby nauczyć komputer rozpoznawania obrazu kota, trzeba by trenować miliardy obrazów, ale każdy obraz ma stosunkowo ograniczoną zawartość danych. Dane biologiczne są zwykle odwrotne. Nie mamy miliardów jednostek. Mamy szczęście, że mamy tysiące. Ale dla każdej osoby mamy miliardy punktów danych. Mamy mniejszą liczbę bardzo głębokich danych.

Jednocześnie kwestie biologiczne są rzadziej problemami, które ludzie mogą rozwiązać. Robimy rzeczy, których nawet światowi eksperci nie są w stanie zrobić. Tak więc charakter problemów jest bardzo różny, więc wymaga nowe myslenie o tym, jak do tego podchodzimy.

Czy metody muszą być budowane od podstaw dla danych biomolekularnych, czy można dostosować istniejące metody?

Istnieją sposoby na wykorzystanie tych głębokich informacji i ich wzbogacenie, dzięki czemu można wykorzystać istniejące narzędzia, niezależnie od tego, czy jest to uczenie statystyczne, czy metody głębokiego uczenia się. Nie jest to bezpośrednie kopiowanie-wklejanie, ale istnieje wiele sposobów na przeniesienie wielu metod uczenia maszynowego i zastosowanie ich do problemów biologicznych, nawet jeśli nie jest to bezpośrednia mapa jeden do jednego.

Zagłębiając się w problematykę danych, w danych biologicznych występuje duża zmienność – jest szum biologiczny, jest szum eksperymentalny. Jaki jest najlepszy sposób podejścia do generowania danych biomedycznych gotowych do uczenia maszynowego? 

To świetne pytanie. Freenome od samego początku zastanawiał się, jak generować najlepsze dane dostosowane do uczenia maszynowego. W trakcie całego procesu, od projektu badania, przez pobranie próbek, po przeprowadzanie testów i analizę danych, należy zachować ostrożność na każdym etapie, aby móc zoptymalizować pod kątem uczenia maszynowego, zwłaszcza gdy masz o wiele więcej funkcji niż próbki. To klasyczny problem „duże p małe-n”.

Przede wszystkim zaprojektowaliśmy nasze badanie tak, aby zminimalizować czynniki zakłócające. Wiele firm opiera się na historycznych zbiorach danych i wykonało wiele pracy, aby zminimalizować efekty kohortowe i usunąć czynniki zakłócające. Ale czy to naprawdę najlepszy sposób na zrobienie tego? Cóż, nie, najlepszym sposobem na to jest badanie prospektywne, w którym z góry kontrolujesz czynniki wprowadzające w błąd. Właśnie dlatego, nawet w naszych wysiłkach odkrywania, zdecydowaliśmy się przeprowadzić dużą, wieloośrodkową próbę prospektywną, która z góry gromadzi dane o złotym standardzie, tak jak w naszym Wersja próbna AI-EMERGE.

Na szczęście mamy inwestorów, którzy uwierzyli w nas na tyle, aby umożliwić nam wygenerowanie tych danych. To było naprawdę duże ryzyko, ponieważ te badania są bardzo drogie. 

A kiedy już zdobędziesz dane, co z nimi zrobisz?

Cóż, musisz przeszkolić wszystkie strony w spójny sposób i kontrolować czynniki zakłócające ze wszystkich różnych stron, aby pacjenci wyglądali jak najbardziej do siebie podobni. A potem, gdy już przetestujesz próbki, musisz przemyśleć, jak zminimalizować efekty wsadowe, na przykład umieszczając odpowiednią mieszankę próbek na różnych maszynach w odpowiednich proporcjach.

To jest bardzo trudne, kiedy robisz multiomika ponieważ maszyny analizujące jedną klasę biomolekuł mogą pobierać setki próbek za jednym razem, podczas gdy maszyny analizujące inną klasę biomolekuł mogą pobierać tylko kilka. Ponadto chcesz usunąć błąd ludzki. Tak więc automatyzację wprowadziliśmy na samym początku, już na etapie generowania danych treningowych.

Ponadto, gdy masz miliardy punktów danych na osobę, bardzo, bardzo łatwo jest potencjalnie przerobić. Dlatego upewniamy się, że nasz trening można uogólnić na populacje, do których ostatecznie chcemy go zastosować, z odpowiednimi poprawkami statystycznymi i wieloma kolejnymi zestawami pociągów i testów.

Łączenie uczenia maszynowego z danymi biomolekularnymi jest czymś, co próbuje zrobić wiele firm biotechnologicznych, ale często jest wiele niejasności co do tego, jak to zrobić. Co uważasz za kluczową cechę efektywnej ich integracji?

At Wolny łączymy uczenie maszynowe i multiomikę. Aby to zrobić, musisz dobrze wykonać oba te zadania. Kluczem tutaj jest to, że musisz mieć duże doświadczenie w obu z nich, a następnie być w stanie mówić językiem obu. Musisz być dwujęzyczny. 

Istnieje wiele firm, które są ekspertami w jednej, a następnie nakładają warstwę drugiej. Na przykład są firmy technologiczne, które decydują się na przejście do biotechnologii, ale jedyne, co robią, to zatrudniają garstkę naukowców z mokrego laboratorium. Z drugiej strony są firmy biologiczne, które zatrudniają kilku naukowców zajmujących się uczeniem maszynowym, a następnie deklarują, że są teraz firmą zajmującą się AI/ML. 

To, czego naprawdę potrzebujesz, to głęboka siła ławki w obu. Potrzebujesz głębokiego biologicznego zrozumienia systemu, różnych testów, cech przestrzeni wiedzy. Ale musisz także mieć dogłębną wiedzę na temat uczenia maszynowego, nauki o danych, metod obliczeniowych i uczenia się statystycznego, a także mieć platformy, aby to zastosować. 

To naprawdę trudne, ponieważ te dwa obszary są często bardzo odosobnione. Kiedy myślisz o ludziach, których zatrudniasz dla firmy, jak tworzysz mosty między tymi dwiema różnymi domenami?

Myślę, że są trzy rodzaje ludzi, których chcesz zatrudnić do łączenia technologii i bio. Pierwsze dwa to twoi standardowi, eksperci domenowi w uczeniu maszynowym lub biologii. Ale muszą też być otwarci i chętni do poznania innych domen, a nawet lepiej, mieć ekspozycję i doświadczenie w pracy w tych dodatkowych domenach.

Dla ekspertów od uczenia maszynowego wybieramy osoby, które nie tylko są po to, by opracowywać najnowszy algorytm, ale także chcą wykorzystać najnowsze algorytmy i zastosować je do pytań biologicznych. 

Biologia to niechlujny. Nie tylko nie dysponujemy wszystkimi metodami pomiaru różnych analitów, ale wciąż odkrywamy nowe biomolekuły i cechy. Istnieje również wiele czynników zakłócających i hałasu, który należy wziąć pod uwagę. Problemy te są na ogół bardziej złożone niż standardowe problemy z uczeniem maszynowym, gdzie problem i przestrzeń wiedzy są znacznie lepiej zdefiniowane. Eksperci ML, którzy chcą zastosować swoje rzemiosło w biologii, muszą mieć pokorę, aby dowiedzieć się o złożoności, która istnieje w biologii i być chętni do pracy w mniej niż optymalnych warunkach i różnicach w dostępności danych.

Drugą stroną jest zatrudnianie biologów, którzy myślą o swoich problemach w kategoriach generowania danych ilościowych na większą skalę, badań projektowych mających na celu optymalizację stosunku sygnału do szumu i są świadomi ograniczeń związanych z czynnikami zakłócającymi i uogólniającymi. To coś więcej niż tylko umiejętność mówienia i myślenia w języku kodu. Wielu naszych biologów już koduje i ma dobre przygotowanie statystyczne, a także chce i chce rozwijać się w tych dziedzinach. W rzeczywistości we Freenome mamy programy szkoleniowe dla biologów, którzy chcą dowiedzieć się więcej o kodowaniu, aby móc rozwijać swoje rozumowanie statystyczne.

Co jeszcze ważniejsze, projekt badania i pytania, które jesteśmy w stanie zadać, wyglądają inaczej w kontekście big data i ML.

Jaki jest trzeci typ?

Trzeci typ osoby do zatrudnienia jest najtrudniejszy do znalezienia. To są brydżownicy – ​​ludzie, którzy biegle pracowali w obu tych obszarach. Na tym skrzyżowaniu jest bardzo niewiele miejsc i laboratoriów na świecie. Bardzo ważne jest pozyskanie ludzi, którzy potrafią tłumaczyć i łączyć oba te obszary. Ale nie chcesz budować firmy składającej się wyłącznie z brygadzistów, ponieważ często ci ludzie nie są ekspertami w tej czy innej dziedzinie, ze względu na to, co robią. Często są bardziej ogólne w swoim rozumieniu. Jednak zapewniają one kluczową pracę polegającą na łączeniu tych dwóch dziedzin.

Dlatego ważne jest posiadanie wszystkich trzech grup ludzi. Jeśli masz tylko jednego eksperta domeny, będziesz silny tylko w jednym obszarze. Lub, jeśli nie masz budowniczych mostów, masz silosy ludzi, którzy nie będą mogli ze sobą rozmawiać. Optymalnie, zespoły powinny obejmować każdy z tych trzech typów osób, aby umożliwić dogłębne zrozumienie zarówno ML, jak i biologii, a także zapewnić skuteczną synergię obu tych dziedzin.

Czy widzisz różnice w sposobie, w jaki specjaliści od technologii lub obliczeń atakują problemy, a jak biolodzy podchodzą do problemów? 

Tak. Do jednej skrajności zdecydowanie mamy ludzi, którzy wywodzą się ze statystycznego i ilościowego zaplecza i mówią kodem i równaniami. Musimy pomóc im wziąć te równania i wyjaśnić je w jasny sposób, tak aby ogólna publiczność mogła je zrozumieć. 

Biolodzy mają wielką wyobraźnię, ponieważ pracują z rzeczami niewidzialnymi. Używają wielu ilustracji w prezentacjach, aby pomóc zwizualizować to, co dzieje się molekularnie, i mają świetne wyczucie mechanizmów i złożoności. Wiele z tego myślenia jest bardziej jakościowych. Zapewnia to inny sposób myślenia i komunikowania się.

Tak więc sposób, w jaki ludzie się komunikują, będzie bardzo, bardzo różny. Kluczem jest – trochę żartobliwie mówimy – że musimy komunikować się w sposób, który zrozumie nawet twoja babcia. 

Potrzeba prawdziwego opanowania wiedzy, aby móc ją uprościć, tak aby nawet nowicjusz mógł to zrozumieć. Myślę, że to naprawdę świetny trening dla kogoś, kto uczy się komunikować bardzo trudne pojęcia poza normalnymi skrótami, żargonem i językiem technicznym.

Co zainspirowało Twój punkt widzenia na temat połączenia uczenia maszynowego i biologii?

Tak więc problem nie jest nowy, ale raczej najnowsza iteracja odwiecznego problemu. Kiedy pola biologia obliczeniowa i bioinformatyka zostały stworzone po raz pierwszy, istniał ten sam problem. Informatycy, statystycy, naukowcy zajmujący się danymi, a nawet fizycy dołączyli do dziedziny biologii i przenieśli na nią swoje myślenie ilościowe. W tym samym czasie biolodzy musieli zacząć modelować, wykraczając poza charakteryzację genów jako regulowanych w górę i w dół, i zacząć podchodzić do danych bardziej ilościowo. Cyfryzacja danych biologicznych właśnie wzrosła wykładniczo. Problem jest bardziej dotkliwy i rozległy, ale podstawowe wyzwania pozostają takie same.

Co postrzegasz jako wskaźniki sukcesu lub sygnały ostrzegawcze, które mówią ci, czy małżeństwo działa, czy nie?

Jeśli spojrzysz na firmy, które próbują łączyć pola, bardzo szybko zobaczysz, ile inwestują w jedną lub drugą stronę. Tak więc, jeśli jest to firma, w której 90% ludzi to naukowcy laboratoryjni, a następnie zatrudnili jednego lub dwóch naukowców zajmujących się uczeniem maszynowym i nazywają siebie firmą ML, to prawdopodobnie jest to bardziej refleksja.

Czy jest jakaś lekcja do domu, której nauczyłeś się w całym procesie łączenia biologii i uczenia maszynowego?

Myślę, że intelektualna pokora, zwłaszcza od strony technologicznej. Na przykład w przypadku czegoś takiego jak rozwiązywanie problemów z wyszukiwaniem wszystkie informacje są już w formie tekstowej, do której masz łatwy dostęp i wiesz, czego szukasz. Więc staje się to problemem, który można rozwiązać, prawda? Problem z biologią polega na tym, że nawet nie wiemy, jakich zbiorów danych szukamy, czy nawet mamy odpowiednią latarkę, by oświetlić właściwe obszary. 

Tak więc czasami, gdy eksperci techniczni wskakują w biografię, wpadają w pułapkę nadmiernego uproszczenia. Powiedzmy, jako przykład, dla sekwencjonowania następnej generacji mogą powiedzieć: „Wow. Możemy sekwencjonować DNA. Dlaczego po prostu nie sekwencjonujemy wielu, wielu DNA? Staje się to problemem z danymi, a potem rozwiązujemy biologię”. 

Problem polega jednak na tym, że DNA jest jednym z kilkudziesięciu różnych analitów w organizmie. Jest RNA, białko,modyfikacje potranslacyjne, różne przedziały, takie jak pęcherzyki zewnątrzkomórkowe, oraz między innymi różnice w czasie, przestrzeni, typie komórek. Musimy zrozumieć możliwości, a także ograniczenia każdej używanej przez nas modalności danych.

Choć może trudno w to uwierzyć, biologia wciąż jest dziedziną w powijakach. My tylko zsekwencjonowano ludzki genom nieco ponad dwie dekady temu. Przez większość czasu nie możemy uzyskać dostępu do poszczególnych sygnałów biologicznych, więc nadal wykonujemy pomiary, które są konglomeratem lub średnią dla wielu sygnałów. Dopiero zaczynamy mierzyć jedną komórkę na raz. Jest jeszcze wiele do zrobienia i dlatego jest to ekscytujący czas, aby zagłębić się w biologię. 

Ale wraz z tym niemowlęctwem pojawia się ogromny potencjał rozwiązywania problemów, które będą miały ogromny wpływ na ludzkie zdrowie i samopoczucie. To niesamowity czas, ponieważ otwieramy nowe granice biologii.

Jakie granice? Czy istnieje dziedzina biologii lub medycyny, w której najbardziej cieszy Cię zastosowanie obliczeń?

Tak – wszystko! Ale niech pomyślę. W przypadku raka wierzę, że w naszym pokoleniu nowe terapie i wysiłki na rzecz wczesnego wykrywania, które się pojawiają, przekształcą raka w przewlekłą chorobę, która nie jest już tak przerażająca, jak to zrobiliśmy w przypadku HIV. I prawdopodobnie możemy użyć bardzo podobnych metod, aby bardziej ogólnie spojrzeć na wykrywanie chorób i zapobieganie im. Najważniejszą rzeczą, z której jestem podekscytowany, jest to, że możemy zacząć wykrywać, czy choroba jest już obecna, zanim pojawią się objawy. 

Poza diagnostyką raka, naprawdę fajne jest również przejście do budowania z biologią, a nie tylko do czytania i pisania. Jestem podekscytowany obszarami biologii syntetycznej, w których używamy biologii jako technologii, niezależnie od tego, czy jest to CRISPR, czy syntetyczne peptydy czy syntetyczne nukleotydy. Wykorzystanie biologii jako narzędzia stwarza rozległe możliwości całkowitego przekształcenia tradycyjnych gałęzi przemysłu wytwarzających zasoby, od rolnictwa po energetykę. To naprawdę niesamowity czas na bycie biologiem!

Opublikowano 5 października 2022 r.

Technologia, innowacyjność i przyszłość, jak mówią ci, którzy ją budują.

Dziękujemy za zarejestrowanie się.

Sprawdź w swojej skrzynce odbiorczej wiadomość powitalną.

Znak czasu:

Więcej z Andreessen Horowitz