Почему применять машинное обучение в биологии сложно, но оно того стоит PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Почему применять машинное обучение в биологии сложно, но оно того стоит

Джимми Лин является директором по безопасности Фрином, которая разрабатывает анализы крови для раннего выявления рака, начиная с рака толстой кишки. Он является пионером в разработке вычислительных подходов для извлечения информации из крупномасштабных геномных данных, возглавив вычислительный анализ первых исследований секвенирования всего генома при множественных типах рака. 

Лин рассказал Future о проблемах, связанных с выполнением миссии компании по объединению подходов машинного обучения и биологических данных. Он объясняет, какие три типа людей вам нужно нанять, чтобы построить сбалансированную технологическую компанию, ловушек, которых следует избегать, как определить, когда объединение двух областей работает или не работает, и нюансы адаптации биологических исследований и машинного обучения. друг другу.


БУДУЩЕЕ: Как и во многих дисциплинах, потенциал применения машинного обучения в биосфере вызывает большой интерес. Но прогресс казался более труднодостижимым. Есть ли что-то другое в биомолекулярных данных по сравнению с типами данных, которые обычно используются в машинном обучении?

ДЖИММИ ЛИН: Традиционные данные машинного обучения очень обширны и поверхностны. Тип проблем, которые машинное обучение часто решает, — это то, что люди могут решить за наносекунду, например, распознавание изображений. Чтобы научить компьютер распознавать изображение кошки, вам понадобятся миллиарды и миллиарды изображений для обучения, но каждое изображение относительно ограничено по содержанию данных. Биологические данные обычно противоположны. У нас нет миллиардов людей. Нам повезло получить тысячи. Но для каждого человека у нас есть миллиарды и миллиарды точек данных. У нас есть меньшее количество очень глубоких данных.

В то же время биологические вопросы реже являются проблемами, которые может решить человек. Мы делаем то, что не под силу даже мировым экспертам в этой области. Итак, характер проблем очень разный, поэтому требуется новое мышление о том, как мы подходим к этому.

Нужно ли создавать подходы с нуля для биомолекулярных данных или можно адаптировать существующие методы?

Есть способы, которыми вы можете взять эту глубокую информацию и представить ее так, чтобы вы могли воспользоваться преимуществами существующих инструментов, будь то статистическое обучение или методы глубокого обучения. Это не прямая копипаста, но есть много способов перенести многие методы машинного обучения и применить их к биологическим проблемам, даже если это не прямая индивидуальная карта.

Если еще немного углубиться в проблему данных, то биологические данные отличаются большой изменчивостью — есть биологический шум, есть экспериментальный шум. Как лучше всего подойти к созданию готовых к машинному обучению биомедицинских данных? 

Это отличный вопрос. С самого начала Freenome учитывал, как генерировать данные, наиболее подходящие для машинного обучения. На протяжении всего процесса от планирования исследования до сбора образцов, запуска анализов и анализа данных необходимо проявлять осторожность на каждом этапе, чтобы иметь возможность оптимизировать машинное обучение, особенно когда у вас гораздо больше функций, чем образцов. Это классическая проблема «большое-p-маленькое-n».

Прежде всего, мы разработали наше исследование, чтобы свести к минимуму искажающие факторы. Многие компании полагались на исторические наборы данных и проделали большую работу, пытаясь свести к минимуму когортные эффекты и устранить искажающие факторы. Но действительно ли это лучший способ сделать это? Ну, нет, лучший способ сделать это — проспективное исследование, в котором вы заранее контролируете помехи. Вот почему, даже в наших усилиях по открытию, мы решили провести большое многоцентровое проспективное испытание, которое заранее собирает данные золотого стандарта, как в нашем Пробная версия AI-EMERGE.

К счастью, у нас есть инвесторы, которые достаточно в нас поверили, чтобы позволить нам генерировать эти данные. На самом деле это был большой риск, потому что эти исследования очень дорогие. 

Затем, как только вы получите данные, что вы будете с ними делать?

Что ж, вам нужно тренировать все сайты последовательно и контролировать помехи из всех разных сайтов, чтобы пациенты выглядели как можно более похожими. А затем, после запуска сэмплов, вам нужно подумать, как свести к минимуму эффект партии, например, поместив правильное сочетание сэмплов на разные машины в правильных пропорциях.

Это очень сложно, когда ты делаешь мультиомика потому что машины, которые анализируют один класс биомолекул, могут брать сотни образцов за один прогон, тогда как машины, которые анализируют другой класс биомолекул, могут брать только несколько. Кроме того, вы хотите удалить человеческую ошибку. Итак, мы внедрили автоматизацию практически заранее, на этапе только генерации обучающих данных.

Кроме того, когда у вас есть миллиарды точек данных на человека, становится очень легко потенциально переобучить. Таким образом, мы делаем так, чтобы наше обучение можно было обобщить для групп населения, к которым мы в конечном итоге хотим его применить, с правильными статистическими поправками и множеством последовательных обучающих и тестовых наборов задержек.

Объединение машинного обучения с биомолекулярными данными — это то, что пытаются сделать многие биотехнологические компании, но часто существует много неясностей в отношении того, как они будут это делать. Что, по вашему мнению, необходимо для их эффективной интеграции?

At Фрином мы объединяем машинное обучение и мультиомику. Для того, чтобы сделать это, вы должны сделать и то, и другое хорошо. Ключевым моментом здесь является то, что вы должны иметь большой опыт в обоих из них, а затем быть в состоянии говорить на языке обоих. Вы должны быть двуязычным. 

Есть много компаний, которые являются экспертами в одном, а затем добавляют слой другого. Например, есть технологические компании, которые решают, что хотят заняться био, но все, что они делают, — это нанимают горстку ученых из лабораторий. С другой стороны, есть биологические компании, которые нанимают ученых, занимающихся машинным обучением, а затем заявляют, что теперь они являются компанией AI/ML. 

Что вам действительно нужно, так это глубокая сила жима в обоих случаях. Вам необходимо глубокое биологическое понимание системы, различных анализов, особенностей пространства знаний. Но вам также необходимо иметь глубокое понимание машинного обучения, науки о данных, вычислительных методов и статистического обучения, а также иметь платформы для их применения. 

Это действительно сложно, потому что эти две области часто очень разрозненны. Когда вы думаете о людях, которых вы нанимаете в компанию, как вы создаете мосты между этими двумя разными областями?

Я думаю, что есть три типа людей, которых вы хотите нанять, чтобы навести мосты между технологиями и био. Первые два являются вашими стандартными, экспертами в области машинного обучения или биологии. Но они также должны быть открытыми и готовыми узнать о другой области, или, что еще лучше, иметь представление и опыт работы в этих дополнительных областях.

В качестве экспертов по машинному обучению мы выбираем людей, которые не просто разрабатывают новейший алгоритм, но и хотят использовать новейшие алгоритмы и применять их к биологическим вопросам. 

Биология грязный. У нас не только нет всех методов для измерения различных аналитов, но мы постоянно открываем новые биомолекулы и свойства. Есть также много мешающих факторов и шума, которые необходимо принимать во внимание. Эти проблемы, как правило, более сложны, чем стандартные задачи машинного обучения, где проблема и область знаний определены гораздо точнее. Эксперты по машинному обучению, желающие применить свое мастерство в биологии, должны иметь скромность, чтобы узнать о сложности, которая существует в биологии, и быть готовыми работать с далеко не оптимальными условиями и различиями в доступности данных.

С другой стороны, нанимают биологов, которые думают о своих проблемах с точки зрения крупномасштабной генерации количественных данных, разрабатывают исследования для оптимизации отношения сигнал/шум и осведомлены об опасностях вмешивающихся факторов и обобщаемости. Это больше, чем просто способность говорить и думать на языке кода. Многие из наших биологов уже программируют и имеют хорошие статистические знания, и хотят развиваться в этих областях. На самом деле, у нас в Freenome есть обучающие программы для биологов, которые хотят узнать больше о кодировании, чтобы развить свои статистические рассуждения.

Что еще более важно, так это то, что дизайн исследования и вопросы, которые мы можем задать, выглядят иначе, когда они разработаны в контексте больших данных и машинного обучения.

Какой третий тип?

Труднее всего найти третий тип людей, которых можно нанять. Это бриджеры – люди, свободно работавшие в обеих этих областях. В мире очень мало мест и лабораторий, которые находятся прямо на этом перекрестке. Привлечь людей, которые могут перевести и соединить обе области, очень, очень важно. Но вы не хотите создавать компанию только из бриджеров, потому что часто эти люди не являются экспертами в той или иной области из-за того, что они делают. Они часто более общие в своем понимании. Тем не менее, они обеспечивают критическую работу по объединению двух областей.

Таким образом, наличие всех трех групп людей важно. Если у вас есть только один эксперт в предметной области, вы будете сильны только в одной области. Или, если у вас нет строителей мостов, у вас есть бункеры людей, которые не смогут разговаривать друг с другом. В идеале команды должны включать каждый из этих трех типов людей, чтобы обеспечить глубокое понимание машинного обучения и биологии, а также обеспечить эффективную синергию обеих этих областей.

Видите ли вы разницу в том, как специалисты в области технологий или вычислений решают проблемы, по сравнению с тем, как к ним подходят биологи? 

Ага. С одной стороны, у нас определенно есть люди, которые имеют опыт работы со статистикой и количественными данными, и они говорят кодом и уравнениями. Мы должны помочь им взять эти уравнения и объяснить их понятным образом, чтобы их могла понять широкая аудитория. 

У биологов отличное воображение, потому что они работают с невидимыми вещами. Они используют множество иллюстраций в презентациях, чтобы помочь визуализировать то, что происходит на молекулярном уровне, и у них отличная интуиция в отношении механизмов и сложности. Многое из этого мышления является более качественным. Это обеспечивает другой способ мышления и общения.

Таким образом, то, как люди общаются, будет очень, очень разным. Суть в том, — как бы в шутку говорим мы, — что нам нужно общаться так, чтобы даже ваша бабушка могла понять. 

Требуется настоящее владение своими знаниями, чтобы иметь возможность упростить их так, чтобы их понял даже новичок. Я думаю, что на самом деле это отличная тренировка для кого-то, чтобы научиться передавать очень сложные понятия за пределами обычных сокращений, жаргона и технического языка.

Что вдохновило вас на то, как объединить машинное обучение и биологию?

Итак, проблема не новая, а скорее последняя итерация вековой проблемы. Когда поля вычислительная биология и биоинформатика были впервые созданы,такая же проблема была. Ученые-компьютерщики, статистики, специалисты по данным или даже физики присоединились к области биологии и привнесли в нее свое количественное мышление. В то же время биологи должны были начать моделировать, не ограничиваясь характеристикой генов как повышающей и понижающей регуляции, и начать подходить к данным более количественно. Масштабы оцифровки биологических данных только что выросли в геометрической прогрессии. Проблема стала более острой и масштабной, но основные вызовы остались прежними.

Что вы считаете показателями успеха или красными флажками, которые говорят вам, работает брак или нет?

Если вы посмотрите на компании, которые пытаются объединить области, вы можете очень быстро увидеть, сколько они инвестируют в ту или иную сторону. Итак, если это компания, в которой 90% сотрудников — ученые-лаборанты, а затем они только что наняли одного или двух ученых, занимающихся машинным обучением, и называют себя компанией машинного обучения, то это, вероятно, скорее запоздалая мысль.

Есть ли один важный урок, который вы усвоили во всем этом процессе объединения биологии и машинного обучения?

Я думаю об интеллектуальном смирении, особенно со стороны технологий. Например, в решении для поиска вся информация уже находится в текстовой форме, к которой вы можете легко получить доступ, и вы знаете, что ищете. Итак, это становится решаемой проблемой, верно? Проблема с биологией в том, что мы даже не знаем, какие наборы данных мы ищем, есть ли у нас даже подходящий фонарик, чтобы освещать нужные области. 

Так что иногда, когда технические эксперты берутся за биографию, они попадают в ловушку чрезмерного упрощения. Скажем, в качестве примера, для секвенирования следующего поколения они могут сказать: «Вау. Мы можем секвенировать ДНК. Почему бы нам просто не секвенировать много-много ДНК? Это становится проблемой данных, и тогда мы решаем биологию». 

Но проблема в том, что ДНК — это один из десятков различных аналитов в организме. Есть РНК, белок,посттрансляционные модификации, различные компартменты, такие как внеклеточные везикулы, и различия во времени, пространстве, типе клеток и т.д. Нам необходимо понимать возможности, а также ограничения каждой используемой нами модальности данных.

Хотя в это может быть трудно поверить, биология все еще находится в зачаточном состоянии. Мы только секвенировал геном человека чуть более двух десятков лет назад. Большую часть времени мы не можем получить доступ к отдельным биологическим сигналам, поэтому мы все еще проводим измерения, которые представляют собой конгломерат или усредняют множество сигналов. Мы только начинаем измерять по одной ячейке за раз. Еще многое предстоит сделать, и именно поэтому сейчас самое время заняться биологией. 

Но с этим младенчеством приходит большой потенциал для решения проблем, которые окажут огромное влияние на здоровье и благополучие человека. Это удивительное время, потому что мы открываем новые горизонты биологии.

Какие границы? Есть ли область биологии или медицины, в которой вы больше всего заинтересованы в применении вычислений?

Да - все! Но дай подумать. Что касается рака, я считаю, что в нашем поколении новые методы лечения и усилия по раннему выявлению превратят рак в хроническое заболевание, которое уже не будет таким страшным, как мы сделали с ВИЧ. И мы, вероятно, можем использовать очень похожие типы методов, чтобы взглянуть на выявление и профилактику болезней в более общем плане. Главное, что меня радует, это то, что мы можем начать определять, есть ли уже болезнь, еще до появления симптомов. 

Помимо диагностики рака, что действительно круто, так это переход к строительству с биологией, а не просто к чтению и письму. Я в восторге от областей синтетической биологии, где мы используем биологию как технологию, будь то CRISPR, синтетические пептиды или синтетические нуклеотиды. Использование биологии в качестве инструмента создает широкие возможности для полной трансформации традиционных ресурсодобывающих отраслей, от сельского хозяйства до энергетики. Это действительно прекрасное время для биолога!

Опубликовано: 5 октября, 2022

Технологии, инновации и будущее глазами тех, кто его создает.

Спасибо за регистрацию.

Проверьте свой почтовый ящик на наличие приветственной записки.

Отметка времени:

Больше от Andreessen Horowitz