Чому застосувати машинне навчання в біології важко – але воно того варте PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Чому застосувати машинне навчання в біології важко – але воно того варте

Джиммі Лін є CSO of Фріном, яка розробляє тести на основі крові для раннього виявлення раку, починаючи з раку товстої кишки. Він є піонером у розробці обчислювальних підходів для отримання інформації з великомасштабних геномних даних, будучи ініціатором обчислювального аналізу перших загальногеномних досліджень секвенування багатьох типів раку. 

Лін поговорив з Future про труднощі виконання місії компанії щодо поєднання підходів машинного навчання та біологічних даних. Він пояснює, яких трьох типів людей потрібно найняти, щоб побудувати збалансовану технологічну компанію, пасток, яких слід уникати, як визначити, коли поєднання двох полів працює чи ні, і нюанси адаптації біологічних досліджень і машинного навчання. один одному.


МАЙБУТНЄ: Як і в багатьох інших дисциплінах, потенціал застосування машинного навчання до біографії викликає великий інтерес. Але прогрес, здавалося, був здобутий важче. Чи є щось інше в біомолекулярних даних порівняно з типами даних, які зазвичай використовуються в машинному навчанні?

ДЖИММІ ЛІН: Традиційні дані машинного навчання дуже широкі та поверхневі. Тип проблем, які часто вирішує машинне навчання, — це те, що люди можуть вирішити за наносекунди, наприклад розпізнавання зображень. Щоб навчити комп’ютер розпізнавати зображення кота, вам знадобляться мільярди і мільярди зображень, на яких можна потренуватися, але кожне зображення має відносно обмежений вміст даних. Біологічні дані зазвичай навпаки. У нас немає мільярдів людей. Нам пощастило отримати тисячі. Але для кожної людини у нас є мільярди і мільярди точок даних. У нас є менша кількість дуже глибоких даних.

У той же час біологічні питання рідше є проблемами, які людина може вирішити. Ми робимо те, на що не здатні навіть світові експерти в цьому. Отже, характер проблем дуже різний, тому він вимагає нове мислення про те, як ми підходимо до цього.

Чи потрібно створювати підходи з нуля для біомолекулярних даних, чи можна адаптувати існуючі методи?

Є способи, якими ви можете взяти цю глибоку інформацію та представити її, щоб ви могли скористатися перевагами існуючих інструментів, будь то статистичне навчання чи методи глибокого навчання. Це не пряме копіювання та вставка, але є багато способів, за допомогою яких ви можете перенести багато методів машинного навчання та застосувати їх до біологічних проблем, навіть якщо це не пряма карта один-на-один.

Якщо детальніше заглибитися в проблему даних, то біологічні дані дуже варіабельні – є біологічний шум, є експериментальний шум. Який найкращий спосіб підійти до створення готових до машинного навчання біомедичних даних? 

Це чудове запитання. З самого початку Freenome взяв до уваги те, як генерувати найкращі дані, придатні для машинного навчання. Протягом усього процесу від дизайну дослідження до збору зразків, проведення аналізів і аналізу даних потрібно бути обережним на кожному етапі, щоб мати можливість оптимізувати машинне навчання, особливо коли у вас набагато більше функцій, ніж зразків. Це класична проблема великого p малого n.

Перш за все, ми розробили наше дослідження, щоб звести до мінімуму фактори, що вводять в оману. Багато компаній покладалися на історичні набори даних і виконали багато роботи, щоб спробувати мінімізувати когортні ефекти та усунути втручання. Але чи справді це найкращий спосіб зробити це? Ну, ні, найкращий спосіб це зробити — проспективне дослідження, у якому ви заздалегідь контролюєте те, що збиває з пантелику. Ось чому, навіть у наших зусиллях щодо відкриття, ми вирішили провести велике багатосайтове проспективне випробування, яке заздалегідь збирає дані золотого стандарту, як у нашому Випробування AI-EMERGE.

На щастя, у нас є інвестори, які повірили в нас достатньо, щоб дозволити нам генерувати ці дані. Насправді це було великим ризиком, оскільки ці дослідження дуже дорогі. 

Тоді, коли ви отримуєте дані, що ви з ними робите?

Що ж, вам потрібно навчити всі сайти в послідовний спосіб і контролювати змішування з усіх різних сайтів, щоб пацієнти виглядали максимально схожими. А потім, коли ви запускаєте зразки, вам потрібно продумати, як мінімізувати групові ефекти, наприклад, розмістивши правильну суміш зразків на різних машинах у правильних пропорціях.

Це дуже важко, коли ти робиш мультиоміка тому що машини, які аналізують один клас біомолекул, можуть взяти сотні зразків за один прогін, тоді як машини, які аналізують інший клас біомолекул, можуть взяти лише кілька. Крім того, ви хочете усунути людську помилку. Отже, ми запровадили автоматизацію майже наперед, на етапі просто генерації навчальних даних.

Крім того, коли у вас є мільярди точок даних на людину, стає дуже, дуже легко потенційно переналаштувати. Тож ми гарантуємо, що наше навчання можна узагальнити для груп населення, до яких ми зрештою хочемо його застосувати, з правильними статистичними поправками та багатьма послідовними наборами тренувань і тестів.

Поєднання машинного навчання з біомолекулярними даними – це те, що намагаються зробити багато біотехнологічних компаній, але часто існує багато невизначеності щодо того, як вони це зроблять. Що, на вашу думку, є важливою рисою їх ефективної інтеграції?

At Фріном ми поєднуємо машинне навчання та мультиоміку. Щоб це зробити, вам потрібно добре зробити обидва. Ключовим тут є те, що ви повинні мати серйозні знання в обох, а потім вміти говорити мовою обох. Потрібно володіти двома мовами. 

Є багато компаній, які є експертами в одному, а потім розсипають шар іншого. Наприклад, є технологічні компанії, які вирішують зайнятися біологією, але все, що вони роблять, це наймають кілька вчених із мокрих лабораторій. З іншого боку, є біологічні компанії, які наймають деяких науковців з машинного навчання, і тоді вони оголошуватимуть, що тепер вони є компанією ШІ/ML. 

Що вам дійсно потрібно, так це глибока сила лежачи в обох. Вам потрібне глибоке біологічне розуміння системи, різних аналізів, особливостей простору знань. Але вам також потрібно глибоко розуміти машинне навчання, науку про дані, обчислювальні методи та статистичне навчання, а також мати платформи для застосування цього. 

Це справді складно, тому що ці дві сфери часто дуже відокремлені. Коли ви думаєте про людей, яких ви наймаєте в компанію, як створити мости між цими двома різними сферами?

Я думаю, що є три типи людей, яких ви хочете найняти, щоб поєднати технологію та біологію. Перші два — ваші стандартні, експерти в галузі машинного навчання чи біології. Але вони також повинні бути відкритими та бажаючими дізнатися про іншу область, або навіть краще, мати досвід роботи в цих додаткових сферах.

Для експертів з машинного навчання ми обираємо людей, які не лише готові розробити найновіший алгоритм, але й хочуть застосувати новітні алгоритми до біологічних питань. 

Біологія є брудний. Ми не тільки не маємо всіх методів вимірювання різних аналітів, але ми постійно відкриваємо нові біомолекули та особливості. Існує також багато факторів, що втручаються, і шум, який потрібно враховувати. Ці проблеми, як правило, складніші, ніж стандартні проблеми машинного навчання, де проблема та простір знань визначені набагато точніше. Фахівці з машинного навчання, які бажають застосувати свою майстерність у біології, повинні мати скромність, щоб дізнатися про складність, яка існує в біології, і бути готовими працювати з не оптимальними умовами та відмінностями в доступності даних.

Зворотною стороною є наймання біологів, які думають про свої проблеми в термінах генерації кількісних даних більшого масштабу, планують дослідження для оптимізації співвідношення сигнал/шум і знають про застереження, пов’язані з перешкодами та можливістю узагальнення. Це більше, ніж просто здатність говорити та мислити мовою коду. Багато наших біологів уже кодують і мають хорошу статистичну базу, і вони бажають і бажають розвиватися в цих областях. Фактично, у Freenome у нас є навчальні програми для біологів, які хочуть дізнатися більше про кодування, щоб мати змогу розвивати свої статистичні міркування.

Що ще важливіше, так це те, що дизайн дослідження та запитання, які ми можемо поставити, виглядають по-іншому в контексті великих даних і машинного навчання.

Який третій тип?

Третій тип людей найважче знайти. Це мости – люди, які вільно працювали в обох цих сферах. У світі дуже мало місць і лабораторій, які знаходяться прямо на цьому перетині. Залучити людей, які можуть перекладати та з’єднати обидві сфери, дуже, дуже важливо. Але ви не хочете створювати компанію лише з бриджерів, тому що часто ці люди не є експертами в тій чи іншій галузі через те, що вони роблять. Вони часто більш загальні у своєму розумінні. Однак вони забезпечують важливу роботу з об’єднання двох сфер.

Тому важливо мати всі три групи людей. Якщо у вас є лише один фахівець із доменних експертів, ви будете сильні лише в одній галузі. Або, якщо у вас немає будівельників мостів, тоді у вас є окремі люди, які не зможуть спілкуватися один з одним. Оптимально, щоб команди мали включати кожного з цих трьох типів людей, щоб забезпечити глибоке розуміння як МЛ, так і біології, а також забезпечити ефективну синергію обох цих сфер.

Чи бачите ви різницю в тому, як спеціалісти з техніки чи комп’ютерів атакують проблеми та як біологи підходять до проблем? 

так З одного боку, у нас точно є люди, які мають статистичне та кількісне походження, і вони говорять кодами та рівняннями. Нам потрібно допомогти їм взяти ці рівняння та пояснити їх чітко, щоб широка аудиторія могла їх зрозуміти. 

Біологи мають чудову уяву, тому що вони працюють з невидимими речами. Вони використовують багато ілюстрацій у презентаціях, щоб допомогти візуалізувати те, що відбувається на молекулярному рівні, і вони мають чудову інтуїцію щодо механізмів і складності. Багато з цього мислення є більш якісним. Це забезпечує інший спосіб мислення та спілкування.

Отже, те, як люди спілкуються, буде дуже, дуже різним. Головне – ми якось жартома кажемо – нам потрібно спілкуватися так, щоб навіть ваша бабуся могла зрозуміти. 

Це вимагає справжнього володіння вашими знаннями, щоб мати можливість спростити їх так, щоб навіть новачок міг зрозуміти. Я думаю, що це справді чудовий тренінг для когось, щоб навчитися передавати дуже складні концепції поза звичайними скороченнями, жаргоном і технічною мовою.

Що надихнуло вашу точку зору на те, як поєднати машинне навчання та біологію?

Отже, проблема не нова, а скоріше остання ітерація давньої проблеми. Коли поля с обчислювальна біологія та біоінформатика були створені вперше, та сама проблема була. Комп’ютерні спеціалісти, статистики, дослідники даних або навіть фізики приєдналися до галузі біології та привнесли в цю сферу своє кількісне мислення. У той же час біологам довелося почати моделювання, окрім характеристики генів як регульованих угору та вниз, і почати підходити до даних більш кількісно. Зараз масштаби оцифровування біологічних даних просто зросли в геометричній прогресії. Проблема є більш гострою і масштабною, але фундаментальні виклики залишаються тими самими.

Що ви вважаєте показниками успіху чи сигналами, які вказують на те, чи працює ваш шлюб?

Якщо ви подивіться на компанії, які намагаються об’єднати галузі, ви дуже швидко побачите, скільки вони інвестують в ту чи іншу сторону. Отже, якщо це компанія, де 90% людей є вченими лабораторії, а потім вони просто найняли одного чи двох науковців з машинного навчання і вони називають себе компанією ML, то це, мабуть, скоріше запальна думка.

Чи є якийсь урок, який ви засвоїли в усьому цьому процесі поєднання біології та машинного навчання?

Я думаю, інтелектуальна скромність, особливо з технічної сторони. Наприклад, із чимось на кшталт пошуку, уся інформація вже знаходиться в текстовій формі, до якої можна легко отримати доступ, і ви знаєте, що шукаєте. Отже, це стає розв’язною проблемою, чи не так? Проблема з біологією полягає в тому, що ми навіть не знаємо, які набори даних ми шукаємо, чи є у нас правильний ліхтарик, щоб світити в потрібних областях. 

Тож інколи, коли технічні експерти кидаються в біографію, вони потрапляють у пастку надмірного спрощення. Скажімо, як приклад, для секвенування наступного покоління вони можуть сказати: «Вау. Ми можемо секвенувати ДНК. Чому б нам просто не секвенувати багато-багато ДНК? Це стає проблемою даних, а потім ми вирішуємо біологію». 

Але проблема в тому, що ДНК є одним із десятків різних аналітів в організмі. Є РНК, білок,посттрансляційні модифікації, різні компартменти, такі як позаклітинні везикули, а також відмінності в часі, просторі, типі клітин тощо. Нам потрібно розуміти можливості, а також обмеження кожного способу даних, який ми використовуємо.

Хоча в це важко повірити, біологія все ще є галуззю в зародковому стані. Ми просто секвенував геном людини трохи більше двох десятиліть тому. У більшості випадків ми не можемо отримати доступ до окремих біологічних сигналів, тому ми все ще проводимо вимірювання, які є конгломератом або середніми для багатьох сигналів. Ми тільки починаємо вимірювати одну клітинку за раз. Попереду ще багато чого, тому зараз цікавий час вивчати біологію. 

Але з цим дитинством з’являється великий потенціал для вирішення проблем, які матимуть величезний вплив на здоров’я та добробут людини. Це дуже дивовижний час, тому що ми відкриваємо нові кордони біології.

Які кордони? Чи є сфера біології чи медицини, де ви найбільше раді бачити застосування обчислень?

Ага – все! Але дайте мені подумати. Що стосується раку, я вважаю, що в нашому поколінні нові методи лікування та зусилля з раннього виявлення перетворять рак на хронічне захворювання, яке вже не є таким страшним, як ми зробили з ВІЛ. І ми, ймовірно, можемо використовувати дуже схожі типи методів, щоб дивитися на виявлення та профілактику захворювань більш загально. Головне, чим я в захваті, це те, що ми можемо почати виявляти, чи хвороба вже є, ще до появи симптомів. 

Крім діагностики раку, що також дуже круто, так це перехід до створення з біології замість простого читання та письма. Я в захваті від тих сфер синтетичної біології, де ми використовуємо біологію як технологію, чи то CRISPR, чи синтетичні пептиди, чи синтетичні нуклеотиди. Використання біології як інструменту створює широкі можливості для повної трансформації традиційних ресурсогенеруючих галузей, від сільського господарства до енергетики. Це справді чудовий час, щоб бути біологом!

Опубліковано 5 жовтня 2022 року

Технології, інновації та майбутнє за словами тих, хто їх будує.

Дякуємо за реєстрацію.

Перевірте свою поштову скриньку на наявність вітального повідомлення.

Часова мітка:

Більше від Андреессен Горовиц