생물학에 기계 학습을 적용하는 것이 어려운 이유 – 그러나 그만한 가치가 있는 PlatoBlockchain 데이터 인텔리전스. 수직 검색. 일체 포함.

기계 학습을 생물학에 적용하는 것이 어려운 이유 – 하지만 가치가 있는 것

Jimmy Lin은 프리 놈, 대장암을 시작으로 조기 암 진단을 위한 혈액 기반 검사를 개발하고 있습니다. 그는 여러 암 유형에 대한 최초의 게놈 전체 시퀀싱 연구의 컴퓨터 분석을 주도하면서 대규모 게놈 데이터에서 통찰력을 추출하는 컴퓨터 접근 방식을 개발하는 선구자입니다. 

Lin은 기계 학습 접근 방식과 생물학적 데이터를 결합하려는 회사 임무를 수행하는 데 따르는 어려움에 대해 Future와 이야기했습니다. 그는 균형 잡힌 테크바이오 기업을 만들기 위해 어떤 세 가지 유형의 사람들을 고용해야 하는지, 피해야 할 함정, 두 분야의 결합이 작동하는지 여부를 구별하는 방법, 생물학 연구와 머신 러닝을 적용하는 뉘앙스를 설명합니다. 서로에게.


미래: 많은 분야와 마찬가지로 기계 학습을 바이오에 적용할 가능성에 대해 많은 관심이 있습니다. 그러나 진전은 더 어렵게 느껴졌다. 일반적으로 기계 학습에 사용되는 데이터 유형과 비교하여 생체 분자 데이터에 다른 점이 있습니까?

JIMMY LIN: 전통적인 기계 학습 데이터는 매우 광범위하고 얕습니다. 기계 학습이 종종 해결하는 문제 유형은 이미지 인식과 같이 인간이 나노초 안에 해결할 수 있는 문제입니다. 컴퓨터가 고양이의 이미지를 인식하도록 가르치려면 훈련할 수십억 개의 이미지가 있어야 하지만 각 이미지의 데이터 내용은 상대적으로 제한적입니다. 생물학적 데이터는 일반적으로 반대입니다. 수십억 명의 개인이 없습니다. 우리는 수천 개의 운이 좋습니다. 그러나 각 개인에 대해 수십억 개의 데이터 포인트가 있습니다. 더 적은 수의 매우 깊은 데이터가 있습니다.

동시에 생물학적 문제는 인간이 해결할 수 있는 문제인 경우가 적습니다. 우리는 이 분야의 세계 전문가들도 할 수 없는 일을 하고 있습니다. 따라서 문제의 성격이 매우 다르기 때문에 다음이 필요합니다. 새로운 생각 우리가 이에 접근하는 방법에 대해.

생체 분자 데이터에 대한 접근 방식을 처음부터 구축해야 합니까, 아니면 기존 방법을 적용할 수 있습니까?

통계 학습이든 딥 러닝 방법이든 기존 도구를 활용할 수 있도록 이 심층 정보를 가져와 기능화할 수 있는 방법이 있습니다. 직접 복사-붙여넣기는 아니지만 직접 일대일 지도가 아니더라도 많은 기계 학습 방법을 이전하고 생물학적 문제에 적용할 수 있는 방법이 많이 있습니다.

데이터 문제를 좀 더 파고들면 생물학적 데이터에는 많은 변동성이 있습니다. 생물학적 잡음이 있고 실험적 잡음이 있습니다. 기계 학습이 가능한 생체의학 데이터 생성에 접근하는 가장 좋은 방법은 무엇입니까? 

좋은 질문입니다. 처음부터 Freenome은 기계 학습에 가장 적합한 데이터를 생성하는 방법을 고려했습니다. 연구 설계, 샘플 수집, 분석 실행, 데이터 분석에 이르는 전체 프로세스 전반에 걸쳐, 특히 샘플보다 훨씬 더 많은 기능이 있는 경우 기계 학습에 최적화할 수 있도록 모든 단계에서 주의가 필요합니다. 고전적인 big-p little-n 문제입니다.

무엇보다도, 우리는 혼란을 최소화하기 위해 연구를 설계했습니다. 많은 기업이 과거 데이터 세트에 의존하고 코호트 효과를 최소화하고 교란 요소를 제거하기 위해 많은 노력을 기울였습니다. 하지만 그것이 정말 최선의 방법일까요? 글쎄요, 아니요. 가장 좋은 방법은 교란 요인을 사전에 통제하는 전향적 연구입니다. 이것이 바로 우리의 발견 노력에도 불구하고 우리가 우리의에서와 같이 골드 표준 데이터를 사전에 수집하는 대규모 다중 사이트 전향적 시험을 수행하기로 결정한 이유입니다. AI-EMERGE 시험.

다행히도 우리는 이러한 데이터를 생성할 수 있을 만큼 우리를 믿어준 투자자들이 있습니다. 이러한 연구는 비용이 많이 들기 때문에 실제로 큰 위험을 감수해야 했습니다. 

그런 다음 데이터를 얻은 후에는 무엇을 합니까?

모든 사이트를 일관된 방식으로 훈련하고 모든 다른 사이트의 교란자를 제어하여 환자가 가능한 한 비슷하게 보이도록 해야 합니다. 그런 다음 샘플을 실행한 후에는 다른 기계에 올바른 비율로 샘플을 적절히 혼합하여 배치하는 것과 같이 배치 효과를 최소화하는 방법을 생각해야 합니다.

당신이 할 때 이것은 매우 어렵습니다. 멀티오믹스 한 종류의 생체 분자를 분석하는 기계는 한 번에 수백 개의 샘플을 채취할 수 있는 반면, 다른 종류의 생체 분자를 분석하는 기계는 몇 개만 채취할 수 있기 때문입니다. 그 위에 인적 오류를 제거하고 싶습니다. 그래서 우리는 훈련 데이터를 생성하는 단계에서 거의 사전에 자동화를 도입했습니다.

또한 XNUMX인당 수십억 개의 데이터 포인트가 있는 경우 잠재적으로 과적합되기가 매우 쉽습니다. 따라서 올바른 통계 수정과 많은 연속적인 훈련 및 테스트 홀드아웃 세트를 사용하여 궁극적으로 적용하려는 모집단에 훈련을 일반화할 수 있는지 확인합니다.

기계 학습을 생체 분자 데이터와 결합하는 것은 많은 생명 공학 회사가 하려고 하는 일이지만 종종 이를 수행하는 방법에 대해 많은 모호함이 있습니다. 이들을 효과적으로 통합하기 위한 필수 기능은 무엇이라고 보십니까?

At 프리 놈 우리는 머신 러닝과 멀티오믹스를 결합하고 있습니다. 그러려면 둘 다 잘해야 합니다. 여기서 핵심은 두 가지 모두에 대한 강력한 전문 지식이 있어야 하며 두 가지 언어를 모두 구사할 수 있어야 한다는 것입니다. 이중 언어를 구사해야 합니다. 

하나의 전문가이고 다른 하나의 레이어에 뿌리는 회사가 많이 있습니다. 예를 들어, 바이오 분야에 뛰어들기로 결정한 기술 회사가 있지만 그들이 하는 일은 소수의 습식 실험실 과학자를 고용하는 것뿐입니다. 반면에 일부 기계 학습 과학자를 고용한 생물학 회사는 이제 AI/ML 회사라고 선언할 것입니다. 

당신에게 정말로 필요한 것은 두 가지 모두에서 깊은 벤치 스트렝스입니다. 시스템, 다양한 분석, 지식 공간의 기능에 대한 깊은 생물학적 이해가 필요합니다. 그러나 기계 학습, 데이터 과학, 계산 방법 및 통계 학습에 대한 깊은 이해와 이를 적용할 플랫폼도 필요합니다. 

이 두 영역은 종종 매우 고립되어 있기 때문에 이는 정말 어려운 일입니다. 회사에 고용할 사람들에 대해 생각할 때 이 두 가지 다른 도메인 사이에 다리를 어떻게 만드나요?

기술과 바이오 사이의 가교 역할을 하기 위해 고용하고 싶은 사람은 세 종류가 있다고 생각합니다. 처음 두 가지는 기계 학습 또는 생물학의 도메인 전문가인 표준 전문가입니다. 그러나 그들은 또한 개방적이어야 하고 다른 영역에 대해 배우고자 하는 의지가 있어야 합니다.

기계 학습 전문가의 경우 최신 알고리즘을 개발할 뿐만 아니라 최신 알고리즘을 사용하여 생물학적 질문에 적용하려는 사람을 선택합니다. 

생물학은 지저분한. 다양한 분석 물질을 측정할 수 있는 모든 방법이 없을 뿐만 아니라 새로운 생체 ​​분자와 특징을 지속적으로 발견하고 있습니다. 또한 고려해야 할 많은 혼란 요소와 소음이 있습니다. 이러한 문제는 일반적으로 문제와 지식 공간이 훨씬 더 잘 정의된 표준 기계 학습 문제보다 더 복잡합니다. 자신의 기술을 생물학에 적용하려는 ML 전문가는 생물학 내에 존재하는 복잡성에 대해 배울 수 있는 겸손을 가져야 하며 최적이 아닌 조건과 데이터 가용성의 차이에 대해 기꺼이 작업할 수 있어야 합니다.

반면에 대규모 양적 데이터 생성, 신호 대 잡음비 최적화를 위한 설계 연구, 교란 요인 및 일반화 가능성에 대한 주의 사항을 알고 있는 생물학자를 고용하고 있습니다. 이는 단순히 코드 언어로 말하고 생각할 수 있는 것 이상입니다. 우리의 많은 생물학자들은 이미 코드를 작성하고 좋은 통계적 배경을 가지고 있으며 이 분야로 성장할 의향이 있고 원합니다. 실제로 Freenome에는 통계적 추론을 개발할 수 있도록 코딩에 대해 더 배우고자 하는 생물학자를 위한 교육 프로그램이 있습니다.

훨씬 더 중요한 것은 연구 설계와 우리가 던질 수 있는 질문이 빅 데이터와 ML의 맥락에서 설계될 때 다르게 보인다는 것입니다.

세 번째 유형은 무엇입니까?

고용할 세 번째 유형의 사람은 찾기가 가장 어렵습니다. 이들은 이 두 분야에서 유창하게 일한 사람들입니다. 이 교차로에 바로 있는 장소와 연구실은 전 세계에 거의 없습니다. 두 영역을 모두 번역하고 연결할 수 있는 사람을 확보하는 것이 매우 중요합니다. 그러나 종종 이 사람들이 하는 일 때문에 한 분야 또는 다른 분야의 전문가가 아니기 때문에 브리지만 있는 회사를 만들고 싶지는 않습니다. 그들은 종종 더 일반적으로 이해합니다. 그러나 그들은 두 분야를 하나로 모으는 중요한 작업을 제공합니다.

따라서 세 그룹의 사람들을 모두 갖는 것이 중요합니다. 도메인 전문가 전문가가 한 명만 있다면 한 분야에서만 강해질 것입니다. 또는 다리 건설자가 없으면 서로 대화할 수 없는 사일로가 있습니다. 최적으로 팀은 ML과 생물학에 대한 깊은 이해를 허용하고 이 두 분야의 효과적인 시너지를 제공할 수 있도록 이 세 가지 유형의 사람들 각각을 포함해야 합니다.

기술 또는 계산 공격 문제의 전문가와 생물학자가 문제에 접근하는 방법의 차이점이 있습니까? 

응. 극단적으로 말하면 통계 및 양적 배경을 갖고 코드와 방정식으로 말하는 사람들이 있습니다. 우리는 그들이 그 방정식을 취하고 일반 청중이 이해할 수 있도록 명확한 방식으로 설명하도록 도와야 합니다. 

생물학자들은 보이지 않는 것을 다루기 때문에 상상력이 뛰어납니다. 그들은 분자적으로 무슨 일이 일어나고 있는지 시각화하는 데 도움이 되도록 프레젠테이션에서 많은 삽화를 사용하고 메커니즘과 복잡성에 대한 뛰어난 직관력을 가지고 있습니다. 이 생각의 많은 부분이 더 질적입니다. 이것은 다른 사고 방식과 의사 소통 방식을 제공합니다.

따라서 사람들이 의사 소통하는 방식은 매우, 매우 다를 것입니다. 핵심은 농담처럼 할머니도 이해할 수 있는 방식으로 소통해야 한다는 것입니다. 

초보자도 이해할 수 있도록 단순화하려면 지식에 대한 진정한 숙달이 필요합니다. 나는 누군가가 일반적인 지름길, 전문 용어 및 기술 언어 이외의 매우 어려운 개념을 의사 소통하는 방법을 배우는 것은 실제로 훌륭한 교육이라고 생각합니다.

기계 학습과 생물학을 결합하는 방법에 대한 특별한 관점에 영감을 준 것은 무엇입니까?

따라서 문제는 새로운 것이 아니라 오래된 문제의 최신 반복입니다. 의 필드가 전산생물학 및 생물정보학 처음 만들어졌다, 같은 문제가 있었습니다. 컴퓨터 과학자, 통계학자, 데이터 과학자, 심지어 물리학자도 생물학 분야에 합류하여 양적 사고를 현장에 도입했습니다. 동시에 생물학자는 유전자를 상향 조절 및 하향 조절되는 것으로 특성화하는 것 이상으로 모델링을 시작하고 데이터에 더 정량적으로 접근해야 했습니다. 이제 생물학적 데이터의 디지털화 규모가 기하급수적으로 증가했습니다. 문제는 범위가 더 심각하고 광범위하지만 근본적인 문제는 동일하게 유지됩니다.

결혼 생활이 제대로 작동하는지 여부를 알려주는 성공 지표 또는 위험 신호로 무엇을 보십니까?

분야를 결합하려는 기업을 보면 어느 한쪽에 얼마나 많은 투자를 하고 있는지 금방 알 수 있습니다. 따라서 직원의 90%가 실험실 과학자이고 기계 학습 과학자 한 두 명을 고용하고 스스로를 ML 회사라고 부르는 회사라면 그건 아마도 나중에 생각해야 할 문제일 것입니다.

생물학과 기계 학습을 결합하는 이 전체 과정에서 배운 교훈이 있습니까?

나는 지적 겸손, 특히 기술 측면에서 오는 것 같아요. 예를 들어, 검색을 위한 해결과 같은 기능을 사용하면 모든 정보가 이미 텍스트 형식으로 되어 있어 쉽게 액세스할 수 있으며 찾고 있는 내용을 알 수 있습니다. 그럼 풀 수 있는 문제가 되겠죠? 생물학의 문제는 우리가 찾고 있는 데이터 세트가 무엇인지조차 모른다는 것입니다. 올바른 영역을 비출 수 있는 올바른 손전등이 있는지 여부도 알 수 없습니다. 

따라서 기술 전문가가 바이오 분야에 뛰어들 때 지나치게 단순화하는 함정에 빠지는 경우가 있습니다. 예를 들어 차세대 시퀀싱의 경우 "와우. 우리는 DNA를 시퀀싱할 수 있습니다. 왜 우리는 많은 DNA를 시퀀싱하지 않습니까? 그것은 데이터 문제가 되고 우리는 생물학을 해결합니다.” 

그러나 문제는 DNA가 신체의 수십 가지 다른 분석 물질 중 하나라는 것입니다. RNA, 단백질,번역 후 수정, 세포 외 소포와 같은 다른 구획 및 시간, 공간, 세포 유형의 차이. 우리는 우리가 사용하는 각 데이터 양식의 가능성과 한계를 이해해야 합니다.

믿기 ​​어려울 수 있지만 생물학은 아직 초기 단계입니다. 우리는 그냥 인간 게놈 시퀀싱 XNUMX여 년 전. 대부분의 경우 우리는 개별 생체 신호에 액세스할 수 없으므로 많은 신호에 대해 종합적이거나 평균적인 측정을 계속 수행하고 있습니다. 우리는 한 번에 하나의 세포를 측정하기 시작했습니다. 아직 해야 할 일이 많고 이것이 생물학을 공부하기에 흥미로운 시기인 이유입니다. 

그러나 그 유아기에는 인간의 건강과 웰빙에 큰 영향을 미칠 문제를 해결할 수 있는 큰 잠재력이 있습니다. 우리가 생물학의 새로운 지평을 열었기 때문에 매우 놀라운 시기입니다.

어떤 종류의 국경? 계산이 적용되는 것을 보고 가장 흥분되는 생물학이나 의학 분야가 있습니까?

예 – 모든 것! 하지만 생각해보자. 암의 경우, 우리 세대 내에서 나올 새로운 치료법과 조기 발견 노력이 암을 우리가 HIV에 대해 했던 것처럼 더 이상 무섭지 않은 만성 질환으로 변화시킬 것이라고 믿습니다. 그리고 우리는 질병 탐지와 예방을 보다 일반적으로 살펴보기 위해 매우 유사한 유형의 방법을 사용할 수 있습니다. 내가 흥분하는 핵심은 증상이 나타나기 전에 질병이 이미 존재하는지 여부를 감지할 수 있다는 것입니다. 

암 진단 외에도 정말 멋진 것은 읽기와 쓰기가 아닌 생물학으로 건물을 짓는 것으로의 전환입니다. 저는 CRISPR이든 합성 펩티드든 합성 뉴클레오티드이든 상관없이 우리가 생물학을 기술로 사용하는 합성 생물학 분야에 대해 흥분하고 있습니다. 생물학을 도구로 활용하면 농업에서 에너지에 이르기까지 전통적인 자원 생성 산업을 완전히 변형할 수 있는 광범위한 가능성이 생깁니다. 이것은 생물학자에게 정말 놀라운 시간입니다!

게시일: 5년 2022월 XNUMX일

기술, 혁신, 그리고 그것을 구축하는 사람들이 말하는 미래.

가입해 주셔서 감사합니다.

받은 편지함에서 환영 메시지를 확인하세요.

타임 스탬프 :

더보기 안드레 센 호로비츠