Tại sao áp dụng Machine Learning vào sinh học là khó

Được xuất bản lại bởi Plato

Người theo dõi: 0

Jimmy Lin là CSO của tự do, đang phát triển các xét nghiệm dựa trên máu để phát hiện ung thư sớm, bắt đầu từ ung thư ruột kết. Ông là người đi tiên phong trong việc phát triển các phương pháp tiếp cận tính toán để rút ra những hiểu biết sâu sắc từ dữ liệu bộ gen quy mô lớn, đã dẫn đầu các phân tích tính toán của các nghiên cứu giải trình tự toàn bộ bộ gen đầu tiên ở nhiều loại ung thư.

Lin đã nói chuyện với Future về những thách thức khi thực hiện sứ mệnh của công ty để kết hợp các phương pháp tiếp cận máy học và dữ liệu sinh học. Anh ấy giải thích ba loại người bạn cần thuê để xây dựng một công ty techbio cân bằng, những cái bẫy bạn nên tránh, cách nhận biết khi nào sự kết hợp của hai lĩnh vực đang hoạt động hiệu quả và các sắc thái của việc điều chỉnh các nghiên cứu sinh học và máy học cho nhau.

TƯƠNG LAI: Giống như nhiều ngành khác, có rất nhiều điều thú vị xung quanh tiềm năng áp dụng máy học vào sinh học. Nhưng sự tiến bộ dường như khó thắng hơn. Có điều gì khác biệt về dữ liệu phân tử sinh học so với các loại dữ liệu thường được sử dụng với học máy?

JIMMY LIN: Dữ liệu học máy truyền thống rất rộng và nông. Loại vấn đề mà máy học thường giải quyết là những gì con người có thể giải quyết trong một nano giây, chẳng hạn như nhận dạng hình ảnh. Để dạy máy tính nhận dạng hình ảnh của một con mèo, bạn sẽ có hàng tỷ trên hàng tỷ hình ảnh để huấn luyện, nhưng mỗi hình ảnh tương đối hạn chế về nội dung dữ liệu của nó. Dữ liệu sinh học thường ngược lại. Chúng ta không có hàng tỷ cá nhân. Chúng tôi may mắn nhận được hàng ngàn. Nhưng đối với mỗi cá nhân, chúng ta có hàng tỷ tỷ điểm dữ liệu. Chúng tôi có số lượng dữ liệu rất sâu nhỏ hơn.

Đồng thời, các câu hỏi sinh học thường ít hơn những vấn đề mà con người có thể giải quyết. Chúng tôi đang làm những điều mà ngay cả các chuyên gia thế giới về lĩnh vực này cũng không thể làm được. Vì vậy, bản chất của các vấn đề rất khác nhau, vì vậy nó đòi hỏi tư duy mới về cách chúng tôi tiếp cận vấn đề này.

Các phương pháp tiếp cận có cần được xây dựng từ đầu cho dữ liệu phân tử sinh học hay bạn có thể điều chỉnh các phương pháp hiện có không?

Có nhiều cách bạn có thể lấy thông tin sâu này và phân loại nó để bạn có thể tận dụng các công cụ hiện có, cho dù đó là phương pháp học thống kê hay phương pháp học sâu. Nó không phải là sao chép trực tiếp, nhưng có rất nhiều cách để bạn có thể chuyển nhiều phương pháp học máy và áp dụng chúng vào các vấn đề sinh học ngay cả khi đó không phải là bản đồ trực tiếp XNUMX-XNUMX.

Đi sâu hơn vào vấn đề dữ liệu, với dữ liệu sinh học có rất nhiều sự thay đổi - có tiếng ồn sinh học, có tiếng ồn thực nghiệm. Cách tốt nhất để tiếp cận việc tạo dữ liệu y sinh sẵn sàng cho máy học là gì?

Đó là một câu hỏi tuyệt vời. Ngay từ đầu, Freenome đã cân nhắc cách tạo ra dữ liệu tốt nhất phù hợp cho việc học máy. Trong toàn bộ quá trình từ thiết kế nghiên cứu, thu thập mẫu, chạy thử nghiệm, phân tích dữ liệu, cần phải cẩn thận trong từng bước để có thể tối ưu hóa cho việc học máy, đặc biệt là khi bạn có quá nhiều tính năng hơn mẫu. Đó là vấn đề big-p little-n cổ điển.

Trước hết, chúng tôi đã thiết kế nghiên cứu của mình để giảm thiểu các yếu tố gây nhiễu. Rất nhiều công ty đã dựa vào các bộ dữ liệu lịch sử và đã làm rất nhiều việc để cố gắng giảm thiểu các hiệu ứng thuần tập và loại bỏ các yếu tố gây nhiễu. Nhưng đó có thực sự là cách tốt nhất để làm điều đó? Chà, không, cách tốt nhất để làm điều đó là một nghiên cứu tiềm năng, nơi bạn kiểm soát từ trước những yếu tố gây nhiễu. Đây là lý do tại sao, ngay cả trong nỗ lực khám phá của mình, chúng tôi đã quyết định thực hiện một thử nghiệm tiềm năng lớn trên nhiều trang web để thu thập dữ liệu tiêu chuẩn vàng từ trước, như trong Dùng thử AI-EMERGE.

May mắn thay, chúng tôi có các nhà đầu tư tin tưởng vào chúng tôi đủ để cho phép chúng tôi tạo ra những dữ liệu này. Đó thực sự là một rủi ro lớn vì những nghiên cứu này rất tốn kém.

Sau đó, khi bạn nhận được dữ liệu, bạn sẽ làm gì với nó?

Bạn cần phải huấn luyện tất cả các vị trí một cách nhất quán và kiểm soát các yếu tố gây nhiễu từ tất cả các vị trí khác nhau để bệnh nhân trông giống nhau nhất có thể. Và sau đó khi bạn chạy các mẫu, bạn cần phải suy nghĩ về cách giảm thiểu hiệu ứng hàng loạt, chẳng hạn như bằng cách đặt hỗn hợp mẫu phù hợp trên các máy khác nhau với tỷ lệ phù hợp.

Điều này rất khó khi bạn đang làm đa nguyên tố bởi vì các máy phân tích một lớp phân tử sinh học có thể lấy hàng trăm mẫu trong một lần chạy, trong khi các máy phân tích một lớp phân tử sinh học khác có thể chỉ lấy một vài mẫu. Trên hết, bạn muốn loại bỏ lỗi của con người. Vì vậy, chúng tôi đã giới thiệu tự động hóa khá nhiều từ trước, ở giai đoạn chỉ tạo dữ liệu đào tạo.

Ngoài ra, khi bạn có hàng tỷ điểm dữ liệu trên mỗi người, nó sẽ rất rất dễ bị trang bị quá mức. Vì vậy, chúng tôi đảm bảo rằng khóa đào tạo của chúng tôi có thể tổng quát hóa cho các nhóm mà cuối cùng chúng tôi muốn áp dụng nó, với các hiệu chỉnh thống kê phù hợp và nhiều tập hợp tổ chức đào tạo và kiểm tra liên tiếp.

Kết hợp học máy với dữ liệu phân tử sinh học là điều mà nhiều công ty công nghệ sinh học đang cố gắng thực hiện, nhưng đôi khi có rất nhiều điều mơ hồ về cách họ sẽ thực hiện điều này. Bạn xem tính năng cần thiết của việc tích hợp chúng một cách hiệu quả là gì?

At tự do chúng tôi đang kết hợp giữa học máy và đa nguyên tố. Để làm được điều đó, bạn cần phải làm tốt cả hai điều đó. Chìa khóa ở đây là bạn cần phải có chuyên môn vững vàng về cả hai ngôn ngữ và sau đó có thể nói được ngôn ngữ của cả hai. Bạn cần phải là người song ngữ.

Có rất nhiều công ty là chuyên gia trong một và sau đó rải lên một lớp khác. Ví dụ, có những công ty công nghệ quyết định nhảy vào lĩnh vực sinh học, nhưng tất cả những gì họ làm là thuê một số ít các nhà khoa học trong phòng thí nghiệm ướt. Mặt khác, có những công ty sinh học thuê một số nhà khoa học máy học, sau đó họ sẽ tuyên bố rằng bây giờ họ là một công ty AI / ML.

Những gì bạn thực sự cần là sức mạnh băng ghế sâu ở cả hai. Bạn cần có hiểu biết sinh học sâu sắc về hệ thống, về các xét nghiệm khác nhau, về các đặc điểm của không gian tri thức. Nhưng bạn cũng cần có hiểu biết sâu sắc về học máy, khoa học dữ liệu, phương pháp tính toán và học thống kê, đồng thời có nền tảng để áp dụng điều đó.

Đó thực sự là một thách thức vì hai khu vực này thường rất bạc màu. Khi bạn đang nghĩ về những người mà bạn đang tuyển dụng cho công ty, làm cách nào để bạn tạo cầu nối giữa hai lĩnh vực khác nhau này?

Tôi nghĩ rằng có ba loại người bạn muốn thuê để làm cầu nối giữa công nghệ và sinh học. Hai người đầu tiên là những người tiêu chuẩn của bạn, các chuyên gia trong lĩnh vực máy học hoặc sinh học. Nhưng họ cũng cần cởi mở và sẵn sàng tìm hiểu về miền khác, hoặc thậm chí tốt hơn, đã có kinh nghiệm tiếp xúc và làm việc trong các miền bổ sung này.

Đối với các chuyên gia về máy học, chúng tôi chọn những người không chỉ ở đó để phát triển thuật toán mới nhất mà còn muốn sử dụng các thuật toán mới nhất và áp dụng chúng cho các câu hỏi sinh học.

Sinh học là lộn xộn. Chúng tôi không chỉ không có tất cả các phương pháp để đo các chất phân tích khác nhau mà còn liên tục khám phá ra các phân tử sinh học và các tính năng mới. Ngoài ra còn có rất nhiều yếu tố gây nhiễu và tiếng ồn cần phải xem xét. Các bài toán này thường phức tạp hơn các bài toán máy học tiêu chuẩn, trong đó vấn đề và không gian tri thức được xác định rõ ràng hơn nhiều. Các chuyên gia ML muốn áp dụng kỹ năng của họ trong sinh học cần phải có sự khiêm tốn để tìm hiểu về sự phức tạp tồn tại trong sinh học và sẵn sàng làm việc với các điều kiện ít hơn tối ưu và sự khác biệt về tính sẵn có của dữ liệu.

Mặt trái là thuê các nhà sinh học, những người nghĩ ra các vấn đề của họ về việc tạo dữ liệu định lượng quy mô lớn hơn, nghiên cứu thiết kế để tối ưu hóa tỷ lệ tín hiệu trên nhiễu và nhận thức được các yếu tố gây nhiễu và khả năng tổng quát hóa. Nó không chỉ là khả năng nói và suy nghĩ bằng ngôn ngữ mã. Nhiều nhà sinh vật học của chúng tôi đã viết mã và có nền tảng thống kê tốt, họ sẵn sàng và muốn phát triển trong các lĩnh vực này. Trên thực tế, tại Freenome, chúng tôi thực sự có các chương trình đào tạo cho các nhà sinh học muốn tìm hiểu thêm về mã hóa để có thể phát triển lý luận thống kê của họ.

Điều quan trọng hơn nữa là thiết kế nghiên cứu và các câu hỏi chúng ta có thể hỏi, trông sẽ khác khi được thiết kế trong bối cảnh dữ liệu lớn và ML.

Loại thứ ba là gì?

Loại người thứ ba cần thuê là loại người khó tìm nhất. Đây là những người bắc cầu - những người đã làm việc thành thạo trong cả hai lĩnh vực này. Có rất ít địa điểm và phòng thí nghiệm trên thế giới nằm ngay giao lộ này. Tìm được những người có thể phiên dịch và làm cầu nối cho cả hai lĩnh vực là rất, rất quan trọng. Nhưng bạn không muốn xây dựng một công ty chỉ gồm những người bắc cầu bởi vì những người này thường không phải là chuyên gia về lĩnh vực này hay lĩnh vực khác, do những gì họ làm. Họ thường hiểu biết chung chung hơn. Tuy nhiên, họ cung cấp công việc quan trọng trong việc đưa hai lĩnh vực lại với nhau.

Vì vậy, có cả ba nhóm người là quan trọng. Nếu bạn chỉ có một trong các chuyên gia về tên miền, bạn sẽ chỉ có thế mạnh trong một lĩnh vực. Hoặc, nếu bạn không có những người xây cầu, thì bạn sẽ có hàng đống người không thể nói chuyện với nhau. Một cách tối ưu, các nhóm nên bao gồm cả ba loại người này để cho phép hiểu sâu sắc về cả ML và sinh học cũng như cung cấp sức mạnh tổng hợp hiệu quả của cả hai lĩnh vực này.

Bạn có thấy sự khác biệt trong cách các chuyên gia trong các vấn đề tấn công công nghệ hoặc máy tính so với cách các nhà sinh học tiếp cận vấn đề không?

Ừ. Ở một khía cạnh nào đó, chúng ta chắc chắn có những người xuất thân từ nền tảng thống kê và định lượng và họ nói bằng mã và phương trình. Chúng ta cần giúp họ giải các phương trình đó và giải thích nó một cách rõ ràng để khán giả nói chung có thể hiểu được.

Các nhà sinh vật học có trí tưởng tượng tuyệt vời bởi vì họ làm việc với những thứ không nhìn thấy được. Họ sử dụng rất nhiều hình ảnh minh họa trong các bài thuyết trình để giúp hình dung những gì đang xảy ra về mặt phân tử, và họ có trực giác tuyệt vời về cơ chế và sự phức tạp. Rất nhiều suy nghĩ này là định tính hơn. Điều này cung cấp một cách suy nghĩ và giao tiếp khác.

Vì vậy, cách mọi người giao tiếp sẽ rất rất khác. Điều quan trọng là - chúng tôi thường nói đùa - chúng tôi cần giao tiếp theo cách mà ngay cả bà của bạn cũng có thể hiểu được.

Nó đòi hỏi bạn phải nắm vững kiến thức để có thể đơn giản hóa nó để ngay cả một người mới làm quen cũng có thể hiểu được. Tôi nghĩ rằng đó thực sự là một khóa đào tạo tuyệt vời để ai đó học cách giao tiếp những khái niệm rất khó bên ngoài các phím tắt, biệt ngữ và ngôn ngữ kỹ thuật thông thường.

Điều gì đã truyền cảm hứng cho quan điểm cụ thể của bạn về cách kết hợp giữa học máy và sinh học?

Vì vậy, vấn đề không phải là mới, mà là sự lặp lại mới nhất của một vấn đề lâu đời. Khi các trường của sinh học tính toán và tin sinh học lần đầu tiên được tạo ra, vấn đề tương tự đã tồn tại. Các nhà khoa học máy tính, nhà thống kê, nhà khoa học dữ liệu, hoặc thậm chí là nhà vật lý học đã tham gia vào lĩnh vực sinh học và đưa tư duy định lượng của họ vào lĩnh vực này. Đồng thời, các nhà sinh học phải bắt đầu mô hình hóa ngoài việc mô tả các gen là được điều chỉnh lên và điều chỉnh xuống, và bắt đầu tiếp cận dữ liệu một cách định lượng hơn. Vấn đề cấp tính hơn và phạm vi rộng hơn, nhưng những thách thức cơ bản vẫn như cũ.

Bạn xem chỉ số thành công hay dấu hiệu đỏ cho bạn biết cuộc hôn nhân có hiệu quả hay không?

Nếu bạn nhìn vào các công ty đang cố gắng kết hợp các lĩnh vực, bạn có thể nhanh chóng biết được họ đầu tư vào bên này hay bên kia bao nhiêu. Vì vậy, nếu đó là một công ty mà 90% nhân viên là các nhà khoa học trong phòng thí nghiệm, và sau đó họ chỉ thuê một hoặc hai nhà khoa học máy học và họ tự gọi mình là công ty ML, thì đó có lẽ là một suy nghĩ sau.

Có một bài học nào về nhà mà bạn đã học được trong toàn bộ quá trình kết hợp giữa sinh học và máy học này không?

Tôi nghĩ rằng sự khiêm tốn về trí tuệ, đặc biệt là đến từ khía cạnh công nghệ. Ví dụ: với một cái gì đó như giải quyết tìm kiếm, tất cả thông tin đã ở dạng văn bản mà bạn có thể dễ dàng truy cập và bạn biết mình đang tìm kiếm gì. Vì vậy, nó trở thành một vấn đề có thể giải quyết được, phải không? Vấn đề với sinh học là chúng ta thậm chí không biết chúng ta đang tìm kiếm bộ dữ liệu nào, cho dù chúng ta có đèn pin phù hợp để chiếu vào đúng khu vực hay không.

Vì vậy, đôi khi các chuyên gia công nghệ nhảy vào nghiên cứu sinh học, họ rơi vào bẫy của đơn giản hóa quá mức. Ví dụ, hãy nói về trình tự thế hệ tiếp theo, họ có thể nói, “Chà. Chúng tôi có thể giải trình tự DNA. Tại sao chúng ta không trình tự rất nhiều và rất nhiều DNA? Nó trở thành một vấn đề dữ liệu, và sau đó chúng tôi giải quyết vấn đề sinh học ”.

Nhưng vấn đề là DNA là một trong hàng chục chất phân tích khác nhau trong cơ thể. Có RNA, protein,Sửa đổi sau khi dịch, các ngăn khác nhau như túi ngoại bào, và sự khác biệt về thời gian, không gian, loại tế bào, trong số những ngăn khác. Chúng ta cần hiểu các khả năng cũng như hạn chế của từng phương thức dữ liệu mà chúng ta sử dụng.

Mặc dù có thể khó tin nhưng sinh học vẫn là một lĩnh vực còn sơ khai. Chúng tôi chỉ giải trình tự một bộ gen người hơn hai thập kỷ trước một chút. Hầu hết thời gian, chúng tôi không thể truy cập các tín hiệu sinh học riêng lẻ, vì vậy chúng tôi vẫn đang thực hiện các phép đo là một khối hoặc trung bình trên rất nhiều tín hiệu. Chúng tôi chỉ bắt đầu đo từng ô một. Vẫn còn nhiều việc phải làm và đây là lý do tại sao đây là thời điểm thú vị để đi sâu vào lĩnh vực sinh học.

Nhưng với giai đoạn sơ khai đó, tiềm năng lớn để giải quyết các vấn đề sẽ ảnh hưởng rất lớn đến sức khỏe và hạnh phúc của con người. Đó là khoảng thời gian khá tuyệt vời vì chúng ta đang mở ra những biên giới mới của sinh học.

Những loại biên giới? Có lĩnh vực sinh học hoặc y học nào mà bạn thích thú nhất khi thấy tính toán được áp dụng không?

Vâng - mọi thứ! Nhưng hãy để tôi nghĩ. Đối với bệnh ung thư, tôi tin rằng trong thế hệ của chúng ta, những liệu pháp mới và những nỗ lực phát hiện sớm sắp ra mắt sẽ biến ung thư thành một căn bệnh mãn tính không còn đáng sợ như chúng ta đã từng đối với HIV. Và chúng ta có thể sử dụng các loại phương pháp rất giống nhau để xem xét việc phát hiện và phòng ngừa bệnh một cách tổng quát hơn. Điều quan trọng mà tôi vui mừng là chúng ta có thể bắt đầu phát hiện xem căn bệnh đã có trước khi có các triệu chứng hay chưa.

Ngoài chẩn đoán ung thư, điều thực sự thú vị là sự chuyển đổi sang xây dựng bằng sinh học thay vì chỉ đọc và viết. Tôi hào hứng với các lĩnh vực sinh học tổng hợp, nơi chúng tôi đang sử dụng sinh học như một công nghệ, cho dù đó là CRISPR hay peptit tổng hợp hay nucleotit tổng hợp. Tận dụng sinh học như một công cụ tạo ra khả năng mở rộng để chuyển đổi hoàn toàn các ngành công nghiệp tạo ra tài nguyên truyền thống, từ nông nghiệp sang năng lượng. Đây thực sự là thời điểm tuyệt vời để trở thành một nhà sinh vật học!

Đăng ngày 5 tháng 2022 năm XNUMX

Công nghệ, sự đổi mới và tương lai, như những gì đã nói với những người xây dựng nó.

Cảm ơn bạn đã đăng ký.

Kiểm tra hộp thư đến của bạn để biết thông báo chào mừng.

Dấu thời gian: 5 Tháng Mười 6 Tháng Mười

Tại sao việc áp dụng Machine Learning vào Sinh học là khó - Nhưng xứng đáng

Được xuất bản lại bởi Plato

Cảm ơn bạn đã đăng ký.

Thêm từ Andreessen Horowitz

Asiacrypt '22: Ghi chú thực địa

Nền dân chủ Lightspeed: Các tổ chức web3 có thể học hỏi gì từ lịch sử quản trị

Đầu tư vào Aztec

Đầu tư vào trò chơi Azra

Đường ống chữa tất cả

Tóm tắt giữa năm: Web3 và Khoa học va chạm

Làm được nhiều việc hơn với Moore: Khoảnh khắc công nghệ của Biotech

Đầu tư vào MVMNT

Đầu tư vào MotherDuck

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản