Trò chuyện mới AI giống GPT của Meta thông thạo ngôn ngữ của protein

Trò chuyện mới AI giống GPT của Meta thông thạo ngôn ngữ của protein

Trò chuyện mới AI giống GPT của Meta thông thạo ngôn ngữ của Protein Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Cuộc đua giải quyết mọi cấu trúc protein vừa chào đón một gã khổng lồ công nghệ khác: Meta AI.

Một nhánh nghiên cứu của Meta, được biết đến với Facebook và Instagram, nhóm đã bắt đầu dự đoán hình dạng protein với mục tiêu đầy tham vọng: giải mã “vật chất tối” của vũ trụ protein. Thường được tìm thấy trong vi khuẩn, vi rút và các vi sinh vật khác, những protein này tồn tại trong môi trường hàng ngày của chúng ta nhưng hoàn toàn là bí ẩn đối với khoa học.

“Đây là những cấu trúc mà chúng ta biết ít nhất. Đây là những protein vô cùng bí ẩn. Tôi nghĩ rằng chúng mang lại tiềm năng hiểu biết sâu sắc về sinh học,” nói tác giả cao cấp Tiến sĩ Alexander Rives để Thiên nhiên.

Nói cách khác, chúng là kho tàng cảm hứng cho công nghệ sinh học. Ẩn trong hình dạng bí mật của chúng là chìa khóa để thiết kế nhiên liệu sinh học hiệu quả, kháng sinh, enzyme, hoặc thậm chí sinh vật hoàn toàn mới. Đổi lại, dữ liệu từ dự đoán protein có thể đào tạo thêm các mô hình AI.

Trọng tâm của AI mới của Meta, được đặt tên là ESMFold, là một mô hình ngôn ngữ lớn. Nó có thể nghe quen thuộc. Các thuật toán máy học này đã gây bão trên toàn thế giới với chatbot ChatGPT của ngôi sao nhạc rock. Được biết đến với khả năng tạo ra các bài tiểu luận, bài thơ và lời bài hát hay với lời nhắc đơn giản, ChatGPT—và ứng dụng mới ra mắt gần đây GPT-4—được đào tạo với hàng triệu văn bản có sẵn công khai. Cuối cùng, AI học cách dự đoán các chữ cái, từ và thậm chí viết toàn bộ đoạn văn và trong trường hợp chatbot tương tự của Bing, hãy giữ cuộc hội thoại mà đôi khi trở nên hơi đáng sợ.

Nghiên cứu mới, xuất bản năm Khoa học, kết nối mô hình AI với sinh học. Protein được tạo thành từ 20 “chữ cái”. Nhờ quá trình tiến hóa, chuỗi các chữ cái giúp tạo ra hình dạng cuối cùng của chúng. Nếu các mô hình ngôn ngữ lớn có thể dễ dàng diễn giải 26 chữ cái trong bảng chữ cái tiếng Anh thành các thông điệp mạch lạc, thì tại sao chúng cũng không thể hoạt động đối với các protein?

Spoiler: họ làm. ESM-2 đã đưa ra khoảng 600 triệu dự đoán cấu trúc protein chỉ trong hai tuần bằng cách sử dụng 2,000 đơn vị xử lý đồ họa (GPU). So với những lần thử trước, AI đã thực hiện quá trình này nhanh hơn tới 60 lần. Các tác giả đã đưa mọi cấu trúc vào ESM Metagenomic Atlas mà bạn có thể khám phá tại đây.

Đối với Tiến sĩ Alfonso Valencia tại Trung tâm Siêu máy tính Quốc gia Barcelona (BCS), người không tham gia vào công việc này, vẻ đẹp của việc sử dụng các hệ thống ngôn ngữ lớn là “khái niệm đơn giản.” Với sự phát triển hơn nữa, AI có thể dự đoán “cấu trúc của các protein phi tự nhiên, mở rộng vũ trụ đã biết ra ngoài những gì mà các quá trình tiến hóa đã khám phá”.

Hãy nói về sự tiến hóa

ESMFold tuân theo một hướng dẫn đơn giản: trình tự dự đoán cấu trúc.

Hãy quay lại. Protein được tạo thành từ 20 axit amin—mỗi axit là một “chữ cái”—và được xâu thành chuỗi như những hạt có gai trên một sợi dây. Sau đó, các tế bào của chúng ta định hình chúng thành các đặc điểm tinh tế: một số trông giống như ga trải giường nhàu nát, một số khác giống như một cây kẹo xoáy hoặc dải ruy băng lỏng lẻo. Sau đó, các protein có thể bám vào nhau để tạo thành một phức hợp—ví dụ: một đường hầm xuyên qua màng tế bào não kiểm soát các hành động của nó và đến lượt nó kiểm soát cách chúng ta suy nghĩ và ghi nhớ.

Các nhà khoa học từ lâu đã biết rằng các chữ cái axit amin giúp hình thành cấu trúc cuối cùng của protein. Tương tự như các chữ cái hoặc ký tự trong một ngôn ngữ, chỉ một số ký tự nhất định khi được xâu chuỗi lại với nhau mới có nghĩa. Trong trường hợp protein, những trình tự này làm cho chúng hoạt động.

Các tác giả cho biết: “Các đặc tính sinh học của protein hạn chế các đột biến đối với trình tự của nó được chọn lọc thông qua quá trình tiến hóa.

Tương tự như cách các chữ cái khác nhau trong bảng chữ cái hội tụ để tạo ra các từ, câu và đoạn văn mà không nghe giống như hoàn toàn vô nghĩa, các chữ cái protein cũng làm như vậy. Có một loại “từ điển tiến hóa” giúp sắp xếp các axit amin thành các cấu trúc mà cơ thể có thể hiểu được.

Valencia cho biết: “Logic về sự kế tiếp của các axit amin trong các protein đã biết là kết quả của một quá trình tiến hóa khiến chúng có cấu trúc cụ thể để thực hiện một chức năng cụ thể.

Ông AI, hãy biến tôi thành protein

Từ điển tương đối hạn chế của cuộc sống là tin tuyệt vời cho các mô hình ngôn ngữ lớn.

Các mô hình AI này tìm kiếm các văn bản có sẵn để tìm hiểu và xây dựng các dự đoán cho từ tiếp theo. Kết quả cuối cùng, như đã thấy trong GPT-3 và ChatGPT, là những cuộc hội thoại tự nhiên và hình ảnh nghệ thuật tuyệt đẹp.

Meta AI đã sử dụng khái niệm tương tự, nhưng viết lại sách hướng dẫn để dự đoán cấu trúc protein. Thay vì cung cấp cho thuật toán các văn bản, họ đã cung cấp cho chương trình các chuỗi protein đã biết.

Mô hình AI—được gọi là mô hình ngôn ngữ protein biến đổi—đã học kiến ​​trúc chung của protein bằng cách sử dụng tới 15 tỷ “cài đặt”. Nhìn chung, nó đã thấy khoảng 65 triệu chuỗi protein khác nhau.

Trong bước tiếp theo, nhóm đã giấu một số chữ cái khỏi AI, khiến nó điền vào chỗ trống. Với số lượng tự động hoàn thành, chương trình cuối cùng đã học được cách các axit amin khác nhau kết nối với (hoặc đẩy) lẫn nhau. Cuối cùng, AI đã hình thành sự hiểu biết trực quan về các chuỗi protein tiến hóa — và cách chúng phối hợp với nhau để tạo ra các protein chức năng.

Vào ẩn số

Để chứng minh khái niệm, nhóm đã thử nghiệm ESMFold bằng hai bộ thử nghiệm nổi tiếng. Một, CAMEO, liên quan đến gần 200 cấu trúc; cái còn lại, CASP14, có 51 hình dạng protein được phát hành công khai.

Nhìn chung, AI “cung cấp độ chính xác dự đoán cấu trúc hiện đại,” nhóm cho biết, “phù hợp với hiệu suất AlphaFold2 trên hơn một nửa số protein.” Nó cũng xử lý các phức hợp protein lớn một cách đáng tin cậy—chẳng hạn như các kênh trên tế bào thần kinh kiểm soát hành động của chúng.

Sau đó, nhóm đã đưa AI của họ tiến thêm một bước, mạo hiểm bước vào thế giới của metagenomics.

Metagenomes đúng như tên gọi của chúng: một tập hợp các vật liệu DNA. Thông thường những thứ này đến từ các nguồn môi trường như bụi bẩn dưới chân bạn, nước biển hoặc thậm chí là các lỗ thông hơi nhiệt thông thường không thể ở được. Hầu hết các vi khuẩn không thể được nuôi cấy nhân tạo trong phòng thí nghiệm, tuy nhiên một số có siêu năng lực như chống lại sức nóng cấp độ núi lửa, khiến chúng trở thành vật chất tối sinh học chưa được khám phá.

Vào thời điểm bài báo được xuất bản, AI đã dự đoán hơn 600 triệu protein này. Số lượng hiện đã lên tới hơn 700 triệu với bản phát hành mới nhất. Các dự đoán đến nhanh và dữ dội trong khoảng hai tuần. Ngược lại, những nỗ lực lập mô hình trước đây chỉ mất tới 10 phút cho một loại protein.

Khoảng một phần ba dự đoán về protein có độ tin cậy cao, với đủ chi tiết để phóng to ở cấp độ nguyên tử. Bởi vì các dự đoán về protein chỉ dựa trên trình tự của chúng, nên hàng triệu “người ngoài hành tinh” đã xuất hiện — những cấu trúc không giống bất kỳ thứ gì trong cơ sở dữ liệu đã được thiết lập hoặc những cơ sở dữ liệu đã được thử nghiệm trước đó.

Valencia cho biết: “Điều thú vị là hơn 10% các dự đoán là dành cho các protein không giống với các protein đã biết khác. Có thể là do sự kỳ diệu của các mô hình ngôn ngữ, vốn linh hoạt hơn rất nhiều trong việc khám phá—và có khả năng tạo ra—các trình tự chưa từng được biết đến trước đây tạo nên các protein chức năng. Ông nói: “Đây là một không gian mới cho việc thiết kế các protein với trình tự mới và các đặc tính sinh hóa với các ứng dụng trong công nghệ sinh học và y sinh học.

Ví dụ, ESMFold có khả năng giúp giải quyết hậu quả của những thay đổi một chữ cái trong protein. Được gọi là đột biến điểm, những chỉnh sửa có vẻ lành tính này tàn phá cơ thể, gây ra các hội chứng chuyển hóa tàn khốc, thiếu máu hồng cầu hình liềm và ung thư. Một AI tinh gọn, trung bình và tương đối đơn giản mang lại kết quả cho phòng thí nghiệm nghiên cứu y sinh trung bình, đồng thời mở rộng các dự đoán về hình dạng protein nhờ vào tốc độ của AI.

Bỏ y sinh học sang một bên, một ý tưởng hấp dẫn khác là protein có thể giúp huấn luyện các mô hình ngôn ngữ lớn theo cách mà văn bản không thể làm được. Như Valencia đã giải thích, “Một mặt, các chuỗi protein phong phú hơn so với văn bản, có kích thước xác định hơn và mức độ biến đổi cao hơn. Mặt khác, protein có 'ý nghĩa' bên trong mạnh mẽ—tức là mối quan hệ chặt chẽ giữa trình tự và cấu trúc, ý nghĩa hoặc sự gắn kết lan tỏa hơn nhiều trong các văn bản,” kết nối hai trường thành một vòng phản hồi hiệu quả.

Ảnh: Mục tiêu AI

Dấu thời gian:

Thêm từ Trung tâm cá biệt