Meta의 새로운 ChatGPT와 유사한 AI는 단백질 언어에 능숙합니다.

Meta의 새로운 ChatGPT와 유사한 AI는 단백질 언어에 능숙합니다.

Meta의 새로운 ChatGPT와 유사한 AI는 단백질 언어 PlatoBlockchain 데이터 인텔리전스에 능숙합니다. 수직 검색. 일체 포함.

모든 단백질 구조를 해결하기 위한 경쟁은 또 다른 거대 기술 기업인 Meta AI를 환영했습니다.

Facebook과 Instagram으로 알려진 Meta의 연구 분파인 이 팀은 단백질 우주의 "암흑 물질"을 해독한다는 야심찬 목표를 가지고 단백질 모양 예측 분야에 뛰어들었습니다. 종종 박테리아, 바이러스 및 기타 미생물에서 발견되는 이러한 단백질은 일상 환경에서 휴식을 취하지만 과학에는 완전한 미스터리입니다.

“이것들은 우리가 가장 적게 아는 구조입니다. 이들은 믿을 수 없을 정도로 신비한 단백질입니다. 생물학에 대한 훌륭한 통찰력을 제공할 수 있는 잠재력을 제공한다고 생각합니다.” 말했다 수석 저자 Alexander Rives 박사에게 자연.

즉, 그들은 생명 공학에 대한 영감의 보고입니다. 비밀스러운 모양에 숨겨진 디자인의 열쇠 효율적인 바이오 연료, 항생제, 효소, 또는 완전히 새로운 유기체. 결과적으로 단백질 예측 데이터는 AI 모델을 추가로 훈련시킬 수 있습니다.

ESMFold라고 불리는 Meta의 새로운 AI의 중심에는 대규모 언어 모델이 있습니다. 친숙하게 들릴 수 있습니다. 이러한 기계 학습 알고리즘은 록스타 챗봇 ChatGPT로 전 세계를 강타했습니다. 간단한 프롬프트로 아름다운 에세이, 시, 가사를 생성하는 기능으로 유명한 ChatGPT와 최근 출시된 GPT-4—공개적으로 사용 가능한 수백만 개의 텍스트로 학습됩니다. 결국 AI는 문자, 단어를 예측하고 심지어 전체 단락을 작성하는 방법을 학습하고 Bing의 유사한 챗봇의 경우 대화 때로는 약간 불안해집니다.

새로운 연구, 에 게시 과학, AI 모델을 생물학과 연결합니다. 단백질은 20개의 "문자"로 구성됩니다. 진화 덕분에 문자의 순서는 궁극적인 모양을 생성하는 데 도움이 됩니다. 대규모 언어 모델이 영어 알파벳 26자를 일관된 메시지로 쉽게 해석할 수 있다면 왜 단백질에 대해서도 작동하지 않을까요?

스포일러: 그렇습니다. ESM-2는 600개의 그래픽 처리 장치(GPU)를 사용하여 단 2,000주 만에 약 60억 개의 단백질 구조 예측을 완료했습니다. 이전 시도와 비교하여 AI는 프로세스를 최대 XNUMX배 빠르게 만들었습니다. 저자는 모든 구조를 탐색할 수 있는 ESM Metagenomic Atlas에 넣었습니다. 여기에서 지금 확인해 보세요..

작업에 참여하지 않은 바르셀로나 국립 슈퍼컴퓨팅 센터(BCS)의 Alfonso Valencia 박사에게 대규모 언어 시스템을 사용하는 아름다움은 “개념적 단순성.” 추가 개발을 통해 AI는 "비천연 단백질의 구조를 예측하여 진화 과정이 탐색한 것 이상으로 알려진 우주를 확장"할 수 있습니다.

진화에 대해 이야기합시다

ESMFold는 간단한 지침을 따릅니다. 시퀀스는 구조를 예측합니다.

역추적합시다. 단백질은 각각 "글자"인 20개의 아미노산으로 만들어지며 끈에 뾰족한 구슬처럼 연결되어 있습니다. 그런 다음 우리의 세포는 그것들을 섬세한 특징으로 만듭니다. 일부는 구겨진 침대 시트처럼 보이고 다른 일부는 소용돌이 모양의 사탕 지팡이 또는 느슨한 리본처럼 보입니다. 그런 다음 단백질은 서로 달라붙어 멀티플렉스를 형성할 수 있습니다. 예를 들어, 행동을 제어하는 ​​뇌 세포막을 가로지르는 터널은 우리가 생각하고 기억하는 방식을 제어합니다.

과학자들은 아미노산 문자가 단백질의 최종 구조를 형성하는 데 도움이 된다는 사실을 오랫동안 알고 있었습니다. 언어의 문자나 문자와 마찬가지로 특정 문자만 함께 연결하면 의미가 있습니다. 단백질의 경우 이러한 서열이 단백질을 기능적으로 만듭니다.

"단백질의 생물학적 특성은 진화를 통해 선택된 서열에 대한 돌연변이를 제한합니다."라고 저자는 말했습니다.

알파벳의 서로 다른 문자가 수렴하여 완전한 횡설수설처럼 들리지 않고 단어, 문장 및 단락을 만드는 것과 유사하게 단백질 문자도 동일합니다. 아미노산을 신체가 이해할 수 있는 구조로 연결하는 데 도움이 되는 일종의 "진화 사전"이 있습니다.

"알려진 단백질에서 아미노산의 연속 논리는 특정 기능을 수행하는 특정 구조를 갖도록 하는 진화 과정의 결과입니다."라고 Valencia는 말했습니다.

Mr.AI, 날 단백질로 만들어줘

인생의 상대적으로 제한된 사전은 대규모 언어 모델에 대한 희소식.

이러한 AI 모델은 쉽게 사용할 수 있는 텍스트를 검색하여 학습하고 다음 단어에 대한 예측을 구축합니다. GPT-3 및 ChatGPT에서 볼 수 있듯이 최종 결과는 놀랍도록 자연스러운 대화와 환상적인 예술적 이미지입니다.

Meta AI는 동일한 개념을 사용했지만 단백질 구조 예측을 위해 플레이북을 다시 작성했습니다. 알고리즘에 텍스트를 공급하는 대신 알려진 단백질의 프로그램 시퀀스를 제공했습니다.

변환기 단백질 언어 모델이라고 하는 AI 모델은 최대 15억 개의 "설정"을 사용하여 단백질의 일반적인 구조를 학습했습니다. 전체적으로 약 65만 개의 서로 다른 단백질 서열을 확인했습니다.

다음 단계에서 팀은 AI에서 특정 문자를 숨겨 빈칸을 채우도록 했습니다. 자동완성 정도에 따라 프로그램은 결국 서로 다른 아미노산이 어떻게 연결(또는 격퇴)되는지 배웠습니다. 결국 AI는 진화 단백질 서열에 대한 직관적인 이해를 형성했으며 기능 단백질을 만들기 위해 함께 작동하는 방식을 형성했습니다.

미지로

개념 증명으로 팀은 두 가지 잘 알려진 테스트 세트를 사용하여 ESMFold를 테스트했습니다. 하나인 CAMEO는 거의 200개의 구조를 포함했습니다. 다른 하나인 CASP14는 51개의 공개된 단백질 모양을 가지고 있습니다.

전반적으로 AI는 "첨단 구조 예측 정확도를 제공한다"고 팀은 "단백질의 절반 이상에서 AlphaFold2 성능과 일치한다"고 말했다. 또한 예를 들어 행동을 제어하는 ​​뉴런의 채널과 같은 대형 단백질 복합체를 확실하게 다루었습니다.

그런 다음 팀은 AI를 한 단계 더 발전시켜 metagenomics의 세계로 모험을 떠났습니다.

Metagenomes는 DNA 물질의 뒤죽박죽처럼 들립니다. 일반적으로 이들은 발 밑의 먼지, 해수 또는 일반적으로 열악한 열 통풍구와 같은 환경적 원인에서 나옵니다. 대부분의 미생물은 실험실에서 인위적으로 배양할 수 없지만 일부는 화산 수준의 열에 저항하는 것과 같은 초능력을 가지고 있어 아직 탐구되지 않은 생물학적 암흑 물질이 됩니다.

논문이 발표될 당시 AI는 이러한 단백질을 600억 개 이상 예측했습니다. 그 수는 이제 최신 릴리스로 최대 700억 개가 넘습니다. 예측은 약 10주 만에 빠르고 격렬하게 이루어졌습니다. 대조적으로, 이전의 모델링 시도는 단 하나의 단백질에 대해 최대 XNUMX분이 걸렸습니다.

단백질 예측의 대략 XNUMX/XNUMX은 원자 수준 규모로 확대하기에 충분한 세부 정보와 함께 높은 신뢰도를 보였습니다. 단백질 예측은 순전히 서열에 기반했기 때문에 수백만 개의 "외계인"이 나타났습니다. 기존 데이터베이스나 이전에 테스트된 것과는 다른 구조입니다.

Valencia는 "예측의 10% 이상이 다른 알려진 단백질과 유사하지 않은 단백질에 대한 것이라는 점은 흥미롭습니다."라고 말했습니다. 그것은 기능적 단백질을 구성하는 이전에는 들어보지 못한 서열을 탐색하고 잠재적으로 생성하는 데 훨씬 더 유연한 언어 모델의 마법 때문일 수 있습니다. "이것은 생명공학과 생물의학에 응용하여 새로운 서열과 생화학적 특성을 가진 단백질 설계를 위한 새로운 공간입니다."라고 그는 말했습니다.

예를 들어, ESMFold는 잠재적으로 단백질의 단일 문자 변화의 결과를 파악하는 데 도움이 될 수 있습니다. 점 돌연변이(point mutations)라고 불리는 이 겉보기에 양성 편집은 신체에 큰 피해를 입히고 파괴적인 대사 증후군, 겸상 적혈구 빈혈 및 암을 유발합니다. 간결하고 비열하며 상대적으로 단순한 AI는 평균적인 생물 의학 연구실에 결과를 제공하는 동시에 AI의 속도 덕분에 단백질 모양 예측을 확장합니다.

생물 의학은 제쳐두고 또 다른 흥미로운 아이디어는 단백질이 텍스트가 할 수 없는 방식으로 대규모 언어 모델을 훈련시키는 데 도움이 될 수 있다는 것입니다. Valencia가 설명했듯이 “한편으로 단백질 서열은 텍스트보다 더 풍부하고 더 정의된 크기와 더 높은 수준의 가변성을 가집니다. 반면에 단백질은 강력한 내부 '의미', 즉 서열과 구조 사이의 강한 관계, 텍스트에서 훨씬 더 확산되는 의미 또는 일관성을 가지고 있습니다.

이미지 신용 : 메타 AI

타임 스탬프 :

더보기 특이점 허브