Новий штучний інтелект Meta, схожий на ChatGPT, вільно розмовляє мовою білків

Новий штучний інтелект Meta, схожий на ChatGPT, вільно розмовляє мовою білків

Новий штучний інтелект Meta, схожий на ChatGPT, вільно володіє мовою білків PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Гонка за розгадкою кожної білкової структури щойно вітала іншого технологічного гіганта: Meta AI.

Дослідницьке відгалуження Meta, відомого через Facebook та Instagram, команда вийшла на сцену прогнозування форми білка з амбітною метою: розшифрувати «темну матерію» білкового всесвіту. Ці білки, які часто зустрічаються в бактеріях, вірусах та інших мікроорганізмах, знаходяться в нашому повсякденному середовищі, але є повною загадкою для науки.

«Це структури, про які ми найменше знаємо. Це неймовірно загадкові білки. Я думаю, що вони пропонують великий потенціал для глибокого розуміння біології», сказав старший автор доктор Олександр Рівз Природа.

Іншими словами, вони є скарбницею натхнення для біотехнології. У їхніх таємничих формах приховані ключі до проектування ефективне біопаливо, антибіотики, ферменти, або навіть абсолютно нові організми. Своєю чергою, дані з прогнозів білка могли б додатково навчити моделі ШІ.

В основі нового штучного інтелекту Meta, який отримав назву ESMFold, лежить велика мовна модель. Це може здатися знайомим. Ці алгоритми машинного навчання захопили світ штурмом завдяки чат-боту Rockstar ChatGPT. ChatGPT, відомий своєю здатністю створювати чудові есе, вірші та тексти пісень за допомогою простих підказок, і нещодавно запущений GPT-4— навчаються мільйонам загальнодоступних текстів. Згодом штучний інтелект навчиться передбачати літери, слова та навіть писати цілі абзаци та, у випадку подібного чат-бота Bing, утримувати розмови що іноді трохи дратує.

Нове дослідження, опубліковані в наука, поєднує модель ШІ з біологією. Білки складаються з 20 «літер». Завдяки еволюції послідовність літер допомагає створити їх остаточні форми. Якщо великі мовні моделі можуть легко інтерпретувати 26 літер англійського алфавіту в зв’язні повідомлення, чому вони не можуть також працювати з білками?

Спойлер: вони роблять. ESM-2 провів приблизно 600 мільйонів прогнозів структури білків лише за два тижні, використовуючи 2,000 графічних процесорів (GPU). Порівняно з попередніми спробами ШІ пришвидшив процес у 60 разів. Автори помістили кожну структуру в метагеномний атлас ESM, який ви можете досліджувати тут.

Для доктора Альфонсо Валенсії з Барселонського національного суперкомп’ютерного центру (BCS), який не брав участі в роботі, краса використання великих мовних систем є «концептуальна простота.” З подальшим розвитком ШІ може передбачати «структуру неприродних білків, розширюючи відомий Всесвіт за межі того, що було досліджено еволюційними процесами».

Давайте поговоримо про еволюцію

ESMFold дотримується простої вказівки: послідовність передбачає структуру.

Давайте повернемося назад. Білки складаються з 20 амінокислот, кожна з яких є «літерою», і нанизані на нитку, як гострі намистини. Потім наші клітини формують їх у витончені деталі: одні схожі на пом’яті простирадла, інші — на цукеркову тростину, що обертається, або на опущені стрічки. Потім білки можуть хапатися один за одного, утворюючи мультиплекс — наприклад, тунель, який перетинає мембрану клітини головного мозку, яка контролює її дії, і, у свою чергу, контролює те, як ми думаємо та запам’ятовуємо.

Вчені давно знають, що букви амінокислот допомагають сформувати остаточну структуру білка. Подібно до букв або символів у мові, лише певні з них мають сенс. У випадку білків ці послідовності роблять їх функціональними.

«Біологічні властивості білка обмежують мутації його послідовності, які вибираються в ході еволюції», — сказали автори.

Подібно до того, як різні літери в алфавіті зближуються, створюючи слова, речення та абзаци, не звучачи як повна тарабарщина, білкові літери роблять те саме. Існує свого роду «еволюційний словник», який допомагає складати амінокислоти в структури, які організм може зрозуміти.

«Логіка послідовності амінокислот у відомих білках є результатом еволюційного процесу, який призвів до того, що вони мають специфічну структуру, за допомогою якої вони виконують певну функцію», — сказав Валенсія.

Містер АІ, зробіть мені білок

Словник життя відносно обмежений чудові новини для великих мовних моделей.

Ці моделі штучного інтелекту переглядають легкодоступні тексти, щоб дізнатися та створити передбачення наступного слова. Кінцевим результатом, як видно з GPT-3 і ChatGPT, є вражаюче природні розмови та фантастичні художні образи.

Meta AI використовував ту саму концепцію, але переписав посібник для передбачення структури білка. Замість того, щоб підживлювати алгоритм текстами, вони дали програмі послідовності відомих білків.

Модель штучного інтелекту, яка називається трансформаторною моделлю білкової мови, вивчала загальну архітектуру білків, використовуючи до 15 мільярдів «параметрів». Загалом він побачив приблизно 65 мільйонів різних білкових послідовностей.

У своєму наступному кроці команда приховала певні літери від ШІ, спонукаючи його заповнити пропуски. Що стосується автозавершення, програма зрештою дізналася, як різні амінокислоти з’єднуються (або відштовхуються) одна від одної. Зрештою, штучний інтелект сформував інтуїтивне розуміння еволюційних білкових послідовностей і того, як вони працюють разом, створюючи функціональні білки.

У невідоме

На підтвердження концепції команда протестувала ESMFold за допомогою двох добре відомих наборів тестів. Один, CAMEO, включав майже 200 структур; інший, CASP14, має 51 оприлюднену білкову форму.

Загалом ШІ «забезпечує найсучаснішу точність прогнозування структури», — сказала команда, — «відповідаючи продуктивності AlphaFold2 на більш ніж половині білків». Він також надійно впорався з великими білковими комплексами, наприклад, з каналами на нейронах, які контролюють їхню роботу.

Тоді команда пішла на крок далі в своєму штучному інтелекті, занурившись у світ метагеноміки.

Метагеноми – це те, як вони звучать: суміш матеріалу ДНК. Зазвичай вони надходять із джерел навколишнього середовища, таких як бруд під ногами, морська вода або навіть зазвичай непривітні термальні отвори. Більшість мікробів не можна штучно виростити в лабораторіях, але деякі з них мають надздібності, такі як стійкість до тепла вулканічного рівня, що робить їх біологічною темною матерією, яку ще належить дослідити.

На момент публікації статті ШІ передбачив понад 600 мільйонів цих білків. З останнім випуском їх кількість перевищила 700 мільйонів. Прогнози з'явилися швидко і шалено приблизно через два тижні. Навпаки, попередні спроби моделювання займали до 10 хвилин лише для одного білка.

Приблизно третина прогнозів щодо білка були з високою достовірністю, з достатньою кількістю деталей, щоб збільшити масштаб атомарного рівня. Оскільки прогнози щодо білків ґрунтувалися виключно на їхніх послідовностях, з’явилися мільйони «інопланетян» — структур, які не схожі ні на що в усталених базах даних або на ті, що були перевірені раніше.

«Цікаво, що понад 10 відсотків прогнозів стосуються білків, які не мають жодної схожості з іншими відомими білками», — сказав Валенсія. Можливо, це пов’язано з магією мовних моделей, які є набагато гнучкішими у дослідженні — і потенційно генеруванні — нечуваних раніше послідовностей, які складають функціональні білки. «Це новий простір для розробки білків з новими послідовностями та біохімічними властивостями із застосуванням у біотехнології та біомедицині», — сказав він.

Як приклад, ESMFold потенційно може допомогти визначити наслідки змін однієї літери в білку. Ці, здавалося б, доброякісні зміни, які називаються точковими мутаціями, сіють хаос в організмі, викликаючи руйнівні метаболічні синдроми, серповидно-клітинну анемію та рак. Компактний, злий і відносно простий штучний інтелект дає результати в середню біомедичну дослідницьку лабораторію, водночас розширюючи прогнози форми білка завдяки швидкості ШІ.

Крім біомедицини, ще одна захоплююча ідея полягає в тому, що білки можуть допомогти навчити великі мовні моделі так, як не можуть тексти. Як пояснив Валенсія, «з одного боку, білкові послідовності більш рясні, ніж тексти, мають більш визначені розміри та вищий ступінь варіабельності. З іншого боку, білки мають сильне внутрішнє «значення» — тобто міцний зв’язок між послідовністю та структурою, значення або зв’язність, які є набагато більш розмитими в текстах», з’єднуючи два поля в доброчесну петлю зворотного зв’язку.

Зображення Фото: Мета ШІ

Часова мітка:

Більше від Хаб сингулярності