به یاد دارید زمانی که پیشبینی اشکال پروتئین با استفاده از هوش مصنوعی موفقیت سال بود؟
این یک خبر قدیمی است. داشتن تقریباً تمام ساختارهای پروتئینی را حل کرد هوش مصنوعی که برای زیست شناسی شناخته شده است، اکنون به چالش جدیدی روی آورده است: طراحی پروتئین ها از ابتدا.
این تلاش به دور از یک پیگیری آکادمیک، یک بازی بالقوه برای کشف مواد مخدر است. داشتن توانایی تهیه داروهای پروتئینی برای هر هدف خاص در داخل بدن - مانند داروهایی که باعث رشد و گسترش سرطان می شوند - می تواند جهان جدیدی از داروها را برای مقابله با بدترین دشمنان پزشکی ما راه اندازی کند.
جای تعجب نیست که چندین نیروگاه هوش مصنوعی به این چالش پاسخ می دهند. آنچه شگفت آور است این است که آنها بر روی رویکرد مشابهی همگرایی کردند. امسال DeepMind، Meta، و تیم دکتر دیوید بیکر در دانشگاه واشنگتن همگی از یک منبع نامحتمل الهام گرفتند: DALL-E و GPT-3.
این الگوریتم های مولد دنیا را طوفانی کرده است. وقتی فقط چند دستور ساده به زبان انگلیسی روزمره داده می شود، برنامه ها می توانند تصاویر شگفت انگیز، پاراگراف هایی از نوشته های خلاقانه یا صحنه های فیلم تولید کنند و حتی جدیدترین طرح های مد را مجدداً ترکیب کنند. همان تکنولوژی زیربنایی اخیرا چاقو خورد در نوشتن کدهای کامپیوتری، تقریباً نیمی از رقبای انسانی را در یک کار برنامه نویسی بسیار چالش برانگیز به بهترین شکل ممکن به دست آورد.
چه ربطی به پروتئین دارد؟
نکته اینجاست: پروتئین ها اساسا رشته هایی از "حروف" هستند که در ساختارهای ثانویه - جملات فکری - و سپس "پاراگراف های سه بعدی" شکل گرفته اند. اگر هوش مصنوعی می تواند تصاویر زرق و برق دار و نوشته ای تمیز تولید کند، چرا از این فناوری برای بازنویسی کد زندگی استفاده نکنیم؟
در اینجا قهرمانان بیایند
پروتئین کلید زندگی است. بدن ما را می سازد. متابولیسم ما را اجرا می کند. زیربنای عملکردهای پیچیده مغز است. همچنین پایه ای برای انبوهی از داروهای جدید است که می تواند برخی از غیر قابل حل ترین مشکلات سلامتی ما را درمان کند - و منابع جدیدی از سوخت های زیستی ایجاد کند. گوشت های آزمایشگاهی، یا حتی شکل های کاملاً جدید زندگی از طریق زیست شناسی مصنوعی.
در حالی که "پروتئین" اغلب تصاویری از سینه مرغ را تداعی می کند، این مولکول ها بیشتر شبیه یک پازل پیچیده لگو هستند. ساختن یک پروتئین با رشتهای از اسیدهای آمینه شروع میشود - به تعداد بیشمار چراغهای کریسمس روی یک رشته فکر کنید - که سپس به ساختارهای سهبعدی تا میشوند (مثل به هم ریختن آنها برای ذخیرهسازی).
دیپ مایند و بیکر هر دو وقتی الگوریتمهایی را برای پیشبینی ساختار هر پروتئینی بر اساس توالی اسید آمینهشان ایجاد کردند، امواجی ایجاد کردند. این یک تلاش ساده نبود. پیش بینی ها در سطح اتمی ترسیم شدند.
طراحی پروتئین های جدید پیچیدگی را به سطح دیگری ارتقا می دهد. امسال آزمایشگاه بیکر با یک تلاش به آن ضربه زد با استفاده از غربالگری خوب قدیمی تکنیک ها و دیگری با تکیه بر توهمات یادگیری عمیق. هر دو الگوریتم برای ابهام زدایی از پروتئینهای طبیعی و تولید پروتئینهای جدید بسیار قدرتمند هستند، اما بزرگکردن آنها دشوار بود.
اما صبر کن طراحی یک پروتئین کمی شبیه نوشتن یک مقاله است. اگر GPT-3 و ChatGPT بتوانند گفتگوهای پیچیده ای را با استفاده از زبان طبیعی بنویسند، همان فناوری می تواند در تئوری زبان پروتئین ها - اسیدهای آمینه - را برای تشکیل پروتئین های عملکردی کاملاً ناشناخته برای طبیعت دوباره فعال کند.
خلاقیت هوش مصنوعی با زیست شناسی ملاقات می کند
یکی از اولین نشانههایی که نشان میدهد این ترفند میتواند کارساز باشد، از متا بود.
در اخیر کاغذ چاپآنها از معماری هوش مصنوعی زیربنای DALL-E و ChatGPT، نوعی یادگیری ماشینی به نام مدلهای زبان بزرگ (LLM) استفاده کردند تا ساختار پروتئین را پیشبینی کنند. این تیم به جای تغذیه مدلها با مقادیر فراوان متن یا تصویر، آنها را بر روی توالیهای اسید آمینه پروتئینهای شناخته شده آموزش داد. با استفاده از این مدل، هوش مصنوعی متا پیش بینی کرد میلیون بیش 600 ساختار پروتئین با خواندن «حروف» اسید آمینه آنها به تنهایی - از جمله حروف باطنی از میکروارگانیسم های موجود در خاک، آب اقیانوس ها و بدن ما که ما اطلاعات کمی در مورد آنها داریم.
جالبتر اینکه هوش مصنوعی که ESMFold نام دارد، در نهایت یاد گرفت که توالیهای پروتئین را «خودکار» تکمیل کند، حتی زمانی که برخی از حروف اسید آمینه مبهم بودند. اگرچه به اندازه AlphaFold DeepMind دقیق نیست، اما تقریباً 60 برابر سریعتر اجرا میشود و مقیاس آن را برای پایگاههای داده بزرگتر آسانتر میکند.
آزمایشگاه بیکر عملکرد «تکمیل خودکار» پروتئین را به سطح جدیدی ارتقا داد یک پیش چاپ اوایل این ماه منتشر شد. اگر هوش مصنوعی از قبل بتواند جاهای خالی را در مورد پیشبینی ساختارهای پروتئینی پر کند، یک اصل مشابه به طور بالقوه میتواند پروتئینها را از یک دستور تولید کند - در این مورد، عملکرد بیولوژیکی بالقوه آن.
کلید پایین آمد مدل های انتشار، نوعی الگوریتم یادگیری ماشینی است که DALL-E را تقویت می کند. به زبان ساده، این شبکههای عصبی بهویژه در افزودن و سپس حذف نویز از دادههای داده شده – اعم از تصاویر، متون یا توالیهای پروتئینی، خوب هستند. در طول تمرین، ابتدا داده های آموزشی را با اضافه کردن نویز از بین می برند. سپس مدل یاد می گیرد که داده های اصلی را با معکوس کردن فرآیند از طریق مرحله ای به نام حذف نویز بازیابی کند. این کمی شبیه به جدا کردن یک لپ تاپ یا دیگر الکترونیکی و قرار دادن آن در کنار هم است تا ببینید اجزای مختلف چگونه کار می کنند.
از آنجایی که مدلهای انتشار معمولاً با دادههای درهم شروع میشوند (مثلاً همه پیکسلهای یک تصویر به نویز مرتب میشوند) و در نهایت یاد میگیرند که تصویر اصلی را بازسازی کنند، بهویژه در تولید تصاویر یا پروتئینهای جدید از نمونههای به ظاهر تصادفی مؤثر است.
آزمایشگاه بیکر با اندکی تنظیم دقیق امضای خود به این رویکرد دست زد RoseTTAFold شبکه پیش بینی ساختار پیش از این، نسخهای از این نرمافزار، داربستهای پروتئینی - ستون فقرات یک پروتئین - را تنها در یک مرحله تولید میکرد. اما پروتئینها حبابهای یکنواختی نیستند: هر کدام دارای چندین نقطه حساس هستند که به آنها اجازه میدهد به صورت فیزیکی روی یکدیگر برچسب بزنند، که فرآیندهای بیولوژیکی مختلفی را آغاز میکند. هنگامی که RoseTTAFold با مشکلات سختی مواجه شد - مانند طراحی نقاط حساس پروتئینی با حداقل دانش - با مشکل مواجه شد.
راه حل این تیم ادغام RoseTTAFold با یک مدل انتشار بود که اولی به مرحله حذف نویز کمک می کرد. الگوریتم حاصل، RoseTTAFold Diffusion (RF Diffusion)، عشقی است بین پیشبینی ساختار پروتئین و تولید خلاق. هوش مصنوعی طیف گستردهای از پروتئینهای پیچیده را با شباهت کمی به ساختارهای پروتئینی شناخته شده طراحی کرد، که با محدودیتهای از پیش تعریفشده اما بیولوژیکی مرتبط محدود شدهاند.
طراحی پروتئین تنها اولین قدم است. مورد بعدی، ترجمه این طرح های دیجیتال به پروتئین های واقعی و دیدن نحوه عملکرد آنها در سلول ها است. در یک آزمایش، تیم 44 کاندید با پتانسیل ضد باکتری و ضد ویروسی را انتخاب کردند و پروتئینهای داخل آن را ساختند. E. Coli باکتری ها بیش از 80 درصد از پروتئین های طراح هوش مصنوعی به شکل نهایی پیش بینی شده خود تا می شوند. این یک شاهکار است، زیرا چندین واحد فرعی باید در تعداد و جهتگیریهای خاص گرد هم میآمدند.
پروتئین ها نیز به اهداف مورد نظر خود رسیدند. یک نمونه دارای ساختار پروتئینی بود که به SARS-CoV-2، ویروسی که باعث کووید-19 می شود، متصل می شد. طراحی هوش مصنوعی به طور خاص روی پروتئین اسپایک ویروس، هدف واکسنهای کووید-۱۹، تطبیق داده شده است.
در مثالی دیگر، هوش مصنوعی پروتئینی طراحی کرد که برای تنظیم سطح کلسیم در خون به هورمونی متصل می شود. نامزد به دست آمده به آسانی به هدف چنگ زد - آنقدر که فقط به مقدار کمی نیاز داشت. صحبت کردن با فناوری MIT را نقد کنیدبیکر گفت که به نظر می رسد هوش مصنوعی راه حل های دارویی پروتئین را می کشد.از هوای رقیق"
"این کارها نشان می دهد که مدل های انتشار چقدر می توانند برای طراحی پروتئین قدرتمند باشند." گفت: نویسنده مطالعه دکتر جوزف واتسون.
آیا هوش مصنوعی رویای گوسفند مولکولی را می بیند؟
آزمایشگاه بیکر تنها آزمایشگاهی نیست که داروهای پروتئینی مبتنی بر هوش مصنوعی را دنبال می کند.
تولید داروهای زیستییک استارت آپ مستقر در ماساچوست نیز به مدل های انتشار برای تولید پروتئین توجه دارد. دوبله شده کروما، نرم افزار آنها مانند RF Diffusion کار می کند، از جمله پروتئین های تولید شده که به محدودیت های بیوفیزیکی پایبند هستند. به گفته این شرکت، Chroma می تواند پروتئین های بزرگ - بیش از 4,000 باقی مانده اسید آمینه - را تنها در چند دقیقه در یک GPU (واحد پردازش گرافیکی) تولید کند.
در حالی که فقط در حال افزایش است، واضح است که مسابقه برای طراحی داروهای پروتئینی بر اساس تقاضا در جریان است. دیوید یورگنس، نویسنده مطالعه RF Diffusion، گفت: "این بسیار هیجان انگیز است، و واقعاً تازه شروع است."
تصویر های اعتباری: ایان هایدون / موسسه طراحی پروتئین / دانشگاه واشنگتن