به لطف DALL-E، مسابقه ساخت داروهای پروتئین مصنوعی در هوش داده پلاتو بلاک چین است. جستجوی عمودی Ai.

با تشکر از DALL-E، مسابقه ساخت داروهای پروتئین مصنوعی در جریان است

به یاد دارید زمانی که پیش‌بینی اشکال پروتئین با استفاده از هوش مصنوعی موفقیت سال بود؟

این یک خبر قدیمی است. داشتن تقریباً تمام ساختارهای پروتئینی را حل کرد هوش مصنوعی که برای زیست شناسی شناخته شده است، اکنون به چالش جدیدی روی آورده است: طراحی پروتئین ها از ابتدا.

این تلاش به دور از یک پیگیری آکادمیک، یک بازی بالقوه برای کشف مواد مخدر است. داشتن توانایی تهیه داروهای پروتئینی برای هر هدف خاص در داخل بدن - مانند داروهایی که باعث رشد و گسترش سرطان می شوند - می تواند جهان جدیدی از داروها را برای مقابله با بدترین دشمنان پزشکی ما راه اندازی کند.

جای تعجب نیست که چندین نیروگاه هوش مصنوعی به این چالش پاسخ می دهند. آنچه شگفت آور است این است که آنها بر روی رویکرد مشابهی همگرایی کردند. امسال DeepMind، Meta، و تیم دکتر دیوید بیکر در دانشگاه واشنگتن همگی از یک منبع نامحتمل الهام گرفتند: DALL-E و GPT-3.

این الگوریتم های مولد دنیا را طوفانی کرده است. وقتی فقط چند دستور ساده به زبان انگلیسی روزمره داده می شود، برنامه ها می توانند تصاویر شگفت انگیز، پاراگراف هایی از نوشته های خلاقانه یا صحنه های فیلم تولید کنند و حتی جدیدترین طرح های مد را مجدداً ترکیب کنند. همان تکنولوژی زیربنایی اخیرا چاقو خورد در نوشتن کدهای کامپیوتری، تقریباً نیمی از رقبای انسانی را در یک کار برنامه نویسی بسیار چالش برانگیز به بهترین شکل ممکن به دست آورد.

چه ربطی به پروتئین دارد؟

نکته اینجاست: پروتئین ها اساسا رشته هایی از "حروف" هستند که در ساختارهای ثانویه - جملات فکری - و سپس "پاراگراف های سه بعدی" شکل گرفته اند. اگر هوش مصنوعی می تواند تصاویر زرق و برق دار و نوشته ای تمیز تولید کند، چرا از این فناوری برای بازنویسی کد زندگی استفاده نکنیم؟

در اینجا قهرمانان بیایند

پروتئین کلید زندگی است. بدن ما را می سازد. متابولیسم ما را اجرا می کند. زیربنای عملکردهای پیچیده مغز است. همچنین پایه ای برای انبوهی از داروهای جدید است که می تواند برخی از غیر قابل حل ترین مشکلات سلامتی ما را درمان کند - و منابع جدیدی از سوخت های زیستی ایجاد کند. گوشت های آزمایشگاهی، یا حتی شکل های کاملاً جدید زندگی از طریق زیست شناسی مصنوعی.

در حالی که "پروتئین" اغلب تصاویری از سینه مرغ را تداعی می کند، این مولکول ها بیشتر شبیه یک پازل پیچیده لگو هستند. ساختن یک پروتئین با رشته‌ای از اسیدهای آمینه شروع می‌شود - به تعداد بی‌شمار چراغ‌های کریسمس روی یک رشته فکر کنید - که سپس به ساختارهای سه‌بعدی تا می‌شوند (مثل به هم ریختن آنها برای ذخیره‌سازی).

دیپ مایند و بیکر هر دو وقتی الگوریتم‌هایی را برای پیش‌بینی ساختار هر پروتئینی بر اساس توالی اسید آمینه‌شان ایجاد کردند، امواجی ایجاد کردند. این یک تلاش ساده نبود. پیش بینی ها در سطح اتمی ترسیم شدند.

طراحی پروتئین های جدید پیچیدگی را به سطح دیگری ارتقا می دهد. امسال آزمایشگاه بیکر با یک تلاش به آن ضربه زد با استفاده از غربالگری خوب قدیمی تکنیک ها و دیگری با تکیه بر توهمات یادگیری عمیق. هر دو الگوریتم برای ابهام زدایی از پروتئین‌های طبیعی و تولید پروتئین‌های جدید بسیار قدرتمند هستند، اما بزرگ‌کردن آنها دشوار بود.

اما صبر کن طراحی یک پروتئین کمی شبیه نوشتن یک مقاله است. اگر GPT-3 و ChatGPT بتوانند گفتگوهای پیچیده ای را با استفاده از زبان طبیعی بنویسند، همان فناوری می تواند در تئوری زبان پروتئین ها - اسیدهای آمینه - را برای تشکیل پروتئین های عملکردی کاملاً ناشناخته برای طبیعت دوباره فعال کند.

خلاقیت هوش مصنوعی با زیست شناسی ملاقات می کند

یکی از اولین نشانه‌هایی که نشان می‌دهد این ترفند می‌تواند کارساز باشد، از متا بود.

در اخیر کاغذ چاپآنها از معماری هوش مصنوعی زیربنای DALL-E و ChatGPT، نوعی یادگیری ماشینی به نام مدل‌های زبان بزرگ (LLM) استفاده کردند تا ساختار پروتئین را پیش‌بینی کنند. این تیم به جای تغذیه مدل‌ها با مقادیر فراوان متن یا تصویر، آنها را بر روی توالی‌های اسید آمینه پروتئین‌های شناخته شده آموزش داد. با استفاده از این مدل، هوش مصنوعی متا پیش بینی کرد میلیون بیش 600 ساختار پروتئین با خواندن «حروف» اسید آمینه آنها به تنهایی - از جمله حروف باطنی از میکروارگانیسم های موجود در خاک، آب اقیانوس ها و بدن ما که ما اطلاعات کمی در مورد آنها داریم.

جالب‌تر اینکه هوش مصنوعی که ESMFold نام دارد، در نهایت یاد گرفت که توالی‌های پروتئین را «خودکار» تکمیل کند، حتی زمانی که برخی از حروف اسید آمینه مبهم بودند. اگرچه به اندازه AlphaFold DeepMind دقیق نیست، اما تقریباً 60 برابر سریع‌تر اجرا می‌شود و مقیاس آن را برای پایگاه‌های داده بزرگ‌تر آسان‌تر می‌کند.

آزمایشگاه بیکر عملکرد «تکمیل خودکار» پروتئین را به سطح جدیدی ارتقا داد یک پیش چاپ اوایل این ماه منتشر شد. اگر هوش مصنوعی از قبل بتواند جاهای خالی را در مورد پیش‌بینی ساختارهای پروتئینی پر کند، یک اصل مشابه به طور بالقوه می‌تواند پروتئین‌ها را از یک دستور تولید کند - در این مورد، عملکرد بیولوژیکی بالقوه آن.

کلید پایین آمد مدل های انتشار، نوعی الگوریتم یادگیری ماشینی است که DALL-E را تقویت می کند. به زبان ساده، این شبکه‌های عصبی به‌ویژه در افزودن و سپس حذف نویز از داده‌های داده شده – اعم از تصاویر، متون یا توالی‌های پروتئینی، خوب هستند. در طول تمرین، ابتدا داده های آموزشی را با اضافه کردن نویز از بین می برند. سپس مدل یاد می گیرد که داده های اصلی را با معکوس کردن فرآیند از طریق مرحله ای به نام حذف نویز بازیابی کند. این کمی شبیه به جدا کردن یک لپ تاپ یا دیگر الکترونیکی و قرار دادن آن در کنار هم است تا ببینید اجزای مختلف چگونه کار می کنند.

از آنجایی که مدل‌های انتشار معمولاً با داده‌های درهم شروع می‌شوند (مثلاً همه پیکسل‌های یک تصویر به نویز مرتب می‌شوند) و در نهایت یاد می‌گیرند که تصویر اصلی را بازسازی کنند، به‌ویژه در تولید تصاویر یا پروتئین‌های جدید از نمونه‌های به ظاهر تصادفی مؤثر است.

آزمایشگاه بیکر با اندکی تنظیم دقیق امضای خود به این رویکرد دست زد RoseTTAFold شبکه پیش بینی ساختار پیش از این، نسخه‌ای از این نرم‌افزار، داربست‌های پروتئینی - ستون فقرات یک پروتئین - را تنها در یک مرحله تولید می‌کرد. اما پروتئین‌ها حباب‌های یکنواختی نیستند: هر کدام دارای چندین نقطه حساس هستند که به آنها اجازه می‌دهد به صورت فیزیکی روی یکدیگر برچسب بزنند، که فرآیندهای بیولوژیکی مختلفی را آغاز می‌کند. هنگامی که RoseTTAFold با مشکلات سختی مواجه شد - مانند طراحی نقاط حساس پروتئینی با حداقل دانش - با مشکل مواجه شد.

راه حل این تیم ادغام RoseTTAFold با یک مدل انتشار بود که اولی به مرحله حذف نویز کمک می کرد. الگوریتم حاصل، RoseTTAFold Diffusion (RF Diffusion)، عشقی است بین پیش‌بینی ساختار پروتئین و تولید خلاق. هوش مصنوعی طیف گسترده‌ای از پروتئین‌های پیچیده را با شباهت کمی به ساختارهای پروتئینی شناخته شده طراحی کرد، که با محدودیت‌های از پیش تعریف‌شده اما بیولوژیکی مرتبط محدود شده‌اند.

طراحی پروتئین تنها اولین قدم است. مورد بعدی، ترجمه این طرح های دیجیتال به پروتئین های واقعی و دیدن نحوه عملکرد آنها در سلول ها است. در یک آزمایش، تیم 44 کاندید با پتانسیل ضد باکتری و ضد ویروسی را انتخاب کردند و پروتئین‌های داخل آن را ساختند. E. Coli باکتری ها بیش از 80 درصد از پروتئین های طراح هوش مصنوعی به شکل نهایی پیش بینی شده خود تا می شوند. این یک شاهکار است، زیرا چندین واحد فرعی باید در تعداد و جهت‌گیری‌های خاص گرد هم می‌آمدند.

پروتئین ها نیز به اهداف مورد نظر خود رسیدند. یک نمونه دارای ساختار پروتئینی بود که به SARS-CoV-2، ویروسی که باعث کووید-19 می شود، متصل می شد. طراحی هوش مصنوعی به طور خاص روی پروتئین اسپایک ویروس، هدف واکسن‌های کووید-۱۹، تطبیق داده شده است.

در مثالی دیگر، هوش مصنوعی پروتئینی طراحی کرد که برای تنظیم سطح کلسیم در خون به هورمونی متصل می شود. نامزد به دست آمده به آسانی به هدف چنگ زد - آنقدر که فقط به مقدار کمی نیاز داشت. صحبت کردن با فناوری MIT را نقد کنیدبیکر گفت که به نظر می رسد هوش مصنوعی راه حل های دارویی پروتئین را می کشد.از هوای رقیق"

"این کارها نشان می دهد که مدل های انتشار چقدر می توانند برای طراحی پروتئین قدرتمند باشند." گفت: نویسنده مطالعه دکتر جوزف واتسون.

آیا هوش مصنوعی رویای گوسفند مولکولی را می بیند؟

آزمایشگاه بیکر تنها آزمایشگاهی نیست که داروهای پروتئینی مبتنی بر هوش مصنوعی را دنبال می کند.

تولید داروهای زیستییک استارت آپ مستقر در ماساچوست نیز به مدل های انتشار برای تولید پروتئین توجه دارد. دوبله شده کروما، نرم افزار آنها مانند RF Diffusion کار می کند، از جمله پروتئین های تولید شده که به محدودیت های بیوفیزیکی پایبند هستند. به گفته این شرکت، Chroma می تواند پروتئین های بزرگ - بیش از 4,000 باقی مانده اسید آمینه - را تنها در چند دقیقه در یک GPU (واحد پردازش گرافیکی) تولید کند.

در حالی که فقط در حال افزایش است، واضح است که مسابقه برای طراحی داروهای پروتئینی بر اساس تقاضا در جریان است. دیوید یورگنس، نویسنده مطالعه RF Diffusion، گفت: "این بسیار هیجان انگیز است، و واقعاً تازه شروع است."

تصویر های اعتباری: ایان هایدون / موسسه طراحی پروتئین / دانشگاه واشنگتن

تمبر زمان:

بیشتر از تکینگی هاب