میٹا کی نئی چیٹ جی پی ٹی کی طرح اے آئی پروٹینز کی زبان میں روانی ہے۔

میٹا کی نئی چیٹ جی پی ٹی کی طرح اے آئی پروٹینز کی زبان میں روانی ہے۔

Meta’s New ChatGPT-Like AI Is Fluent in the Language of Proteins PlatoBlockchain Data Intelligence. Vertical Search. Ai.

پروٹین کے ہر ڈھانچے کو حل کرنے کی دوڑ نے صرف ایک اور ٹیک دیو کا خیرمقدم کیا: میٹا اے آئی۔

میٹا کی ایک تحقیقی شاخ، جسے فیس بک اور انسٹاگرام کے لیے جانا جاتا ہے، ٹیم ایک پرجوش مقصد کے ساتھ پروٹین کی شکل کی پیشین گوئی کے منظر پر آئی: پروٹین کائنات کے "تاریک مادے" کو سمجھنا۔ اکثر بیکٹیریا، وائرس اور دیگر مائکروجنزموں میں پائے جاتے ہیں، یہ پروٹین ہمارے روزمرہ کے ماحول میں رہتے ہیں لیکن سائنس کے لیے مکمل راز ہیں۔

"یہ وہ ڈھانچے ہیں جن کے بارے میں ہم کم سے کم جانتے ہیں۔ یہ ناقابل یقین حد تک پراسرار پروٹین ہیں۔ مجھے لگتا ہے کہ وہ حیاتیات میں عظیم بصیرت کی صلاحیت پیش کرتے ہیں،" نے کہا سینئر مصنف ڈاکٹر الیگزینڈر ریوز ٹو فطرت، قدرت.

دوسرے لفظوں میں، وہ بائیو ٹیکنالوجی کے لیے الہام کا خزانہ ہیں۔ ان کی خفیہ شکلوں میں پوشیدہ ڈیزائننگ کی چابیاں ہیں۔ موثر بایو ایندھن, اینٹی بایوٹک, خامروں، یا یہاں تک کہ مکمل طور پر نئے حیاتیات. اس کے نتیجے میں، پروٹین کی پیشن گوئیوں سے ڈیٹا AI ماڈلز کو مزید تربیت دے سکتا ہے۔

میٹا کے نئے AI کے مرکز میں، جسے ESMFold کہا جاتا ہے، زبان کا ایک بڑا ماڈل ہے۔ یہ واقف لگ سکتا ہے. مشین لرننگ کے ان الگورتھم نے راک اسٹار چیٹ بوٹ چیٹ جی پی ٹی کے ساتھ دنیا بھر میں دھوم مچا دی ہے۔ آسان اشارے کے ساتھ خوبصورت مضامین، نظمیں، اور دھن تخلیق کرنے کی صلاحیت کے لیے جانا جاتا ہے، ChatGPT — اور حال ہی میں لانچ کیا گیا GPT-4عوامی طور پر دستیاب لاکھوں متن کے ساتھ تربیت یافتہ ہیں۔ آخر کار AI حروف، الفاظ کی پیشن گوئی کرنا سیکھ لیتا ہے، اور یہاں تک کہ پورے پیراگراف لکھنا سیکھتا ہے اور، Bing کے اسی طرح کے چیٹ بوٹ کی صورت میں، ہولڈ مکالمات جو کبھی کبھی تھوڑا سا بے چین ہو جاتا ہے۔

نئی تحقیق، میں شائع سائنس، AI ماڈل کو حیاتیات کے ساتھ جوڑتا ہے۔ پروٹین 20 "حروف" سے بنی ہیں۔ ارتقاء کی بدولت، حروف کی ترتیب ان کی حتمی شکلیں پیدا کرنے میں مدد کرتی ہے۔ اگر بڑے زبان کے ماڈل انگریزی حروف تہجی کے 26 حروف کو مربوط پیغامات میں آسانی سے تشکیل دے سکتے ہیں، تو وہ پروٹین کے لیے بھی کام کیوں نہیں کر سکتے؟

سپوئلر: وہ کرتے ہیں۔ ESM-2 نے 600 گرافک پروسیسنگ یونٹس (GPUs) کا استعمال کرتے ہوئے صرف دو ہفتوں میں تقریباً 2,000 ملین پروٹین ڈھانچے کی پیشین گوئیوں کو مکمل کیا۔ پچھلی کوششوں کے مقابلے میں، AI نے اس عمل کو 60 گنا زیادہ تیز کر دیا۔ مصنفین نے ہر ڈھانچے کو ESM Metagenomic Atlas میں ڈال دیا، جسے آپ دریافت کر سکتے ہیں۔ یہاں.

بارسلونا نیشنل سپر کمپیوٹنگ سینٹر (BCS) میں ڈاکٹر الفانسو والنسیا کے لیے، جو اس کام میں شامل نہیں تھے، بڑے زبان کے نظام کو استعمال کرنے کی خوبصورتی ایک "تصوراتی سادگی" مزید ترقی کے ساتھ، AI "غیر فطری پروٹینوں کی ساخت کی پیش گوئی کر سکتا ہے، جس سے معلوم کائنات کو ارتقائی عمل نے دریافت کیا ہے۔"

آئیے ارتقا کی بات کرتے ہیں۔

ESMFold ایک سادہ ہدایت کی پیروی کرتا ہے: ترتیب ساخت کی پیش گوئی کرتی ہے۔

آئیے پیچھے ہٹتے ہیں۔ پروٹین 20 امینو ایسڈز سے بنتے ہیں - ہر ایک ایک "حرف" - اور تار پر چمکدار موتیوں کی طرح جڑا ہوا ہے۔ ہمارے خلیے پھر ان کو نازک خصوصیات میں ڈھالتے ہیں: کچھ ڈھیلے بستر کی چادروں کی طرح نظر آتے ہیں، دیگر کینڈی کین یا ڈھیلے ربن کی طرح۔ اس کے بعد پروٹین ملٹی پلیکس بنانے کے لیے ایک دوسرے پر قبضہ کر سکتے ہیں — مثال کے طور پر، ایک سرنگ جو دماغی خلیے کی جھلی کو عبور کرتی ہے جو اس کے اعمال کو کنٹرول کرتی ہے، اور بدلے میں یہ کنٹرول کرتی ہے کہ ہم کس طرح سوچتے اور یاد کرتے ہیں۔

سائنسدانوں کو طویل عرصے سے معلوم ہے کہ امینو ایسڈ کے خطوط پروٹین کی حتمی ساخت کو تشکیل دینے میں مدد کرتے ہیں۔ کسی زبان میں حروف یا حروف سے ملتے جلتے، صرف کچھ مخصوص حروف جب آپس میں جڑے ہوں تو معنی خیز ہوتے ہیں۔ پروٹین کے معاملے میں، یہ ترتیب انہیں فعال بناتی ہے۔

مصنفین نے کہا کہ "ایک پروٹین کی حیاتیاتی خصوصیات تغیرات کو اس کی ترتیب تک محدود کرتی ہیں جو ارتقاء کے ذریعے منتخب کی جاتی ہیں۔"

بالکل اسی طرح جیسے حروف تہجی میں مختلف حروف ایک دوسرے کے ساتھ مل کر الفاظ، جملے اور پیراگراف بنا کر مکمل بے ہودہ آواز لگتے ہیں، پروٹین حروف بھی ایسا ہی کرتے ہیں۔ اس طرح کی ایک "ارتقائی لغت" موجود ہے جو امینو ایسڈ کو ان ڈھانچے میں جوڑنے میں مدد کرتی ہے جس کو جسم سمجھ سکتا ہے۔

والنسیا نے کہا کہ "معروف پروٹینوں میں امینو ایسڈز کی جانشینی کی منطق ایک ارتقائی عمل کا نتیجہ ہے جس کی وجہ سے وہ مخصوص ڈھانچہ رکھتے ہیں جس کے ساتھ وہ ایک خاص کام انجام دیتے ہیں۔"

مسٹر اے آئی، مجھے ایک پروٹین بنائیں

زندگی کی لغت نسبتاً محدود ہے۔ بڑی زبان کے ماڈلز کے لیے اچھی خبر.

یہ AI ماڈل اگلے لفظ کی پیشین گوئیاں سیکھنے اور بنانے کے لیے آسانی سے دستیاب تحریروں کی جانچ کرتے ہیں۔ آخری نتیجہ، جیسا کہ GPT-3 اور ChatGPT میں دیکھا گیا ہے، حیرت انگیز طور پر قدرتی گفتگو اور شاندار فنکارانہ تصاویر ہیں۔

میٹا اے آئی نے اسی تصور کا استعمال کیا، لیکن پروٹین کی ساخت کی پیشین گوئیوں کے لیے پلے بک کو دوبارہ لکھا۔ متن کے ساتھ الگورتھم کو کھانا کھلانے کے بجائے، انہوں نے پروگرام کو معلوم پروٹین کی ترتیب دی۔

اے آئی ماڈل - جسے ٹرانسفارمر پروٹین لینگویج ماڈل کہا جاتا ہے - نے 15 بلین تک "ترتیبات" کا استعمال کرتے ہوئے پروٹین کے عمومی فن تعمیر کو سیکھا۔ اس نے مجموعی طور پر تقریباً 65 ملین مختلف پروٹین کی ترتیب دیکھی۔

اپنے اگلے مرحلے میں ٹیم نے AI سے کچھ خطوط چھپائے، اسے خالی جگہوں کو پُر کرنے کے لیے کہا۔ کس مقدار میں خود کار طریقے سے مکمل ہونا ہے، پروگرام نے آخرکار سیکھا کہ مختلف امینو ایسڈ کس طرح ایک دوسرے سے جڑتے ہیں (یا پیچھے ہٹاتے ہیں)۔ آخر میں، AI نے ارتقائی پروٹین کی ترتیب کے بارے میں ایک بدیہی تفہیم قائم کی — اور یہ کہ وہ کس طرح فعال پروٹین بنانے کے لیے مل کر کام کرتے ہیں۔

نامعلوم میں

تصور کے ثبوت کے طور پر، ٹیم نے دو معروف ٹیسٹ سیٹس کا استعمال کرتے ہوئے ESMFold کا تجربہ کیا۔ ایک، CAMEO، جس میں تقریباً 200 ڈھانچے شامل تھے۔ دوسرے، CASP14، میں 51 عوامی طور پر جاری کردہ پروٹین کی شکلیں ہیں۔

مجموعی طور پر، AI "جدید ترین ساخت کی پیشن گوئی کی درستگی فراہم کرتا ہے،" ٹیم نے کہا، "آدھے سے زیادہ پروٹینوں پر الفا فولڈ 2 کی کارکردگی سے مماثل ہے۔" اس نے بڑے پروٹین کمپلیکسز سے بھی قابل اعتماد طریقے سے نمٹا — مثال کے طور پر، نیوران کے چینلز جو اپنے اعمال کو کنٹرول کرتے ہیں۔

اس کے بعد ٹیم نے میٹاجینومکس کی دنیا میں قدم رکھتے ہوئے اپنے AI کو ایک قدم آگے بڑھایا۔

Metagenomes وہی ہیں جیسے وہ آواز دیتے ہیں: DNA مواد کا ایک ہوج پاج۔ عام طور پر یہ ماحولیاتی ذرائع سے آتے ہیں جیسے آپ کے پیروں کے نیچے کی گندگی، سمندری پانی، یا عام طور پر غیر مہمان تھرمل وینٹ۔ زیادہ تر جرثومے مصنوعی طور پر لیبارٹریوں میں نہیں اگائے جا سکتے ہیں، پھر بھی کچھ کے پاس سپر پاورز ہیں جیسے آتش فشاں کی سطح کی گرمی کے خلاف مزاحمت کرنا، انہیں ایک حیاتیاتی تاریک مادہ بناتا ہے جس کی تلاش ابھی باقی ہے۔

جس وقت یہ مقالہ شائع ہوا تھا، اے آئی نے ان میں سے 600 ملین سے زیادہ پروٹینوں کی پیش گوئی کی تھی۔ تازہ ترین ریلیز کے ساتھ اب تعداد 700 ملین سے زیادہ ہے۔ پیشین گوئیاں تقریباً دو ہفتوں میں تیز اور غصے سے سامنے آئیں۔ اس کے برعکس، ماڈلنگ کی پچھلی کوششوں میں صرف ایک پروٹین کے لیے 10 منٹ لگے۔

تقریباً ایک تہائی پروٹین کی پیشین گوئیاں اعلیٰ اعتماد کی تھیں، جس میں جوہری سطح کے پیمانے میں زوم کرنے کے لیے کافی تفصیل تھی۔ چونکہ پروٹین کی پیشین گوئیاں مکمل طور پر ان کی ترتیب پر مبنی تھیں، لاکھوں "ایلینز" پاپ اپ ہو گئے — ڈھانچے قائم شدہ ڈیٹا بیس یا پہلے ٹیسٹ کیے گئے کسی بھی چیز کے برعکس۔

"یہ دلچسپ بات ہے کہ 10 فیصد سے زیادہ پیشین گوئیاں ان پروٹینوں کے لیے ہیں جو دوسرے معلوم پروٹین سے مشابہت نہیں رکھتے،" والینسیا نے کہا۔ یہ زبان کے ماڈلز کے جادو کی وجہ سے ہو سکتا ہے، جو کہ دریافت کرنے اور ممکنہ طور پر پیدا کرنے میں کہیں زیادہ لچکدار ہیں، اس سے قبل فنکشنل پروٹینز بنانے والے سلسلے کے بارے میں سنا نہیں گیا تھا۔ انہوں نے کہا کہ "یہ بائیوٹیکنالوجی اور بائیو میڈیسن میں ایپلی کیشنز کے ساتھ نئی ترتیبوں اور بائیو کیمیکل خصوصیات کے ساتھ پروٹین کے ڈیزائن کے لیے ایک نئی جگہ ہے۔"

مثال کے طور پر، ESMFold ممکنہ طور پر پروٹین میں واحد حرفی تبدیلیوں کے نتائج کو ختم کرنے میں مدد کر سکتا ہے۔ نقطہ اتپریورتنوں کو کہا جاتا ہے، یہ بظاہر بے نظیر ترمیمات جسم میں تباہی مچا دیتی ہیں، تباہ کن میٹابولک سنڈروم، سکیل سیل انیمیا اور کینسر کا باعث بنتی ہیں۔ ایک دبلی پتلی، اوسط اور نسبتاً آسان AI اوسط بائیو میڈیکل ریسرچ لیب میں نتائج لاتی ہے، جبکہ AI کی رفتار کی بدولت پروٹین کی شکل کی پیشین گوئیوں کو بڑھاتی ہے۔

بائیو میڈیسن کو ایک طرف رکھتے ہوئے، ایک اور دلچسپ خیال یہ ہے کہ پروٹین بڑی زبان کے ماڈلز کو اس طرح تربیت دینے میں مدد کر سکتے ہیں جس طرح متن نہیں کر سکتے۔ جیسا کہ ویلینسیا نے وضاحت کی، "ایک طرف، پروٹین کی ترتیب متن سے زیادہ پرچر ہے، زیادہ متعین سائز، اور اعلی درجے کی تغیرات ہیں۔ دوسری طرف، پروٹینز کا ایک مضبوط اندرونی 'معنی' ہوتا ہے - یعنی ترتیب اور ساخت کے درمیان ایک مضبوط تعلق، ایک ایسا معنی یا ہم آہنگی جو متن میں بہت زیادہ پھیلا ہوا ہے،" دونوں شعبوں کو ایک اچھے فیڈ بیک لوپ میں پلاتا ہے۔

تصویری کریڈٹ: میٹا اے آئی

ٹائم اسٹیمپ:

سے زیادہ یکسانیت مرکز