मेटा का नया चैटजीपीटी जैसा एआई प्रोटीन की भाषा में पारंगत है

मेटा का नया चैटजीपीटी जैसा एआई प्रोटीन की भाषा में पारंगत है

मेटा का नया चैटजीपीटी-जैसा एआई प्रोटीन प्लेटोब्लॉकचेन डेटा इंटेलिजेंस की भाषा में निपुण है। लंबवत खोज. ऐ.

हर प्रोटीन संरचना को हल करने की दौड़ ने एक और तकनीकी दिग्गज का स्वागत किया: मेटा एआई।

फेसबुक और इंस्टाग्राम के लिए जानी जाने वाली मेटा की एक शोध शाखा, एक महत्वाकांक्षी लक्ष्य के साथ टीम प्रोटीन आकार भविष्यवाणी दृश्य पर आई: प्रोटीन ब्रह्मांड के "डार्क मैटर" को समझने के लिए। अक्सर बैक्टीरिया, वायरस और अन्य सूक्ष्मजीवों में पाया जाता है, ये प्रोटीन हमारे दैनिक वातावरण में रहते हैं लेकिन विज्ञान के लिए पूर्ण रहस्य हैं।

"ये ऐसी संरचनाएं हैं जिनके बारे में हम सबसे कम जानते हैं। ये अविश्वसनीय रूप से रहस्यमयी प्रोटीन हैं। मुझे लगता है कि वे जीव विज्ञान में महान अंतर्दृष्टि की क्षमता प्रदान करते हैं।" कहा वरिष्ठ लेखक डॉ। अलेक्जेंडर राइव्स टू प्रकृति.

दूसरे शब्दों में, वे जैव प्रौद्योगिकी के लिए प्रेरणा का खजाना हैं। उनके गुप्त आकार में छिपी डिजाइनिंग की कुंजियां हैं कुशल जैव ईंधन, एंटीबायोटिक दवाओं, एंजाइमों, या और भी पूरी तरह से नए जीव. बदले में, प्रोटीन भविष्यवाणियों के डेटा एआई मॉडल को और प्रशिक्षित कर सकते हैं।

मेटा के नए एआई के केंद्र में, जिसे ईएसएमएफल्ड कहा जाता है, एक बड़ा भाषा मॉडल है। यह परिचित लग सकता है। इन मशीन लर्निंग एल्गोरिदम ने रॉकस्टार चैटबॉट चैटजीपीटी के साथ दुनिया में तूफान ला दिया है। सरल संकेतों के साथ सुंदर निबंध, कविताएं और गीत उत्पन्न करने की अपनी क्षमता के लिए जाना जाता है, चैटजीपीटी—और हाल ही में लॉन्च किया गया GPT-4—सार्वजनिक रूप से उपलब्ध लाखों पाठों से प्रशिक्षित हैं। आखिरकार एआई अक्षरों, शब्दों की भविष्यवाणी करना सीखता है और यहां तक ​​कि पूरे पैराग्राफ भी लिखता है और बिंग के समान चैटबॉट के मामले में, होल्ड करता है बातचीत जो कभी-कभी थोड़ा परेशान करने वाला हो जाता है।

नया अध्ययन, में प्रकाशित विज्ञान, जीव विज्ञान के साथ AI मॉडल को पाटता है। प्रोटीन 20 "अक्षरों" से बने होते हैं। विकास के लिए धन्यवाद, अक्षरों का क्रम उनके अंतिम आकार को उत्पन्न करने में मदद करता है। यदि बड़े भाषा मॉडल अंग्रेजी वर्णमाला के 26 अक्षरों को सुसंगत संदेशों में आसानी से परिभाषित कर सकते हैं, तो वे प्रोटीन के लिए भी काम क्यों नहीं कर सकते?

स्पॉइलर: वे करते हैं। ESM-2 ने 600 ग्राफिक प्रोसेसिंग यूनिट्स (GPUs) का उपयोग करके केवल दो सप्ताह में लगभग 2,000 मिलियन प्रोटीन संरचना पूर्वानुमानों के माध्यम से विस्फोट किया। पिछले प्रयासों की तुलना में, एआई ने इस प्रक्रिया को 60 गुना तेज कर दिया। लेखकों ने प्रत्येक संरचना को ईएसएम मेटागेनोमिक एटलस में रखा है, जिसे आप एक्सप्लोर कर सकते हैं यहाँ उत्पन्न करें.

बार्सिलोना नेशनल सुपरकंप्यूटिंग सेंटर (बीसीएस) में डॉ. अल्फोंसो वालेंसिया के लिए, जो काम में शामिल नहीं थे, बड़ी भाषा प्रणालियों का उपयोग करने की सुंदरता एक "वैचारिक सादगी।” आगे के विकास के साथ, एआई "गैर-प्राकृतिक प्रोटीन की संरचना की भविष्यवाणी कर सकता है, जो विकासवादी प्रक्रियाओं की खोज से परे ज्ञात ब्रह्मांड का विस्तार करता है।"

आइए बात करते हैं विकास की

ESMFold एक सरल दिशानिर्देश का अनुसरण करता है: अनुक्रम संरचना की भविष्यवाणी करता है।

चलो पीछे हटो। प्रोटीन 20 अमीनो एसिड से बने होते हैं - प्रत्येक एक "अक्षर" - और एक तार पर नुकीले मोतियों की तरह फँसा हुआ। हमारी कोशिकाएं तब उन्हें नाजुक सुविधाओं में आकार देती हैं: कुछ रम्मीदार बिस्तर की चादरों की तरह दिखती हैं, अन्य एक स्वियरली कैंडी बेंत या ढीले रिबन की तरह। मल्टीप्लेक्स बनाने के लिए प्रोटीन एक-दूसरे को पकड़ सकते हैं - उदाहरण के लिए, एक सुरंग जो मस्तिष्क कोशिका झिल्ली को पार करती है जो इसके कार्यों को नियंत्रित करती है, और बदले में यह नियंत्रित करती है कि हम कैसे सोचते हैं और याद करते हैं।

वैज्ञानिक लंबे समय से जानते हैं कि अमीनो एसिड के अक्षर प्रोटीन की अंतिम संरचना को आकार देने में मदद करते हैं। किसी भाषा में अक्षरों या वर्णों के समान, केवल कुछ ही जब एक साथ गुंथे जाते हैं तो समझ में आता है। प्रोटीन के मामले में, ये क्रम उन्हें कार्यात्मक बनाते हैं।

लेखकों ने कहा, "प्रोटीन के जैविक गुण उत्परिवर्तन को इसके अनुक्रम में विवश करते हैं जो विकास के माध्यम से चुने जाते हैं।"

वर्णमाला में अलग-अलग अक्षर शब्दों, वाक्यों और पैराग्राफों को बनाने के लिए कैसे मिलते-जुलते हैं, बिना पूरी तरह से गिबरिश की आवाज के, प्रोटीन अक्षर भी ऐसा ही करते हैं। एक प्रकार का "विकासवादी शब्दकोश" है जो अमीनो एसिड को उन संरचनाओं में पिरोने में मदद करता है जिन्हें शरीर समझ सकता है।

वालेंसिया ने कहा, "ज्ञात प्रोटीनों में अमीनो एसिड के उत्तराधिकार का तर्क एक विकासवादी प्रक्रिया का परिणाम है, जिसने उन्हें विशिष्ट संरचना के लिए प्रेरित किया है, जिसके साथ वे एक विशेष कार्य करते हैं।"

मिस्टर एआई, मेक मी ए प्रोटीन

जीवन का अपेक्षाकृत सीमित शब्दकोष है बड़े भाषा मॉडल के लिए अच्छी खबर है.

ये एआई मॉडल अगले शब्द की भविष्यवाणियों को सीखने और बनाने के लिए आसानी से उपलब्ध पाठों को परिमार्जन करते हैं। अंतिम परिणाम, जैसा कि GPT-3 और ChatGPT में देखा गया है, आश्चर्यजनक रूप से प्राकृतिक वार्तालाप और काल्पनिक कलात्मक चित्र हैं।

मेटा एआई ने एक ही अवधारणा का इस्तेमाल किया, लेकिन प्रोटीन संरचना की भविष्यवाणी के लिए प्लेबुक को फिर से लिखा। एल्गोरिदम को ग्रंथों के साथ खिलाने के बजाय, उन्होंने ज्ञात प्रोटीनों के कार्यक्रम अनुक्रम दिए।

एआई मॉडल- जिसे ट्रांसफॉर्मर प्रोटीन लैंग्वेज मॉडल कहा जाता है- ने 15 बिलियन "सेटिंग्स" का उपयोग करके प्रोटीन की सामान्य वास्तुकला सीखी। इसमें कुल मिलाकर लगभग 65 मिलियन विभिन्न प्रोटीन क्रम देखे गए।

अपने अगले चरण में टीम ने एआई से कुछ पत्र छिपाए, जिससे उसे रिक्त स्थान भरने के लिए प्रेरित किया। स्वचालित रूप से पूर्ण करने के लिए कितनी मात्रा में, कार्यक्रम ने अंततः सीखा कि विभिन्न अमीनो एसिड एक दूसरे से कैसे जुड़ते हैं (या पीछे हटते हैं)। अंत में, एआई ने विकासवादी प्रोटीन अनुक्रमों की एक सहज समझ बनाई- और कार्यात्मक प्रोटीन बनाने के लिए वे एक साथ कैसे काम करते हैं।

अज्ञात में

अवधारणा के प्रमाण के रूप में, टीम ने दो प्रसिद्ध परीक्षण सेटों का उपयोग करके ESMFold का परीक्षण किया। एक, CAMEO, जिसमें लगभग 200 संरचनाएँ शामिल थीं; दूसरे, CASP14 में 51 सार्वजनिक रूप से जारी प्रोटीन आकार हैं।

कुल मिलाकर, AI "अत्याधुनिक संरचना भविष्यवाणी सटीकता प्रदान करता है," टीम ने कहा, "आधे से अधिक प्रोटीन पर AlphaFold2 प्रदर्शन का मिलान।" इसने बड़े प्रोटीन परिसरों का भी मज़बूती से सामना किया- उदाहरण के लिए, न्यूरॉन्स पर चैनल जो उनके कार्यों को नियंत्रित करते हैं।

इसके बाद टीम ने मेटाजेनोमिक्स की दुनिया में कदम रखते हुए अपने एआई को एक कदम आगे बढ़ाया।

मेटाजेनोम वे हैं जो वे ध्वनि करते हैं: डीएनए सामग्री का एक हौजपॉज। आम तौर पर ये पर्यावरणीय स्रोतों से आते हैं जैसे कि आपके पैरों के नीचे की गंदगी, समुद्री जल, या सामान्य रूप से दुर्गम थर्मल वेंट। अधिकांश रोगाणुओं को प्रयोगशालाओं में कृत्रिम रूप से नहीं उगाया जा सकता है, फिर भी कुछ में महाशक्तियां होती हैं जैसे कि ज्वालामुखी-स्तर की गर्मी का विरोध करना, उन्हें एक जैविक डार्क मैटर बनाना अभी बाकी है।

जिस समय पेपर प्रकाशित हुआ था, एआई ने इन प्रोटीनों के 600 मिलियन से अधिक होने की भविष्यवाणी की थी। नवीनतम रिलीज के साथ गिनती अब 700 मिलियन से अधिक हो गई है। भविष्यवाणी लगभग दो सप्ताह में तेजी से और उग्र हो गई। इसके विपरीत, पिछले मॉडलिंग प्रयासों में केवल एक प्रोटीन के लिए 10 मिनट तक का समय लगता था।

परमाणु-स्तर के पैमाने में ज़ूम करने के लिए पर्याप्त विवरण के साथ मोटे तौर पर एक तिहाई प्रोटीन भविष्यवाणियां उच्च आत्मविश्वास वाली थीं। क्योंकि प्रोटीन की भविष्यवाणियां पूरी तरह से उनके अनुक्रमों पर आधारित थीं, लाखों "एलियंस" पॉप-अप-संरचनाएं स्थापित डेटाबेस या पहले परीक्षण किए गए किसी भी चीज़ के विपरीत थीं।

"यह दिलचस्प है कि 10 प्रतिशत से अधिक भविष्यवाणियां प्रोटीन के लिए हैं जो अन्य ज्ञात प्रोटीनों से कोई समानता नहीं रखती हैं," वालेंसिया ने कहा। यह भाषा के मॉडल के जादू के कारण हो सकता है, जो खोज करने में कहीं अधिक लचीले होते हैं - और संभावित रूप से उत्पन्न होते हैं - पहले अनसुने अनुक्रम जो कार्यात्मक प्रोटीन बनाते हैं। "यह जैव प्रौद्योगिकी और बायोमेडिसिन में अनुप्रयोगों के साथ नए अनुक्रमों और जैव रासायनिक गुणों के साथ प्रोटीन के डिजाइन के लिए एक नई जगह है," उन्होंने कहा।

उदाहरण के तौर पर, ईएसएमएफल्ड संभावित रूप से प्रोटीन में एकल-अक्षर परिवर्तन के परिणामों को समझने में मदद कर सकता है। बिंदु उत्परिवर्तन कहा जाता है, ये प्रतीत होता है कि सौम्य संपादन शरीर में कहर बरपाते हैं, विनाशकारी चयापचय सिंड्रोम, सिकल सेल एनीमिया और कैंसर का कारण बनते हैं। एआई की गति के लिए प्रोटीन आकार की भविष्यवाणियों को बढ़ाते हुए एक दुबला, औसत और अपेक्षाकृत सरल एआई औसत जैव चिकित्सा अनुसंधान प्रयोगशाला में परिणाम लाता है।

बायोमेडिसिन एक तरफ, एक और आकर्षक विचार यह है कि प्रोटीन बड़े भाषा मॉडल को प्रशिक्षित करने में मदद कर सकता है जिस तरह से पाठ नहीं कर सकते। जैसा कि वालेंसिया ने समझाया, "एक ओर, प्रोटीन अनुक्रम ग्रंथों की तुलना में अधिक प्रचुर मात्रा में हैं, अधिक परिभाषित आकार हैं, और उच्च स्तर की परिवर्तनशीलता है। दूसरी ओर, प्रोटीन का एक मजबूत आंतरिक 'अर्थ' होता है - अर्थात, अनुक्रम और संरचना के बीच एक मजबूत संबंध, एक अर्थ या सुसंगतता जो ग्रंथों में बहुत अधिक फैलती है, "दो क्षेत्रों को एक गुणी प्रतिक्रिया पाश में बांधती है।

छवि क्रेडिट: मेटा एआई

समय टिकट:

से अधिक विलक्षणता हब