दवा विकास एक जटिल और लंबी प्रक्रिया है जिसमें हजारों दवा उम्मीदवारों की स्क्रीनिंग और लीड का मूल्यांकन करने के लिए कम्प्यूटेशनल या प्रयोगात्मक तरीकों का उपयोग करना शामिल है। मैककिंसे के मुताबिक, एक दवा को रोग लक्ष्य की पहचान, दवा स्क्रीनिंग, दवा-लक्ष्य सत्यापन और अंततः वाणिज्यिक लॉन्च के माध्यम से जाने में 10 साल लग सकते हैं और औसतन 2.6 बिलियन डॉलर की लागत आ सकती है। दवा खोज इस पाइपलाइन का अनुसंधान घटक है जो रोगियों को कम से कम नुकसान के साथ प्रभावी होने की उच्चतम संभावना वाली उम्मीदवार दवाएं तैयार करता है। मशीन लर्निंग (एमएल) विधियां दवा खोज प्रक्रिया में प्रत्येक चरण में उपयुक्त यौगिकों की पहचान करने में मदद कर सकती हैं, जिसके परिणामस्वरूप दवा प्राथमिकता और परीक्षण अधिक सुव्यवस्थित हो जाता है, जिससे दवा विकास लागत में अरबों की बचत होती है (अधिक जानकारी के लिए, देखें) बायोफार्मा अनुसंधान में एआई: ध्यान केंद्रित करने और स्केल करने का समय).
ड्रग लक्ष्य आमतौर पर जैविक संस्थाएं कहलाती हैं प्रोटीन, जीवन के निर्माण खंड। प्रोटीन की 3डी संरचना यह निर्धारित करती है कि यह किसी दवा यौगिक के साथ कैसे इंटरैक्ट करता है; इसलिए, प्रोटीन 3डी संरचना को समझने से लक्ष्य प्रोटीन संरचना में बेहतर फिट होने वाले दवा यौगिकों की जांच करके दवा विकास प्रक्रिया में महत्वपूर्ण सुधार हो सकते हैं। एक अन्य क्षेत्र जहां प्रोटीन संरचना की भविष्यवाणी उपयोगी हो सकती है, वह है प्रोटीन की विविधता को समझना, ताकि हम केवल उन दवाओं का चयन करें जो शरीर में अन्य प्रोटीनों को प्रभावित किए बिना विशिष्ट प्रोटीन को लक्षित करते हैं (अधिक जानकारी के लिए, देखें) बायोमेडिकल अनुसंधान में लक्ष्य मूल्यांकन में सुधार: जीओटी-आईटी सिफारिशें). लक्ष्य प्रोटीन की सटीक 3डी संरचनाएं उच्च विशिष्टता और अन्य प्रोटीनों के साथ क्रॉस-इंटरैक्शन की कम संभावना के साथ दवा डिजाइन को सक्षम कर सकती हैं।
हालाँकि, यह अनुमान लगाना एक कठिन समस्या है कि प्रोटीन अपनी 3डी संरचना में कैसे बदल जाते हैं, और एक्स-रे क्रिस्टलोग्राफी और एनएमआर स्पेक्ट्रोस्कोपी जैसी पारंपरिक प्रयोगात्मक विधियां समय लेने वाली और महंगी हो सकती हैं। प्रोटीन अनुसंधान के लिए गहन शिक्षण विधियों में हालिया प्रगति ने उल्लेखनीय सटीकता के साथ प्रोटीन फोल्डिंग की भविष्यवाणी करने के लिए तंत्रिका नेटवर्क का उपयोग करने का वादा दिखाया है। फोल्डिंग एल्गोरिदम जैसे अल्फाफोल्ड2, ईएसएमफोल्ड, ओपनफोल्ड, तथा रोज़ टीटीएफोल्ड इसका उपयोग प्रोटीन संरचनाओं के सटीक मॉडल शीघ्रता से बनाने के लिए किया जा सकता है। दुर्भाग्य से, इन मॉडलों को चलाना कम्प्यूटेशनल रूप से महंगा है और हजारों उम्मीदवार प्रोटीन संरचनाओं के पैमाने पर तुलना करना बोझिल हो सकता है। इन विभिन्न उपकरणों का उपयोग करने के लिए एक स्केलेबल समाधान शोधकर्ताओं और वाणिज्यिक आर एंड डी टीमों को प्रोटीन संरचना भविष्यवाणी में नवीनतम प्रगति को तुरंत शामिल करने, उनकी प्रयोग प्रक्रियाओं का प्रबंधन करने और अनुसंधान भागीदारों के साथ सहयोग करने की अनुमति देगा।
अमेज़न SageMaker एमएल के लिए उद्देश्य से निर्मित क्षमताओं के व्यापक सेट को एक साथ लाकर उच्च गुणवत्ता वाले एमएल मॉडल को शीघ्रता से तैयार करने, निर्माण, प्रशिक्षित करने और तैनात करने के लिए एक पूरी तरह से प्रबंधित सेवा है। यह एमएल के लिए पूरी तरह से प्रबंधित वातावरण प्रदान करता है, बुनियादी ढांचे, डेटा प्रबंधन और स्केलेबिलिटी आवश्यकताओं को दूर करता है ताकि आप अपने मॉडलों के निर्माण, प्रशिक्षण और परीक्षण पर ध्यान केंद्रित कर सकें।
इस पोस्ट में, हम सेजमेकर के साथ एक पूरी तरह से प्रबंधित एमएल समाधान प्रस्तुत करते हैं जो प्रोटीन फोल्डिंग संरचना भविष्यवाणी वर्कफ़्लो के संचालन को सरल बनाता है। हम पहले उच्च स्तर पर समाधान और उसके उपयोगकर्ता अनुभव पर चर्चा करते हैं। इसके बाद, हम आपको सेजमेकर के साथ अल्फाफोल्ड2 और ओपनफोल्ड के कंप्यूट-अनुकूलित वर्कफ़्लो को आसानी से सेट करने के तरीके के बारे में बताएंगे। अंत में, हम प्रदर्शित करते हैं कि आप एक विशिष्ट विश्लेषण के हिस्से के रूप में प्रोटीन संरचना की भविष्यवाणियों को कैसे ट्रैक और तुलना कर सकते हैं। इस समाधान का कोड निम्नलिखित में उपलब्ध है गिटहब भंडार.
समाधान अवलोकन
इस समाधान में, वैज्ञानिक इंटरैक्टिव रूप से प्रोटीन फोल्डिंग प्रयोगों को लॉन्च कर सकते हैं, 3डी संरचना का विश्लेषण कर सकते हैं, कार्य की प्रगति की निगरानी कर सकते हैं और प्रयोगों को ट्रैक कर सकते हैं। अमेज़ॅन सैजमेकर स्टूडियो.
निम्नलिखित स्क्रीनशॉट अमेज़ॅन सेजमेकर स्टूडियो के साथ प्रोटीन फोल्डिंग वर्कफ़्लो का एकल रन दिखाता है। इसमें एक नोटबुक में 3डी संरचना का विज़ुअलाइज़ेशन, वर्कफ़्लो में सेजमेकर नौकरियों की रन स्थिति और इनपुट पैरामीटर और आउटपुट डेटा और लॉग के लिंक शामिल हैं।
निम्नलिखित चित्र उच्च-स्तरीय समाधान वास्तुकला को दर्शाता है।
वास्तुकला को समझने के लिए, हम पहले प्रोटीन फोल्डिंग प्रयोग के प्रमुख घटकों को निम्नानुसार परिभाषित करते हैं:
- FASTA लक्ष्य अनुक्रम फ़ाइल - FASTA प्रारूप न्यूक्लियोटाइड अनुक्रमों या अमीनो एसिड (प्रोटीन) अनुक्रमों का प्रतिनिधित्व करने के लिए एक पाठ-आधारित प्रारूप है, जिसमें न्यूक्लियोटाइड्स या अमीनो एसिड को एकल-अक्षर कोड का उपयोग करके दर्शाया जाता है।
- आनुवंशिक डेटाबेस - जेनेटिक डेटाबेस जेनेटिक डेटा का एक या अधिक सेट होता है जिसे सॉफ्टवेयर के साथ एक साथ संग्रहित किया जाता है ताकि उपयोगकर्ता जेनेटिक डेटा को पुनः प्राप्त कर सकें। अल्फाफोल्ड और ओपनफोल्ड एल्गोरिदम को चलाने के लिए कई आनुवंशिक डेटाबेस की आवश्यकता होती है, जैसे BFD, MGnify, पीडीबी70, पी डी बी, पीडीबी सुरक्षित, UniRef30 (FKA UniClust30), यूनीप्रोट, तथा यूनीरेफ 90.
- एकाधिक अनुक्रम संरेखण (एमएसए) - एक अनुक्रम संरेखण समानता के क्षेत्रों की पहचान करने के लिए प्रोटीन के प्राथमिक अनुक्रमों को व्यवस्थित करने का एक तरीका है जो अनुक्रमों के बीच कार्यात्मक, संरचनात्मक या विकासवादी संबंधों का परिणाम हो सकता है। पूर्वानुमानों के लिए इनपुट सुविधाओं में एमएसए डेटा शामिल है।
- प्रोटीन संरचना की भविष्यवाणी - इनपुट लक्ष्य अनुक्रमों की संरचना की भविष्यवाणी फोल्डिंग एल्गोरिदम के साथ की जाती है अल्फाफोल्ड2 और ओपनफोल्ड जो ज्ञात प्रोटीन टेम्पलेट्स पर प्रशिक्षित मल्टीट्रैक ट्रांसफार्मर आर्किटेक्चर का उपयोग करते हैं।
- विज़ुअलाइज़ेशन और मेट्रिक्स - के साथ 3डी संरचना की कल्पना करें py3Dmol एक इंटरैक्टिव 3डी विज़ुअलाइज़ेशन के रूप में लाइब्रेरी। आप विशेष रूप से संरचना पूर्वानुमानों का मूल्यांकन और तुलना करने के लिए मेट्रिक्स का उपयोग कर सकते हैं मूल-माध्य-वर्ग विचलन (आरएमएसडी) और टेम्पलेट मॉडलिंग स्कोर (टीएम-स्कोर)
वर्कफ़्लो में निम्न चरण होते हैं:
- वैज्ञानिक कोड बेस का पता लगाने, सेजमेकर स्टूडियो नोटबुक में प्रोटीन अनुक्रम विश्लेषण वर्कफ़्लो बनाने और सेजमेकर स्टूडियो या सेजमेकर एसडीके में ग्राफिकल यूजर इंटरफेस के माध्यम से प्रोटीन फोल्डिंग पाइपलाइन चलाने के लिए वेब-आधारित सेजमेकर एमएल आईडीई का उपयोग करते हैं।
- अल्फाफोल्ड और ओपनफोल्ड द्वारा आवश्यक जेनेटिक और संरचना डेटाबेस को पाइपलाइन सेटअप का उपयोग करने से पहले डाउनलोड किया जाता है अमेज़न SageMaker प्रसंस्करण, एमएल डेटा प्रोसेसिंग के लिए एक अल्पकालिक गणना सुविधा अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) बाल्टी। सेजमेकर प्रोसेसिंग के साथ, आप किसी भी कंप्यूट क्लस्टर और स्टोरेज को स्थापित किए बिना और क्लस्टर को बंद करने की आवश्यकता के बिना उचित कंप्यूट के साथ लंबे समय तक चलने वाला कार्य चला सकते हैं। डेटा स्वचालित रूप से निर्दिष्ट S3 बकेट स्थान पर सहेजा जाता है।
- An चमक के लिए अमेज़न FSx फ़ाइल सिस्टम स्थापित किया गया है, जिसमें डेटा रिपॉजिटरी S3 बकेट स्थान है जहाँ डेटाबेस सहेजे जाते हैं। लस्टर के लिए एफएसएक्स कम-विलंबता फ़ाइल पुनर्प्राप्ति के साथ सैकड़ों जीबी/एस थ्रूपुट और लाखों आईओपीएस तक स्केल कर सकता है। अनुमानक कार्य शुरू करते समय, सेजमेकर लस्टर फ़ाइल सिस्टम के लिए एफएसएक्स को इंस्टेंस फ़ाइल सिस्टम में माउंट करता है, फिर स्क्रिप्ट शुरू करता है।
- अमेज़न SageMaker पाइपलाइन प्रोटीन फोल्डिंग एल्गोरिदम के एकाधिक रन को व्यवस्थित करने के लिए उपयोग किया जाता है। सेजमेकर पाइपलाइन इंटरैक्टिव जॉब सबमिशन, प्रगति का पता लगाने की क्षमता और दोहराव के लिए एक वांछित विज़ुअल इंटरफ़ेस प्रदान करता है।
- एक पाइपलाइन के भीतर, दो कम्प्यूटेशनल रूप से भारी प्रोटीन फोल्डिंग एल्गोरिदम-अल्फाफोल्ड और ओपनफोल्ड-सेजमेकर अनुमानकों के साथ चलाए जाते हैं। यह कॉन्फ़िगरेशन एल्गोरिदम में उच्च थ्रूपुट डेटाबेस खोज के लिए लस्टर फ़ाइल सिस्टम के लिए एफएसएक्स के माउंटिंग का समर्थन करता है। एक एकल अनुमान रन को दो चरणों में विभाजित किया गया है: एक इष्टतम सीपीयू उदाहरण का उपयोग करके एक एमएसए निर्माण चरण और एक जीपीयू उदाहरण का उपयोग करके एक संरचना भविष्यवाणी चरण। ये उपचरण, चरण 2 में सेजमेकर प्रोसेसिंग की तरह, अल्पकालिक, ऑन-डिमांड और पूरी तरह से प्रबंधित हैं। जॉब आउटपुट जैसे एमएसए फ़ाइलें, अनुमानित पीडीबी संरचना फ़ाइलें और अन्य मेटाडेटा फ़ाइलें एक निर्दिष्ट S3 स्थान में सहेजी जाती हैं। एक पाइपलाइन को एक एकल प्रोटीन फोल्डिंग एल्गोरिदम को चलाने या एक सामान्य एमएसए निर्माण के बाद अल्फाफोल्ड और ओपनफोल्ड दोनों को चलाने के लिए डिज़ाइन किया जा सकता है।
- प्रोटीन फोल्डिंग भविष्यवाणी के रन को स्वचालित रूप से ट्रैक किया जाता है अमेज़न SageMaker प्रयोग आगे के विश्लेषण और तुलना के लिए. कार्य लॉग रखे जाते हैं अमेज़ॅन क्लाउडवॉच पर नजर रखने के।
.. पूर्वापेक्षाएँ
इस पोस्ट का अनुसरण करने और इस समाधान को चलाने के लिए, आपको कई आवश्यक शर्तें पूरी करनी होंगी। को देखें गिटहब भंडार प्रत्येक चरण की विस्तृत व्याख्या के लिए।
सेजमेकर पर प्रोटीन फोल्डिंग चलाएँ
हम बिना अधिक बुनियादी ढांचे के ओवरहेड के कम्प्यूटेशनल रूप से भारी प्रोटीन फोल्डिंग कार्यों को चलाने के लिए सेजमेकर की पूरी तरह से प्रबंधित क्षमताओं का उपयोग करते हैं। सेजमेकर सामान्य डेटा प्रोसेसिंग, प्रशिक्षण और होस्टिंग के लिए कस्टम स्क्रिप्ट चलाने के लिए कंटेनर छवियों का उपयोग करता है। आप आसानी से ऑन-डिमांड एक अल्पकालिक कार्य शुरू कर सकते हैं जो कुछ पंक्तियों के साथ एक कंटेनर छवि के साथ एक प्रोग्राम चलाता है सेजमेकर एसडीके किसी भी कंप्यूटिंग बुनियादी ढांचे के स्व-प्रबंधन के बिना। विशेष रूप से, जब कंटेनर छवि, रन स्क्रिप्ट और इंस्टेंस कॉन्फ़िगरेशन की पसंद की बात आती है तो सेजमेकर अनुमानक कार्य लचीलापन प्रदान करता है, और समर्थन करता है भंडारण विकल्पों की विस्तृत विविधता, जिसमें लस्टर के लिए एफएसएक्स जैसे फ़ाइल सिस्टम शामिल हैं। निम्नलिखित चित्र इस वास्तुकला को दर्शाता है।
अल्फाफोल्ड और ओपनफोल्ड जैसे फोल्डिंग एल्गोरिदम अज्ञात पेप्टाइड अनुक्रमों की संरचना की भविष्यवाणी करने के लिए ज्ञात प्रोटीन टेम्पलेट्स पर प्रशिक्षित मल्टीट्रैक ट्रांसफार्मर आर्किटेक्चर का उपयोग करते हैं। सर्वोत्तम थ्रूपुट और न्यूनतम विलंबता प्रदान करने के लिए इन पूर्वानुमानों को GPU इंस्टेंसेस पर चलाया जा सकता है। हालाँकि इन भविष्यवाणियों के लिए इनपुट सुविधाओं में एमएसए डेटा शामिल है। एमएसए एल्गोरिदम सीपीयू-निर्भर हैं और कई घंटों के प्रसंस्करण समय की आवश्यकता हो सकती है।
एक ही कंप्यूटिंग वातावरण में एमएसए और संरचना पूर्वानुमान दोनों चरणों को चलाना लागत-अक्षम हो सकता है क्योंकि एमएसए चरण चलने के दौरान महंगे जीपीयू संसाधन निष्क्रिय रहते हैं। इसलिए, हम वर्कफ़्लो को दो चरणों में अनुकूलित करते हैं। सबसे पहले, हम एक विशेष FASTA इनपुट अनुक्रम और स्रोत आनुवंशिक डेटाबेस को देखते हुए MSA संरेखण की गणना करने के लिए विशेष रूप से CPU उदाहरण पर एक SageMaker अनुमानक कार्य चलाते हैं। फिर हम दिए गए इनपुट एमएसए संरेखण और अल्फाफोल्ड या ओपनफोल्ड जैसे फोल्डिंग एल्गोरिदम के साथ प्रोटीन संरचना की भविष्यवाणी करने के लिए जीपीयू उदाहरण पर सेजमेकर अनुमानक कार्य चलाते हैं।
एमएसए पीढ़ी चलाएँ
एमएसए गणना के लिए, हम एक कस्टम स्क्रिप्ट शामिल करते हैं run_create_alignment.sh
और create_alignments.py
स्क्रिप्ट जो मौजूदा अल्फाफोल्ड भविष्यवाणी स्रोत से अपनाई गई है run_alphafold.py. ध्यान दें कि यदि स्रोत अल्फाफोल्ड कोड अपडेट किया गया है तो इस स्क्रिप्ट को अपडेट करने की आवश्यकता हो सकती है। कस्टम स्क्रिप्ट सेजमेकर अनुमानक को प्रदान की जाती है स्क्रिप्ट मोड. कंटेनर छवि के प्रमुख घटक, स्क्रिप्ट मोड कार्यान्वयन, और सेजमेकर अनुमानक कार्य की स्थापना भी फोल्डिंग एल्गोरिदम चलाने के अगले चरण का हिस्सा हैं, और निम्नलिखित अनुभाग में आगे वर्णित हैं।
अल्फ़ाफ़ोल्ड चलाएँ
हम सेजमेकर का उपयोग करके एकल प्रोटीन अनुक्रम के साथ अल्फाफोल्ड संरचना भविष्यवाणी चलाकर शुरुआत करते हैं। अल्फ़ाफ़ोल्ड कार्य को चलाने में तीन सरल चरण शामिल होते हैं, जैसा कि इसमें देखा जा सकता है 01-run_stepbystep.ipynb
. सबसे पहले, हम अल्फाफोल्ड के आधार पर एक डॉकर कंटेनर छवि बनाते हैं Dockerfile ताकि हम भी कर सकें अल्फ़ाफ़ोल्ड चलाएँ सेजमेकर में. दूसरा, हम स्क्रिप्ट का निर्माण करते हैं run_alphafold.sh
यह निर्देश देता है कि अल्फाफोल्ड को कैसे चलाया जाना चाहिए। तीसरा, हम एक का निर्माण और संचालन करते हैं SageMaker अनुमानक कार्य के लिए स्क्रिप्ट, कंटेनर, इंस्टेंस प्रकार, डेटा और कॉन्फ़िगरेशन के साथ।
कंटेनर छवि
सेजमेकर में अल्फाफोल्ड (ओपनफोल्ड भी) चलाने के लिए एक कंटेनर छवि के लिए रनटाइम आवश्यकता को अल्फाफोल्ड के डॉकरफाइल के साथ काफी सरल बनाया जा सकता है। सेजमेकर-विशिष्ट पायथन लाइब्रेरी को स्थापित करने के लिए हमें केवल शीर्ष पर कुछ सरल परतें जोड़ने की जरूरत है ताकि सेजमेकर जॉब कंटेनर छवि के साथ संचार कर सके। निम्नलिखित कोड देखें:
इनपुट स्क्रिप्ट
फिर हम स्क्रिप्ट प्रदान करते हैं run_alphafold.sh
वह चलता है run_alphafold.py अल्फाफोल्ड रिपॉजिटरी से जो वर्तमान में कंटेनर में रखा गया है /app/alphafold/run_alphafold.py
. जब यह स्क्रिप्ट चलाई जाती है, तो जेनेटिक डेटाबेस का स्थान और इनपुट FASTA अनुक्रम SageMaker द्वारा पर्यावरण चर के रूप में पॉप्युलेट किया जाएगा (SM_CHANNEL_GENETIC
और SM_CHANNEL_FASTA
, क्रमश)। अधिक जानकारी के लिए देखें इनपुट डेटा कॉन्फ़िगरेशन.
अनुमानक का कार्य
इसके बाद हम निम्नलिखित प्रमुख इनपुट तर्कों के साथ सेजमेकर अनुमानक का उपयोग करके एक नौकरी बनाते हैं, जो सेजमेकर को उदाहरण प्रकार या गिनती, आपकी पसंद के नेटवर्किंग विकल्प और नौकरी के लिए अन्य मापदंडों के साथ एक निर्दिष्ट कंटेनर का उपयोग करके एक विशिष्ट स्क्रिप्ट चलाने का निर्देश देता है। vpc_subnet_ids
और security_group_ids
जॉब को एक विशिष्ट वीपीसी के अंदर चलाने का निर्देश दें जहां लस्टर फाइल सिस्टम के लिए एफएसएक्स है ताकि हम सेजमेकर जॉब में फाइल सिस्टम को माउंट और एक्सेस कर सकें। आउटपुट पथ एक S3 बकेट स्थान को संदर्भित करता है जहां अल्फाफोल्ड का अंतिम उत्पाद सेजमेकर द्वारा एक सफल कार्य के अंत में स्वचालित रूप से अपलोड किया जाएगा। यहां हमने एक पैरामीटर भी सेट किया है DB_PRESET
, उदाहरण के लिए, पास होना और भीतर पहुँचना run_alphafold.sh
रनटाइम के दौरान एक पर्यावरण चर के रूप में। निम्नलिखित कोड देखें:
from sagemaker.estimator import Estimator
alphafold_image_uri=f'{account}.dkr.ecr.{region}.amazonaws.com/sagemaker-studio-alphafold:v2.3.0'
instance_type='ml.g5.2xlarge'
instance_count=1
vpc_subnet_ids=['subnet-xxxxxxxxx'] # okay to use a default VPC
security_group_ids=['sg-xxxxxxxxx']
env={'DB_PRESET': db_preset} # <full_dbs|reduced_dbs>
output_path='s3://%s/%s/job-output/'%(default_bucket, prefix) estimator_alphafold = Estimator(
source_dir='src', # directory where run_alphafold.sh and other runtime files locate
entry_point='run_alphafold.sh', # our script that runs /app/alphafold/run_alphafold.py
image_uri=alphafold_image_uri, # container image to use
instance_count=instance_count, #
instance_type=instance_type,
subnets=vpc_subnet_ids,
security_group_ids=security_group_ids,
environment=env,
output_path=output_path,
...)
अंत में, हम डेटा इकट्ठा करते हैं और कार्य को बताते हैं कि वे कहाँ हैं। fasta
डेटा चैनल को S3 डेटा इनपुट के रूप में परिभाषित किया गया है जिसे कार्य की शुरुआत में S3 स्थान से कंप्यूट इंस्टेंस में डाउनलोड किया जाएगा। यह इनपुट अनुक्रम को प्रबंधित और निर्दिष्ट करने के लिए बहुत लचीलेपन की अनुमति देता है। दूसरी ओर, genetic
डेटा चैनल को इस प्रकार परिभाषित किया गया है FileSystemInput
जिसे कार्य की शुरुआत में इंस्टेंस पर लगाया जाएगा। लगभग 3 टीबी डेटा लाने के तरीके के रूप में लस्टर फ़ाइल सिस्टम के लिए एफएसएक्स का उपयोग एस 3 बकेट से कंप्यूट इंस्टेंस में डेटा को बार-बार डाउनलोड करने से बचाता है। हम कॉल करते हैं .fit
अल्फ़ाफ़ोल्ड कार्य शुरू करने की विधि:
from sagemaker.inputs import FileSystemInput
file_system_id='fs-xxxxxxxxx'
fsx_mount_id='xxxxxxxx'
file_system_directory_path=f'/{fsx_mount_id}/{prefix}/alphafold-genetic-db' # should be the full prefix from the S3 data repository file_system_access_mode='ro' # Specify the access mode (read-only)
file_system_type='FSxLustre' # Specify your file system type genetic_db = FileSystemInput(
file_system_id=file_system_id,
file_system_type=file_system_type,
directory_path=file_system_directory_path,
file_system_access_mode=file_system_access_mode) s3_fasta=sess.upload_data(path='sequence_input/T1030.fasta', # FASTA location locally
key_prefix='alphafoldv2/sequence_input') # S3 prefix. Bucket is sagemaker default bucket
fasta = sagemaker.inputs.TrainingInput(s3_fasta,
distribution='FullyReplicated',
s3_data_type='S3Prefix',
input_mode='File')
data_channels_alphafold = {'genetic': genetic_db, 'fasta': fasta} estimator_alphafold.fit(inputs=data_channels_alphafold,
wait=False) # wait=False gets the cell back in the notebook; set to True to see the logs as the job progresses
इतना ही। हमने अभी अल्फाफोल्ड को चलाने के लिए सेजमेकर को एक जॉब सबमिट किया है। .pdb पूर्वानुमान फ़ाइलों सहित लॉग और आउटपुट Amazon S3 को लिखे जाएंगे।
ओपनफ़ोल्ड चलाएँ
सेजमेकर में ओपनफोल्ड चलाना एक समान पैटर्न का अनुसरण करता है, जैसा कि दूसरे भाग में दिखाया गया है 01-run_stepbystep.ipynb
. हम सबसे पहले सेजमेकर-विशिष्ट लाइब्रेरी प्राप्त करने के लिए एक सरल परत जोड़ते हैं ताकि कंटेनर छवि सेजमेकर को ओपनफोल्ड के शीर्ष पर संगत बनाया जा सके। Dockerfile. दूसरे, हम एक निर्माण करते हैं run_openfold.sh
सेजमेकर नौकरी के लिए प्रवेश बिंदु के रूप में। में run_openfold.sh
, हम चलाते हैं run_pretrained_openfold.py ओपनफोल्ड से, जो है कंटेनर छवि में उपलब्ध है उसी जेनेटिक डेटाबेस के साथ हमने अल्फाफोल्ड और ओपनफोल्ड के मॉडल वेट के लिए डाउनलोड किया (--openfold_checkpoint_path
). इनपुट डेटा स्थानों के संदर्भ में, आनुवंशिक डेटाबेस चैनल और FASTA चैनल के अलावा, हम एक तीसरा चैनल पेश करते हैं, SM_CHANNEL_PARAM
, ताकि हम किसी कार्य को परिभाषित और सबमिट करते समय अनुमानक निर्माण से पसंद के मॉडल भार को लचीले ढंग से पारित कर सकें। सेजमेकर अनुमानक के साथ, हम आसानी से विभिन्न नौकरियों को प्रस्तुत कर सकते हैं entry_point
, image_uri
, environment
, inputs
, और समान हस्ताक्षर के साथ OpenFold के लिए अन्य कॉन्फ़िगरेशन। डेटा चैनल के लिए, हम एक नया चैनल जोड़ते हैं, param
, अमेज़न S3 इनपुट के साथ-साथ Luster फ़ाइल सिस्टम के लिए FSx से समान आनुवंशिक डेटाबेस और Amazon S3 से FASTA फ़ाइल का उपयोग। यह, फिर से, हमें कार्य निर्माण से उपयोग करने के लिए मॉडल वजन को आसानी से निर्दिष्ट करने की अनुमति देता है। निम्नलिखित कोड देखें:
s3_param=sess.upload_data(path='openfold_params/finetuning_ptm_2.pt',
key_prefix=f'{prefix}/openfold_params')
param = sagemaker.inputs.TrainingInput(s3_param,
distribution="FullyReplicated",
s3_data_type="S3Prefix",
input_mode='File') data_channels_openfold = {"genetic": genetic_db, 'fasta': fasta, 'param': param} estimator_openfold.fit(inputs=data_channels_openfold,
wait=False)
कार्य पूरा होने के बाद अंतिम आउटपुट तक पहुंचने के लिए, हम निम्नलिखित कमांड चलाते हैं:
!aws s3 cp {estimator_openfold.model_data} openfold_output/model.tar.gz
!tar zxfv openfold_output/model.tar.gz -C openfold_output/
रनटाइम प्रदर्शन
निम्न तालिका एकल गणना कार्य की तुलना में एमएसए संरेखण और फोल्डिंग एल्गोरिदम को दो नौकरियों में विभाजित करके, क्रमशः अल्फाफोल्ड और ओपनफोल्ड के लिए 57% और 51% की लागत बचत दिखाती है। यह हमें प्रत्येक कार्य के लिए गणना को सही आकार देने की अनुमति देता है: एमएसए संरेखण के लिए ml.m5.4xlarge और अल्फाफोल्ड और ओपनफोल्ड के लिए ml.g5.2xlarge।
नौकरी विवरण | उदाहरण प्रकार | इनपुट फास्टा अनुक्रम | क्रम | लागत |
एमएसए संरेखण + ओपनफोल्ड | एमएल.g5.4xबड़ा | T1030 | 50 मिनट | $1.69 |
एमएसए संरेखण + अल्फाफोल्ड | एमएल.g5.4xबड़ा | T1030 | 65 मिनट | $2.19 |
एमएसए संरेखण | एमएल.m5.4xबड़ा | T1030 | 46 मिनट | $0.71 |
ओपनफोल्ड | एमएल.g5.2xबड़ा | T1030 | 6 मिनट | $0.15 |
अल्फाफोल्ड | एमएल.g5.2xबड़ा | T1030 | 21 मिनट | $0.53 |
सेजमेकर पाइपलाइनों का उपयोग करके एक दोहराने योग्य वर्कफ़्लो बनाएं
सेजमेकर पाइपलाइन के साथ, हम एक एमएल वर्कफ़्लो बना सकते हैं जो चरणों के बीच डेटा को प्रबंधित करने, उनके रन को व्यवस्थित करने और लॉगिंग का ख्याल रखता है। सेजमेकर पाइपलाइन हमें हमारी पाइपलाइन की कल्पना करने और हमारे एमएल वर्कफ़्लो को आसानी से चलाने के लिए एक यूआई भी प्रदान करती है।
कई को मिलाकर एक पाइपलाइन बनाई जाती है कदम. इस पाइपलाइन में, हम तीन को जोड़ते हैं प्रशिक्षण कदम, जिसके लिए सेजमेकर अनुमानक की आवश्यकता होती है। इस नोटबुक में परिभाषित अनुमानक इसमें परिभाषित अनुमानकों के समान हैं 01-run_stepbystep.ipynb
, इस अपवाद के साथ कि हम अपने इनपुट और आउटपुट को इंगित करने के लिए अमेज़ॅन S3 स्थानों का उपयोग करते हैं। गतिशील चर सेजमेकर पाइपलाइनों को एक के बाद एक चरण चलाने की अनुमति देते हैं और उपयोगकर्ता को विफल चरणों को पुनः प्रयास करने की भी अनुमति देते हैं। निम्नलिखित स्क्रीनशॉट एक डायरेक्टेड एसाइक्लिक ग्राफ़ (डीएजी) दिखाता है, जो हमारी पाइपलाइन के प्रत्येक चरण की आवश्यकताओं और उनके बीच संबंधों के बारे में जानकारी प्रदान करता है।
गतिशील चर
सेजमेकर पाइपलाइन प्रत्येक पाइपलाइन रन की शुरुआत में उपयोगकर्ता इनपुट लेने में सक्षम है। हम निम्नलिखित गतिशील चर परिभाषित करते हैं, जिन्हें हम प्रत्येक प्रयोग के दौरान बदलना चाहेंगे:
- FastaInputS3URI - FASTA फ़ाइल का Amazon S3 URI SDK, Boto3, या मैन्युअल रूप से अपलोड किया गया।
- फास्टफ़ाइलनाम – FASTA फ़ाइल का नाम.
- db_preset - के बीच चयन
full_dbs
orreduced_dbs
. - मैक्सटेम्पलेटदिनांक - अल्फाफोल्ड का एमएसए चरण इस पैरामीटर द्वारा निर्दिष्ट तिथि से पहले उपलब्ध टेम्पलेट्स की खोज करेगा।
- मॉडल प्रीसेट - अल्फाफोल्ड सहित मॉडलों के बीच चयन करें
monomer
,monomer_casp14
,monomer_ptm
, तथाmultimer
. - NumMultimerPredictionsPerModel - मल्टीमर सिस्टम का उपयोग करते समय प्रति मॉडल चलाने के लिए बीजों की संख्या।
- InferenceInstanceType - अनुमान चरणों के लिए उपयोग करने के लिए इंस्टेंस प्रकार (अल्फाफोल्ड और ओपनफोल्ड दोनों)। डिफ़ॉल्ट मान ml.g5.2xlarge है।
- MSAInstanceType - एमएसए चरण के लिए उपयोग करने के लिए इंस्टेंस प्रकार। डिफ़ॉल्ट मान ml.m5.4xlarge है।
निम्नलिखित कोड देखें:
fasta_file = ParameterString(name="FastaFileName")
fasta_input = ParameterString(name="FastaInputS3URI")
pipeline_db_preset = ParameterString(name="db_preset",
default_value='full_dbs',
enum_values=['full_dbs', 'reduced_dbs'])
max_template_date = ParameterString(name="MaxTemplateDate")
model_preset = ParameterString(name="ModelPreset")
num_multimer_predictions_per_model = ParameterString(name="NumMultimerPredictionsPerModel")
msa_instance_type = ParameterString(name="MSAInstanceType", default_value='ml.m5.4xlarge')
instance_type = ParameterString(name="InferenceInstanceType", default_value='ml.g5.2xlarge')
सेजमेकर पाइपलाइन का निर्माण चरणों की एक श्रृंखला को परिभाषित करके और फिर उन्हें एक विशिष्ट क्रम में एक साथ जोड़कर किया जाता है, जहां पिछले चरण का आउटपुट अगले चरण के लिए इनपुट बन जाता है। चरणों को समानांतर में चलाया जा सकता है और पिछले चरण पर निर्भरता के लिए परिभाषित किया जा सकता है। इस पाइपलाइन में, हम एक एमएसए चरण को परिभाषित करते हैं, जो समानांतर में चलने वाले अल्फाफोल्ड अनुमान चरण और ओपनफोल्ड अनुमान चरण के लिए निर्भरता है। निम्नलिखित कोड देखें:
step_msa = TrainingStep(
name="RunMSA",
step_args=pipeline_msa_args,
) step_alphafold = TrainingStep(
name="RunAlphaFold",
step_args=pipeline_alphafold_default_args,
)
step_alphafold.add_depends_on([step_msa]) step_openfold = TrainingStep(
name="RunOpenFold",
step_args=pipeline_openfold_args,
)
step_openfold.add_depends_on([step_msa]
सभी चरणों को एक साथ रखने के लिए, हम कॉल करते हैं Pipeline
वर्ग और एक पाइपलाइन नाम, पाइपलाइन इनपुट चर और व्यक्तिगत चरण प्रदान करें:
pipeline_name = f"ProteinFoldWorkflow"
pipeline = Pipeline(
name=pipeline_name,
parameters=[
fasta_input,
instance_type,
msa_instance_type,
pipeline_db_preset
],
steps=[step_msa, step_alphafold, step_openfold],
) pipeline.upsert(role_arn=role, # run this if it's the first time setting up the pipeline
description='Protein_Workflow_MSA')
पाइपलाइन चलाएं
नोटबुक के आखिरी सेल में 02-define_pipeline.ipynb
, हम दिखाते हैं कि सेजमेकर एसडीके का उपयोग करके पाइपलाइन कैसे चलाएं। जिन गतिशील चरों का हमने पहले वर्णन किया था वे इस प्रकार प्रदान किए गए हैं:
!mkdir ./sequence_input/
!curl 'https://www.predictioncenter.org/casp14/target.cgi?target=T1030&view=sequence' > ./sequence_input/T1030.fasta
fasta_file_name = 'T1030.fasta' pathName = f'./sequence_input/{fasta_file_name}'
s3_fasta=sess.upload_data(path=pathName,
key_prefix='alphafoldv2/sequence_input') PipelineParameters={ 'FastaInputS3URI':s3_fasta, 'db_preset': 'full_dbs', 'FastaFileName': fasta_file_name, 'MaxTemplateDate': '2020-05-14', 'ModelPreset': 'monomer', 'NumMultimerPredictionsPerModel': '5', 'InferenceInstanceType':'ml.g5.2xlarge', 'MSAInstanceType':'ml.m5.4xlarge'
}
execution = pipeline.start(execution_display_name='SDK-Executetd',
execution_description='This pipeline was executed via SageMaker SDK',
parameters=PipelineParameters
)
प्रयोगों को ट्रैक करें और प्रोटीन संरचनाओं की तुलना करें
अपने प्रयोग के लिए, हम एक उदाहरण प्रोटीन अनुक्रम का उपयोग करते हैं CASP14 प्रतियोगिता, जो प्रोटीन संरचना मॉडलिंग के तरीकों के मूल्यांकन के लिए एक स्वतंत्र तंत्र प्रदान करती है। लक्ष्य T1030 यह PDB 6P00 प्रोटीन से प्राप्त होता है, और इसमें प्राथमिक अनुक्रम में 237 अमीनो एसिड होते हैं। हम ओपनफोल्ड और अल्फाफोल्ड दोनों एल्गोरिदम के साथ इस इनपुट अनुक्रम की प्रोटीन संरचना की भविष्यवाणी करने के लिए सेजमेकर पाइपलाइन चलाते हैं।
जब पाइपलाइन पूरी हो जाती है, तो हम प्रत्येक फोल्डिंग कार्य से अनुमानित .pdb फ़ाइलें डाउनलोड करते हैं और नोटबुक में संरचना की कल्पना करते हैं py3Dmol, जैसा कि नोटबुक में है 04-compare_alphafold_openfold.ipynb
.
निम्नलिखित स्क्रीनशॉट अल्फाफोल्ड भविष्यवाणी कार्य से भविष्यवाणी दिखाता है।
अनुमानित संरचना की तुलना पीडीबी कोड के साथ इसकी ज्ञात आधार संदर्भ संरचना से की जाती है 6 पू में संग्रहीत आरसीएसबी. हम आधार पीडीबी कोड 6पू के विरुद्ध पूर्वानुमान प्रदर्शन का विश्लेषण तीन मेट्रिक्स के साथ करते हैं: आरएमएसडी, सुपरपोजिशन के साथ आरएमएसडी, और टेम्पलेट मॉडलिंग स्कोर, जैसा कि इसमें वर्णित है। संरचनाओं की तुलना करना.
. | इनपुट अनुक्रम | इसके साथ तुलना | आरएमएसडी | सुपरपोजीशन के साथ आरएमएसडी | टेम्प्लेट मॉडलिंग स्कोर |
अल्फाफोल्ड | T1030 | 6 पू | 247.26 | 3.87 | 0.3515 |
फोल्डिंग एल्गोरिदम की अब कई FASTA अनुक्रमों के लिए एक दूसरे से तुलना की जाती है: T1030, T1090, तथा T1076. नए लक्ष्य अनुक्रमों में संदर्भ डेटाबेस में आधार पीडीबी संरचना नहीं हो सकती है और इसलिए फोल्डिंग एल्गोरिदम के बीच परिवर्तनशीलता की तुलना करना उपयोगी है।
. | इनपुट अनुक्रम | इसके साथ तुलना | आरएमएसडी | सुपरपोजीशन के साथ आरएमएसडी | टेम्प्लेट मॉडलिंग स्कोर |
अल्फाफोल्ड | T1030 | ओपनफोल्ड | 73.21 | 24.8 | 0.0018 |
अल्फाफोल्ड | T1076 | ओपनफोल्ड | 38.71 | 28.87 | 0.0047 |
अल्फाफोल्ड | T1090 | ओपनफोल्ड | 30.03 | 20.45 | 0.005 |
निम्नलिखित स्क्रीनशॉट के रन दिखाता है ProteinFoldWorkflow
सेजमेकर पाइपलाइन के साथ तीन FASTA इनपुट अनुक्रमों के लिए:
हम पाइपलाइन द्वारा बनाए गए उसी प्रयोग के नए रन के रूप में सेजमेकर प्रयोगों के साथ मेट्रिक्स को भी लॉग करते हैं:
from sagemaker.experiments.run import Run, load_run
metric_type='compare:'
experiment_name = 'proteinfoldworkflow'
with Run(experiment_name=experiment_name, run_name=input_name_1, sagemaker_session=sess) as run:
run.log_metric(name=metric_type + "rmsd_cur", value=rmsd_cur_one, step=1)
run.log_metric(name=metric_type + "rmds_fit", value=rmsd_fit_one, step=1)
run.log_metric(name=metric_type + "tm_score", value=tmscore_one, step=1)
फिर हम इन रनों का विश्लेषण और कल्पना करते हैं प्रयोगों सेजमेकर स्टूडियो में पेज।
निम्नलिखित चार्ट तीन अनुक्रमों के लिए अल्फाफोल्ड और ओपनफोल्ड के बीच आरएमएसडी मान दर्शाता है: टी1030, टी1076, और टी1090।
निष्कर्ष
इस पोस्ट में, हमने बताया कि आप दो लोकप्रिय संरचना भविष्यवाणी एल्गोरिदम: अल्फाफोल्ड2 और ओपनफोल्ड के साथ प्रोटीन फोल्डिंग वर्कफ़्लो को स्थापित करने और चलाने के लिए सेजमेकर पाइपलाइन का उपयोग कैसे कर सकते हैं। हमने कई नौकरियों के मूल्य प्रदर्शन समाधान आर्किटेक्चर का प्रदर्शन किया जो एमएसए पीढ़ी के लिए गणना आवश्यकताओं को संरचना भविष्यवाणी से अलग करता है। हमने इस बात पर भी प्रकाश डाला कि आप सेजमेकर स्टूडियो में प्रोटीन की अनुमानित 3डी संरचनाओं की कल्पना, मूल्यांकन और तुलना कैसे कर सकते हैं।
सेजमेकर पर प्रोटीन फोल्डिंग वर्कफ़्लो के साथ शुरुआत करने के लिए, नमूना कोड देखें गीथहब रेपो.
लेखक के बारे में
माइकल हसीहो एक प्रिंसिपल एआई/एमएल स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट हैं। वह एचसीएलएस ग्राहकों के साथ एडब्ल्यूएस प्रौद्योगिकियों और मेडिकल इमेजिंग में उनकी विशेषज्ञता के साथ उनकी एमएल यात्रा को आगे बढ़ाने के लिए काम करते हैं। सिएटल ट्रांसप्लांट के रूप में, उन्हें शहर की महान मातृ प्रकृति की खोज करना पसंद है, जैसे लंबी पैदल यात्रा ट्रेल्स, एसएलयू में कयाकिंग के दृश्य और शिलशोले खाड़ी में सूर्यास्त।
शिवम पटेल AWS में सॉल्यूशन आर्किटेक्ट हैं। वह अनुसंधान एवं विकास की पृष्ठभूमि से आते हैं और अपने ग्राहकों के सामने आने वाली जटिल समस्याओं को हल करने के लिए इसे अपने व्यावसायिक ज्ञान के साथ जोड़ते हैं। शिवम को मशीन लर्निंग, रोबोटिक्स, IoT और हाई-परफॉर्मेंस कंप्यूटिंग में कार्यभार का सबसे अधिक शौक है।
हसन पूनावाला एडब्ल्यूएस में एक वरिष्ठ एआई/एमएल विशेषज्ञ समाधान वास्तुकार हैं, हसन ग्राहकों को एडब्ल्यूएस पर उत्पादन में मशीन सीखने के अनुप्रयोगों को डिजाइन और तैनात करने में मदद करता है। उनके पास डेटा साइंटिस्ट, मशीन लर्निंग प्रैक्टिशनर और सॉफ्टवेयर डेवलपर के रूप में 12 साल से अधिक का कार्य अनुभव है। अपने खाली समय में, हसन को प्रकृति की खोज करना और दोस्तों और परिवार के साथ समय बिताना पसंद है।
जसलीन ग्रेवाल अमेज़ॅन वेब सर्विसेज में एक वरिष्ठ एप्लाइड साइंटिस्ट हैं, जहां वह सटीक चिकित्सा और जीनोमिक्स पर विशेष ध्यान देने के साथ मशीन लर्निंग का उपयोग करके वास्तविक दुनिया की समस्याओं को हल करने के लिए एडब्ल्यूएस ग्राहकों के साथ काम करती हैं। जैव सूचना विज्ञान, ऑन्कोलॉजी और क्लिनिकल जीनोमिक्स में उनकी मजबूत पृष्ठभूमि है। वह रोगी देखभाल में सुधार के लिए एआई/एमएल और क्लाउड सेवाओं का उपयोग करने को लेकर उत्साहित हैं।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. ऑटोमोटिव/ईवीएस, कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- BlockOffsets. पर्यावरणीय ऑफसेट स्वामित्व का आधुनिकीकरण। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/build-protein-folding-workflows-to-accelerate-drug-discovery-on-amazon-sagemaker/
- :हैस
- :है
- :नहीं
- :कहाँ
- $यूपी
- 1
- 10
- 100
- 12
- 3d
- 7
- 9
- a
- About
- AC
- में तेजी लाने के
- पहुँच
- पहुँचा
- शुद्धता
- सही
- अचक्रीय
- जोड़ना
- दत्तक
- उन्नत
- अग्रिमों
- प्रभावित करने वाले
- बाद
- फिर
- के खिलाफ
- ऐ / एमएल
- कलन विधि
- एल्गोरिदम
- संरेखण
- सब
- अनुमति देना
- की अनुमति देता है
- साथ में
- भी
- वीरांगना
- अमेज़न SageMaker
- अमेज़ॅन सैजमेकर स्टूडियो
- अमेज़ॅन वेब सेवा
- an
- विश्लेषण
- विश्लेषण करें
- और
- अन्य
- कोई
- अनुप्रयोगों
- लागू
- स्थापत्य
- हैं
- क्षेत्र
- तर्क
- AS
- मूल्यांकन
- At
- स्वतः
- उपलब्ध
- औसत
- दूर
- एडब्ल्यूएस
- वापस
- पृष्ठभूमि
- आधार
- आधारित
- खाड़ी
- BE
- क्योंकि
- हो जाता है
- से पहले
- शुरू
- जा रहा है
- के अतिरिक्त
- BEST
- बेहतर
- के बीच
- बिलियन
- अरबों
- बायोमेडिकल
- बायोफार्मा
- ब्लॉक
- परिवर्तन
- के छात्रों
- लाना
- लाना
- विस्तृत
- निर्माण
- इमारत
- व्यापार
- by
- कॉल
- बुलाया
- कर सकते हैं
- उम्मीदवार
- उम्मीदवारों
- क्षमताओं
- सक्षम
- कौन
- परिवर्तन
- चैनल
- चार्ट
- चुनाव
- City
- कक्षा
- क्लिनिकल
- समापन
- बादल
- क्लाउड सेवाएं
- समूह
- कोड
- कोड आधार
- कोड
- सहयोग
- गठबंधन
- जोड़ती
- आता है
- वाणिज्यिक
- सामान्य
- संवाद
- तुलना
- तुलना
- तुलना
- संगत
- प्रतियोगिता
- पूरा
- पूरा
- पूरा करता है
- जटिल
- अंग
- घटकों
- यौगिक
- गणना
- गणना करना
- कंप्यूटिंग
- विन्यास
- निर्माण
- निर्माण
- कंटेनर
- शामिल हैं
- लागत
- लागत बचत
- लागत
- युगल
- बनाना
- बनाया
- वर्तमान में
- रिवाज
- ग्राहक
- डेग
- तिथि
- आँकड़ा प्रबंधन
- डेटा संसाधन
- आँकड़े वाला वैज्ञानिक
- डाटाबेस
- डेटाबेस
- तारीख
- गहरा
- ध्यान लगा के पढ़ना या सीखना
- चूक
- परिभाषित
- परिभाषित
- परिभाषित करने
- दिखाना
- साबित
- निर्भरता
- तैनात
- निकाली गई
- वर्णित
- डिज़ाइन
- बनाया गया
- वांछित
- विस्तृत
- निर्धारित करना
- निर्धारित
- डेवलपर
- विकास
- विभिन्न
- मुश्किल
- खोज
- चर्चा करना
- रोग
- विविधता
- विभाजित
- डाक में काम करनेवाला मज़दूर
- नीचे
- डाउनलोड
- दवा
- औषध
- दौरान
- गतिशील
- से प्रत्येक
- पूर्व
- आसानी
- प्रभावी
- भी
- सक्षम
- समाप्त
- संस्थाओं
- प्रविष्टि
- वातावरण
- ambiental
- मूल्यांकन करें
- अंतिम
- प्रत्येक
- उदाहरण
- अपवाद
- मार डाला
- निष्पादन
- मौजूदा
- महंगा
- अनुभव
- प्रयोग
- प्रयोगों
- विशेषज्ञता
- स्पष्टीकरण
- का पता लगाने
- तलाश
- का सामना करना पड़ा
- विफल रहे
- परिवार
- Feature
- विशेषताएं
- पट्टिका
- फ़ाइलें
- अंतिम
- अंत में
- प्रथम
- पहली बार
- फिट
- लचीलापन
- लचीलेपन
- फोकस
- का पालन करें
- निम्नलिखित
- इस प्रकार है
- के लिए
- प्रारूप
- मित्रों
- से
- पूर्ण
- पूरी तरह से
- कार्यात्मक
- आगे
- इकट्ठा
- उत्पन्न करता है
- पीढ़ी
- जीनोमिक्स
- मिल
- दी
- Go
- GPU
- ग्राफ
- महान
- बहुत
- आधा
- हाथ
- मुट्ठी
- नुकसान
- है
- he
- mmmmm
- मदद
- मदद करता है
- यहाँ उत्पन्न करें
- हाई
- उच्च स्तर
- उच्च प्रदर्शन
- उच्च गुणवत्ता
- उच्चतर
- उच्चतम
- हाइलाइट
- उसके
- होस्टिंग
- घंटे
- कैसे
- How To
- तथापि
- एचटीएमएल
- http
- HTTPS
- सैकड़ों
- पहचान
- पहचान करना
- निष्क्रिय
- if
- दिखाता है
- की छवि
- छवियों
- इमेजिंग
- कार्यान्वयन
- आयात
- में सुधार
- सुधार
- in
- शामिल
- शामिल
- सहित
- सम्मिलित
- स्वतंत्र
- व्यक्ति
- करें-
- इंफ्रास्ट्रक्चर
- निवेश
- निविष्टियां
- अंदर
- स्थापित
- उदाहरण
- इंटरैक्टिव
- सूचना का आदान प्रदान
- इंटरफेस
- में
- परिचय कराना
- IOT
- IT
- आईटी इस
- काम
- नौकरियां
- यात्रा
- जेपीजी
- केवल
- रखा
- कुंजी
- लात
- जानना
- ज्ञान
- जानने वाला
- पिछली बार
- विलंब
- ताज़ा
- लांच
- परत
- परतों
- बिक्रीसूत्र
- सीख रहा हूँ
- कम से कम
- चलो
- स्तर
- पुस्तकालय
- जीवन
- पसंद
- संभावना
- पंक्तियां
- लिंक
- स्थानीय स्तर पर
- स्थान
- स्थानों
- लॉग इन
- लॉगिंग
- लंबा
- प्यार करता है
- कम
- सबसे कम
- मशीन
- यंत्र अधिगम
- बनाना
- प्रबंधन
- कामयाब
- प्रबंध
- प्रबंध
- मैन्युअल
- मई..
- मैकिन्से
- तंत्र
- मेडिकल
- दवा
- मेटाडाटा
- तरीका
- तरीकों
- मेट्रिक्स
- लाखों
- ML
- मोड
- आदर्श
- मोडलिंग
- मॉडल
- मॉनिटर
- निगरानी
- अधिक
- अधिकांश
- मां
- माउंट
- बहुत
- विभिन्न
- नाम
- प्रकृति
- आवश्यकता
- ज़रूरत
- शुद्ध कार्यशील
- नेटवर्क
- तंत्रिका जाल
- नया
- नया लक्ष्य
- अगला
- NIH
- विशेष रूप से
- नोटबुक
- अभी
- संख्या
- of
- बंद
- प्रस्ताव
- ऑफर
- ठीक है
- on
- ऑन डिमांड
- ONE
- केवल
- पर
- आपरेशन
- इष्टतम
- ऑप्टिमाइज़ करें
- विकल्प
- or
- आदेश
- अन्य
- हमारी
- उत्पादन
- के ऊपर
- पृष्ठ
- समानांतर
- प्राचल
- पैरामीटर
- भाग
- विशेष
- भागीदारों
- पास
- पारित कर दिया
- आवेशपूर्ण
- पथ
- रोगी
- रोगियों
- पैटर्न
- प्रति
- प्रदर्शन
- पाइपलाइन
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- बिन्दु
- लोकप्रिय
- आबादी वाले
- पद
- ठीक
- शुद्धता
- भविष्यवाणी करना
- भविष्यवाणी
- की भविष्यवाणी
- भविष्यवाणी
- भविष्यवाणियों
- तैयार करना
- आवश्यक शर्तें
- वर्तमान
- पिछला
- मूल्य
- प्राथमिक
- प्रिंसिपल
- पूर्व
- प्राथमिकता
- मुसीबत
- समस्याओं
- प्रक्रिया
- प्रक्रियाओं
- प्रसंस्करण
- एस्ट्रो मॉल
- उत्पादन
- कार्यक्रम
- प्रगति
- वादा
- उचित
- प्रोटीन
- प्रोटीन
- प्रदान करना
- बशर्ते
- प्रदान करता है
- रखना
- अजगर
- जल्दी से
- अनुसंधान और विकास
- वास्तविक
- असली दुनिया
- हाल
- संदर्भित करता है
- क्षेत्रों
- रिश्ते
- रहना
- असाधारण
- repeatable
- बार बार
- कोष
- प्रतिनिधित्व
- का प्रतिनिधित्व
- की आवश्यकता होती है
- अपेक्षित
- आवश्यकता
- आवश्यकताएँ
- अनुसंधान
- शोधकर्ताओं
- उपयुक्त संसाधन चुनें
- क्रमश
- जिसके परिणामस्वरूप
- परिणाम
- रोबोटिक्स
- रन
- दौड़ना
- चलाता है
- s
- sagemaker
- SageMaker पाइपलाइन
- वही
- बचत
- बचत
- अनुमापकता
- स्केलेबल
- स्केल
- विज्ञान
- वैज्ञानिक
- वैज्ञानिकों
- स्कोर
- लिपियों
- एसडीके
- Search
- सीएटल
- दूसरा
- अनुभाग
- देखना
- बीज
- देखा
- चयन
- वरिष्ठ
- अनुक्रम
- कई
- सेवा
- सेवाएँ
- सेट
- सेट
- की स्थापना
- व्यवस्था
- कई
- वह
- चाहिए
- दिखाना
- दिखाया
- दिखाता है
- शट डाउन
- महत्वपूर्ण
- समान
- सरल
- सरलीकृत
- एक
- So
- सॉफ्टवेयर
- समाधान
- समाधान ढूंढे
- हल
- स्रोत
- विशेष
- विशेषज्ञ
- विशिष्ट
- विशेष रूप से
- विशेषता
- विनिर्दिष्ट
- स्पेक्ट्रोस्कोपी
- बिताना
- ट्रेनिंग
- प्रारंभ
- शुरू
- शुरुआत में
- शुरू होता है
- स्थिति
- कदम
- कदम
- भंडारण
- संग्रहित
- बुद्धिसंगत
- मजबूत
- संरचनात्मक
- संरचना
- स्टूडियो
- प्रस्तुत
- प्रस्तुत
- प्रस्तुत
- सफल
- ऐसा
- उपयुक्त
- सूर्य का अस्त होना
- superposition
- समर्थन करता है
- प्रणाली
- सिस्टम
- तालिका
- लेना
- लेता है
- ले जा
- लक्ष्य
- लक्ष्य
- टीमों
- टेक्नोलॉजीज
- टेम्पलेट
- टेम्पलेट्स
- शर्तों
- परीक्षण
- कि
- RSI
- स्रोत
- लेकिन हाल ही
- उन
- फिर
- इसलिये
- इन
- वे
- तीसरा
- इसका
- उन
- हजारों
- तीन
- यहाँ
- THROUGHPUT
- पहर
- बहुत समय लगेगा
- सेवा मेरे
- एक साथ
- उपकरण
- ऊपर का
- सुराग लग सकना
- ट्रैक
- परंपरागत
- रेलगाड़ी
- प्रशिक्षित
- प्रशिक्षण
- ट्रांसफार्मर
- <strong>उद्देश्य</strong>
- दो
- टाइप
- ठेठ
- आम तौर पर
- ui
- समझना
- समझ
- दुर्भाग्य से
- अज्ञात
- अद्यतन
- अपलोड की गई
- us
- उपयोग
- प्रयुक्त
- उपयोगकर्ता
- उपयोगकर्ता अनुभव
- यूजर इंटरफेस
- उपयोगकर्ताओं
- का उपयोग करता है
- का उपयोग
- सत्यापन
- मूल्य
- विविधता
- विभिन्न
- बहुत
- के माध्यम से
- दृश्य
- था
- मार्ग..
- we
- वेब
- वेब सेवाओं
- वेब आधारित
- भार
- कुंआ
- कब
- कौन कौन से
- जब
- विकिपीडिया
- मर्जी
- साथ में
- अंदर
- बिना
- काम
- वर्कफ़्लो
- workflows
- कार्य
- विश्व
- होगा
- लिखा हुआ
- एक्स - रे
- साल
- आप
- आपका
- जेफिरनेट