मशीन लर्निंग (एमएल) कई उद्योगों को अभूतपूर्व गति से बाधित कर रहा है। स्वास्थ्य देखभाल और जीवन विज्ञान (एचसीएलएस) उद्योग हाल के वर्षों में तेजी से विकास के दौर से गुजर रहा है, जिसमें गुणवत्ता देखभाल प्रदान करने और रोगी परिणामों में सुधार के लिए उपयोग के मामलों में एमएल को अपनाया गया है।
एक विशिष्ट एमएल जीवनचक्र में, डेटा इंजीनियर और वैज्ञानिक अपना अधिकांश समय डेटा तैयार करने और मॉडल निर्माण और प्रशिक्षण की प्रक्रिया शुरू करने से पहले इंजीनियरिंग चरणों की सुविधा पर खर्च करते हैं। एक ऐसा उपकरण होना जो डेटा तैयार करने के लिए प्रवेश की बाधा को कम कर सके, जिससे उत्पादकता में सुधार हो, इन व्यक्तियों के लिए एक अत्यधिक वांछनीय प्रश्न है। अमेज़न SageMaker डेटा रैंगलर सीखने की अवस्था को कम करने और डेटा प्रैक्टिशनरों को कम प्रयास और समय में डेटा तैयार करने, सफाई करने और इंजीनियरिंग कार्यों को पूरा करने में सक्षम बनाने के लिए AWS द्वारा बनाया गया उद्देश्य है। यह कई अंतर्निहित कार्यों और अन्य एडब्ल्यूएस सेवाओं के साथ एकीकरण के साथ एक जीयूआई इंटरफेस प्रदान करता है जैसे कि अमेज़न सरल भंडारण सेवा (अमेज़न S3) और अमेज़न SageMaker फ़ीचर स्टोर, साथ ही स्नोफ्लेक और डेटाब्रिक्स सहित भागीदार डेटा स्रोत।
इस पोस्ट में, हम प्रदर्शित करते हैं कि रोगी की जनसांख्यिकी, पूर्व चिकित्सा स्थितियों और प्रयोगशाला परीक्षण परिणाम इतिहास को देखते हुए, हृदय की विफलता की भविष्यवाणी करने के लिए एक मॉडल को प्रशिक्षित करने के लिए स्वास्थ्य देखभाल डेटा तैयार करने के लिए डेटा रैंगलर का उपयोग कैसे करें।
समाधान अवलोकन
समाधान में निम्नलिखित चरण होते हैं:
- डेटा रैंगलर के इनपुट के रूप में एक हेल्थकेयर डेटासेट प्राप्त करें।
- डेटासेट को बदलने के लिए डेटा रैंगलर के बिल्ट-इन ट्रांसफ़ॉर्मेशन फ़ंक्शंस का उपयोग करें। इसमें ड्रॉप कॉलम, डेटा/समय की विशेषता, डेटासेट में शामिल होना, लापता मानों को लागू करना, श्रेणीबद्ध चर को एन्कोड करना, संख्यात्मक मानों को स्केल करना, डेटासेट को संतुलित करना आदि शामिल हैं।
- डेटा रैंगलर के कस्टम ट्रांसफ़ॉर्म फ़ंक्शन (पंडस या पायस्पार्क कोड) का उपयोग बिल्ट-इन ट्रांसफ़ॉर्मेशन से परे आवश्यक अतिरिक्त ट्रांसफ़ॉर्मेशन के पूरक के लिए करें और डेटा रैंगलर की एक्स्टेंसिबिलिटी प्रदर्शित करें। इसमें फ़िल्टर पंक्तियाँ, समूह डेटा, शर्तों के आधार पर नए डेटाफ़्रेम बनाना आदि शामिल हैं।
- दृश्य विश्लेषण करने के लिए डेटा रैंगलर के अंतर्निहित विज़ुअलाइज़ेशन फ़ंक्शंस का उपयोग करें। इसमें लक्ष्य रिसाव, सुविधा सहसंबंध, त्वरित मॉडल और बहुत कुछ शामिल हैं।
- परिवर्तित डेटासेट को Amazon S3 में निर्यात करने के लिए डेटा रैंगलर के अंतर्निर्मित निर्यात विकल्पों का उपयोग करें।
- एक मॉडल को प्रशिक्षित करने के लिए इनपुट के रूप में Amazon S3 में रूपांतरित डेटासेट का उपयोग करने के लिए Jupyter नोटबुक लॉन्च करें।
डेटासेट जनरेट करें
अब जब हम एमएल समस्या बयान पर बस गए हैं, तो हम सबसे पहले अपनी जरूरत के डेटा को प्राप्त करने के लिए अपनी जगहें निर्धारित करते हैं। अनुसंधान अध्ययन जैसे दिल की विफलता भविष्यवाणी डेटा प्रदान कर सकता है जो पहले से ही अच्छी स्थिति में है। हालाँकि, हम अक्सर ऐसे परिदृश्यों का सामना करते हैं जहाँ डेटा काफी गड़बड़ होता है और इसमें शामिल होने, सफाई करने और कई अन्य परिवर्तनों की आवश्यकता होती है जो कि एमएल प्रशिक्षण के लिए उपयोग किए जाने से पहले स्वास्थ्य सेवा क्षेत्र के लिए बहुत विशिष्ट हैं। हम डेटा को ढूंढना या उत्पन्न करना चाहते हैं जो काफी गड़बड़ है और आपको डेटा रैंगलर का उपयोग करके इसे तैयार करने के चरणों के बारे में बताता है। इसे ध्यान में रखते हुए, हमने सिंथेटिक डेटा उत्पन्न करने के लिए सिंथिया को एक उपकरण के रूप में चुना जो हमारे लक्ष्य के अनुकूल हो। सिंथिया एक खुला स्रोत सिंथेटिक रोगी जनरेटर है जो सिंथेटिक रोगियों के चिकित्सा इतिहास को मॉडल करता है। अपना डेटासेट जेनरेट करने के लिए, निम्न चरणों को पूरा करें:
- के अनुसार निर्देशों का पालन करें जल्दी शुरू एक बनाने के लिए प्रलेखन अमेज़ॅन सैजमेकर स्टूडियो डोमेन और लॉन्च स्टूडियो।
यह एक पूर्वापेक्षा चरण है। यह वैकल्पिक है यदि स्टूडियो पहले से ही आपके खाते में स्थापित है। - स्टूडियो लॉन्च होने के बाद, पर लांचर टैब चुनें सिस्टम टर्मिनल.
यह एक टर्मिनल सत्र शुरू करता है जो आपको काम करने के लिए एक कमांड लाइन इंटरफ़ेस देता है। - Synthea को स्थापित करने और CSV प्रारूप में डेटासेट बनाने के लिए, लॉन्च किए गए टर्मिनल सत्र में निम्नलिखित कमांड चलाएँ:
हम 10,000 की आबादी के आकार के साथ डेटासेट उत्पन्न करने के लिए एक पैरामीटर की आपूर्ति करते हैं। नोट आकार पैरामीटर जनसंख्या के जीवित सदस्यों की संख्या को दर्शाता है। इसके अतिरिक्त, Synthea जनसंख्या के मृत सदस्यों के लिए भी डेटा उत्पन्न करता है जो निर्दिष्ट नमूना आकार के शीर्ष पर कुछ अतिरिक्त डेटा बिंदु जोड़ सकता है।
डेटा जनरेशन पूरा होने तक प्रतीक्षा करें। इस कदम में आमतौर पर लगभग एक घंटे या उससे कम समय लगता है। Synthea कई डेटासेट उत्पन्न करता है, जिसमें शामिल हैं patients
, medications
, allergies
, conditions
, और अधिक। इस पोस्ट के लिए, हम तीन परिणामी डेटासेट का उपयोग करते हैं:
- रोगी.सीएसवी - यह डेटासेट लगभग 3.2 एमबी का है और इसमें रोगी डेटा की लगभग 11,000 पंक्तियाँ हैं (रोगी आईडी, जन्मतिथि, लिंग, पता, और अधिक सहित 25 कॉलम)
- शर्तें.सीएसवी - यह डेटासेट लगभग 47 एमबी का है और इसमें मेडिकल कंडीशन डेटा की लगभग 370,000 पंक्तियाँ हैं (रोगी आईडी, स्थिति शुरू होने की तारीख, स्थिति कोड, और अधिक सहित छह कॉलम)
- प्रेक्षण.csv - यह डेटासेट लगभग 830 एमबी का है और इसमें अवलोकन डेटा की लगभग 5 मिलियन पंक्तियाँ हैं (रोगी आईडी, अवलोकन तिथि, अवलोकन कोड, मूल्य, और अधिक सहित आठ कॉलम)
के बीच एक-से-अनेक संबंध है patients
और conditions
डेटासेट के बीच एक-से-अनेक संबंध भी है patients
और observations
डेटासेट विस्तृत डेटा शब्दकोश के लिए, देखें सीएसवी फ़ाइल डेटा शब्दकोश.
- Amazon S3 में जनरेट किए गए डेटासेट को स्रोत बकेट में अपलोड करने के लिए, टर्मिनल सत्र में निम्नलिखित कमांड चलाएँ:
डेटा रैंगलर लॉन्च करें
चुनें SageMaker संसाधन स्टूडियो में नेविगेशन पेज में और पर परियोजनाओं मेनू, चुनें डेटा रैंगलर डेटा रैंगलर डेटा प्रवाह बनाने के लिए। स्टूडियो के भीतर से डेटा रैंगलर को लॉन्च करने के विस्तृत चरणों के लिए, देखें डेटा रैंगलर के साथ शुरुआत करें.
आयात आंकड़ा
अपना डेटा आयात करने के लिए, निम्न चरणों को पूरा करें:
- चुनें अमेज़न S3 और S3 बकेट में patients.csv फ़ाइल का पता लगाएँ।
- में विवरण फलक, चुनें पहले के एसटी सैम्पलिंग.
- दर्ज
1100
एसटी नमूने का आकार.
पूर्वावलोकन फलक में, डेटा रैंगलर डेटासेट से पहली 100 पंक्तियों को खींचता है और उन्हें पूर्वावलोकन के रूप में सूचीबद्ध करता है। - चुनें आयात.
डेटा रैंगलर Synthea द्वारा उत्पन्न कुल रोगियों (1,100 पंक्तियों) में से पहले 11,000 रोगियों का चयन करता है और डेटा आयात करता है। नमूनाकरण दृष्टिकोण डेटा रैंगलर को केवल नमूना डेटा को संसाधित करने देता है। यह हमें अपने डेटा प्रवाह को एक छोटे डेटासेट के साथ विकसित करने में सक्षम बनाता है, जिसके परिणामस्वरूप त्वरित प्रसंस्करण और एक छोटा फीडबैक लूप होता है। डेटा प्रवाह बनाने के बाद, हम विकसित नुस्खा को a . में जमा कर सकते हैं सेजमेकर प्रोसेसिंग वितरित फ़ैशन में पूर्ण या बड़े डेटासेट के लिए प्रसंस्करण को क्षैतिज रूप से स्केल करने का कार्य। - के लिए इस प्रक्रिया को दोहराएं
conditions
औरobservations
डेटासेट- के लिए
conditions
डेटासेट, दर्ज करें37000
एसटी नमूने का आकार, जो Synthea द्वारा उत्पन्न कुल 1 पंक्तियों में से 10/370,000 है। - के लिए
observations
डेटासेट, दर्ज करें500000
एसटी नमूने का आकार, जो कि Synthea द्वारा उत्पन्न 1 मिलियन पंक्तियों की कुल टिप्पणियों का 10/5 है।
- के लिए
आपको निम्न स्क्रीनशॉट में दिखाए गए अनुसार तीन डेटासेट देखना चाहिए।
डेटा ट्रांसफ़ॉर्म करें
डेटा परिवर्तन डेटासेट में एक या अधिक स्तंभों की संरचना, मान या प्रारूप को बदलने की प्रक्रिया है। प्रक्रिया आमतौर पर एक डेटा इंजीनियर द्वारा विकसित की जाती है और परिवर्तन के लिए प्रस्तावित तर्क को समझने के लिए एक छोटे डेटा इंजीनियरिंग कौशल वाले लोगों के लिए चुनौतीपूर्ण हो सकता है। डेटा परिवर्तन व्यापक फीचर इंजीनियरिंग प्रक्रिया का हिस्सा है, और इस तरह के व्यंजनों को तैयार करते समय चरणों का सही क्रम एक और महत्वपूर्ण मानदंड है।
डेटा रैंगलर को प्रभावी डेटा तैयार करने के लिए प्रवेश की बाधा को कम करने के लिए कम-कोड उपकरण के रूप में डिज़ाइन किया गया है। यह आपके लिए कोड की एक भी पंक्ति लिखे बिना चुनने के लिए 300 से अधिक पूर्व-कॉन्फ़िगर किए गए डेटा ट्रांसफ़ॉर्मेशन के साथ आता है। निम्नलिखित अनुभागों में, हम देखते हैं कि डेटा रैंगलर में आयातित डेटासेट को कैसे रूपांतरित किया जाए।
मरीज़ों में कॉलम छोड़ें।csv
हम सबसे पहले से कुछ कॉलम छोड़ते हैं patients
डाटासेट। निरर्थक कॉलम छोड़ने से डेटासेट से गैर-प्रासंगिक जानकारी निकल जाती है और हमें डेटासेट को संसाधित करने और एक मॉडल को प्रशिक्षित करने के लिए आवश्यक कंप्यूटिंग संसाधनों की मात्रा को कम करने में मदद मिलती है। इस खंड में, हम सामान्य ज्ञान के आधार पर एसएसएन या पासपोर्ट नंबर जैसे कॉलम छोड़ते हैं कि इन कॉलमों का कोई अनुमानित मूल्य नहीं है। दूसरे शब्दों में, वे हमारे मॉडल को दिल की विफलता की भविष्यवाणी करने में मदद नहीं करते हैं। हमारा अध्ययन अन्य कॉलम जैसे जन्मस्थान या स्वास्थ्य देखभाल खर्च के रोगी के दिल की विफलता पर प्रभाव के बारे में भी चिंतित नहीं है, इसलिए हम उन्हें भी छोड़ देते हैं। डेटा रैंगलर में निर्मित लक्ष्य रिसाव, फीचर सहसंबंध, बहुसंकेतन, और अधिक जैसे अंतर्निहित विश्लेषणों को चलाकर अनावश्यक स्तंभों की पहचान की जा सकती है। समर्थित विश्लेषण प्रकारों के बारे में अधिक जानकारी के लिए, देखें विश्लेषण और विज़ुअलाइज़ करें. इसके अतिरिक्त, आप का उपयोग कर सकते हैं डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट समाप्त करने के लिए निरर्थक स्तंभों की सूची पर पहुंचने के लिए डेटासेट पर स्वचालित विश्लेषण करने के लिए।
- के आगे धन चिह्न चुनें जानकारी का प्रकार मरीज़ों के लिए.csv डेटासेट और चुनें परिवर्तन जोड़ें.
- चुनें चरण जोड़ें और चुनें कॉलम प्रबंधित करें.
- के लिए बदालनाचुनें स्तंभ छोड़ें.
- के लिए छोड़ने के लिए कॉलम, निम्नलिखित कॉलम चुनें:
SSN
DRIVERS
PASSPORT
PREFIX
FIRST
LAST
SUFFIX
MAIDEN
RACE
ETHNICITY
BIRTHPLACE
ADDRESS
CITY
STATE
COUNTY
ZIP
LAT
LON
HEALTHCARE_EXPENSES
HEALTHCARE_COVERAGE
- चुनें पूर्वावलोकन रूपांतरित डेटासेट की समीक्षा करने के लिए, फिर चुनें .
आपको चरण देखना चाहिए स्तंभ छोड़ें आपके परिवर्तनों की सूची में।
रोगियों में दिनांक/समय को चित्रित करें। csv
अब हम नई सुविधा उत्पन्न करने के लिए विशेषता दिनांक/समय फ़ंक्शन का उपयोग करते हैं Year
से BIRTHDATE
कॉलम में patients
डाटासेट। हम अवलोकन के समय रोगी की आयु की गणना करने के लिए अगले चरण में नई सुविधा का उपयोग करते हैं।
- में रूपांतरण आप का फलक स्तंभ छोड़ें के लिए पेज
patients
डेटासेट, चुनें चरण जोड़ें. - चुनना दिनांक/समय प्रदर्शित करें बदलना।
- चुनें कॉलम निकालें.
- के लिए इनपुट कॉलम, कॉलम जोड़ें
BIRTHDATE
. - चुनते हैं साल और रद्द करें महीना, दिन, घंटा, मिनट, दूसरा।
- चुनें पूर्वावलोकन, उसके बाद चुनो .
प्रेक्षणों में परिवर्तन जोड़ें।csv
डेटा रैंगलर पायथन (उपयोगकर्ता द्वारा परिभाषित कार्यों), पायस्पार्क, पंडों, या पायस्पार्क (एसक्यूएल) का उपयोग करके कस्टम ट्रांसफॉर्म का समर्थन करता है। आप प्रत्येक विकल्प और वरीयता के साथ अपनी परिचितता के आधार पर अपना रूपांतरण प्रकार चुन सकते हैं। बाद के तीन विकल्पों के लिए, डेटा रैंगलर चर को उजागर करता है df
आपके लिए डेटाफ़्रेम तक पहुँचने और उस पर परिवर्तन लागू करने के लिए। विस्तृत व्याख्या और उदाहरणों के लिए, देखें कस्टम रूपांतरण. इस खंड में, हम तीन कस्टम रूपांतरण जोड़ते हैं observations
डाटासेट।
- प्रेक्षणों में परिवर्तन जोड़ें। सीएसवी और ड्रॉप करें
DESCRIPTION
स्तंभ. - चुनें पूर्वावलोकन, उसके बाद चुनो .
- में रूपांतरण फलक, चुनें चरण जोड़ें और चुनें कस्टम परिवर्तन.
- ड्रॉप-डाउन मेनू पर, चुनें अजगर (पंडों).
- निम्नलिखित कोड दर्ज करें:
ये LONIC कोड हैं जो निम्नलिखित टिप्पणियों के अनुरूप हैं जिन्हें हम दिल की विफलता की भविष्यवाणी के लिए सुविधाओं के रूप में उपयोग करने में रुचि रखते हैं:
- चुनें पूर्वावलोकन, उसके बाद चुनो .
- निकालने के लिए एक परिवर्तन जोड़ें
Year
औरQuarter
सेDATE
स्तंभ. - चुनें पूर्वावलोकन, उसके बाद चुनो .
- चुनें चरण जोड़ें और चुनें कस्टम परिवर्तन.
- ड्रॉप-डाउन मेनू पर, चुनें पायथन (पायस्पार्क).
पांच प्रकार के प्रेक्षणों को हमेशा एक ही तिथि पर दर्ज नहीं किया जा सकता है। उदाहरण के लिए, एक मरीज 21 जनवरी को अपने फैमिली डॉक्टर के पास जा सकता है और उनका सिस्टोलिक ब्लड प्रेशर, डायस्टोलिक ब्लड प्रेशर, हार्ट रेट और बॉडी मास इंडेक्स को मापा और रिकॉर्ड किया जा सकता है। हालांकि, एक प्रयोगशाला परीक्षण जिसमें प्लेटलेट्स शामिल हैं, 2 फरवरी को बाद की तारीख में किया जा सकता है। इसलिए, अवलोकन तिथि तक डेटाफ्रेम में शामिल होना हमेशा संभव नहीं होता है। यहां हम तिमाही आधार पर मोटे ग्रैन्युलैरिटी पर डेटाफ्रेम में शामिल होते हैं। - निम्नलिखित कोड दर्ज करें:
- चुनें पूर्वावलोकन, उसके बाद चुनो .
- चुनें चरण जोड़ें, उसके बाद चुनो पंक्तियों को प्रबंधित करें.
- के लिए बदालना, चुनें डुप्लिकेट छोड़ें.
- चुनें पूर्वावलोकन, उसके बाद चुनो .
- चुनें चरण जोड़ें और चुनें कस्टम परिवर्तन.
- ड्रॉप-डाउन मेनू पर, चुनें अजगर (पंडों).
- समान समय मान साझा करने वाले औसत डेटा बिंदुओं को लेने के लिए निम्न कोड दर्ज करें:
- चुनें पूर्वावलोकन, उसके बाद चुनो .
मरीजों से जुड़ें। सीएसवी और अवलोकन। सीएसवी
इस चरण में, हम डेटा रैंगलर के शक्तिशाली UI के माध्यम से कोई कोड लिखे बिना डेटासेट पर प्रभावी ढंग से और आसानी से जटिल जुड़ाव प्रदर्शित करने का तरीका दिखाते हैं। समर्थित प्रकार के जॉइन के बारे में अधिक जानने के लिए, देखें डेटा ट्रांसफ़ॉर्म करें.
- के अधिकार के लिए रूपांतरण: रोगी.सीएसवी, के आगे धन चिह्न चुनें कदम और चुनें जुडें.
आप नीचे दी गई सूची में बदली हुई रोगी.सीएसवी फ़ाइल देख सकते हैं डेटासेट बाएं फलक में - के अधिकार के लिए रूपांतरण: प्रेक्षण.csv, पर क्लिक करें कदम जॉइन ऑपरेशन शुरू करने के लिए।
रूपांतरित टिप्पणियों.सीएसवी फ़ाइल को अब नीचे सूचीबद्ध किया गया है डेटासेट बाएं फलक में - चुनें कॉन्फ़िगर.
- के लिए जॉइन टाइप, चुनें आंतरिक.
- के लिए वाम, चुनें Id.
- के लिए सही, चुनें रोगी.
- चुनें पूर्वावलोकन, उसके बाद चुनो .
जुड़े हुए डेटासेट में एक कस्टम ट्रांसफ़ॉर्म जोड़ें
इस चरण में, हम अवलोकन के समय रोगी की आयु की गणना करते हैं। हम उन स्तंभों को भी छोड़ देते हैं जिनकी अब आवश्यकता नहीं है।
- के आगे धन चिह्न चुनें पहला शामिल हों और चुनें परिवर्तन जोड़ें.
- पंडों में एक कस्टम परिवर्तन जोड़ें:
- चुनें पूर्वावलोकन, उसके बाद चुनो .
शर्तों में कस्टम रूपांतरण जोड़ें। csv
- के आगे धन चिह्न चुनें रूपांतरण: शर्तें। सीएसवी और चुनें परिवर्तन जोड़ें.
- पंडों में एक कस्टम परिवर्तन जोड़ें:
नोट: जैसा कि हमने पहले दिखाया था, आप कस्टम कोड का उपयोग करके या डेटा रैंगलर द्वारा प्रदान किए गए बिल्ट-इन ट्रांसफ़ॉर्मेशन का उपयोग करके कॉलम ड्रॉप कर सकते हैं। डेटा रैंगलर के भीतर कस्टम परिवर्तन समर्थित ढांचे में कोड स्निपेट के रूप में अपने स्वयं के परिवर्तन तर्क लाने के लिए लचीलापन प्रदान करता है। इन स्निपेट्स को बाद में खोजा जा सकता है और यदि आवश्यक हो तो लागू किया जा सकता है।
पिछले रूपांतरण में कोड SNOMED-CT कोड हैं जो निम्न स्थितियों के अनुरूप हैं। heart failure
or chronic congestive heart failure
स्थिति लेबल बन जाती है। हम दिल की विफलता की भविष्यवाणी के लिए शेष स्थितियों का उपयोग सुविधाओं के रूप में करते हैं। हम कुछ कॉलम भी छोड़ते हैं जिनकी अब आवश्यकता नहीं है।
- इसके बाद, आइए PySpark में एक कस्टम ट्रांसफ़ॉर्म जोड़ें:
हम दिल की विफलता डेटाफ़्रेम में सभी प्रविष्टियों को रखने के लिए एक बाएँ बाहरी जुड़ाव करते हैं। एक नया कॉलम
has_xxx
हृदय गति रुकने के अलावा अन्य प्रत्येक स्थिति के लिए गणना की जाती है जो स्थिति की प्रारंभ तिथि के आधार पर होती है। हम केवल उन चिकित्सा स्थितियों में रुचि रखते हैं जो हृदय की विफलता से पहले दर्ज की गई थीं और उन्हें हृदय की विफलता की भविष्यवाणी के लिए सुविधाओं के रूप में उपयोग करते हैं। - एक अंतर्निहित जोड़ें कॉलम प्रबंधित करें उन अनावश्यक स्तंभों को छोड़ने के लिए रूपांतरित करें जिनकी अब आवश्यकता नहीं है:
hypertension
diabetes
coronary
smoke
atrial
- उद्धरण
Year
औरQuarter
सेheartfailure
स्तंभ.
यह उस ग्रैन्युलैरिटी से मेल खाता है जिसका उपयोग हमने पहले के परिवर्तन में किया थाobservations
डाटासेट। - हमारे पास condition.csv के लिए कुल 6 चरण होने चाहिए।
शामिल हुए डेटासेट में शर्तों.सीएसवी से जुड़ें
अब हम शर्तों के डेटासेट में शामिल होने के लिए एक नया जुड़ाव करते हैं patients
और observations
डाटासेट।
- चुनें ट्रांसफॉर्म: पहला जॉइन.
- धन चिह्न चुनें और चुनें जुडें.
- चुनें कदम के पास रूपांतरण: शर्तें। सीएसवी.
- चुनें कॉन्फ़िगर.
- के लिए जॉइन टाइप, चुनें बायां बाहरी.
- के लिए वाम, चुनें Id.
- के लिए सही, चुनें रोगी.
- चुनें पूर्वावलोकन, उसके बाद चुनो .
सम्मिलित डेटासेट में परिवर्तन जोड़ें
अब जबकि हमारे पास सभी तीन डेटासेट शामिल हो गए हैं, आइए कुछ अतिरिक्त परिवर्तन लागू करें।
- PySpark में निम्नलिखित कस्टम परिवर्तन जोड़ें ताकि
has_heartfailure
हमारा लेबल कॉलम बन जाता है: - PySpark में निम्नलिखित कस्टम परिवर्तन जोड़ें:
- अनावश्यक कॉलम छोड़ें जिनकी अब आवश्यकता नहीं है:
Id
DATE_year
DATE_quarter
patient
heartfailure
heartfailure_year
heartfailure_quarter
- पर विश्लेषण टैब, के लिए विश्लेषण प्रकारचुनें तालिका सारांश.
सारांश के माध्यम से एक त्वरित स्कैन से पता चलता है किMARITAL
कॉलम में डेटा गुम है। - चुनना जानकारी टैब और एक कदम जोड़ें।
- चुनें हैंडल मिसिंग.
- के लिए बदालना, चुनें लापता भरें.
- के लिए इनपुट कॉलम, चुनें वैवाहिक.
- के लिए मान भरें, दर्ज
S
.
यहां हमारी रणनीति यह मान लेना है कि यदि वैवाहिक स्थिति का मूल्य नहीं है तो रोगी अविवाहित है। आपके पास एक अलग रणनीति हो सकती है। - चुनें पूर्वावलोकन, उसके बाद चुनो .
- लुप्त मान को 0 के रूप में भरें
has_hypertension
,has_diabetes
,has_coronary
,has_smoke
,has_atrial
.
Marital
और Gender
श्रेणीगत चर हैं। डेटा रैंगलर में श्रेणीबद्ध चर को एन्कोड करने के लिए एक अंतर्निहित कार्य है।
- एक चरण जोड़ें और चुनें एनकोड श्रेणीबद्ध.
- के लिए बदालना, चुनें एक गर्म सांकेतिक शब्दों में बदलना.
- के लिए इनपुट कॉलम, चुनें वैवाहिक.
- के लिए आउटपुट शैली, चुनें स्तंभ.
यह आउटपुट शैली अलग-अलग कॉलम में एन्कोडेड मान उत्पन्न करती है। - चुनें पूर्वावलोकन, उसके बाद चुनो .
- के लिए इन चरणों को दोहराएँ लिंग स्तंभ.
वन-हॉट एन्कोडिंग वैवाहिक कॉलम को विभाजित करती है Marital_M
(विवाहित) और Marital_S
(एकल), और लिंग कॉलम को . में विभाजित करता है Gender_M
(पुरुष) और Gender_F
(महिला)। इसलिये Marital_M
और Marital_S
परस्पर अनन्य हैं (जैसे हैं Gender_M
और Gender_F
), हम अनावश्यक सुविधाओं से बचने के लिए एक कॉलम छोड़ सकते हैं।
- बूंद
Marital_S
औरGender_F
.
सिस्टोलिक, हृदय गति और आयु जैसी संख्यात्मक विशेषताओं में अलग-अलग इकाई मानक होते हैं। एक रेखीय प्रतिगमन-आधारित मॉडल के लिए, हमें पहले इन संख्यात्मक विशेषताओं को सामान्य करना होगा। अन्यथा, उच्च निरपेक्ष मूल्यों वाली कुछ विशेषताओं का कम निरपेक्ष मूल्यों वाली अन्य विशेषताओं पर अनुचित लाभ हो सकता है और परिणामस्वरूप खराब मॉडल प्रदर्शन हो सकता है। डेटा रैंगलर में डेटा को सामान्य करने के लिए बिल्ट-इन ट्रांसफ़ॉर्म मिन-मैक्स स्केलर है। निर्णय वृक्ष-आधारित वर्गीकरण मॉडल के लिए, सामान्यीकरण की आवश्यकता नहीं है। हमारा अध्ययन एक वर्गीकरण समस्या है इसलिए हमें सामान्यीकरण लागू करने की आवश्यकता नहीं है। असंतुलित वर्ग वर्गीकरण में एक आम समस्या है। असंतुलन तब होता है जब प्रशिक्षण डेटासेट में गंभीर रूप से विषम वर्ग वितरण होता है। उदाहरण के लिए, जब हमारे डेटासेट में हृदय गति रुकने वाले रोगियों की तुलना में बिना अनुपात के अधिक रोगी होते हैं, तो यह मॉडल को दिल की विफलता की भविष्यवाणी करने और खराब प्रदर्शन करने की ओर पक्षपाती हो सकता है। डेटा रैंगलर में समस्या से निपटने के लिए एक अंतर्निहित कार्य है।
- डेटा प्रकार के कॉलम को "ऑब्जेक्ट" प्रकार से संख्यात्मक प्रकार में बदलने के लिए पंडों में एक कस्टम ट्रांसफ़ॉर्म जोड़ें:
- चुनना विश्लेषण टैब.
- के लिए विश्लेषण प्रकारचुनें हिस्टोग्राम.
- के लिए एक्स अक्ष, चुनें दिल की विफलता है.
- चुनें पूर्वावलोकन.
यह स्पष्ट है कि हमारे पास एक असंतुलित वर्ग है (हृदय विफलता के रूप में लेबल किए गए डेटा बिंदुओं की तुलना में अधिक डेटा बिंदुओं को दिल की विफलता के रूप में लेबल नहीं किया गया है)। - करने के लिए वापस जाओ जानकारी टैब। चुनना चरण जोड़ें और चुनें बैलेंस डेटा.
- के लिए लक्ष्य स्तंभ, चुनें दिल की विफलता है.
- के लिए वांछित अनुपात, दर्ज
1
. - के लिए बदालना, चुनें ऐसा मारा.
SMOTE का मतलब सिंथेटिक माइनॉरिटी ओवर-सैंपलिंग तकनीक है। यह नए अल्पसंख्यक उदाहरण बनाने और वर्ग संतुलन तक पहुंचने के लिए डेटासेट में जोड़ने की एक तकनीक है। विस्तृत जानकारी के लिए देखें SMOTE: सिंथेटिक माइनॉरिटी ओवर-सैंपलिंग तकनीक. - चुनें पूर्वावलोकन, उसके बाद चुनो .
- चरण 20-23 में हिस्टोग्राम विश्लेषण दोहराएं। परिणाम एक संतुलित वर्ग है।
लक्ष्य रिसाव और सुविधा सहसंबंध की कल्पना करें
इसके बाद, हम डेटा रैंगलर के उन्नत एमएल-समर्थित विश्लेषण प्रकारों के समृद्ध टूलसेट का उपयोग करके कुछ दृश्य विश्लेषण करने जा रहे हैं। सबसे पहले, हम लक्ष्य रिसाव को देखते हैं। लक्ष्य रिसाव तब होता है जब प्रशिक्षण डेटासेट में डेटा लक्ष्य लेबल के साथ दृढ़ता से सहसंबद्ध होता है, लेकिन अनुमान के समय वास्तविक दुनिया के डेटा में उपलब्ध नहीं होता है।
- पर विश्लेषण टैबके लिए, विश्लेषण प्रकारचुनें लक्ष्य रिसाव.
- के लिए समस्या का प्रकार, चुनें वर्गीकरण.
- के लिए लक्ष्य, चुनें दिल की विफलता है.
- चुनें पूर्वावलोकन.
विश्लेषण के आधार पर,hr
एक लक्ष्य रिसाव है। हम इसे अगले चरण में छोड़ देंगे।age
एक लक्ष्य रिसाव चिह्नित किया गया है। यह कहना उचित है कि अनुमान के समय रोगी की आयु उपलब्ध होगी, इसलिए हम आयु को एक विशेषता के रूप में रखते हैं।Systolic
औरdiastolic
संभावित लक्ष्य रिसाव के रूप में भी चिह्नित किया गया है। हम अनुमान के समय के दौरान दो मापों की अपेक्षा करते हैं, इसलिए हम उन्हें सुविधाओं के रूप में रखते हैं। - चुनें विश्लेषण जोड़ने के लिए।
फिर, हम फीचर सहसंबंध को देखते हैं। हम उन विशेषताओं का चयन करना चाहते हैं जो लक्ष्य से संबंधित हैं लेकिन आपस में असंबंधित हैं।
- पर विश्लेषण टैबके लिए, विश्लेषण प्रकारचुनें फ़ीचर सहसंबंध.
- के लिए Correlation Typeचुनें रैखिक.
- चुनें पूर्वावलोकन.
गुणांक अंक निम्नलिखित युग्मों के बीच मजबूत सहसम्बन्ध दर्शाते हैं:
systolic
औरdiastolic
bmi
औरage
has_hypertension
औरhas_heartfailure
(लेबल)
उन विशेषताओं के लिए जो दृढ़ता से सहसंबद्ध हैं, मैट्रिसेस को उल्टा करना कम्प्यूटेशनल रूप से कठिन है, जिससे संख्यात्मक रूप से अस्थिर अनुमान हो सकते हैं। सहसंबंध को कम करने के लिए, हम केवल जोड़ी से एक को हटा सकते हैं। हम गिराते हैं diastolic
और bmi
और रखना systolic
और age
बाद के चरण में।
डायस्टोलिक और बीएमआई कॉलम ड्रॉप करें
ड्रॉप करने के लिए अतिरिक्त रूपांतरण चरण जोड़ें hr
, diastolic
और bmi
बिल्ट-इन ट्रांसफॉर्म का उपयोग करके कॉलम।
डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट तैयार करें
एडब्ल्यूएस हाल ही में की घोषणा डेटा रैंगलर में नई डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट सुविधा। यह रिपोर्ट स्वचालित रूप से डेटा गुणवत्ता की पुष्टि करती है और आपके डेटा में असामान्यताओं का पता लगाती है। डेटा वैज्ञानिक और डेटा इंजीनियर एमएल मॉडल प्रशिक्षण के लिए डेटासेट को संसाधित करने के लिए डोमेन ज्ञान को कुशलतापूर्वक और जल्दी से लागू करने के लिए इस उपकरण का उपयोग कर सकते हैं। यह चरण वैकल्पिक है। इस रिपोर्ट को हमारे डेटासेट पर जनरेट करने के लिए, निम्नलिखित चरणों को पूरा करें:
- पर विश्लेषण टैब, के लिए विश्लेषण प्रकार, चुनें डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट.
- के लिए लक्ष्य स्तंभ, चुनें दिल की विफलता है.
- के लिए समस्या प्रकार, चुनते हैं वर्गीकरण.
- चुनें बनाएं.
कुछ ही मिनटों में, यह एक सारांश, दृश्य और अनुशंसाओं के साथ एक रिपोर्ट तैयार करता है।
एक त्वरित मॉडल विश्लेषण उत्पन्न करें
हमने अपनी डेटा तैयारी, सफाई और फीचर इंजीनियरिंग पूरी कर ली है। डेटा रैंगलर में एक अंतर्निहित फ़ंक्शन है जो हमारे डेटासेट में अपेक्षित अनुमानित गुणवत्ता और सुविधाओं की भविष्य कहनेवाला शक्ति का एक मोटा अनुमान प्रदान करता है।
- पर विश्लेषण टैब, के लिए विश्लेषण प्रकारचुनें त्वरित मॉडल.
- के लिए लेबल, चुनें दिल की विफलता है.
- चुनें पूर्वावलोकन.
हमारे त्वरित मॉडल विश्लेषण के अनुसार, हम सुविधा देख सकते हैं has_hypertension
सभी सुविधाओं के बीच उच्चतम विशेषता महत्व स्कोर है।
डेटा निर्यात करें और मॉडल को प्रशिक्षित करें
अब रूपांतरित एमएल-तैयार सुविधाओं को गंतव्य S3 बकेट में निर्यात करते हैं और एक वितरित फैशन में पूरे डेटासेट में नमूनों का उपयोग करके अब तक बनाई गई संपूर्ण फीचर इंजीनियरिंग पाइपलाइन को स्केल करते हैं।
- डेटा प्रवाह में अंतिम बॉक्स के आगे धन चिह्न चुनें और चुनें गंतव्य जोड़ें.
- चुनें अमेज़न S3.
- एक प्रवेश दातासेट नाम. के लिए अमेज़न S3 स्थान, एक S3 बकेट चुनें, फिर चुनें गंतव्य जोड़ें.
- चुनें नौकरी पैदा करो एक वितरित PySpark प्रसंस्करण कार्य शुरू करने के लिए परिवर्तन और डेटा को गंतव्य S3 बाल्टी में आउटपुट करने के लिए।
डेटासेट के आकार के आधार पर, यह विकल्प हमें आसानी से क्लस्टर और क्षैतिज पैमाने को नो-कोड फैशन में कॉन्फ़िगर करने देता है। हमें डेटासेट के विभाजन या क्लस्टर और स्पार्क इंटर्नल के प्रबंधन के बारे में चिंता करने की ज़रूरत नहीं है। यह सब डेटा रैंगलर द्वारा स्वचालित रूप से हमारे लिए ध्यान रखा जाता है। - बाएँ फलक पर, चुनें अगला, 2. कार्य कॉन्फ़िगर करें।
- उसके बाद चुनो रन.
वैकल्पिक रूप से, हम परिवर्तित आउटपुट को ज्यूपिटर नोटबुक के माध्यम से S3 में निर्यात भी कर सकते हैं। इस दृष्टिकोण के साथ, डेटा रैंगलर स्वचालित रूप से बड़े पूर्ण डेटासेट पर डेटा प्रवाह चरणों (एक नमूने का उपयोग करके बनाया गया) को लागू करने के लिए प्रसंस्करण कार्य को किक-ऑफ करने के लिए आवश्यक सभी कोड के साथ एक ज्यूपिटर नोटबुक बनाता है और रूपांतरित डेटासेट को सुविधाओं के रूप में उपयोग करता है- बाद में एक प्रशिक्षण नौकरी से बाहर। नोटबुक कोड को परिवर्तन के साथ या उसके बिना आसानी से चलाया जा सकता है। आइए अब डेटा रैंगलर के UI के माध्यम से इसे पूरा करने के चरणों के माध्यम से चलते हैं।
- डेटा प्रवाह में अंतिम चरण के आगे धन चिह्न चुनें और चुनें को निर्यात.
- चुनें अमेज़न S3 (जुपिटर नोटबुक के माध्यम से).
- यह ज्यूपिटर नोटबुक के साथ स्वचालित रूप से एक नया टैब खोलता है।
- जुपिटर नोटबुक में, में सेल का पता लगाएं (वैकल्पिक) अगले चरण खंड और परिवर्तन
run_optional_steps
सेFalse
सेवा मेरेTrue
.
नोटबुक में सक्षम वैकल्पिक चरण निम्न कार्य करते हैं: - नोटबुक के शीर्ष पर वापस जाएं और रन मेनू, चुनें सभी सेल चलाएं.
यदि आप जेनरेट की गई नोटबुक का उपयोग इस रूप में करते हैं, तो यह एक सेजमेकर प्रोसेसिंग जॉब लॉन्च करता है जो S5.4 बकेट पर पूरे डेटासेट को प्रोसेस करने के लिए दो m3xlarge इंस्टेंसेस में प्रोसेसिंग को स्केल करता है। आप कार्य को पूरा करने के लिए आवश्यक डेटासेट आकार और समय के आधार पर उदाहरणों की संख्या और आवृत्ति प्रकारों को समायोजित कर सकते हैं।
अंतिम सेल से प्रशिक्षण कार्य पूरा होने तक प्रतीक्षा करें। यह SageMaker डिफ़ॉल्ट S3 बाल्टी में एक मॉडल उत्पन्न करता है।
प्रशिक्षित मॉडल वास्तविक समय के अनुमान या बैच परिवर्तन के लिए तैनाती के लिए तैयार है। ध्यान दें कि हमने डेटा रैंगलर में कार्यात्मकता प्रदर्शित करने के लिए सिंथेटिक डेटा का उपयोग किया और प्रशिक्षण मॉडल के लिए संसाधित डेटा का उपयोग किया। यह देखते हुए कि हमारे द्वारा उपयोग किया गया डेटा सिंथेटिक है, प्रशिक्षित मॉडल से निष्कर्ष परिणाम वास्तविक दुनिया की चिकित्सा स्थिति निदान या चिकित्सा चिकित्सकों से निर्णय के प्रतिस्थापन के लिए नहीं है।
आप चुनकर अपने रूपांतरित डेटासेट को सीधे Amazon S3 में निर्यात कर सकते हैं निर्यात रूपांतरण पूर्वावलोकन पृष्ठ के शीर्ष पर। प्रत्यक्ष निर्यात विकल्प केवल रूपांतरित नमूने को निर्यात करता है यदि आयात के दौरान नमूनाकरण सक्षम किया गया था। यदि आप छोटे डेटासेट के साथ काम कर रहे हैं तो यह विकल्प सबसे उपयुक्त है। रूपांतरित डेटा को सीधे फीचर स्टोर में भी डाला जा सकता है। अधिक जानकारी के लिए देखें अमेज़न SageMaker फ़ीचर स्टोर. डेटा प्रवाह को सेजमेकर पाइपलाइन के रूप में भी निर्यात किया जा सकता है जिसे आपकी आवश्यकताओं के अनुसार व्यवस्थित और शेड्यूल किया जा सकता है। अधिक जानकारी के लिए देखें अमेज़न SageMaker पाइपलाइन.
निष्कर्ष
इस पोस्ट में, हमने दिखाया कि हेल्थकेयर डेटा को संसाधित करने के लिए डेटा रैंगलर का उपयोग कैसे करें और टूल-संचालित, कम-कोड फैशन में स्केलेबल फीचर इंजीनियरिंग का प्रदर्शन करें। हमने सीखा कि बिल्ट-इन ट्रांसफॉर्मेशन को कैसे लागू किया जाए और जहां भी जरूरत हो, उसका विश्लेषण करें, इसे कस्टम ट्रांसफॉर्मेशन के साथ जोड़कर अपने डेटा तैयारी वर्कफ़्लो में और भी अधिक लचीलापन जोड़ें। हम वितरित प्रसंस्करण नौकरियों के माध्यम से डेटा प्रवाह नुस्खा को बढ़ाने के लिए विभिन्न विकल्पों के माध्यम से भी चले गए। हमने यह भी सीखा कि कैसे परिवर्तित डेटा का उपयोग हृदय गति रुकने की भविष्यवाणी करने के लिए एक मॉडल को प्रशिक्षित करने के लिए आसानी से किया जा सकता है।
डेटा रैंगलर में कई अन्य विशेषताएं हैं जिन्हें हमने इस पोस्ट में शामिल नहीं किया है। अन्वेषण करें कि क्या संभव है अमेज़ॅन सेजमेकर डेटा रैंगलर के साथ एमएल डेटा तैयार करें और अपने अगले डेटा साइंस या मशीन लर्निंग प्रोजेक्ट के लिए डेटा रैंगलर का लाभ उठाना सीखें।
लेखक के बारे में
फॉरेस्ट सन टोरंटो, कनाडा में एडब्ल्यूएस पब्लिक सेक्टर टीम के साथ एक वरिष्ठ समाधान वास्तुकार है। उन्होंने पिछले दो दशकों से स्वास्थ्य सेवा और वित्त उद्योगों में काम किया है। काम के बाहर, वह अपने परिवार के साथ कैंपिंग का आनंद लेते हैं।
अरुणाप्रसथ शंकर AWS के साथ आर्टिफिशियल इंटेलिजेंस एंड मशीन लर्निंग (AI / ML) स्पेशलिस्ट सॉल्यूशन आर्किटेक्ट है, जो वैश्विक ग्राहकों को क्लाउड में प्रभावी ढंग से और कुशलता से अपने AI समाधानों को स्केल करने में मदद करता है। अपने खाली समय में, अरुण को विज्ञान-फाई फिल्में देखने और शास्त्रीय संगीत सुनने का आनंद मिलता है।
- AI
- ai कला
- ऐ कला जनरेटर
- ऐ रोबोट
- अमेज़न SageMaker
- अमेज़न SageMaker डेटा रैंगलर
- कृत्रिम बुद्धिमत्ता
- कृत्रिम बुद्धिमत्ता प्रमाणन
- बैंकिंग में आर्टिफिशियल इंटेलिजेंस
- आर्टिफिशियल इंटेलिजेंस रोबोट
- आर्टिफिशियल इंटेलिजेंस रोबोट
- कृत्रिम बुद्धि सॉफ्टवेयर
- AWS मशीन लर्निंग
- blockchain
- ब्लॉकचेन सम्मेलन एआई
- कॉइनजीनियस
- संवादी कृत्रिम बुद्धिमत्ता
- क्रिप्टो सम्मेलन एआई
- दल-ए
- ध्यान लगा के पढ़ना या सीखना
- इसे गूगल करें
- यंत्र अधिगम
- प्लेटो
- प्लेटो एआई
- प्लेटो डेटा इंटेलिजेंस
- प्लेटो गेम
- प्लेटोडाटा
- प्लेटोगेमिंग
- स्केल एआई
- वाक्यविन्यास
- जेफिरनेट