अमेज़ॅन सेजमेकर डेटा रैंगलर के साथ हेल्थकेयर और लाइफ साइंसेज के लिए बड़े पैमाने पर फीचर इंजीनियरिंग

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

मशीन लर्निंग (एमएल) कई उद्योगों को अभूतपूर्व गति से बाधित कर रहा है। स्वास्थ्य देखभाल और जीवन विज्ञान (एचसीएलएस) उद्योग हाल के वर्षों में तेजी से विकास के दौर से गुजर रहा है, जिसमें गुणवत्ता देखभाल प्रदान करने और रोगी परिणामों में सुधार के लिए उपयोग के मामलों में एमएल को अपनाया गया है।

एक विशिष्ट एमएल जीवनचक्र में, डेटा इंजीनियर और वैज्ञानिक अपना अधिकांश समय डेटा तैयार करने और मॉडल निर्माण और प्रशिक्षण की प्रक्रिया शुरू करने से पहले इंजीनियरिंग चरणों की सुविधा पर खर्च करते हैं। एक ऐसा उपकरण होना जो डेटा तैयार करने के लिए प्रवेश की बाधा को कम कर सके, जिससे उत्पादकता में सुधार हो, इन व्यक्तियों के लिए एक अत्यधिक वांछनीय प्रश्न है। अमेज़न SageMaker डेटा रैंगलर सीखने की अवस्था को कम करने और डेटा प्रैक्टिशनरों को कम प्रयास और समय में डेटा तैयार करने, सफाई करने और इंजीनियरिंग कार्यों को पूरा करने में सक्षम बनाने के लिए AWS द्वारा बनाया गया उद्देश्य है। यह कई अंतर्निहित कार्यों और अन्य एडब्ल्यूएस सेवाओं के साथ एकीकरण के साथ एक जीयूआई इंटरफेस प्रदान करता है जैसे कि अमेज़न सरल भंडारण सेवा (अमेज़न S3) और अमेज़न SageMaker फ़ीचर स्टोर, साथ ही स्नोफ्लेक और डेटाब्रिक्स सहित भागीदार डेटा स्रोत।

इस पोस्ट में, हम प्रदर्शित करते हैं कि रोगी की जनसांख्यिकी, पूर्व चिकित्सा स्थितियों और प्रयोगशाला परीक्षण परिणाम इतिहास को देखते हुए, हृदय की विफलता की भविष्यवाणी करने के लिए एक मॉडल को प्रशिक्षित करने के लिए स्वास्थ्य देखभाल डेटा तैयार करने के लिए डेटा रैंगलर का उपयोग कैसे करें।

समाधान अवलोकन

समाधान में निम्नलिखित चरण होते हैं:

डेटा रैंगलर के इनपुट के रूप में एक हेल्थकेयर डेटासेट प्राप्त करें।
डेटासेट को बदलने के लिए डेटा रैंगलर के बिल्ट-इन ट्रांसफ़ॉर्मेशन फ़ंक्शंस का उपयोग करें। इसमें ड्रॉप कॉलम, डेटा/समय की विशेषता, डेटासेट में शामिल होना, लापता मानों को लागू करना, श्रेणीबद्ध चर को एन्कोड करना, संख्यात्मक मानों को स्केल करना, डेटासेट को संतुलित करना आदि शामिल हैं।
डेटा रैंगलर के कस्टम ट्रांसफ़ॉर्म फ़ंक्शन (पंडस या पायस्पार्क कोड) का उपयोग बिल्ट-इन ट्रांसफ़ॉर्मेशन से परे आवश्यक अतिरिक्त ट्रांसफ़ॉर्मेशन के पूरक के लिए करें और डेटा रैंगलर की एक्स्टेंसिबिलिटी प्रदर्शित करें। इसमें फ़िल्टर पंक्तियाँ, समूह डेटा, शर्तों के आधार पर नए डेटाफ़्रेम बनाना आदि शामिल हैं।
दृश्य विश्लेषण करने के लिए डेटा रैंगलर के अंतर्निहित विज़ुअलाइज़ेशन फ़ंक्शंस का उपयोग करें। इसमें लक्ष्य रिसाव, सुविधा सहसंबंध, त्वरित मॉडल और बहुत कुछ शामिल हैं।
परिवर्तित डेटासेट को Amazon S3 में निर्यात करने के लिए डेटा रैंगलर के अंतर्निर्मित निर्यात विकल्पों का उपयोग करें।
एक मॉडल को प्रशिक्षित करने के लिए इनपुट के रूप में Amazon S3 में रूपांतरित डेटासेट का उपयोग करने के लिए Jupyter नोटबुक लॉन्च करें।

डेटासेट जनरेट करें

अब जब हम एमएल समस्या बयान पर बस गए हैं, तो हम सबसे पहले अपनी जरूरत के डेटा को प्राप्त करने के लिए अपनी जगहें निर्धारित करते हैं। अनुसंधान अध्ययन जैसे दिल की विफलता भविष्यवाणी डेटा प्रदान कर सकता है जो पहले से ही अच्छी स्थिति में है। हालाँकि, हम अक्सर ऐसे परिदृश्यों का सामना करते हैं जहाँ डेटा काफी गड़बड़ होता है और इसमें शामिल होने, सफाई करने और कई अन्य परिवर्तनों की आवश्यकता होती है जो कि एमएल प्रशिक्षण के लिए उपयोग किए जाने से पहले स्वास्थ्य सेवा क्षेत्र के लिए बहुत विशिष्ट हैं। हम डेटा को ढूंढना या उत्पन्न करना चाहते हैं जो काफी गड़बड़ है और आपको डेटा रैंगलर का उपयोग करके इसे तैयार करने के चरणों के बारे में बताता है। इसे ध्यान में रखते हुए, हमने सिंथेटिक डेटा उत्पन्न करने के लिए सिंथिया को एक उपकरण के रूप में चुना जो हमारे लक्ष्य के अनुकूल हो। सिंथिया एक खुला स्रोत सिंथेटिक रोगी जनरेटर है जो सिंथेटिक रोगियों के चिकित्सा इतिहास को मॉडल करता है। अपना डेटासेट जेनरेट करने के लिए, निम्न चरणों को पूरा करें:

के अनुसार निर्देशों का पालन करें जल्दी शुरू एक बनाने के लिए प्रलेखन अमेज़ॅन सैजमेकर स्टूडियो डोमेन और लॉन्च स्टूडियो।
यह एक पूर्वापेक्षा चरण है। यह वैकल्पिक है यदि स्टूडियो पहले से ही आपके खाते में स्थापित है।
स्टूडियो लॉन्च होने के बाद, पर लांचर टैब चुनें सिस्टम टर्मिनल.
यह एक टर्मिनल सत्र शुरू करता है जो आपको काम करने के लिए एक कमांड लाइन इंटरफ़ेस देता है।
Synthea को स्थापित करने और CSV प्रारूप में डेटासेट बनाने के लिए, लॉन्च किए गए टर्मिनल सत्र में निम्नलिखित कमांड चलाएँ:
```
$ sudo yum install -y java-1.8.0-openjdk-devel
$ export JAVA_HOME=/usr/lib/jvm/jre-1.8.0-openjdk.x86_64
$ export PATH=$JAVA_HOME/bin:$PATH
$ git clone https://github.com/synthetichealth/synthea
$ git checkout v3.0.0
$ cd synthea
$ ./run_synthea --exporter.csv.export=true -p 10000
```

हम 10,000 की आबादी के आकार के साथ डेटासेट उत्पन्न करने के लिए एक पैरामीटर की आपूर्ति करते हैं। नोट आकार पैरामीटर जनसंख्या के जीवित सदस्यों की संख्या को दर्शाता है। इसके अतिरिक्त, Synthea जनसंख्या के मृत सदस्यों के लिए भी डेटा उत्पन्न करता है जो निर्दिष्ट नमूना आकार के शीर्ष पर कुछ अतिरिक्त डेटा बिंदु जोड़ सकता है।

डेटा जनरेशन पूरा होने तक प्रतीक्षा करें। इस कदम में आमतौर पर लगभग एक घंटे या उससे कम समय लगता है। Synthea कई डेटासेट उत्पन्न करता है, जिसमें शामिल हैं patients, medications, allergies, conditions, और अधिक। इस पोस्ट के लिए, हम तीन परिणामी डेटासेट का उपयोग करते हैं:

रोगी.सीएसवी - यह डेटासेट लगभग 3.2 एमबी का है और इसमें रोगी डेटा की लगभग 11,000 पंक्तियाँ हैं (रोगी आईडी, जन्मतिथि, लिंग, पता, और अधिक सहित 25 कॉलम)
शर्तें.सीएसवी - यह डेटासेट लगभग 47 एमबी का है और इसमें मेडिकल कंडीशन डेटा की लगभग 370,000 पंक्तियाँ हैं (रोगी आईडी, स्थिति शुरू होने की तारीख, स्थिति कोड, और अधिक सहित छह कॉलम)
प्रेक्षण.csv - यह डेटासेट लगभग 830 एमबी का है और इसमें अवलोकन डेटा की लगभग 5 मिलियन पंक्तियाँ हैं (रोगी आईडी, अवलोकन तिथि, अवलोकन कोड, मूल्य, और अधिक सहित आठ कॉलम)

के बीच एक-से-अनेक संबंध है patients और conditions डेटासेट के बीच एक-से-अनेक संबंध भी है patients और observations डेटासेट विस्तृत डेटा शब्दकोश के लिए, देखें सीएसवी फ़ाइल डेटा शब्दकोश.

Amazon S3 में जनरेट किए गए डेटासेट को स्रोत बकेट में अपलोड करने के लिए, टर्मिनल सत्र में निम्नलिखित कमांड चलाएँ:
```
$ cd ./output/csv
$ aws s3 sync . s3://<source bucket name>/
```

डेटा रैंगलर लॉन्च करें

चुनें SageMaker संसाधन स्टूडियो में नेविगेशन पेज में और पर परियोजनाओं मेनू, चुनें डेटा रैंगलर डेटा रैंगलर डेटा प्रवाह बनाने के लिए। स्टूडियो के भीतर से डेटा रैंगलर को लॉन्च करने के विस्तृत चरणों के लिए, देखें डेटा रैंगलर के साथ शुरुआत करें.

आयात आंकड़ा

अपना डेटा आयात करने के लिए, निम्न चरणों को पूरा करें:

चुनें अमेज़न S3 और S3 बकेट में patients.csv फ़ाइल का पता लगाएँ।
में विवरण फलक, चुनें पहले के एसटी सैम्पलिंग.
दर्ज 1100 एसटी नमूने का आकार.
पूर्वावलोकन फलक में, डेटा रैंगलर डेटासेट से पहली 100 पंक्तियों को खींचता है और उन्हें पूर्वावलोकन के रूप में सूचीबद्ध करता है।
चुनें आयात.
डेटा रैंगलर Synthea द्वारा उत्पन्न कुल रोगियों (1,100 पंक्तियों) में से पहले 11,000 रोगियों का चयन करता है और डेटा आयात करता है। नमूनाकरण दृष्टिकोण डेटा रैंगलर को केवल नमूना डेटा को संसाधित करने देता है। यह हमें अपने डेटा प्रवाह को एक छोटे डेटासेट के साथ विकसित करने में सक्षम बनाता है, जिसके परिणामस्वरूप त्वरित प्रसंस्करण और एक छोटा फीडबैक लूप होता है। डेटा प्रवाह बनाने के बाद, हम विकसित नुस्खा को a . में जमा कर सकते हैं सेजमेकर प्रोसेसिंग वितरित फ़ैशन में पूर्ण या बड़े डेटासेट के लिए प्रसंस्करण को क्षैतिज रूप से स्केल करने का कार्य।
के लिए इस प्रक्रिया को दोहराएं conditions और observations डेटासेट
1. के लिए conditions डेटासेट, दर्ज करें 37000 एसटी नमूने का आकार, जो Synthea द्वारा उत्पन्न कुल 1 पंक्तियों में से 10/370,000 है।
2. के लिए observations डेटासेट, दर्ज करें 500000 एसटी नमूने का आकार, जो कि Synthea द्वारा उत्पन्न 1 मिलियन पंक्तियों की कुल टिप्पणियों का 10/5 है।

आपको निम्न स्क्रीनशॉट में दिखाए गए अनुसार तीन डेटासेट देखना चाहिए।

डेटा ट्रांसफ़ॉर्म करें

डेटा परिवर्तन डेटासेट में एक या अधिक स्तंभों की संरचना, मान या प्रारूप को बदलने की प्रक्रिया है। प्रक्रिया आमतौर पर एक डेटा इंजीनियर द्वारा विकसित की जाती है और परिवर्तन के लिए प्रस्तावित तर्क को समझने के लिए एक छोटे डेटा इंजीनियरिंग कौशल वाले लोगों के लिए चुनौतीपूर्ण हो सकता है। डेटा परिवर्तन व्यापक फीचर इंजीनियरिंग प्रक्रिया का हिस्सा है, और इस तरह के व्यंजनों को तैयार करते समय चरणों का सही क्रम एक और महत्वपूर्ण मानदंड है।

डेटा रैंगलर को प्रभावी डेटा तैयार करने के लिए प्रवेश की बाधा को कम करने के लिए कम-कोड उपकरण के रूप में डिज़ाइन किया गया है। यह आपके लिए कोड की एक भी पंक्ति लिखे बिना चुनने के लिए 300 से अधिक पूर्व-कॉन्फ़िगर किए गए डेटा ट्रांसफ़ॉर्मेशन के साथ आता है। निम्नलिखित अनुभागों में, हम देखते हैं कि डेटा रैंगलर में आयातित डेटासेट को कैसे रूपांतरित किया जाए।

मरीज़ों में कॉलम छोड़ें।csv

हम सबसे पहले से कुछ कॉलम छोड़ते हैं patients डाटासेट। निरर्थक कॉलम छोड़ने से डेटासेट से गैर-प्रासंगिक जानकारी निकल जाती है और हमें डेटासेट को संसाधित करने और एक मॉडल को प्रशिक्षित करने के लिए आवश्यक कंप्यूटिंग संसाधनों की मात्रा को कम करने में मदद मिलती है। इस खंड में, हम सामान्य ज्ञान के आधार पर एसएसएन या पासपोर्ट नंबर जैसे कॉलम छोड़ते हैं कि इन कॉलमों का कोई अनुमानित मूल्य नहीं है। दूसरे शब्दों में, वे हमारे मॉडल को दिल की विफलता की भविष्यवाणी करने में मदद नहीं करते हैं। हमारा अध्ययन अन्य कॉलम जैसे जन्मस्थान या स्वास्थ्य देखभाल खर्च के रोगी के दिल की विफलता पर प्रभाव के बारे में भी चिंतित नहीं है, इसलिए हम उन्हें भी छोड़ देते हैं। डेटा रैंगलर में निर्मित लक्ष्य रिसाव, फीचर सहसंबंध, बहुसंकेतन, और अधिक जैसे अंतर्निहित विश्लेषणों को चलाकर अनावश्यक स्तंभों की पहचान की जा सकती है। समर्थित विश्लेषण प्रकारों के बारे में अधिक जानकारी के लिए, देखें विश्लेषण और विज़ुअलाइज़ करें. इसके अतिरिक्त, आप का उपयोग कर सकते हैं डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट समाप्त करने के लिए निरर्थक स्तंभों की सूची पर पहुंचने के लिए डेटासेट पर स्वचालित विश्लेषण करने के लिए।

के आगे धन चिह्न चुनें जानकारी का प्रकार मरीज़ों के लिए.csv डेटासेट और चुनें परिवर्तन जोड़ें.
चुनें चरण जोड़ें और चुनें कॉलम प्रबंधित करें.
के लिए बदालनाचुनें स्तंभ छोड़ें.
के लिए छोड़ने के लिए कॉलम, निम्नलिखित कॉलम चुनें:
1. SSN
2. DRIVERS
3. PASSPORT
4. PREFIX
5. FIRST
6. LAST
7. SUFFIX
8. MAIDEN
9. RACE
10. ETHNICITY
11. BIRTHPLACE
12. ADDRESS
13. CITY
14. STATE
15. COUNTY
16. ZIP
17. LAT
18. LON
19. HEALTHCARE_EXPENSES
20. HEALTHCARE_COVERAGE
चुनें पूर्वावलोकन रूपांतरित डेटासेट की समीक्षा करने के लिए, फिर चुनें .

आपको चरण देखना चाहिए स्तंभ छोड़ें आपके परिवर्तनों की सूची में।

रोगियों में दिनांक/समय को चित्रित करें। csv

अब हम नई सुविधा उत्पन्न करने के लिए विशेषता दिनांक/समय फ़ंक्शन का उपयोग करते हैं Year से BIRTHDATE कॉलम में patients डाटासेट। हम अवलोकन के समय रोगी की आयु की गणना करने के लिए अगले चरण में नई सुविधा का उपयोग करते हैं।

में रूपांतरण आप का फलक स्तंभ छोड़ें के लिए पेज patients डेटासेट, चुनें चरण जोड़ें.
चुनना दिनांक/समय प्रदर्शित करें बदलना।
चुनें कॉलम निकालें.
के लिए इनपुट कॉलम, कॉलम जोड़ें BIRTHDATE.
चुनते हैं साल और रद्द करें महीना, दिन, घंटा, मिनट, दूसरा।
चुनें पूर्वावलोकन, उसके बाद चुनो .

प्रेक्षणों में परिवर्तन जोड़ें।csv

डेटा रैंगलर पायथन (उपयोगकर्ता द्वारा परिभाषित कार्यों), पायस्पार्क, पंडों, या पायस्पार्क (एसक्यूएल) का उपयोग करके कस्टम ट्रांसफॉर्म का समर्थन करता है। आप प्रत्येक विकल्प और वरीयता के साथ अपनी परिचितता के आधार पर अपना रूपांतरण प्रकार चुन सकते हैं। बाद के तीन विकल्पों के लिए, डेटा रैंगलर चर को उजागर करता है df आपके लिए डेटाफ़्रेम तक पहुँचने और उस पर परिवर्तन लागू करने के लिए। विस्तृत व्याख्या और उदाहरणों के लिए, देखें कस्टम रूपांतरण. इस खंड में, हम तीन कस्टम रूपांतरण जोड़ते हैं observations डाटासेट।

प्रेक्षणों में परिवर्तन जोड़ें। सीएसवी और ड्रॉप करें DESCRIPTION स्तंभ.
चुनें पूर्वावलोकन, उसके बाद चुनो .
में रूपांतरण फलक, चुनें चरण जोड़ें और चुनें कस्टम परिवर्तन.
ड्रॉप-डाउन मेनू पर, चुनें अजगर (पंडों).
निम्नलिखित कोड दर्ज करें:
```
df = df[df["CODE"].isin(['8867-4','8480-6','8462-4','39156-5','777-3'])]
```
ये LONIC कोड हैं जो निम्नलिखित टिप्पणियों के अनुरूप हैं जिन्हें हम दिल की विफलता की भविष्यवाणी के लिए सुविधाओं के रूप में उपयोग करने में रुचि रखते हैं:
```
heart rate: 8867-4
systolic blood pressure: 8480-6
diastolic blood pressure: 8462-4
body mass index (BMI): 39156-5
platelets [#/volume] in Blood: 777-3
```
चुनें पूर्वावलोकन, उसके बाद चुनो .
निकालने के लिए एक परिवर्तन जोड़ें Year और Quarter से DATE स्तंभ.
चुनें पूर्वावलोकन, उसके बाद चुनो .
चुनें चरण जोड़ें और चुनें कस्टम परिवर्तन.
ड्रॉप-डाउन मेनू पर, चुनें पायथन (पायस्पार्क).

पांच प्रकार के प्रेक्षणों को हमेशा एक ही तिथि पर दर्ज नहीं किया जा सकता है। उदाहरण के लिए, एक मरीज 21 जनवरी को अपने फैमिली डॉक्टर के पास जा सकता है और उनका सिस्टोलिक ब्लड प्रेशर, डायस्टोलिक ब्लड प्रेशर, हार्ट रेट और बॉडी मास इंडेक्स को मापा और रिकॉर्ड किया जा सकता है। हालांकि, एक प्रयोगशाला परीक्षण जिसमें प्लेटलेट्स शामिल हैं, 2 फरवरी को बाद की तारीख में किया जा सकता है। इसलिए, अवलोकन तिथि तक डेटाफ्रेम में शामिल होना हमेशा संभव नहीं होता है। यहां हम तिमाही आधार पर मोटे ग्रैन्युलैरिटी पर डेटाफ्रेम में शामिल होते हैं।

निम्नलिखित कोड दर्ज करें:

from pyspark.sql.functions import col

systolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed("value", "systolic")
                   .filter((col("code") == "8480-6"))
  )

diastolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'diastolic')
                   .filter((col("code") == "8462-4"))
    )

hr_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'hr')
                   .filter((col("code") == "8867-4"))
    )

bmi_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'bmi')
                   .filter((col("code") == "39156-5"))
    )

platelets_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'platelets')
                   .filter((col("code") == "777-3"))
    )

df = (
    systolic_df.join(diastolic_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(hr_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(bmi_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(platelets_df, ["patient", "DATE_year", "DATE_quarter"])
)

चुनें पूर्वावलोकन, उसके बाद चुनो .
चुनें चरण जोड़ें, उसके बाद चुनो पंक्तियों को प्रबंधित करें.
के लिए बदालना, चुनें डुप्लिकेट छोड़ें.
चुनें पूर्वावलोकन, उसके बाद चुनो .
चुनें चरण जोड़ें और चुनें कस्टम परिवर्तन.
ड्रॉप-डाउन मेनू पर, चुनें अजगर (पंडों).
समान समय मान साझा करने वाले औसत डेटा बिंदुओं को लेने के लिए निम्न कोड दर्ज करें:
```
import pandas as pd
df.loc[:, df.columns != 'patient']=df.loc[:, df.columns != 'patient'].apply(pd.to_numeric)
df = df.groupby(['patient','DATE_year','DATE_quarter']).mean().round(0).reset_index()
```
चुनें पूर्वावलोकन, उसके बाद चुनो .

मरीजों से जुड़ें। सीएसवी और अवलोकन। सीएसवी

इस चरण में, हम डेटा रैंगलर के शक्तिशाली UI के माध्यम से कोई कोड लिखे बिना डेटासेट पर प्रभावी ढंग से और आसानी से जटिल जुड़ाव प्रदर्शित करने का तरीका दिखाते हैं। समर्थित प्रकार के जॉइन के बारे में अधिक जानने के लिए, देखें डेटा ट्रांसफ़ॉर्म करें.

के अधिकार के लिए रूपांतरण: रोगी.सीएसवी, के आगे धन चिह्न चुनें कदम और चुनें जुडें.
आप नीचे दी गई सूची में बदली हुई रोगी.सीएसवी फ़ाइल देख सकते हैं डेटासेट बाएं फलक में
के अधिकार के लिए रूपांतरण: प्रेक्षण.csv, पर क्लिक करें कदम जॉइन ऑपरेशन शुरू करने के लिए।
रूपांतरित टिप्पणियों.सीएसवी फ़ाइल को अब नीचे सूचीबद्ध किया गया है डेटासेट बाएं फलक में
चुनें कॉन्फ़िगर.
के लिए जॉइन टाइप, चुनें आंतरिक.
के लिए वाम, चुनें Id.
के लिए सही, चुनें रोगी.
चुनें पूर्वावलोकन, उसके बाद चुनो .

जुड़े हुए डेटासेट में एक कस्टम ट्रांसफ़ॉर्म जोड़ें

इस चरण में, हम अवलोकन के समय रोगी की आयु की गणना करते हैं। हम उन स्तंभों को भी छोड़ देते हैं जिनकी अब आवश्यकता नहीं है।

के आगे धन चिह्न चुनें पहला शामिल हों और चुनें परिवर्तन जोड़ें.

पंडों में एक कस्टम परिवर्तन जोड़ें:

df['age'] = df['DATE_year'] - df['BIRTHDATE_year']
df = df.drop(columns=['BIRTHDATE','DEATHDATE','BIRTHDATE_year','patient'])

चुनें पूर्वावलोकन, उसके बाद चुनो .

शर्तों में कस्टम रूपांतरण जोड़ें। csv

के आगे धन चिह्न चुनें रूपांतरण: शर्तें। सीएसवी और चुनें परिवर्तन जोड़ें.

पंडों में एक कस्टम परिवर्तन जोड़ें:

df = df[df["CODE"].isin(['84114007', '88805009', '59621000', '44054006', '53741008', '449868002', '49436004'])]
df = df.drop(columns=['DESCRIPTION','ENCOUNTER','STOP'])

नोट: जैसा कि हमने पहले दिखाया था, आप कस्टम कोड का उपयोग करके या डेटा रैंगलर द्वारा प्रदान किए गए बिल्ट-इन ट्रांसफ़ॉर्मेशन का उपयोग करके कॉलम ड्रॉप कर सकते हैं। डेटा रैंगलर के भीतर कस्टम परिवर्तन समर्थित ढांचे में कोड स्निपेट के रूप में अपने स्वयं के परिवर्तन तर्क लाने के लिए लचीलापन प्रदान करता है। इन स्निपेट्स को बाद में खोजा जा सकता है और यदि आवश्यक हो तो लागू किया जा सकता है।

पिछले रूपांतरण में कोड SNOMED-CT कोड हैं जो निम्न स्थितियों के अनुरूप हैं। heart failure or chronic congestive heart failure स्थिति लेबल बन जाती है। हम दिल की विफलता की भविष्यवाणी के लिए शेष स्थितियों का उपयोग सुविधाओं के रूप में करते हैं। हम कुछ कॉलम भी छोड़ते हैं जिनकी अब आवश्यकता नहीं है।

Heart failure: 84114007
Chronic congestive heart failure: 88805009
Hypertension: 59621000
Diabetes: 44054006
Coronary Heart Disease: 53741008
Smokes tobacco daily: 449868002
Atrial Fibrillation: 49436004

इसके बाद, आइए PySpark में एक कस्टम ट्रांसफ़ॉर्म जोड़ें:

from pyspark.sql.functions import col, when

heartfailure_df = (
    df.select("patient", "start")
                      .withColumnRenamed("start", "heartfailure")
                   .filter((col("code") == "84114007") | (col("code") == "88805009"))
  )

hypertension_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "hypertension")
                   .filter((col("code") == "59621000"))
  )

diabetes_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "diabetes")
                   .filter((col("code") == "44054006"))
  )

coronary_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "coronary")
                   .filter((col("code") == "53741008"))
  )

smoke_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "smoke")
                   .filter((col("code") == "449868002"))
  )

atrial_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "atrial")
                   .filter((col("code") == "49436004"))
  )

df = (
    heartfailure_df.join(hypertension_df, ["patient"], "leftouter").withColumn("has_hypertension", when(col("hypertension") < col("heartfailure"), 1).otherwise(0))
    .join(diabetes_df, ["patient"], "leftouter").withColumn("has_diabetes", when(col("diabetes") < col("heartfailure"), 1).otherwise(0))
    .join(coronary_df, ["patient"], "leftouter").withColumn("has_coronary", when(col("coronary") < col("heartfailure"), 1).otherwise(0))
    .join(smoke_df, ["patient"], "leftouter").withColumn("has_smoke", when(col("smoke") < col("heartfailure"), 1).otherwise(0))
    .join(atrial_df, ["patient"], "leftouter").withColumn("has_atrial", when(col("atrial") < col("heartfailure"), 1).otherwise(0))
)

हम दिल की विफलता डेटाफ़्रेम में सभी प्रविष्टियों को रखने के लिए एक बाएँ बाहरी जुड़ाव करते हैं। एक नया कॉलम has_xxx हृदय गति रुकने के अलावा अन्य प्रत्येक स्थिति के लिए गणना की जाती है जो स्थिति की प्रारंभ तिथि के आधार पर होती है। हम केवल उन चिकित्सा स्थितियों में रुचि रखते हैं जो हृदय की विफलता से पहले दर्ज की गई थीं और उन्हें हृदय की विफलता की भविष्यवाणी के लिए सुविधाओं के रूप में उपयोग करते हैं।

एक अंतर्निहित जोड़ें कॉलम प्रबंधित करें उन अनावश्यक स्तंभों को छोड़ने के लिए रूपांतरित करें जिनकी अब आवश्यकता नहीं है:
1. hypertension
2. diabetes
3. coronary
4. smoke
5. atrial
उद्धरण Year और Quarter से heartfailure स्तंभ.
यह उस ग्रैन्युलैरिटी से मेल खाता है जिसका उपयोग हमने पहले के परिवर्तन में किया था observations डाटासेट।
हमारे पास condition.csv के लिए कुल 6 चरण होने चाहिए।

शामिल हुए डेटासेट में शर्तों.सीएसवी से जुड़ें

अब हम शर्तों के डेटासेट में शामिल होने के लिए एक नया जुड़ाव करते हैं patients और observations डाटासेट।

चुनें ट्रांसफॉर्म: पहला जॉइन.
धन चिह्न चुनें और चुनें जुडें.
चुनें कदम के पास रूपांतरण: शर्तें। सीएसवी.
चुनें कॉन्फ़िगर.
के लिए जॉइन टाइप, चुनें बायां बाहरी.
के लिए वाम, चुनें Id.
के लिए सही, चुनें रोगी.
चुनें पूर्वावलोकन, उसके बाद चुनो .

सम्मिलित डेटासेट में परिवर्तन जोड़ें

अब जबकि हमारे पास सभी तीन डेटासेट शामिल हो गए हैं, आइए कुछ अतिरिक्त परिवर्तन लागू करें।

PySpark में निम्नलिखित कस्टम परिवर्तन जोड़ें ताकि has_heartfailure हमारा लेबल कॉलम बन जाता है:
```
from pyspark.sql.functions import col, when
df = (
    df.withColumn("has_heartfailure", when(col("heartfailure").isNotNull(), 1).otherwise(0))
)
```
PySpark में निम्नलिखित कस्टम परिवर्तन जोड़ें:
```
from pyspark.sql.functions import col

df = (
    df.filter(
      (col("has_heartfailure") == 0) | 
      ((col("has_heartfailure") == 1) & ((col("date_year") <= col("heartfailure_year")) | ((col("date_year") == col("heartfailure_year")) & (col("date_quarter") <= col("heartfailure_quarter")))))
    )
)
```
हम केवल दिल की विफलता की स्थिति का निदान होने से पहले रिकॉर्ड किए गए अवलोकनों में रुचि रखते हैं और उन्हें दिल की विफलता की भविष्यवाणी के लिए सुविधाओं के रूप में उपयोग करते हैं। दिल की विफलता का निदान होने के बाद ली गई टिप्पणियां रोगी द्वारा ली जाने वाली दवा से प्रभावित हो सकती हैं, इसलिए हम उन टिप्पणियों को बाहर करना चाहते हैं।
अनावश्यक कॉलम छोड़ें जिनकी अब आवश्यकता नहीं है:
1. Id
2. DATE_year
3. DATE_quarter
4. patient
5. heartfailure
6. heartfailure_year
7. heartfailure_quarter
पर विश्लेषण टैब, के लिए विश्लेषण प्रकारचुनें तालिका सारांश.
सारांश के माध्यम से एक त्वरित स्कैन से पता चलता है कि MARITAL कॉलम में डेटा गुम है।
चुनना जानकारी टैब और एक कदम जोड़ें।
चुनें हैंडल मिसिंग.
के लिए बदालना, चुनें लापता भरें.
के लिए इनपुट कॉलम, चुनें वैवाहिक.
के लिए मान भरें, दर्ज S.
यहां हमारी रणनीति यह मान लेना है कि यदि वैवाहिक स्थिति का मूल्य नहीं है तो रोगी अविवाहित है। आपके पास एक अलग रणनीति हो सकती है।
चुनें पूर्वावलोकन, उसके बाद चुनो .
लुप्त मान को 0 के रूप में भरें has_hypertension, has_diabetes, has_coronary, has_smoke, has_atrial.

Marital और Gender श्रेणीगत चर हैं। डेटा रैंगलर में श्रेणीबद्ध चर को एन्कोड करने के लिए एक अंतर्निहित कार्य है।

एक चरण जोड़ें और चुनें एनकोड श्रेणीबद्ध.
के लिए बदालना, चुनें एक गर्म सांकेतिक शब्दों में बदलना.
के लिए इनपुट कॉलम, चुनें वैवाहिक.
के लिए आउटपुट शैली, चुनें स्तंभ.
यह आउटपुट शैली अलग-अलग कॉलम में एन्कोडेड मान उत्पन्न करती है।
चुनें पूर्वावलोकन, उसके बाद चुनो .
के लिए इन चरणों को दोहराएँ लिंग स्तंभ.

वन-हॉट एन्कोडिंग वैवाहिक कॉलम को विभाजित करती है Marital_M (विवाहित) और Marital_S (एकल), और लिंग कॉलम को . में विभाजित करता है Gender_M (पुरुष) और Gender_F (महिला)। इसलिये Marital_M और Marital_S परस्पर अनन्य हैं (जैसे हैं Gender_M और Gender_F), हम अनावश्यक सुविधाओं से बचने के लिए एक कॉलम छोड़ सकते हैं।

बूंद Marital_S और Gender_F.

सिस्टोलिक, हृदय गति और आयु जैसी संख्यात्मक विशेषताओं में अलग-अलग इकाई मानक होते हैं। एक रेखीय प्रतिगमन-आधारित मॉडल के लिए, हमें पहले इन संख्यात्मक विशेषताओं को सामान्य करना होगा। अन्यथा, उच्च निरपेक्ष मूल्यों वाली कुछ विशेषताओं का कम निरपेक्ष मूल्यों वाली अन्य विशेषताओं पर अनुचित लाभ हो सकता है और परिणामस्वरूप खराब मॉडल प्रदर्शन हो सकता है। डेटा रैंगलर में डेटा को सामान्य करने के लिए बिल्ट-इन ट्रांसफ़ॉर्म मिन-मैक्स स्केलर है। निर्णय वृक्ष-आधारित वर्गीकरण मॉडल के लिए, सामान्यीकरण की आवश्यकता नहीं है। हमारा अध्ययन एक वर्गीकरण समस्या है इसलिए हमें सामान्यीकरण लागू करने की आवश्यकता नहीं है। असंतुलित वर्ग वर्गीकरण में एक आम समस्या है। असंतुलन तब होता है जब प्रशिक्षण डेटासेट में गंभीर रूप से विषम वर्ग वितरण होता है। उदाहरण के लिए, जब हमारे डेटासेट में हृदय गति रुकने वाले रोगियों की तुलना में बिना अनुपात के अधिक रोगी होते हैं, तो यह मॉडल को दिल की विफलता की भविष्यवाणी करने और खराब प्रदर्शन करने की ओर पक्षपाती हो सकता है। डेटा रैंगलर में समस्या से निपटने के लिए एक अंतर्निहित कार्य है।

डेटा प्रकार के कॉलम को "ऑब्जेक्ट" प्रकार से संख्यात्मक प्रकार में बदलने के लिए पंडों में एक कस्टम ट्रांसफ़ॉर्म जोड़ें:
```
import pandas as pd
df=df.apply(pd.to_numeric)
```
चुनना विश्लेषण टैब.
के लिए विश्लेषण प्रकारचुनें हिस्टोग्राम.
के लिए एक्स अक्ष, चुनें दिल की विफलता है.
चुनें पूर्वावलोकन.

यह स्पष्ट है कि हमारे पास एक असंतुलित वर्ग है (हृदय विफलता के रूप में लेबल किए गए डेटा बिंदुओं की तुलना में अधिक डेटा बिंदुओं को दिल की विफलता के रूप में लेबल नहीं किया गया है)।
करने के लिए वापस जाओ जानकारी टैब। चुनना चरण जोड़ें और चुनें बैलेंस डेटा.
के लिए लक्ष्य स्तंभ, चुनें दिल की विफलता है.
के लिए वांछित अनुपात, दर्ज 1.
के लिए बदालना, चुनें ऐसा मारा.

SMOTE का मतलब सिंथेटिक माइनॉरिटी ओवर-सैंपलिंग तकनीक है। यह नए अल्पसंख्यक उदाहरण बनाने और वर्ग संतुलन तक पहुंचने के लिए डेटासेट में जोड़ने की एक तकनीक है। विस्तृत जानकारी के लिए देखें SMOTE: सिंथेटिक माइनॉरिटी ओवर-सैंपलिंग तकनीक.
चुनें पूर्वावलोकन, उसके बाद चुनो .
चरण 20-23 में हिस्टोग्राम विश्लेषण दोहराएं। परिणाम एक संतुलित वर्ग है।

लक्ष्य रिसाव और सुविधा सहसंबंध की कल्पना करें

इसके बाद, हम डेटा रैंगलर के उन्नत एमएल-समर्थित विश्लेषण प्रकारों के समृद्ध टूलसेट का उपयोग करके कुछ दृश्य विश्लेषण करने जा रहे हैं। सबसे पहले, हम लक्ष्य रिसाव को देखते हैं। लक्ष्य रिसाव तब होता है जब प्रशिक्षण डेटासेट में डेटा लक्ष्य लेबल के साथ दृढ़ता से सहसंबद्ध होता है, लेकिन अनुमान के समय वास्तविक दुनिया के डेटा में उपलब्ध नहीं होता है।

पर विश्लेषण टैबके लिए, विश्लेषण प्रकारचुनें लक्ष्य रिसाव.
के लिए समस्या का प्रकार, चुनें वर्गीकरण.
के लिए लक्ष्य, चुनें दिल की विफलता है.
चुनें पूर्वावलोकन.

विश्लेषण के आधार पर, hr एक लक्ष्य रिसाव है। हम इसे अगले चरण में छोड़ देंगे। age एक लक्ष्य रिसाव चिह्नित किया गया है। यह कहना उचित है कि अनुमान के समय रोगी की आयु उपलब्ध होगी, इसलिए हम आयु को एक विशेषता के रूप में रखते हैं। Systolic और diastolic संभावित लक्ष्य रिसाव के रूप में भी चिह्नित किया गया है। हम अनुमान के समय के दौरान दो मापों की अपेक्षा करते हैं, इसलिए हम उन्हें सुविधाओं के रूप में रखते हैं।
चुनें विश्लेषण जोड़ने के लिए।

फिर, हम फीचर सहसंबंध को देखते हैं। हम उन विशेषताओं का चयन करना चाहते हैं जो लक्ष्य से संबंधित हैं लेकिन आपस में असंबंधित हैं।

पर विश्लेषण टैबके लिए, विश्लेषण प्रकारचुनें फ़ीचर सहसंबंध.
के लिए Correlation Typeचुनें रैखिक.
चुनें पूर्वावलोकन.

गुणांक अंक निम्नलिखित युग्मों के बीच मजबूत सहसम्बन्ध दर्शाते हैं:

systolic और diastolic
bmi और age
has_hypertension और has_heartfailure (लेबल)

उन विशेषताओं के लिए जो दृढ़ता से सहसंबद्ध हैं, मैट्रिसेस को उल्टा करना कम्प्यूटेशनल रूप से कठिन है, जिससे संख्यात्मक रूप से अस्थिर अनुमान हो सकते हैं। सहसंबंध को कम करने के लिए, हम केवल जोड़ी से एक को हटा सकते हैं। हम गिराते हैं diastolic और bmi और रखना systolic और age बाद के चरण में।

डायस्टोलिक और बीएमआई कॉलम ड्रॉप करें

ड्रॉप करने के लिए अतिरिक्त रूपांतरण चरण जोड़ें hr, diastolic और bmi बिल्ट-इन ट्रांसफॉर्म का उपयोग करके कॉलम।

डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट तैयार करें

एडब्ल्यूएस हाल ही में की घोषणा डेटा रैंगलर में नई डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट सुविधा। यह रिपोर्ट स्वचालित रूप से डेटा गुणवत्ता की पुष्टि करती है और आपके डेटा में असामान्यताओं का पता लगाती है। डेटा वैज्ञानिक और डेटा इंजीनियर एमएल मॉडल प्रशिक्षण के लिए डेटासेट को संसाधित करने के लिए डोमेन ज्ञान को कुशलतापूर्वक और जल्दी से लागू करने के लिए इस उपकरण का उपयोग कर सकते हैं। यह चरण वैकल्पिक है। इस रिपोर्ट को हमारे डेटासेट पर जनरेट करने के लिए, निम्नलिखित चरणों को पूरा करें:

पर विश्लेषण टैब, के लिए विश्लेषण प्रकार, चुनें डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट.
के लिए लक्ष्य स्तंभ, चुनें दिल की विफलता है.
के लिए समस्या प्रकार, चुनते हैं वर्गीकरण.
चुनें बनाएं.

कुछ ही मिनटों में, यह एक सारांश, दृश्य और अनुशंसाओं के साथ एक रिपोर्ट तैयार करता है।

एक त्वरित मॉडल विश्लेषण उत्पन्न करें

हमने अपनी डेटा तैयारी, सफाई और फीचर इंजीनियरिंग पूरी कर ली है। डेटा रैंगलर में एक अंतर्निहित फ़ंक्शन है जो हमारे डेटासेट में अपेक्षित अनुमानित गुणवत्ता और सुविधाओं की भविष्य कहनेवाला शक्ति का एक मोटा अनुमान प्रदान करता है।

पर विश्लेषण टैब, के लिए विश्लेषण प्रकारचुनें त्वरित मॉडल.
के लिए लेबल, चुनें दिल की विफलता है.
चुनें पूर्वावलोकन.

हमारे त्वरित मॉडल विश्लेषण के अनुसार, हम सुविधा देख सकते हैं has_hypertension सभी सुविधाओं के बीच उच्चतम विशेषता महत्व स्कोर है।

डेटा निर्यात करें और मॉडल को प्रशिक्षित करें

अब रूपांतरित एमएल-तैयार सुविधाओं को गंतव्य S3 बकेट में निर्यात करते हैं और एक वितरित फैशन में पूरे डेटासेट में नमूनों का उपयोग करके अब तक बनाई गई संपूर्ण फीचर इंजीनियरिंग पाइपलाइन को स्केल करते हैं।

डेटा प्रवाह में अंतिम बॉक्स के आगे धन चिह्न चुनें और चुनें गंतव्य जोड़ें.
चुनें अमेज़न S3.
एक प्रवेश दातासेट नाम. के लिए अमेज़न S3 स्थान, एक S3 बकेट चुनें, फिर चुनें गंतव्य जोड़ें.
चुनें नौकरी पैदा करो एक वितरित PySpark प्रसंस्करण कार्य शुरू करने के लिए परिवर्तन और डेटा को गंतव्य S3 बाल्टी में आउटपुट करने के लिए।

डेटासेट के आकार के आधार पर, यह विकल्प हमें आसानी से क्लस्टर और क्षैतिज पैमाने को नो-कोड फैशन में कॉन्फ़िगर करने देता है। हमें डेटासेट के विभाजन या क्लस्टर और स्पार्क इंटर्नल के प्रबंधन के बारे में चिंता करने की ज़रूरत नहीं है। यह सब डेटा रैंगलर द्वारा स्वचालित रूप से हमारे लिए ध्यान रखा जाता है।
बाएँ फलक पर, चुनें अगला, 2. कार्य कॉन्फ़िगर करें।
उसके बाद चुनो रन.

वैकल्पिक रूप से, हम परिवर्तित आउटपुट को ज्यूपिटर नोटबुक के माध्यम से S3 में निर्यात भी कर सकते हैं। इस दृष्टिकोण के साथ, डेटा रैंगलर स्वचालित रूप से बड़े पूर्ण डेटासेट पर डेटा प्रवाह चरणों (एक नमूने का उपयोग करके बनाया गया) को लागू करने के लिए प्रसंस्करण कार्य को किक-ऑफ करने के लिए आवश्यक सभी कोड के साथ एक ज्यूपिटर नोटबुक बनाता है और रूपांतरित डेटासेट को सुविधाओं के रूप में उपयोग करता है- बाद में एक प्रशिक्षण नौकरी से बाहर। नोटबुक कोड को परिवर्तन के साथ या उसके बिना आसानी से चलाया जा सकता है। आइए अब डेटा रैंगलर के UI के माध्यम से इसे पूरा करने के चरणों के माध्यम से चलते हैं।

डेटा प्रवाह में अंतिम चरण के आगे धन चिह्न चुनें और चुनें को निर्यात.
चुनें अमेज़न S3 (जुपिटर नोटबुक के माध्यम से).
यह ज्यूपिटर नोटबुक के साथ स्वचालित रूप से एक नया टैब खोलता है।
जुपिटर नोटबुक में, में सेल का पता लगाएं (वैकल्पिक) अगले चरण खंड और परिवर्तन run_optional_steps से False सेवा मेरे True.
नोटबुक में सक्षम वैकल्पिक चरण निम्न कार्य करते हैं:
- XGBoost का उपयोग करके मॉडल को प्रशिक्षित करें
नोटबुक के शीर्ष पर वापस जाएं और रन मेनू, चुनें सभी सेल चलाएं.

यदि आप जेनरेट की गई नोटबुक का उपयोग इस रूप में करते हैं, तो यह एक सेजमेकर प्रोसेसिंग जॉब लॉन्च करता है जो S5.4 बकेट पर पूरे डेटासेट को प्रोसेस करने के लिए दो m3xlarge इंस्टेंसेस में प्रोसेसिंग को स्केल करता है। आप कार्य को पूरा करने के लिए आवश्यक डेटासेट आकार और समय के आधार पर उदाहरणों की संख्या और आवृत्ति प्रकारों को समायोजित कर सकते हैं।

अंतिम सेल से प्रशिक्षण कार्य पूरा होने तक प्रतीक्षा करें। यह SageMaker डिफ़ॉल्ट S3 बाल्टी में एक मॉडल उत्पन्न करता है।

प्रशिक्षित मॉडल वास्तविक समय के अनुमान या बैच परिवर्तन के लिए तैनाती के लिए तैयार है। ध्यान दें कि हमने डेटा रैंगलर में कार्यात्मकता प्रदर्शित करने के लिए सिंथेटिक डेटा का उपयोग किया और प्रशिक्षण मॉडल के लिए संसाधित डेटा का उपयोग किया। यह देखते हुए कि हमारे द्वारा उपयोग किया गया डेटा सिंथेटिक है, प्रशिक्षित मॉडल से निष्कर्ष परिणाम वास्तविक दुनिया की चिकित्सा स्थिति निदान या चिकित्सा चिकित्सकों से निर्णय के प्रतिस्थापन के लिए नहीं है।

आप चुनकर अपने रूपांतरित डेटासेट को सीधे Amazon S3 में निर्यात कर सकते हैं निर्यात रूपांतरण पूर्वावलोकन पृष्ठ के शीर्ष पर। प्रत्यक्ष निर्यात विकल्प केवल रूपांतरित नमूने को निर्यात करता है यदि आयात के दौरान नमूनाकरण सक्षम किया गया था। यदि आप छोटे डेटासेट के साथ काम कर रहे हैं तो यह विकल्प सबसे उपयुक्त है। रूपांतरित डेटा को सीधे फीचर स्टोर में भी डाला जा सकता है। अधिक जानकारी के लिए देखें अमेज़न SageMaker फ़ीचर स्टोर. डेटा प्रवाह को सेजमेकर पाइपलाइन के रूप में भी निर्यात किया जा सकता है जिसे आपकी आवश्यकताओं के अनुसार व्यवस्थित और शेड्यूल किया जा सकता है। अधिक जानकारी के लिए देखें अमेज़न SageMaker पाइपलाइन.

निष्कर्ष

इस पोस्ट में, हमने दिखाया कि हेल्थकेयर डेटा को संसाधित करने के लिए डेटा रैंगलर का उपयोग कैसे करें और टूल-संचालित, कम-कोड फैशन में स्केलेबल फीचर इंजीनियरिंग का प्रदर्शन करें। हमने सीखा कि बिल्ट-इन ट्रांसफॉर्मेशन को कैसे लागू किया जाए और जहां भी जरूरत हो, उसका विश्लेषण करें, इसे कस्टम ट्रांसफॉर्मेशन के साथ जोड़कर अपने डेटा तैयारी वर्कफ़्लो में और भी अधिक लचीलापन जोड़ें। हम वितरित प्रसंस्करण नौकरियों के माध्यम से डेटा प्रवाह नुस्खा को बढ़ाने के लिए विभिन्न विकल्पों के माध्यम से भी चले गए। हमने यह भी सीखा कि कैसे परिवर्तित डेटा का उपयोग हृदय गति रुकने की भविष्यवाणी करने के लिए एक मॉडल को प्रशिक्षित करने के लिए आसानी से किया जा सकता है।

डेटा रैंगलर में कई अन्य विशेषताएं हैं जिन्हें हमने इस पोस्ट में शामिल नहीं किया है। अन्वेषण करें कि क्या संभव है अमेज़ॅन सेजमेकर डेटा रैंगलर के साथ एमएल डेटा तैयार करें और अपने अगले डेटा साइंस या मशीन लर्निंग प्रोजेक्ट के लिए डेटा रैंगलर का लाभ उठाना सीखें।

लेखक के बारे में

फॉरेस्ट सन टोरंटो, कनाडा में एडब्ल्यूएस पब्लिक सेक्टर टीम के साथ एक वरिष्ठ समाधान वास्तुकार है। उन्होंने पिछले दो दशकों से स्वास्थ्य सेवा और वित्त उद्योगों में काम किया है। काम के बाहर, वह अपने परिवार के साथ कैंपिंग का आनंद लेते हैं।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ. अरुणाप्रसथ शंकर AWS के साथ आर्टिफिशियल इंटेलिजेंस एंड मशीन लर्निंग (AI / ML) स्पेशलिस्ट सॉल्यूशन आर्किटेक्ट है, जो वैश्विक ग्राहकों को क्लाउड में प्रभावी ढंग से और कुशलता से अपने AI समाधानों को स्केल करने में मदद करता है। अपने खाली समय में, अरुण को विज्ञान-फाई फिल्में देखने और शास्त्रीय संगीत सुनने का आनंद मिलता है।