अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.

अमेज़ॅन सेजमेकर डेटा रैंगलर के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा

मशीन लर्निंग (एमएल) कई उद्योगों को अभूतपूर्व गति से बाधित कर रहा है। स्वास्थ्य देखभाल और जीवन विज्ञान (एचसीएलएस) उद्योग हाल के वर्षों में तेजी से विकास के दौर से गुजर रहा है, जिसमें गुणवत्ता देखभाल प्रदान करने और रोगी परिणामों में सुधार के लिए उपयोग के मामलों में एमएल को अपनाया गया है।

एक विशिष्ट एमएल जीवनचक्र में, डेटा इंजीनियर और वैज्ञानिक अपना अधिकांश समय डेटा तैयार करने और मॉडल निर्माण और प्रशिक्षण की प्रक्रिया शुरू करने से पहले इंजीनियरिंग चरणों की सुविधा पर खर्च करते हैं। एक ऐसा उपकरण होना जो डेटा तैयार करने के लिए प्रवेश की बाधा को कम कर सके, जिससे उत्पादकता में सुधार हो, इन व्यक्तियों के लिए एक अत्यधिक वांछनीय प्रश्न है। अमेज़न SageMaker डेटा रैंगलर सीखने की अवस्था को कम करने और डेटा प्रैक्टिशनरों को कम प्रयास और समय में डेटा तैयार करने, सफाई करने और इंजीनियरिंग कार्यों को पूरा करने में सक्षम बनाने के लिए AWS द्वारा बनाया गया उद्देश्य है। यह कई अंतर्निहित कार्यों और अन्य एडब्ल्यूएस सेवाओं के साथ एकीकरण के साथ एक जीयूआई इंटरफेस प्रदान करता है जैसे कि अमेज़न सरल भंडारण सेवा (अमेज़न S3) और अमेज़न SageMaker फ़ीचर स्टोर, साथ ही स्नोफ्लेक और डेटाब्रिक्स सहित भागीदार डेटा स्रोत।

इस पोस्ट में, हम प्रदर्शित करते हैं कि रोगी की जनसांख्यिकी, पूर्व चिकित्सा स्थितियों और प्रयोगशाला परीक्षण परिणाम इतिहास को देखते हुए, हृदय की विफलता की भविष्यवाणी करने के लिए एक मॉडल को प्रशिक्षित करने के लिए स्वास्थ्य देखभाल डेटा तैयार करने के लिए डेटा रैंगलर का उपयोग कैसे करें।

समाधान अवलोकन

समाधान में निम्नलिखित चरण होते हैं:

  1. डेटा रैंगलर के इनपुट के रूप में एक हेल्थकेयर डेटासेट प्राप्त करें।
  2. डेटासेट को बदलने के लिए डेटा रैंगलर के बिल्ट-इन ट्रांसफ़ॉर्मेशन फ़ंक्शंस का उपयोग करें। इसमें ड्रॉप कॉलम, डेटा/समय की विशेषता, डेटासेट में शामिल होना, लापता मानों को लागू करना, श्रेणीबद्ध चर को एन्कोड करना, संख्यात्मक मानों को स्केल करना, डेटासेट को संतुलित करना आदि शामिल हैं।
  3. डेटा रैंगलर के कस्टम ट्रांसफ़ॉर्म फ़ंक्शन (पंडस या पायस्पार्क कोड) का उपयोग बिल्ट-इन ट्रांसफ़ॉर्मेशन से परे आवश्यक अतिरिक्त ट्रांसफ़ॉर्मेशन के पूरक के लिए करें और डेटा रैंगलर की एक्स्टेंसिबिलिटी प्रदर्शित करें। इसमें फ़िल्टर पंक्तियाँ, समूह डेटा, शर्तों के आधार पर नए डेटाफ़्रेम बनाना आदि शामिल हैं।
  4. दृश्य विश्लेषण करने के लिए डेटा रैंगलर के अंतर्निहित विज़ुअलाइज़ेशन फ़ंक्शंस का उपयोग करें। इसमें लक्ष्य रिसाव, सुविधा सहसंबंध, त्वरित मॉडल और बहुत कुछ शामिल हैं।
  5. परिवर्तित डेटासेट को Amazon S3 में निर्यात करने के लिए डेटा रैंगलर के अंतर्निर्मित निर्यात विकल्पों का उपयोग करें।
  6. एक मॉडल को प्रशिक्षित करने के लिए इनपुट के रूप में Amazon S3 में रूपांतरित डेटासेट का उपयोग करने के लिए Jupyter नोटबुक लॉन्च करें।

डेटासेट जनरेट करें

अब जब हम एमएल समस्या बयान पर बस गए हैं, तो हम सबसे पहले अपनी जरूरत के डेटा को प्राप्त करने के लिए अपनी जगहें निर्धारित करते हैं। अनुसंधान अध्ययन जैसे दिल की विफलता भविष्यवाणी डेटा प्रदान कर सकता है जो पहले से ही अच्छी स्थिति में है। हालाँकि, हम अक्सर ऐसे परिदृश्यों का सामना करते हैं जहाँ डेटा काफी गड़बड़ होता है और इसमें शामिल होने, सफाई करने और कई अन्य परिवर्तनों की आवश्यकता होती है जो कि एमएल प्रशिक्षण के लिए उपयोग किए जाने से पहले स्वास्थ्य सेवा क्षेत्र के लिए बहुत विशिष्ट हैं। हम डेटा को ढूंढना या उत्पन्न करना चाहते हैं जो काफी गड़बड़ है और आपको डेटा रैंगलर का उपयोग करके इसे तैयार करने के चरणों के बारे में बताता है। इसे ध्यान में रखते हुए, हमने सिंथेटिक डेटा उत्पन्न करने के लिए सिंथिया को एक उपकरण के रूप में चुना जो हमारे लक्ष्य के अनुकूल हो। सिंथिया एक खुला स्रोत सिंथेटिक रोगी जनरेटर है जो सिंथेटिक रोगियों के चिकित्सा इतिहास को मॉडल करता है। अपना डेटासेट जेनरेट करने के लिए, निम्न चरणों को पूरा करें:

  1. के अनुसार निर्देशों का पालन करें जल्दी शुरू एक बनाने के लिए प्रलेखन अमेज़ॅन सैजमेकर स्टूडियो डोमेन और लॉन्च स्टूडियो।
    यह एक पूर्वापेक्षा चरण है। यह वैकल्पिक है यदि स्टूडियो पहले से ही आपके खाते में स्थापित है।
  2. स्टूडियो लॉन्च होने के बाद, पर लांचर टैब चुनें सिस्टम टर्मिनल.
    यह एक टर्मिनल सत्र शुरू करता है जो आपको काम करने के लिए एक कमांड लाइन इंटरफ़ेस देता है।
  3. Synthea को स्थापित करने और CSV प्रारूप में डेटासेट बनाने के लिए, लॉन्च किए गए टर्मिनल सत्र में निम्नलिखित कमांड चलाएँ:
    $ sudo yum install -y java-1.8.0-openjdk-devel
    $ export JAVA_HOME=/usr/lib/jvm/jre-1.8.0-openjdk.x86_64
    $ export PATH=$JAVA_HOME/bin:$PATH
    $ git clone https://github.com/synthetichealth/synthea
    $ git checkout v3.0.0
    $ cd synthea
    $ ./run_synthea --exporter.csv.export=true -p 10000

हम 10,000 की आबादी के आकार के साथ डेटासेट उत्पन्न करने के लिए एक पैरामीटर की आपूर्ति करते हैं। नोट आकार पैरामीटर जनसंख्या के जीवित सदस्यों की संख्या को दर्शाता है। इसके अतिरिक्त, Synthea जनसंख्या के मृत सदस्यों के लिए भी डेटा उत्पन्न करता है जो निर्दिष्ट नमूना आकार के शीर्ष पर कुछ अतिरिक्त डेटा बिंदु जोड़ सकता है।

डेटा जनरेशन पूरा होने तक प्रतीक्षा करें। इस कदम में आमतौर पर लगभग एक घंटे या उससे कम समय लगता है। Synthea कई डेटासेट उत्पन्न करता है, जिसमें शामिल हैं patients, medications, allergies, conditions, और अधिक। इस पोस्ट के लिए, हम तीन परिणामी डेटासेट का उपयोग करते हैं:

  • रोगी.सीएसवी - यह डेटासेट लगभग 3.2 एमबी का है और इसमें रोगी डेटा की लगभग 11,000 पंक्तियाँ हैं (रोगी आईडी, जन्मतिथि, लिंग, पता, और अधिक सहित 25 कॉलम)
  • शर्तें.सीएसवी - यह डेटासेट लगभग 47 एमबी का है और इसमें मेडिकल कंडीशन डेटा की लगभग 370,000 पंक्तियाँ हैं (रोगी आईडी, स्थिति शुरू होने की तारीख, स्थिति कोड, और अधिक सहित छह कॉलम)
  • प्रेक्षण.csv - यह डेटासेट लगभग 830 एमबी का है और इसमें अवलोकन डेटा की लगभग 5 मिलियन पंक्तियाँ हैं (रोगी आईडी, अवलोकन तिथि, अवलोकन कोड, मूल्य, और अधिक सहित आठ कॉलम)

के बीच एक-से-अनेक संबंध है patients और conditions डेटासेट के बीच एक-से-अनेक संबंध भी है patients और observations डेटासेट विस्तृत डेटा शब्दकोश के लिए, देखें सीएसवी फ़ाइल डेटा शब्दकोश.

  1. Amazon S3 में जनरेट किए गए डेटासेट को स्रोत बकेट में अपलोड करने के लिए, टर्मिनल सत्र में निम्नलिखित कमांड चलाएँ:
    $ cd ./output/csv
    $ aws s3 sync . s3://<source bucket name>/

डेटा रैंगलर लॉन्च करें

चुनें SageMaker संसाधन स्टूडियो में नेविगेशन पेज में और पर परियोजनाओं मेनू, चुनें डेटा रैंगलर डेटा रैंगलर डेटा प्रवाह बनाने के लिए। स्टूडियो के भीतर से डेटा रैंगलर को लॉन्च करने के विस्तृत चरणों के लिए, देखें डेटा रैंगलर के साथ शुरुआत करें.

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.

आयात आंकड़ा

अपना डेटा आयात करने के लिए, निम्न चरणों को पूरा करें:

  1. चुनें अमेज़न S3 और S3 बकेट में patients.csv फ़ाइल का पता लगाएँ।
  2. में विवरण फलक, चुनें पहले के एसटी सैम्पलिंग.
  3. दर्ज 1100 एसटी नमूने का आकार.
    पूर्वावलोकन फलक में, डेटा रैंगलर डेटासेट से पहली 100 पंक्तियों को खींचता है और उन्हें पूर्वावलोकन के रूप में सूचीबद्ध करता है।
  4. चुनें आयात.
    डेटा रैंगलर Synthea द्वारा उत्पन्न कुल रोगियों (1,100 पंक्तियों) में से पहले 11,000 रोगियों का चयन करता है और डेटा आयात करता है। नमूनाकरण दृष्टिकोण डेटा रैंगलर को केवल नमूना डेटा को संसाधित करने देता है। यह हमें अपने डेटा प्रवाह को एक छोटे डेटासेट के साथ विकसित करने में सक्षम बनाता है, जिसके परिणामस्वरूप त्वरित प्रसंस्करण और एक छोटा फीडबैक लूप होता है। डेटा प्रवाह बनाने के बाद, हम विकसित नुस्खा को a . में जमा कर सकते हैं सेजमेकर प्रोसेसिंग वितरित फ़ैशन में पूर्ण या बड़े डेटासेट के लिए प्रसंस्करण को क्षैतिज रूप से स्केल करने का कार्य।
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  5. के लिए इस प्रक्रिया को दोहराएं conditions और observations डेटासेट
    1. के लिए conditions डेटासेट, दर्ज करें 37000 एसटी नमूने का आकार, जो Synthea द्वारा उत्पन्न कुल 1 पंक्तियों में से 10/370,000 है।
    2. के लिए observations डेटासेट, दर्ज करें 500000 एसटी नमूने का आकार, जो कि Synthea द्वारा उत्पन्न 1 मिलियन पंक्तियों की कुल टिप्पणियों का 10/5 है।

आपको निम्न स्क्रीनशॉट में दिखाए गए अनुसार तीन डेटासेट देखना चाहिए।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.

डेटा ट्रांसफ़ॉर्म करें

डेटा परिवर्तन डेटासेट में एक या अधिक स्तंभों की संरचना, मान या प्रारूप को बदलने की प्रक्रिया है। प्रक्रिया आमतौर पर एक डेटा इंजीनियर द्वारा विकसित की जाती है और परिवर्तन के लिए प्रस्तावित तर्क को समझने के लिए एक छोटे डेटा इंजीनियरिंग कौशल वाले लोगों के लिए चुनौतीपूर्ण हो सकता है। डेटा परिवर्तन व्यापक फीचर इंजीनियरिंग प्रक्रिया का हिस्सा है, और इस तरह के व्यंजनों को तैयार करते समय चरणों का सही क्रम एक और महत्वपूर्ण मानदंड है।

डेटा रैंगलर को प्रभावी डेटा तैयार करने के लिए प्रवेश की बाधा को कम करने के लिए कम-कोड उपकरण के रूप में डिज़ाइन किया गया है। यह आपके लिए कोड की एक भी पंक्ति लिखे बिना चुनने के लिए 300 से अधिक पूर्व-कॉन्फ़िगर किए गए डेटा ट्रांसफ़ॉर्मेशन के साथ आता है। निम्नलिखित अनुभागों में, हम देखते हैं कि डेटा रैंगलर में आयातित डेटासेट को कैसे रूपांतरित किया जाए।

मरीज़ों में कॉलम छोड़ें।csv

हम सबसे पहले से कुछ कॉलम छोड़ते हैं patients डाटासेट। निरर्थक कॉलम छोड़ने से डेटासेट से गैर-प्रासंगिक जानकारी निकल जाती है और हमें डेटासेट को संसाधित करने और एक मॉडल को प्रशिक्षित करने के लिए आवश्यक कंप्यूटिंग संसाधनों की मात्रा को कम करने में मदद मिलती है। इस खंड में, हम सामान्य ज्ञान के आधार पर एसएसएन या पासपोर्ट नंबर जैसे कॉलम छोड़ते हैं कि इन कॉलमों का कोई अनुमानित मूल्य नहीं है। दूसरे शब्दों में, वे हमारे मॉडल को दिल की विफलता की भविष्यवाणी करने में मदद नहीं करते हैं। हमारा अध्ययन अन्य कॉलम जैसे जन्मस्थान या स्वास्थ्य देखभाल खर्च के रोगी के दिल की विफलता पर प्रभाव के बारे में भी चिंतित नहीं है, इसलिए हम उन्हें भी छोड़ देते हैं। डेटा रैंगलर में निर्मित लक्ष्य रिसाव, फीचर सहसंबंध, बहुसंकेतन, और अधिक जैसे अंतर्निहित विश्लेषणों को चलाकर अनावश्यक स्तंभों की पहचान की जा सकती है। समर्थित विश्लेषण प्रकारों के बारे में अधिक जानकारी के लिए, देखें विश्लेषण और विज़ुअलाइज़ करें. इसके अतिरिक्त, आप का उपयोग कर सकते हैं डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट समाप्त करने के लिए निरर्थक स्तंभों की सूची पर पहुंचने के लिए डेटासेट पर स्वचालित विश्लेषण करने के लिए।

  1. के आगे धन चिह्न चुनें जानकारी का प्रकार मरीज़ों के लिए.csv डेटासेट और चुनें परिवर्तन जोड़ें.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  2. चुनें चरण जोड़ें और चुनें कॉलम प्रबंधित करें.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  3. के लिए बदालनाचुनें स्तंभ छोड़ें.
  4. के लिए छोड़ने के लिए कॉलम, निम्नलिखित कॉलम चुनें:
    1. SSN
    2. DRIVERS
    3. PASSPORT
    4. PREFIX
    5. FIRST
    6. LAST
    7. SUFFIX
    8. MAIDEN
    9. RACE
    10. ETHNICITY
    11. BIRTHPLACE
    12. ADDRESS
    13. CITY
    14. STATE
    15. COUNTY
    16. ZIP
    17. LAT
    18. LON
    19. HEALTHCARE_EXPENSES
    20. HEALTHCARE_COVERAGE
  5. चुनें पूर्वावलोकन रूपांतरित डेटासेट की समीक्षा करने के लिए, फिर चुनें .
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
    आपको चरण देखना चाहिए स्तंभ छोड़ें आपके परिवर्तनों की सूची में।
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.

रोगियों में दिनांक/समय को चित्रित करें। csv

अब हम नई सुविधा उत्पन्न करने के लिए विशेषता दिनांक/समय फ़ंक्शन का उपयोग करते हैं Year से BIRTHDATE कॉलम में patients डाटासेट। हम अवलोकन के समय रोगी की आयु की गणना करने के लिए अगले चरण में नई सुविधा का उपयोग करते हैं।

  1. में रूपांतरण आप का फलक स्तंभ छोड़ें के लिए पेज patients डेटासेट, चुनें चरण जोड़ें.
  2. चुनना दिनांक/समय प्रदर्शित करें बदलना।
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  3. चुनें कॉलम निकालें.
  4. के लिए इनपुट कॉलम, कॉलम जोड़ें BIRTHDATE.
  5. चुनते हैं साल और रद्द करें महीना, दिन, घंटा, मिनट, दूसरा।
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  6. चुनें पूर्वावलोकन, उसके बाद चुनो .

प्रेक्षणों में परिवर्तन जोड़ें।csv

डेटा रैंगलर पायथन (उपयोगकर्ता द्वारा परिभाषित कार्यों), पायस्पार्क, पंडों, या पायस्पार्क (एसक्यूएल) का उपयोग करके कस्टम ट्रांसफॉर्म का समर्थन करता है। आप प्रत्येक विकल्प और वरीयता के साथ अपनी परिचितता के आधार पर अपना रूपांतरण प्रकार चुन सकते हैं। बाद के तीन विकल्पों के लिए, डेटा रैंगलर चर को उजागर करता है df आपके लिए डेटाफ़्रेम तक पहुँचने और उस पर परिवर्तन लागू करने के लिए। विस्तृत व्याख्या और उदाहरणों के लिए, देखें कस्टम रूपांतरण. इस खंड में, हम तीन कस्टम रूपांतरण जोड़ते हैं observations डाटासेट।

  1. प्रेक्षणों में परिवर्तन जोड़ें। सीएसवी और ड्रॉप करें DESCRIPTION स्तंभ.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  2. चुनें पूर्वावलोकन, उसके बाद चुनो .
  3. में रूपांतरण फलक, चुनें चरण जोड़ें और चुनें कस्टम परिवर्तन.
  4. ड्रॉप-डाउन मेनू पर, चुनें अजगर (पंडों).
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  5. निम्नलिखित कोड दर्ज करें:
    df = df[df["CODE"].isin(['8867-4','8480-6','8462-4','39156-5','777-3'])]

    ये LONIC कोड हैं जो निम्नलिखित टिप्पणियों के अनुरूप हैं जिन्हें हम दिल की विफलता की भविष्यवाणी के लिए सुविधाओं के रूप में उपयोग करने में रुचि रखते हैं:

    heart rate: 8867-4
    systolic blood pressure: 8480-6
    diastolic blood pressure: 8462-4
    body mass index (BMI): 39156-5
    platelets [#/volume] in Blood: 777-3

  6. चुनें पूर्वावलोकन, उसके बाद चुनो .
  7. निकालने के लिए एक परिवर्तन जोड़ें Year और Quarter से DATE स्तंभ.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  8. चुनें पूर्वावलोकन, उसके बाद चुनो .
  9. चुनें चरण जोड़ें और चुनें कस्टम परिवर्तन.
  10. ड्रॉप-डाउन मेनू पर, चुनें पायथन (पायस्पार्क).
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
    पांच प्रकार के प्रेक्षणों को हमेशा एक ही तिथि पर दर्ज नहीं किया जा सकता है। उदाहरण के लिए, एक मरीज 21 जनवरी को अपने फैमिली डॉक्टर के पास जा सकता है और उनका सिस्टोलिक ब्लड प्रेशर, डायस्टोलिक ब्लड प्रेशर, हार्ट रेट और बॉडी मास इंडेक्स को मापा और रिकॉर्ड किया जा सकता है। हालांकि, एक प्रयोगशाला परीक्षण जिसमें प्लेटलेट्स शामिल हैं, 2 फरवरी को बाद की तारीख में किया जा सकता है। इसलिए, अवलोकन तिथि तक डेटाफ्रेम में शामिल होना हमेशा संभव नहीं होता है। यहां हम तिमाही आधार पर मोटे ग्रैन्युलैरिटी पर डेटाफ्रेम में शामिल होते हैं।
  11. निम्नलिखित कोड दर्ज करें:
    from pyspark.sql.functions import col
    
    systolic_df = (
        df.select("patient", "DATE_year", "DATE_quarter", "value")
                       .withColumnRenamed("value", "systolic")
                       .filter((col("code") == "8480-6"))
      )
    
    diastolic_df = (
        df.select("patient", "DATE_year", "DATE_quarter", "value")
                       .withColumnRenamed('value', 'diastolic')
                       .filter((col("code") == "8462-4"))
        )
    
    hr_df = (
        df.select("patient", "DATE_year", "DATE_quarter", "value")
                       .withColumnRenamed('value', 'hr')
                       .filter((col("code") == "8867-4"))
        )
    
    bmi_df = (
        df.select("patient", "DATE_year", "DATE_quarter", "value")
                       .withColumnRenamed('value', 'bmi')
                       .filter((col("code") == "39156-5"))
        )
    
    platelets_df = (
        df.select("patient", "DATE_year", "DATE_quarter", "value")
                       .withColumnRenamed('value', 'platelets')
                       .filter((col("code") == "777-3"))
        )
    
    df = (
        systolic_df.join(diastolic_df, ["patient", "DATE_year", "DATE_quarter"])
                                .join(hr_df, ["patient", "DATE_year", "DATE_quarter"])
                                .join(bmi_df, ["patient", "DATE_year", "DATE_quarter"])
                                .join(platelets_df, ["patient", "DATE_year", "DATE_quarter"])
    )

  12. चुनें पूर्वावलोकन, उसके बाद चुनो .
  13. चुनें चरण जोड़ें, उसके बाद चुनो पंक्तियों को प्रबंधित करें.
  14. के लिए बदालना, चुनें डुप्लिकेट छोड़ें.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  15. चुनें पूर्वावलोकन, उसके बाद चुनो .
  16. चुनें चरण जोड़ें और चुनें कस्टम परिवर्तन.
  17. ड्रॉप-डाउन मेनू पर, चुनें अजगर (पंडों).
  18. समान समय मान साझा करने वाले औसत डेटा बिंदुओं को लेने के लिए निम्न कोड दर्ज करें:
    import pandas as pd
    df.loc[:, df.columns != 'patient']=df.loc[:, df.columns != 'patient'].apply(pd.to_numeric)
    df = df.groupby(['patient','DATE_year','DATE_quarter']).mean().round(0).reset_index()

  19. चुनें पूर्वावलोकन, उसके बाद चुनो .
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.

मरीजों से जुड़ें। सीएसवी और अवलोकन। सीएसवी

इस चरण में, हम डेटा रैंगलर के शक्तिशाली UI के माध्यम से कोई कोड लिखे बिना डेटासेट पर प्रभावी ढंग से और आसानी से जटिल जुड़ाव प्रदर्शित करने का तरीका दिखाते हैं। समर्थित प्रकार के जॉइन के बारे में अधिक जानने के लिए, देखें डेटा ट्रांसफ़ॉर्म करें.

  1. के अधिकार के लिए रूपांतरण: रोगी.सीएसवी, के आगे धन चिह्न चुनें कदम और चुनें जुडें.
    आप नीचे दी गई सूची में बदली हुई रोगी.सीएसवी फ़ाइल देख सकते हैं डेटासेट बाएं फलक में
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  2. के अधिकार के लिए रूपांतरण: प्रेक्षण.csv, पर क्लिक करें कदम जॉइन ऑपरेशन शुरू करने के लिए।
    रूपांतरित टिप्पणियों.सीएसवी फ़ाइल को अब नीचे सूचीबद्ध किया गया है डेटासेट बाएं फलक में
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  3. चुनें कॉन्फ़िगर.
  4. के लिए जॉइन टाइप, चुनें आंतरिक.
  5. के लिए वाम, चुनें Id.
  6. के लिए सही, चुनें रोगी.
  7. चुनें पूर्वावलोकन, उसके बाद चुनो .
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.

जुड़े हुए डेटासेट में एक कस्टम ट्रांसफ़ॉर्म जोड़ें

इस चरण में, हम अवलोकन के समय रोगी की आयु की गणना करते हैं। हम उन स्तंभों को भी छोड़ देते हैं जिनकी अब आवश्यकता नहीं है।

  1. के आगे धन चिह्न चुनें पहला शामिल हों और चुनें परिवर्तन जोड़ें.
  2. पंडों में एक कस्टम परिवर्तन जोड़ें:
    df['age'] = df['DATE_year'] - df['BIRTHDATE_year']
    df = df.drop(columns=['BIRTHDATE','DEATHDATE','BIRTHDATE_year','patient'])

  3. चुनें पूर्वावलोकन, उसके बाद चुनो .

शर्तों में कस्टम रूपांतरण जोड़ें। csv

  1. के आगे धन चिह्न चुनें रूपांतरण: शर्तें। सीएसवी और चुनें परिवर्तन जोड़ें.
  2. पंडों में एक कस्टम परिवर्तन जोड़ें:
    df = df[df["CODE"].isin(['84114007', '88805009', '59621000', '44054006', '53741008', '449868002', '49436004'])]
    df = df.drop(columns=['DESCRIPTION','ENCOUNTER','STOP'])

नोट: जैसा कि हमने पहले दिखाया था, आप कस्टम कोड का उपयोग करके या डेटा रैंगलर द्वारा प्रदान किए गए बिल्ट-इन ट्रांसफ़ॉर्मेशन का उपयोग करके कॉलम ड्रॉप कर सकते हैं। डेटा रैंगलर के भीतर कस्टम परिवर्तन समर्थित ढांचे में कोड स्निपेट के रूप में अपने स्वयं के परिवर्तन तर्क लाने के लिए लचीलापन प्रदान करता है। इन स्निपेट्स को बाद में खोजा जा सकता है और यदि आवश्यक हो तो लागू किया जा सकता है।

पिछले रूपांतरण में कोड SNOMED-CT कोड हैं जो निम्न स्थितियों के अनुरूप हैं। heart failure or chronic congestive heart failure स्थिति लेबल बन जाती है। हम दिल की विफलता की भविष्यवाणी के लिए शेष स्थितियों का उपयोग सुविधाओं के रूप में करते हैं। हम कुछ कॉलम भी छोड़ते हैं जिनकी अब आवश्यकता नहीं है।

Heart failure: 84114007
Chronic congestive heart failure: 88805009
Hypertension: 59621000
Diabetes: 44054006
Coronary Heart Disease: 53741008
Smokes tobacco daily: 449868002
Atrial Fibrillation: 49436004

  1. इसके बाद, आइए PySpark में एक कस्टम ट्रांसफ़ॉर्म जोड़ें:
    from pyspark.sql.functions import col, when
    
    heartfailure_df = (
        df.select("patient", "start")
                          .withColumnRenamed("start", "heartfailure")
                       .filter((col("code") == "84114007") | (col("code") == "88805009"))
      )
    
    hypertension_df = (
        df.select("patient", "start")
                       .withColumnRenamed("start", "hypertension")
                       .filter((col("code") == "59621000"))
      )
    
    diabetes_df = (
        df.select("patient", "start")
                       .withColumnRenamed("start", "diabetes")
                       .filter((col("code") == "44054006"))
      )
    
    coronary_df = (
        df.select("patient", "start")
                       .withColumnRenamed("start", "coronary")
                       .filter((col("code") == "53741008"))
      )
    
    smoke_df = (
        df.select("patient", "start")
                       .withColumnRenamed("start", "smoke")
                       .filter((col("code") == "449868002"))
      )
    
    atrial_df = (
        df.select("patient", "start")
                       .withColumnRenamed("start", "atrial")
                       .filter((col("code") == "49436004"))
      )
    
    df = (
        heartfailure_df.join(hypertension_df, ["patient"], "leftouter").withColumn("has_hypertension", when(col("hypertension") < col("heartfailure"), 1).otherwise(0))
        .join(diabetes_df, ["patient"], "leftouter").withColumn("has_diabetes", when(col("diabetes") < col("heartfailure"), 1).otherwise(0))
        .join(coronary_df, ["patient"], "leftouter").withColumn("has_coronary", when(col("coronary") < col("heartfailure"), 1).otherwise(0))
        .join(smoke_df, ["patient"], "leftouter").withColumn("has_smoke", when(col("smoke") < col("heartfailure"), 1).otherwise(0))
        .join(atrial_df, ["patient"], "leftouter").withColumn("has_atrial", when(col("atrial") < col("heartfailure"), 1).otherwise(0))
    )

    हम दिल की विफलता डेटाफ़्रेम में सभी प्रविष्टियों को रखने के लिए एक बाएँ बाहरी जुड़ाव करते हैं। एक नया कॉलम has_xxx हृदय गति रुकने के अलावा अन्य प्रत्येक स्थिति के लिए गणना की जाती है जो स्थिति की प्रारंभ तिथि के आधार पर होती है। हम केवल उन चिकित्सा स्थितियों में रुचि रखते हैं जो हृदय की विफलता से पहले दर्ज की गई थीं और उन्हें हृदय की विफलता की भविष्यवाणी के लिए सुविधाओं के रूप में उपयोग करते हैं।

  2. एक अंतर्निहित जोड़ें कॉलम प्रबंधित करें उन अनावश्यक स्तंभों को छोड़ने के लिए रूपांतरित करें जिनकी अब आवश्यकता नहीं है:
    1. hypertension
    2. diabetes
    3. coronary
    4. smoke
    5. atrial
  3. उद्धरण Year और  Quarter से heartfailure स्तंभ.
    यह उस ग्रैन्युलैरिटी से मेल खाता है जिसका उपयोग हमने पहले के परिवर्तन में किया था observations डाटासेट।
  4. हमारे पास condition.csv के लिए कुल 6 चरण होने चाहिए।
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.

शामिल हुए डेटासेट में शर्तों.सीएसवी से जुड़ें

अब हम शर्तों के डेटासेट में शामिल होने के लिए एक नया जुड़ाव करते हैं patients और observations डाटासेट।

  1. चुनें ट्रांसफॉर्म: पहला जॉइन.
  2. धन चिह्न चुनें और चुनें जुडें.
  3. चुनें कदम के पास रूपांतरण: शर्तें। सीएसवी.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  4. चुनें कॉन्फ़िगर.
  5. के लिए जॉइन टाइप, चुनें बायां बाहरी.
  6. के लिए वाम, चुनें Id.
  7. के लिए सही, चुनें रोगी.
  8. चुनें पूर्वावलोकन, उसके बाद चुनो .
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.

सम्मिलित डेटासेट में परिवर्तन जोड़ें

अब जबकि हमारे पास सभी तीन डेटासेट शामिल हो गए हैं, आइए कुछ अतिरिक्त परिवर्तन लागू करें।

  1. PySpark में निम्नलिखित कस्टम परिवर्तन जोड़ें ताकि has_heartfailure हमारा लेबल कॉलम बन जाता है:
    from pyspark.sql.functions import col, when
    df = (
        df.withColumn("has_heartfailure", when(col("heartfailure").isNotNull(), 1).otherwise(0))
    )

  2. PySpark में निम्नलिखित कस्टम परिवर्तन जोड़ें:
    from pyspark.sql.functions import col
    
    df = (
        df.filter(
          (col("has_heartfailure") == 0) | 
          ((col("has_heartfailure") == 1) & ((col("date_year") <= col("heartfailure_year")) | ((col("date_year") == col("heartfailure_year")) & (col("date_quarter") <= col("heartfailure_quarter")))))
        )
    )

    हम केवल दिल की विफलता की स्थिति का निदान होने से पहले रिकॉर्ड किए गए अवलोकनों में रुचि रखते हैं और उन्हें दिल की विफलता की भविष्यवाणी के लिए सुविधाओं के रूप में उपयोग करते हैं। दिल की विफलता का निदान होने के बाद ली गई टिप्पणियां रोगी द्वारा ली जाने वाली दवा से प्रभावित हो सकती हैं, इसलिए हम उन टिप्पणियों को बाहर करना चाहते हैं।

  3. अनावश्यक कॉलम छोड़ें जिनकी अब आवश्यकता नहीं है:
    1. Id
    2. DATE_year
    3. DATE_quarter
    4. patient
    5. heartfailure
    6. heartfailure_year
    7. heartfailure_quarter
  4. पर विश्लेषण टैब, के लिए विश्लेषण प्रकारचुनें तालिका सारांश.
    सारांश के माध्यम से एक त्वरित स्कैन से पता चलता है कि MARITAL कॉलम में डेटा गुम है।
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  5. चुनना जानकारी टैब और एक कदम जोड़ें।
  6. चुनें हैंडल मिसिंग.
  7. के लिए बदालना, चुनें लापता भरें.
  8. के लिए इनपुट कॉलम, चुनें वैवाहिक.
  9. के लिए मान भरें, दर्ज S.
    यहां हमारी रणनीति यह मान लेना है कि यदि वैवाहिक स्थिति का मूल्य नहीं है तो रोगी अविवाहित है। आपके पास एक अलग रणनीति हो सकती है।
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  10. चुनें पूर्वावलोकन, उसके बाद चुनो .
  11. लुप्त मान को 0 के रूप में भरें has_hypertension, has_diabetes, has_coronary, has_smoke, has_atrial.

Marital और Gender श्रेणीगत चर हैं। डेटा रैंगलर में श्रेणीबद्ध चर को एन्कोड करने के लिए एक अंतर्निहित कार्य है।

  1. एक चरण जोड़ें और चुनें एनकोड श्रेणीबद्ध.
  2. के लिए बदालना, चुनें एक गर्म सांकेतिक शब्दों में बदलना.
  3. के लिए इनपुट कॉलम, चुनें वैवाहिक.
  4. के लिए आउटपुट शैली, चुनें स्तंभ.
    यह आउटपुट शैली अलग-अलग कॉलम में एन्कोडेड मान उत्पन्न करती है।
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  5. चुनें पूर्वावलोकन, उसके बाद चुनो .
  6. के लिए इन चरणों को दोहराएँ लिंग स्तंभ.

वन-हॉट एन्कोडिंग वैवाहिक कॉलम को विभाजित करती है Marital_M (विवाहित) और Marital_S (एकल), और लिंग कॉलम को . में विभाजित करता है Gender_M (पुरुष) और Gender_F (महिला)। इसलिये Marital_M और Marital_S परस्पर अनन्य हैं (जैसे हैं Gender_M और Gender_F), हम अनावश्यक सुविधाओं से बचने के लिए एक कॉलम छोड़ सकते हैं।

  1. बूंद Marital_S और Gender_F.

सिस्टोलिक, हृदय गति और आयु जैसी संख्यात्मक विशेषताओं में अलग-अलग इकाई मानक होते हैं। एक रेखीय प्रतिगमन-आधारित मॉडल के लिए, हमें पहले इन संख्यात्मक विशेषताओं को सामान्य करना होगा। अन्यथा, उच्च निरपेक्ष मूल्यों वाली कुछ विशेषताओं का कम निरपेक्ष मूल्यों वाली अन्य विशेषताओं पर अनुचित लाभ हो सकता है और परिणामस्वरूप खराब मॉडल प्रदर्शन हो सकता है। डेटा रैंगलर में डेटा को सामान्य करने के लिए बिल्ट-इन ट्रांसफ़ॉर्म मिन-मैक्स स्केलर है। निर्णय वृक्ष-आधारित वर्गीकरण मॉडल के लिए, सामान्यीकरण की आवश्यकता नहीं है। हमारा अध्ययन एक वर्गीकरण समस्या है इसलिए हमें सामान्यीकरण लागू करने की आवश्यकता नहीं है। असंतुलित वर्ग वर्गीकरण में एक आम समस्या है। असंतुलन तब होता है जब प्रशिक्षण डेटासेट में गंभीर रूप से विषम वर्ग वितरण होता है। उदाहरण के लिए, जब हमारे डेटासेट में हृदय गति रुकने वाले रोगियों की तुलना में बिना अनुपात के अधिक रोगी होते हैं, तो यह मॉडल को दिल की विफलता की भविष्यवाणी करने और खराब प्रदर्शन करने की ओर पक्षपाती हो सकता है। डेटा रैंगलर में समस्या से निपटने के लिए एक अंतर्निहित कार्य है।

  1. डेटा प्रकार के कॉलम को "ऑब्जेक्ट" प्रकार से संख्यात्मक प्रकार में बदलने के लिए पंडों में एक कस्टम ट्रांसफ़ॉर्म जोड़ें:
    import pandas as pd
    df=df.apply(pd.to_numeric)

  2. चुनना विश्लेषण टैब.
  3. के लिए विश्लेषण प्रकारचुनें हिस्टोग्राम.
  4. के लिए एक्स अक्ष, चुनें दिल की विफलता है.
  5. चुनें पूर्वावलोकन.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
    यह स्पष्ट है कि हमारे पास एक असंतुलित वर्ग है (हृदय विफलता के रूप में लेबल किए गए डेटा बिंदुओं की तुलना में अधिक डेटा बिंदुओं को दिल की विफलता के रूप में लेबल नहीं किया गया है)।
  6. करने के लिए वापस जाओ जानकारी टैब। चुनना चरण जोड़ें और चुनें बैलेंस डेटा.
  7. के लिए लक्ष्य स्तंभ, चुनें दिल की विफलता है.
  8. के लिए वांछित अनुपात, दर्ज 1.
  9. के लिए बदालना, चुनें ऐसा मारा.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
    SMOTE का मतलब सिंथेटिक माइनॉरिटी ओवर-सैंपलिंग तकनीक है। यह नए अल्पसंख्यक उदाहरण बनाने और वर्ग संतुलन तक पहुंचने के लिए डेटासेट में जोड़ने की एक तकनीक है। विस्तृत जानकारी के लिए देखें SMOTE: सिंथेटिक माइनॉरिटी ओवर-सैंपलिंग तकनीक.
  10. चुनें पूर्वावलोकन, उसके बाद चुनो .
  11. चरण 20-23 में हिस्टोग्राम विश्लेषण दोहराएं। परिणाम एक संतुलित वर्ग है।
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.

लक्ष्य रिसाव और सुविधा सहसंबंध की कल्पना करें

इसके बाद, हम डेटा रैंगलर के उन्नत एमएल-समर्थित विश्लेषण प्रकारों के समृद्ध टूलसेट का उपयोग करके कुछ दृश्य विश्लेषण करने जा रहे हैं। सबसे पहले, हम लक्ष्य रिसाव को देखते हैं। लक्ष्य रिसाव तब होता है जब प्रशिक्षण डेटासेट में डेटा लक्ष्य लेबल के साथ दृढ़ता से सहसंबद्ध होता है, लेकिन अनुमान के समय वास्तविक दुनिया के डेटा में उपलब्ध नहीं होता है।

  1. पर विश्लेषण टैबके लिए, विश्लेषण प्रकारचुनें लक्ष्य रिसाव.
  2. के लिए समस्या का प्रकार, चुनें वर्गीकरण.
  3. के लिए लक्ष्य, चुनें दिल की विफलता है.
  4. चुनें पूर्वावलोकन.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
    विश्लेषण के आधार पर, hr एक लक्ष्य रिसाव है। हम इसे अगले चरण में छोड़ देंगे। age एक लक्ष्य रिसाव चिह्नित किया गया है। यह कहना उचित है कि अनुमान के समय रोगी की आयु उपलब्ध होगी, इसलिए हम आयु को एक विशेषता के रूप में रखते हैं। Systolic और diastolic संभावित लक्ष्य रिसाव के रूप में भी चिह्नित किया गया है। हम अनुमान के समय के दौरान दो मापों की अपेक्षा करते हैं, इसलिए हम उन्हें सुविधाओं के रूप में रखते हैं।
  5. चुनें विश्लेषण जोड़ने के लिए।

फिर, हम फीचर सहसंबंध को देखते हैं। हम उन विशेषताओं का चयन करना चाहते हैं जो लक्ष्य से संबंधित हैं लेकिन आपस में असंबंधित हैं।

  1. पर विश्लेषण टैबके लिए, विश्लेषण प्रकारचुनें फ़ीचर सहसंबंध.
  2. के लिए Correlation Typeचुनें रैखिक.
  3. चुनें पूर्वावलोकन.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.

गुणांक अंक निम्नलिखित युग्मों के बीच मजबूत सहसम्बन्ध दर्शाते हैं:

  • systolic और diastolic
  • bmi और age
  • has_hypertension और has_heartfailure (लेबल)

उन विशेषताओं के लिए जो दृढ़ता से सहसंबद्ध हैं, मैट्रिसेस को उल्टा करना कम्प्यूटेशनल रूप से कठिन है, जिससे संख्यात्मक रूप से अस्थिर अनुमान हो सकते हैं। सहसंबंध को कम करने के लिए, हम केवल जोड़ी से एक को हटा सकते हैं। हम गिराते हैं diastolic और bmi और रखना systolic और age बाद के चरण में।

डायस्टोलिक और बीएमआई कॉलम ड्रॉप करें

ड्रॉप करने के लिए अतिरिक्त रूपांतरण चरण जोड़ें hr, diastolic और bmi बिल्ट-इन ट्रांसफॉर्म का उपयोग करके कॉलम।

डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट तैयार करें

एडब्ल्यूएस हाल ही में की घोषणा डेटा रैंगलर में नई डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट सुविधा। यह रिपोर्ट स्वचालित रूप से डेटा गुणवत्ता की पुष्टि करती है और आपके डेटा में असामान्यताओं का पता लगाती है। डेटा वैज्ञानिक और डेटा इंजीनियर एमएल मॉडल प्रशिक्षण के लिए डेटासेट को संसाधित करने के लिए डोमेन ज्ञान को कुशलतापूर्वक और जल्दी से लागू करने के लिए इस उपकरण का उपयोग कर सकते हैं। यह चरण वैकल्पिक है। इस रिपोर्ट को हमारे डेटासेट पर जनरेट करने के लिए, निम्नलिखित चरणों को पूरा करें:

  1. पर विश्लेषण टैब, के लिए विश्लेषण प्रकार, चुनें डेटा गुणवत्ता और अंतर्दृष्टि रिपोर्ट.
  2. के लिए लक्ष्य स्तंभ, चुनें दिल की विफलता है.
  3. के लिए समस्या प्रकार, चुनते हैं वर्गीकरण.
  4. चुनें बनाएं.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.

कुछ ही मिनटों में, यह एक सारांश, दृश्य और अनुशंसाओं के साथ एक रिपोर्ट तैयार करता है।

एक त्वरित मॉडल विश्लेषण उत्पन्न करें

हमने अपनी डेटा तैयारी, सफाई और फीचर इंजीनियरिंग पूरी कर ली है। डेटा रैंगलर में एक अंतर्निहित फ़ंक्शन है जो हमारे डेटासेट में अपेक्षित अनुमानित गुणवत्ता और सुविधाओं की भविष्य कहनेवाला शक्ति का एक मोटा अनुमान प्रदान करता है।

  1. पर विश्लेषण टैब, के लिए विश्लेषण प्रकारचुनें त्वरित मॉडल.
  2. के लिए लेबल, चुनें दिल की विफलता है.
  3. चुनें पूर्वावलोकन.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.

हमारे त्वरित मॉडल विश्लेषण के अनुसार, हम सुविधा देख सकते हैं has_hypertension सभी सुविधाओं के बीच उच्चतम विशेषता महत्व स्कोर है।

डेटा निर्यात करें और मॉडल को प्रशिक्षित करें

अब रूपांतरित एमएल-तैयार सुविधाओं को गंतव्य S3 बकेट में निर्यात करते हैं और एक वितरित फैशन में पूरे डेटासेट में नमूनों का उपयोग करके अब तक बनाई गई संपूर्ण फीचर इंजीनियरिंग पाइपलाइन को स्केल करते हैं।

  1. डेटा प्रवाह में अंतिम बॉक्स के आगे धन चिह्न चुनें और चुनें गंतव्य जोड़ें.
  2. चुनें अमेज़न S3.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  3. एक प्रवेश दातासेट नाम. के लिए अमेज़न S3 स्थान, एक S3 बकेट चुनें, फिर चुनें गंतव्य जोड़ें.
  4. चुनें नौकरी पैदा करो एक वितरित PySpark प्रसंस्करण कार्य शुरू करने के लिए परिवर्तन और डेटा को गंतव्य S3 बाल्टी में आउटपुट करने के लिए।
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
    डेटासेट के आकार के आधार पर, यह विकल्प हमें आसानी से क्लस्टर और क्षैतिज पैमाने को नो-कोड फैशन में कॉन्फ़िगर करने देता है। हमें डेटासेट के विभाजन या क्लस्टर और स्पार्क इंटर्नल के प्रबंधन के बारे में चिंता करने की ज़रूरत नहीं है। यह सब डेटा रैंगलर द्वारा स्वचालित रूप से हमारे लिए ध्यान रखा जाता है।
  5. बाएँ फलक पर, चुनें अगला, 2. कार्य कॉन्फ़िगर करें।
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  6. उसके बाद चुनो रन.
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.

वैकल्पिक रूप से, हम परिवर्तित आउटपुट को ज्यूपिटर नोटबुक के माध्यम से S3 में निर्यात भी कर सकते हैं। इस दृष्टिकोण के साथ, डेटा रैंगलर स्वचालित रूप से बड़े पूर्ण डेटासेट पर डेटा प्रवाह चरणों (एक नमूने का उपयोग करके बनाया गया) को लागू करने के लिए प्रसंस्करण कार्य को किक-ऑफ करने के लिए आवश्यक सभी कोड के साथ एक ज्यूपिटर नोटबुक बनाता है और रूपांतरित डेटासेट को सुविधाओं के रूप में उपयोग करता है- बाद में एक प्रशिक्षण नौकरी से बाहर। नोटबुक कोड को परिवर्तन के साथ या उसके बिना आसानी से चलाया जा सकता है। आइए अब डेटा रैंगलर के UI के माध्यम से इसे पूरा करने के चरणों के माध्यम से चलते हैं।

  1. डेटा प्रवाह में अंतिम चरण के आगे धन चिह्न चुनें और चुनें को निर्यात.
  2. चुनें अमेज़न S3 (जुपिटर नोटबुक के माध्यम से).
    अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  3. यह ज्यूपिटर नोटबुक के साथ स्वचालित रूप से एक नया टैब खोलता है।
  4. जुपिटर नोटबुक में, में सेल का पता लगाएं (वैकल्पिक) अगले चरण खंड और परिवर्तन run_optional_steps से False सेवा मेरे True.
    नोटबुक में सक्षम वैकल्पिक चरण निम्न कार्य करते हैं:
    • XGBoost का उपयोग करके मॉडल को प्रशिक्षित करें
      अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.
  5. नोटबुक के शीर्ष पर वापस जाएं और रन मेनू, चुनें सभी सेल चलाएं.

यदि आप जेनरेट की गई नोटबुक का उपयोग इस रूप में करते हैं, तो यह एक सेजमेकर प्रोसेसिंग जॉब लॉन्च करता है जो S5.4 बकेट पर पूरे डेटासेट को प्रोसेस करने के लिए दो m3xlarge इंस्टेंसेस में प्रोसेसिंग को स्केल करता है। आप कार्य को पूरा करने के लिए आवश्यक डेटासेट आकार और समय के आधार पर उदाहरणों की संख्या और आवृत्ति प्रकारों को समायोजित कर सकते हैं।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.

अंतिम सेल से प्रशिक्षण कार्य पूरा होने तक प्रतीक्षा करें। यह SageMaker डिफ़ॉल्ट S3 बाल्टी में एक मॉडल उत्पन्न करता है।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.

प्रशिक्षित मॉडल वास्तविक समय के अनुमान या बैच परिवर्तन के लिए तैनाती के लिए तैयार है। ध्यान दें कि हमने डेटा रैंगलर में कार्यात्मकता प्रदर्शित करने के लिए सिंथेटिक डेटा का उपयोग किया और प्रशिक्षण मॉडल के लिए संसाधित डेटा का उपयोग किया। यह देखते हुए कि हमारे द्वारा उपयोग किया गया डेटा सिंथेटिक है, प्रशिक्षित मॉडल से निष्कर्ष परिणाम वास्तविक दुनिया की चिकित्सा स्थिति निदान या चिकित्सा चिकित्सकों से निर्णय के प्रतिस्थापन के लिए नहीं है।

आप चुनकर अपने रूपांतरित डेटासेट को सीधे Amazon S3 में निर्यात कर सकते हैं निर्यात रूपांतरण पूर्वावलोकन पृष्ठ के शीर्ष पर। प्रत्यक्ष निर्यात विकल्प केवल रूपांतरित नमूने को निर्यात करता है यदि आयात के दौरान नमूनाकरण सक्षम किया गया था। यदि आप छोटे डेटासेट के साथ काम कर रहे हैं तो यह विकल्प सबसे उपयुक्त है। रूपांतरित डेटा को सीधे फीचर स्टोर में भी डाला जा सकता है। अधिक जानकारी के लिए देखें अमेज़न SageMaker फ़ीचर स्टोर. डेटा प्रवाह को सेजमेकर पाइपलाइन के रूप में भी निर्यात किया जा सकता है जिसे आपकी आवश्यकताओं के अनुसार व्यवस्थित और शेड्यूल किया जा सकता है। अधिक जानकारी के लिए देखें अमेज़न SageMaker पाइपलाइन.

निष्कर्ष

इस पोस्ट में, हमने दिखाया कि हेल्थकेयर डेटा को संसाधित करने के लिए डेटा रैंगलर का उपयोग कैसे करें और टूल-संचालित, कम-कोड फैशन में स्केलेबल फीचर इंजीनियरिंग का प्रदर्शन करें। हमने सीखा कि बिल्ट-इन ट्रांसफॉर्मेशन को कैसे लागू किया जाए और जहां भी जरूरत हो, उसका विश्लेषण करें, इसे कस्टम ट्रांसफॉर्मेशन के साथ जोड़कर अपने डेटा तैयारी वर्कफ़्लो में और भी अधिक लचीलापन जोड़ें। हम वितरित प्रसंस्करण नौकरियों के माध्यम से डेटा प्रवाह नुस्खा को बढ़ाने के लिए विभिन्न विकल्पों के माध्यम से भी चले गए। हमने यह भी सीखा कि कैसे परिवर्तित डेटा का उपयोग हृदय गति रुकने की भविष्यवाणी करने के लिए एक मॉडल को प्रशिक्षित करने के लिए आसानी से किया जा सकता है।

डेटा रैंगलर में कई अन्य विशेषताएं हैं जिन्हें हमने इस पोस्ट में शामिल नहीं किया है। अन्वेषण करें कि क्या संभव है अमेज़ॅन सेजमेकर डेटा रैंगलर के साथ एमएल डेटा तैयार करें और अपने अगले डेटा साइंस या मशीन लर्निंग प्रोजेक्ट के लिए डेटा रैंगलर का लाभ उठाना सीखें।


लेखक के बारे में

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.फॉरेस्ट सन टोरंटो, कनाडा में एडब्ल्यूएस पब्लिक सेक्टर टीम के साथ एक वरिष्ठ समाधान वास्तुकार है। उन्होंने पिछले दो दशकों से स्वास्थ्य सेवा और वित्त उद्योगों में काम किया है। काम के बाहर, वह अपने परिवार के साथ कैंपिंग का आनंद लेते हैं।

अमेज़ॅन सेजमेकर डेटा रैंगलर प्लेटोब्लॉकचैन डेटा इंटेलिजेंस के साथ स्वास्थ्य और जीवन विज्ञान के लिए बड़े पैमाने पर इंजीनियरिंग की सुविधा। लंबवत खोज। ऐ.अरुणाप्रसथ शंकर AWS के साथ आर्टिफिशियल इंटेलिजेंस एंड मशीन लर्निंग (AI / ML) स्पेशलिस्ट सॉल्यूशन आर्किटेक्ट है, जो वैश्विक ग्राहकों को क्लाउड में प्रभावी ढंग से और कुशलता से अपने AI समाधानों को स्केल करने में मदद करता है। अपने खाली समय में, अरुण को विज्ञान-फाई फिल्में देखने और शास्त्रीय संगीत सुनने का आनंद मिलता है।

समय टिकट:

से अधिक AWS मशीन लर्निंग