Feature Engineering At Scale For Healthcare And Life Sciences With Amazon SageMaker Data Wrangler

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

মেশিন লার্নিং (এমএল) অভূতপূর্ব গতিতে অনেক শিল্পকে ব্যাহত করছে। স্বাস্থ্যসেবা এবং জীবন বিজ্ঞান (HCLS) শিল্প সাম্প্রতিক বছরগুলিতে একটি দ্রুত বিবর্তনের মধ্য দিয়ে যাচ্ছে যা উচ্চমানের যত্ন প্রদান এবং রোগীর ফলাফলের উন্নতির জন্য বহুবিধ ব্যবহারের ক্ষেত্রে এমএলকে আলিঙ্গন করে।

একটি সাধারণ এমএল জীবনচক্রে, ডেটা ইঞ্জিনিয়ার এবং বিজ্ঞানীরা মডেল তৈরি এবং প্রশিক্ষণের প্রক্রিয়া শুরু করার আগে ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশল পদক্ষেপগুলিতে তাদের বেশিরভাগ সময় ব্যয় করে। এমন একটি সরঞ্জাম থাকা যা ডেটা প্রস্তুতির জন্য প্রবেশের বাধা কমাতে পারে, যার ফলে উত্পাদনশীলতা উন্নত হয়, এই ব্যক্তিদের জন্য একটি অত্যন্ত আকাঙ্খিত চাওয়া। অ্যামাজন সেজমেকার ডেটা র্যাংলার শেখার বক্ররেখা কমাতে এবং ডেটা অনুশীলনকারীদের কম পরিশ্রম এবং সময়ে ডেটা প্রস্তুতি, পরিষ্কার এবং বৈশিষ্ট্য ইঞ্জিনিয়ারিং কাজগুলি সম্পন্ন করতে সক্ষম করার জন্য AWS দ্বারা নির্মিত উদ্দেশ্য। এটি অনেকগুলি অন্তর্নির্মিত ফাংশন এবং অন্যান্য AWS পরিষেবাগুলির সাথে একীকরণ সহ একটি GUI ইন্টারফেস অফার করে যেমন আমাজন সিম্পল স্টোরেজ সার্ভিস (অ্যামাজন এস 3) এবং আমাজন সেজমেকার ফিচার স্টোর, পাশাপাশি Snowflake এবং Databricks সহ অংশীদার ডেটা উত্সগুলি৷

এই পোস্টে, রোগীর জনসংখ্যা, পূর্বের চিকিৎসা পরিস্থিতি এবং ল্যাব টেস্টের ফলাফলের ইতিহাসের ভিত্তিতে হৃদযন্ত্রের ব্যর্থতার পূর্বাভাস দেওয়ার জন্য একটি মডেলকে প্রশিক্ষণের জন্য স্বাস্থ্যসেবা ডেটা প্রস্তুত করতে ডেটা র্যাংলারকে কীভাবে ব্যবহার করতে হয় তা আমরা প্রদর্শন করি।

সমাধান ওভারভিউ

সমাধান নিম্নলিখিত পদক্ষেপ নিয়ে গঠিত:

ডেটা র্যাংলারের ইনপুট হিসাবে একটি স্বাস্থ্যসেবা ডেটাসেট অর্জন করুন।
ডেটাসেট রূপান্তর করতে ডেটা র্যাংলারের অন্তর্নির্মিত রূপান্তর ফাংশন ব্যবহার করুন। এর মধ্যে রয়েছে ড্রপ কলাম, ডেটা/টাইম ফিচারাইজ করা, ডেটাসেটে যোগ দেওয়া, অনুপস্থিত মানগুলিকে অভিযুক্ত করা, শ্রেণীগত ভেরিয়েবলগুলিকে এনকোড করা, সংখ্যাসূচক মানগুলি স্কেল করা, ডেটাসেটের ভারসাম্য বজায় রাখা এবং আরও অনেক কিছু।
বিল্ট-ইন ট্রান্সফরমেশনের বাইরে প্রয়োজনীয় অতিরিক্ত ট্রান্সফর্মেশনের পরিপূরক করতে ডেটা র‍্যাংলারের কাস্টম ট্রান্সফর্ম ফাংশন (পান্ডাস বা পাইস্পার্ক কোড) ব্যবহার করুন এবং ডেটা র‍্যাংলারের এক্সটেনসিবিলিটি প্রদর্শন করুন। এর মধ্যে রয়েছে ফিল্টার সারি, গ্রুপ ডেটা, শর্তের উপর ভিত্তি করে নতুন ডেটাফ্রেম তৈরি করা এবং আরও অনেক কিছু।
ভিজ্যুয়াল বিশ্লেষণ করতে ডেটা র্যাংলারের অন্তর্নির্মিত ভিজ্যুয়ালাইজেশন ফাংশন ব্যবহার করুন। এর মধ্যে রয়েছে লক্ষ্য ফাঁস, বৈশিষ্ট্যের সম্পর্ক, দ্রুত মডেল এবং আরও অনেক কিছু।
Amazon S3 এ রূপান্তরিত ডেটাসেট রপ্তানি করতে ডেটা র্যাংলারের অন্তর্নির্মিত এক্সপোর্ট বিকল্পগুলি ব্যবহার করুন৷
একটি মডেলকে প্রশিক্ষণের জন্য ইনপুট হিসাবে Amazon S3-এ রূপান্তরিত ডেটাসেট ব্যবহার করতে একটি Jupyter নোটবুক চালু করুন৷

একটি ডেটাসেট তৈরি করুন

এখন যেহেতু আমরা ML সমস্যা বিবৃতিতে মীমাংসা করেছি, আমরা প্রথমে আমাদের প্রয়োজনীয় ডেটা অর্জনের দিকে নজর রাখি। গবেষণা অধ্যয়ন যেমন হার্ট ফেইলার পূর্বাভাস ইতিমধ্যেই ভালো অবস্থায় আছে এমন ডেটা প্রদান করতে পারে। যাইহোক, আমরা প্রায়শই এমন পরিস্থিতির সম্মুখীন হই যেখানে ডেটা বেশ অগোছালো এবং এমএল প্রশিক্ষণের জন্য ব্যবহার করার আগে যোগদান, পরিষ্কার করা এবং অন্যান্য বেশ কিছু রূপান্তর প্রয়োজন যা স্বাস্থ্যসেবা ডোমেনের জন্য খুব নির্দিষ্ট। আমরা যথেষ্ট অগোছালো ডেটা খুঁজে পেতে বা জেনারেট করতে চাই এবং ডেটা র্যাংলার ব্যবহার করে এটি প্রস্তুত করার ধাপগুলি আপনাকে নিয়ে যেতে চাই৷ এটি মাথায় রেখে, আমরা আমাদের লক্ষ্যের সাথে মানানসই সিন্থেটিক ডেটা তৈরি করার জন্য সিন্থিয়াকে একটি টুল হিসাবে বেছে নিয়েছি। সিন্থিয়া একটি ওপেন সোর্স সিন্থেটিক পেশেন্ট জেনারেটর যা সিন্থেটিক রোগীদের চিকিৎসা ইতিহাসকে মডেল করে। আপনার ডেটাসেট তৈরি করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

অনুযায়ী নির্দেশাবলী অনুসরণ করুন দ্রুত শুরু একটি তৈরি করার জন্য ডকুমেন্টেশন অ্যামাজন সেজমেকার স্টুডিও ডোমেন এবং স্টুডিও চালু করুন।
এটি একটি পূর্বশর্ত পদক্ষেপ। স্টুডিও ইতিমধ্যে আপনার অ্যাকাউন্টে সেট আপ করা থাকলে এটি ঐচ্ছিক।
স্টুডিও চালু হওয়ার পর, লঞ্চার ট্যাব, চয়ন করুন সিস্টেম টার্মিনাল.
এটি একটি টার্মিনাল সেশন চালু করে যা আপনাকে কাজ করার জন্য একটি কমান্ড লাইন ইন্টারফেস দেয়।

Synthea ইনস্টল করতে এবং CSV ফরম্যাটে ডেটাসেট তৈরি করতে, চালু হওয়া টার্মিনাল সেশনে নিম্নলিখিত কমান্ডগুলি চালান:

$ sudo yum install -y java-1.8.0-openjdk-devel
$ export JAVA_HOME=/usr/lib/jvm/jre-1.8.0-openjdk.x86_64
$ export PATH=$JAVA_HOME/bin:$PATH
$ git clone https://github.com/synthetichealth/synthea
$ git checkout v3.0.0
$ cd synthea
$ ./run_synthea --exporter.csv.export=true -p 10000

আমরা 10,000 জনসংখ্যার আকার সহ ডেটাসেট তৈরি করার জন্য একটি প্যারামিটার সরবরাহ করি। মনে রাখবেন আকারের প্যারামিটারটি জনসংখ্যার জীবিত সদস্যের সংখ্যা নির্দেশ করে। উপরন্তু, সিন্থিয়া জনসংখ্যার মৃত সদস্যদের জন্য ডেটাও তৈরি করে যা নির্দিষ্ট নমুনার আকারের উপরে কয়েকটি অতিরিক্ত ডেটা পয়েন্ট যোগ করতে পারে।

ডেটা জেনারেশন সম্পূর্ণ না হওয়া পর্যন্ত অপেক্ষা করুন। এই পদক্ষেপটি সাধারণত প্রায় এক ঘন্টা বা তার কম সময় নেয়। সিন্থিয়া সহ একাধিক ডেটাসেট তৈরি করে patients, medications, allergies, conditions, এবং আরো এই পোস্টের জন্য, আমরা তিনটি ফলিত ডেটাসেট ব্যবহার করি:

রোগীদের.সিএসভি - এই ডেটাসেটটি প্রায় 3.2 MB এবং এতে রোগীর ডেটার প্রায় 11,000 সারি রয়েছে (রোগীর আইডি, জন্মতারিখ, লিঙ্গ, ঠিকানা এবং আরও অনেক কিছু সহ 25টি কলাম)
condition.csv - এই ডেটাসেটটি প্রায় 47 এমবি এবং এতে প্রায় 370,000 সারি চিকিৎসা অবস্থার ডেটা রয়েছে (রোগীর আইডি, শর্ত শুরুর তারিখ, শর্ত কোড এবং আরও অনেক কিছু সহ ছয়টি কলাম)
observations.csv - এই ডেটাসেটটি প্রায় 830 MB এবং এতে প্রায় 5 মিলিয়ন সারি পর্যবেক্ষণ ডেটা রয়েছে (রোগীর আইডি, পর্যবেক্ষণের তারিখ, পর্যবেক্ষণ কোড, মান এবং আরও অনেক কিছু সহ আটটি কলাম)

মধ্যে একটি এক থেকে বহু সম্পর্ক আছে patients এবং conditions ডেটাসেট এর মধ্যেও এক থেকে বহু সম্পর্ক রয়েছে patients এবং observations ডেটাসেট একটি বিস্তারিত ডেটা অভিধানের জন্য, পড়ুন CSV ফাইল ডেটা অভিধান.

Amazon S3-এ একটি সোর্স বাকেটে জেনারেট করা ডেটাসেটগুলি আপলোড করতে, টার্মিনাল সেশনে নিম্নলিখিত কমান্ডগুলি চালান:
```
$ cd ./output/csv
$ aws s3 sync . s3://<source bucket name>/
```

ডেটা র্যাংলার চালু করুন

বেছে নিন সেজমেকার সম্পদ স্টুডিওতে নেভিগেশন পৃষ্ঠায় এবং প্রকল্প মেনু, নির্বাচন করুন ডেটা র‍্যাংলার একটি ডেটা র্যাংলার ডেটা ফ্লো তৈরি করতে। স্টুডিওর মধ্যে থেকে ডেটা র‍্যাংলার কীভাবে চালু করবেন তা বিস্তারিত পদক্ষেপের জন্য দেখুন ডেটা র্যাংলার দিয়ে শুরু করুন.

তথ্য আমদানি

আপনার ডেটা আমদানি করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

বেছে নিন আমাজন S3 এবং S3 বালতি রোগীদের.csv ফাইলটি সনাক্ত করুন।
মধ্যে বিস্তারিত ফলক, চয়ন করুন প্রথম কে উন্নত আদর্শ.
প্রবেশ করান 1100 উন্নত সাধারন মাপ.
প্রিভিউ প্যানে, ডেটা র‍্যাংলার ডেটাসেট থেকে প্রথম 100টি সারি টেনে নেয় এবং সেগুলিকে একটি প্রিভিউ হিসাবে তালিকাভুক্ত করে।
বেছে নিন আমদানি.
ডেটা র‍্যাংলার সিন্থিয়া দ্বারা উত্পন্ন মোট রোগী (1,100 সারি) থেকে প্রথম 11,000 রোগীকে নির্বাচন করে এবং ডেটা আমদানি করে। নমুনা পদ্ধতি ডেটা র্যাংলারকে শুধুমাত্র নমুনা ডেটা প্রক্রিয়া করতে দেয়। এটি আমাদের একটি ছোট ডেটাসেটের সাথে আমাদের ডেটা প্রবাহ বিকাশ করতে সক্ষম করে, যার ফলে দ্রুত প্রক্রিয়াকরণ এবং একটি ছোট প্রতিক্রিয়া লুপ হয়। আমরা ডেটা ফ্লো তৈরি করার পরে, আমরা একটি বিকশিত রেসিপি জমা দিতে পারি সেজমেকার প্রক্রিয়াকরণ একটি বিতরণ করা ফ্যাশনে সম্পূর্ণ বা বড় ডেটাসেটের জন্য অনুভূমিকভাবে প্রসেসিং স্কেল করার কাজ।
জন্য এই প্রক্রিয়া পুনরাবৃত্তি করুন conditions এবং observations ডেটাসেট
1. জন্য conditions ডেটাসেট, এন্টার করুন 37000 উন্নত সাধারন মাপ, যা Synthea দ্বারা উত্পন্ন মোট 1 সারির 10/370,000।
2. জন্য observations ডেটাসেট, এন্টার করুন 500000 উন্নত সাধারন মাপ, যা মোট পর্যবেক্ষণের 1/10 5 মিলিয়ন সারি সিন্থিয়া দ্বারা উত্পন্ন।

নিম্নলিখিত স্ক্রিনশটে দেখানো হিসাবে আপনি তিনটি ডেটাসেট দেখতে পাবেন।

তথ্য রূপান্তর

ডেটা ট্রান্সফরমেশন হল ডেটাসেটের এক বা একাধিক কলামের গঠন, মান বা বিন্যাস পরিবর্তন করার প্রক্রিয়া। প্রক্রিয়াটি সাধারণত একজন ডেটা প্রকৌশলী দ্বারা তৈরি করা হয় এবং রূপান্তরের জন্য প্রস্তাবিত যুক্তির পাঠোদ্ধার করার জন্য একটি ছোট ডেটা ইঞ্জিনিয়ারিং দক্ষতা সম্পন্ন লোকেদের জন্য এটি চ্যালেঞ্জিং হতে পারে। ডেটা ট্রান্সফরমেশন হল বৃহত্তর বৈশিষ্ট্য ইঞ্জিনিয়ারিং প্রক্রিয়ার অংশ, এবং এই ধরনের রেসিপি তৈরি করার সময় ধাপগুলির সঠিক ক্রমটি মনে রাখা আরেকটি গুরুত্বপূর্ণ মানদণ্ড।

ডেটা র‍্যাংলার কার্যকরী ডেটা প্রস্তুতির জন্য প্রবেশের বাধা কমাতে একটি কম-কোড সরঞ্জাম হিসাবে ডিজাইন করা হয়েছে। এটি 300 টিরও বেশি প্রি-কনফিগার করা ডেটা ট্রান্সফরমেশনের সাথে আসে যা আপনার জন্য কোডের একটি লাইন না লিখেই বেছে নিতে পারে। নিম্নলিখিত বিভাগগুলিতে, আমরা ডেটা র্যাংলারে আমদানি করা ডেটাসেটগুলিকে কীভাবে রূপান্তর করতে হয় তা দেখি।

রোগীদের মধ্যে কলাম ড্রপ করুন

আমরা প্রথমে কিছু কলাম থেকে ড্রপ patients ডেটাসেট অপ্রয়োজনীয় কলামগুলি ড্রপ করা ডেটাসেট থেকে অ-প্রাসঙ্গিক তথ্য সরিয়ে দেয় এবং ডেটাসেট প্রক্রিয়া করতে এবং একটি মডেলকে প্রশিক্ষণের জন্য প্রয়োজনীয় কম্পিউটিং সংস্থানগুলির পরিমাণ কমাতে সাহায্য করে। এই বিভাগে, আমরা সাধারণ জ্ঞানের উপর ভিত্তি করে SSN বা পাসপোর্ট নম্বরের মতো কলামগুলি ফেলে দিই যে এই কলামগুলির কোনও ভবিষ্যদ্বাণীমূলক মান নেই। অন্য কথায়, তারা আমাদের মডেলকে হার্টের ব্যর্থতার পূর্বাভাস দিতে সাহায্য করে না। আমাদের অধ্যয়ন অন্যান্য কলাম যেমন জন্মস্থান বা স্বাস্থ্যসেবা ব্যয় রোগীর হার্ট ফেইলিউরের প্রভাব সম্পর্কে উদ্বিগ্ন নয়, তাই আমরা সেগুলিও বাদ দিই। অপ্রয়োজনীয় কলামগুলিকে বিল্ট-ইন বিশ্লেষণগুলি যেমন টার্গেট লিকেজ, ফিচার পারস্পরিক সম্পর্ক, মাল্টিকলিনিয়ারিটি এবং আরও অনেক কিছু চালিয়ে চিহ্নিত করা যেতে পারে, যা ডেটা র্যাংলারে তৈরি করা হয়েছে। সমর্থিত বিশ্লেষণের ধরন সম্পর্কে আরও বিস্তারিত জানার জন্য, পড়ুন বিশ্লেষণ করুন এবং কল্পনা করুন. উপরন্তু, আপনি ব্যবহার করতে পারেন ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট অপসারণের জন্য অপ্রয়োজনীয় কলামগুলির একটি তালিকায় পৌঁছানোর জন্য ডেটাসেটগুলিতে স্বয়ংক্রিয় বিশ্লেষণ করতে।

পাশের প্লাস চিহ্নটি বেছে নিন তথ্যের ধরণ রোগীদের জন্য. সিএসভি ডেটাসেট এবং বেছে নিন রূপান্তর যোগ করুন.
বেছে নিন ধাপ যোগ করুন এবং নির্বাচন করুন কলাম পরিচালনা করুন.
জন্য রুপান্তরপছন্দ করা কলাম ড্রপ করুন.
জন্য কলাম ড্রপ, নিম্নলিখিত কলাম নির্বাচন করুন:
1. SSN
2. DRIVERS
3. PASSPORT
4. PREFIX
5. FIRST
6. LAST
7. SUFFIX
8. MAIDEN
9. RACE
10. ETHNICITY
11. BIRTHPLACE
12. ADDRESS
13. CITY
14. STATE
15. COUNTY
16. ZIP
17. LAT
18. LON
19. HEALTHCARE_EXPENSES
20. HEALTHCARE_COVERAGE
বেছে নিন প্রি রূপান্তরিত ডেটাসেট পর্যালোচনা করতে, তারপর বেছে নিন বিজ্ঞাপন.

আপনি পদক্ষেপ দেখতে হবে কলাম ড্রপ করুন আপনার রূপান্তরের তালিকায়।

Patient.csv-এ তারিখ/সময় ফিচার করুন

এখন আমরা নতুন বৈশিষ্ট্য তৈরি করতে তারিখ/সময় বৈশিষ্ট্য ব্যবহার করি Year থেকে BIRTHDATE মধ্যে কলাম patients ডেটাসেট পর্যবেক্ষণের সময় রোগীর বয়স গণনা করার জন্য পরবর্তী ধাপে আমরা নতুন বৈশিষ্ট্যটি ব্যবহার করি।

মধ্যে বদলে দেয় আপনার ফলক কলাম ড্রপ করুন জন্য পৃষ্ঠা patients ডেটাসেট, নির্বাচন করুন ধাপ যোগ করুন.
পছন্দ তারিখ/সময় বৈশিষ্ট্যযুক্ত করুন রূপান্তর
বেছে নিন কলাম বের করুন.
জন্য ইনপুট কলাম, কলাম যোগ করুন BIRTHDATE.
নির্বাচন করা বছর এবং নির্বাচন মুক্ত করুন মাস, দিন, ঘন্টা, মিনিট, দ্বিতীয়।
বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.

observations.csv-এ রূপান্তর যোগ করুন

ডেটা র‍্যাংলার পাইথন (ব্যবহারকারী-সংজ্ঞায়িত ফাংশন), পাইস্পার্ক, পান্ডাস বা পাইস্পার্ক (এসকিউএল) ব্যবহার করে কাস্টম রূপান্তর সমর্থন করে। প্রতিটি বিকল্প এবং পছন্দের সাথে আপনার পরিচিতির উপর ভিত্তি করে আপনি আপনার রূপান্তরের ধরন বেছে নিতে পারেন। পরবর্তী তিনটি বিকল্পের জন্য, ডেটা র‍্যাংলার ভেরিয়েবলটি প্রকাশ করে df আপনি ডেটাফ্রেম অ্যাক্সেস করতে এবং এতে রূপান্তর প্রয়োগ করতে পারেন। একটি বিস্তারিত ব্যাখ্যা এবং উদাহরণের জন্য, পড়ুন কাস্টম রূপান্তর. এই বিভাগে, আমরা তিনটি কাস্টম রূপান্তর যোগ করুন observations ডেটাসেট

observations.csv-এ একটি রূপান্তর যোগ করুন এবং ড্রপ করুন DESCRIPTION কলাম।
বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
মধ্যে বদলে দেয় ফলক, চয়ন করুন ধাপ যোগ করুন এবং নির্বাচন করুন কাস্টম রূপান্তর.
ড্রপ-ডাউন মেনুতে, চয়ন করুন পাইথন (পান্ডাস).
নিম্নলিখিত কোড লিখুন:
```
df = df[df["CODE"].isin(['8867-4','8480-6','8462-4','39156-5','777-3'])]
```
এইগুলি হল LONIC কোড যা নিম্নলিখিত পর্যবেক্ষণগুলির সাথে মিলে যায় যা আমরা হৃদযন্ত্রের ব্যর্থতার পূর্বাভাস দেওয়ার বৈশিষ্ট্য হিসাবে ব্যবহার করতে আগ্রহী:
```
heart rate: 8867-4
systolic blood pressure: 8480-6
diastolic blood pressure: 8462-4
body mass index (BMI): 39156-5
platelets [#/volume] in Blood: 777-3
```
বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
নিষ্কাশন করতে একটি রূপান্তর যোগ করুন Year এবং Quarter থেকে DATE কলাম।
বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
বেছে নিন ধাপ যোগ করুন এবং নির্বাচন করুন কাস্টম রূপান্তর.
ড্রপ-ডাউন মেনুতে, চয়ন করুন পাইথন (PySpark).

পাঁচ ধরনের পর্যবেক্ষণ সবসময় একই তারিখে রেকর্ড করা যাবে না। উদাহরণস্বরূপ, একজন রোগী 21 জানুয়ারি তাদের পারিবারিক ডাক্তারের কাছে যেতে পারেন এবং তাদের সিস্টোলিক রক্তচাপ, ডায়াস্টোলিক রক্তচাপ, হার্ট রেট এবং বডি মাস ইনডেক্স পরিমাপ এবং রেকর্ড করতে পারেন। যাইহোক, প্লেটলেট সমেত একটি ল্যাব পরীক্ষা পরবর্তী তারিখে 2 ফেব্রুয়ারি করা যেতে পারে। তাই, পর্যবেক্ষণের তারিখের মধ্যে ডেটাফ্রেমে যোগ দেওয়া সবসময় সম্ভব নয়। এখানে আমরা ত্রৈমাসিক ভিত্তিতে একটি মোটা দানাদারিতে ডেটাফ্রেমে যোগদান করি।

নিম্নলিখিত কোড লিখুন:

from pyspark.sql.functions import col

systolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed("value", "systolic")
                   .filter((col("code") == "8480-6"))
  )

diastolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'diastolic')
                   .filter((col("code") == "8462-4"))
    )

hr_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'hr')
                   .filter((col("code") == "8867-4"))
    )

bmi_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'bmi')
                   .filter((col("code") == "39156-5"))
    )

platelets_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'platelets')
                   .filter((col("code") == "777-3"))
    )

df = (
    systolic_df.join(diastolic_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(hr_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(bmi_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(platelets_df, ["patient", "DATE_year", "DATE_quarter"])
)

বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
বেছে নিন ধাপ যোগ করুন, তাহলে বেছে নাও সারি পরিচালনা করুন.
জন্য রুপান্তরনির্বাচন ডুপ্লিকেট বাদ দিন.
বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
বেছে নিন ধাপ যোগ করুন এবং নির্বাচন করুন কাস্টম রূপান্তর.
ড্রপ-ডাউন মেনুতে, চয়ন করুন পাইথন (পান্ডাস).
একই সময়ের মান ভাগ করে এমন একটি গড় ডেটা পয়েন্ট নিতে নিম্নলিখিত কোডটি লিখুন:
```
import pandas as pd
df.loc[:, df.columns != 'patient']=df.loc[:, df.columns != 'patient'].apply(pd.to_numeric)
df = df.groupby(['patient','DATE_year','DATE_quarter']).mean().round(0).reset_index()
```
বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.

রোগীদের.csv এবং observations.csv-এ যোগ দিন

এই ধাপে, আমরা ডেটা র‍্যাংলারের শক্তিশালী UI-এর মাধ্যমে কোনো কোড না লিখে কীভাবে কার্যকরভাবে এবং সহজে ডেটাসেটে জটিল যোগদান করতে পারি তা দেখাই। সমর্থিত ধরনের যোগদান সম্পর্কে আরও জানতে, পড়ুন তথ্য রূপান্তর.

ডানদিকে রূপান্তর: রোগী, পাশের প্লাস চিহ্নটি বেছে নিন প্রারম্ভিক ব্যবহারের নির্দেশাবলী এবং নির্বাচন করুন যোগদান.
আপনি নীচে তালিকাভুক্ত রূপান্তরিত রোগীদের.csv ফাইলটি দেখতে পারেন ডেটাসেট বাম পাশে
ডানদিকে রূপান্তর: observations.csv, ক্লিক করুন প্রারম্ভিক ব্যবহারের নির্দেশাবলী যোগদান কার্যক্রম শুরু করতে।
রূপান্তরিত observations.csv ফাইলটি এখন তালিকাভুক্ত করা হয়েছে ডেটাসেট বাম পাশে
বেছে নিন কনফিগার করুন.
জন্য যোগদানের ধরননির্বাচন ভিতরের.
জন্য বামনির্বাচন Id.
জন্য অধিকারনির্বাচন রোগী.
বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.

যোগ করা ডেটাসেটে একটি কাস্টম রূপান্তর যোগ করুন

এই ধাপে, আমরা পর্যবেক্ষণের সময় রোগীর বয়স গণনা করি। আমরা সেই কলামগুলিও ফেলে দিই যেগুলির আর প্রয়োজন নেই৷

পাশের প্লাস চিহ্নটি বেছে নিন ১ম যোগদান এবং নির্বাচন করুন রূপান্তর যোগ করুন.

পান্ডাসে একটি কাস্টম রূপান্তর যোগ করুন:

df['age'] = df['DATE_year'] - df['BIRTHDATE_year']
df = df.drop(columns=['BIRTHDATE','DEATHDATE','BIRTHDATE_year','patient'])

বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.

condition.csv-এ কাস্টম রূপান্তর যোগ করুন

পাশের প্লাস চিহ্নটি বেছে নিন রূপান্তর: condition.csv এবং নির্বাচন করুন রূপান্তর যোগ করুন.

পান্ডাসে একটি কাস্টম রূপান্তর যোগ করুন:

df = df[df["CODE"].isin(['84114007', '88805009', '59621000', '44054006', '53741008', '449868002', '49436004'])]
df = df.drop(columns=['DESCRIPTION','ENCOUNTER','STOP'])

বিঃদ্রঃ: যেমনটি আমরা আগে দেখিয়েছি, আপনি কাস্টম কোড ব্যবহার করে বা ডেটা র্যাংলার দ্বারা প্রদত্ত অন্তর্নির্মিত রূপান্তরগুলি ব্যবহার করে কলাম ড্রপ করতে পারেন। ডেটা র্যাংলারের মধ্যে কাস্টম রূপান্তরগুলি সমর্থিত ফ্রেমওয়ার্কগুলিতে কোড স্নিপেট আকারে আপনার নিজস্ব রূপান্তর যুক্তি আনতে নমনীয়তা প্রদান করে। এই স্নিপেটগুলি পরে অনুসন্ধান করা যেতে পারে এবং প্রয়োজনে প্রয়োগ করা যেতে পারে।

পূর্ববর্তী রূপান্তরের কোডগুলি হল SNOMED-CT কোড যা নিম্নলিখিত শর্তগুলির সাথে সঙ্গতিপূর্ণ৷ দ্য heart failure or chronic congestive heart failure শর্ত লেবেল হয়ে যায়। আমরা হৃদযন্ত্রের ব্যর্থতার পূর্বাভাসের জন্য বৈশিষ্ট্য হিসাবে অবশিষ্ট শর্তগুলি ব্যবহার করি। আমরা কিছু কলামও ফেলে দিই যেগুলোর আর প্রয়োজন নেই।

Heart failure: 84114007
Chronic congestive heart failure: 88805009
Hypertension: 59621000
Diabetes: 44054006
Coronary Heart Disease: 53741008
Smokes tobacco daily: 449868002
Atrial Fibrillation: 49436004

এর পরে, আসুন PySpark এ একটি কাস্টম রূপান্তর যোগ করি:

from pyspark.sql.functions import col, when

heartfailure_df = (
    df.select("patient", "start")
                      .withColumnRenamed("start", "heartfailure")
                   .filter((col("code") == "84114007") | (col("code") == "88805009"))
  )

hypertension_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "hypertension")
                   .filter((col("code") == "59621000"))
  )

diabetes_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "diabetes")
                   .filter((col("code") == "44054006"))
  )

coronary_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "coronary")
                   .filter((col("code") == "53741008"))
  )

smoke_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "smoke")
                   .filter((col("code") == "449868002"))
  )

atrial_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "atrial")
                   .filter((col("code") == "49436004"))
  )

df = (
    heartfailure_df.join(hypertension_df, ["patient"], "leftouter").withColumn("has_hypertension", when(col("hypertension") < col("heartfailure"), 1).otherwise(0))
    .join(diabetes_df, ["patient"], "leftouter").withColumn("has_diabetes", when(col("diabetes") < col("heartfailure"), 1).otherwise(0))
    .join(coronary_df, ["patient"], "leftouter").withColumn("has_coronary", when(col("coronary") < col("heartfailure"), 1).otherwise(0))
    .join(smoke_df, ["patient"], "leftouter").withColumn("has_smoke", when(col("smoke") < col("heartfailure"), 1).otherwise(0))
    .join(atrial_df, ["patient"], "leftouter").withColumn("has_atrial", when(col("atrial") < col("heartfailure"), 1).otherwise(0))
)

হার্ট ফেইলিওর ডেটাফ্রেমে সমস্ত এন্ট্রি রাখার জন্য আমরা একটি বাম বাইরের যোগদান করি। একটি নতুন কলাম has_xxx অবস্থার শুরুর তারিখের উপর ভিত্তি করে হৃদযন্ত্রের ব্যর্থতা ব্যতীত প্রতিটি অবস্থার জন্য গণনা করা হয়। আমরা কেবলমাত্র হৃদরোগের পূর্বে রেকর্ড করা মেডিকেল অবস্থার বিষয়ে আগ্রহী এবং হৃদযন্ত্রের ব্যর্থতার পূর্বাভাস দেওয়ার জন্য বৈশিষ্ট্য হিসাবে ব্যবহার করি।

একটি অন্তর্নির্মিত যোগ করুন কলাম পরিচালনা করুন আর প্রয়োজন নেই এমন অপ্রয়োজনীয় কলামগুলি ফেলে দিতে রূপান্তর করুন:
1. hypertension
2. diabetes
3. coronary
4. smoke
5. atrial
নির্যাস Year এবং Quarter থেকে heartfailure কলাম।
এর রূপান্তরে আমরা আগে যে গ্রানুলারিটি ব্যবহার করেছি তার সাথে এটি মেলে observations ডেটাসেট
condition.csv-এর জন্য আমাদের মোট 6টি ধাপ থাকতে হবে।

যোগদান করা ডেটাসেটে condition.csv-এ যোগ দিন

আমরা এখন যোগদানের শর্ত ডেটাসেটে যোগ দিতে একটি নতুন যোগদান করি patients এবং observations ডেটাসেট

বেছে নিন রূপান্তর: ১ম যোগদান.
প্লাস চিহ্নটি বেছে নিন এবং নির্বাচন করুন যোগদান.
বেছে নিন প্রারম্ভিক ব্যবহারের নির্দেশাবলী পরবর্তী রূপান্তর: condition.csv.
বেছে নিন কনফিগার করুন.
জন্য যোগদানের ধরননির্বাচন বাম বাইরের.
জন্য বামনির্বাচন Id.
জন্য অধিকারনির্বাচন রোগী.
বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.

যোগ করা ডেটাসেটে রূপান্তর যোগ করুন

এখন যেহেতু আমরা তিনটি ডেটাসেট যুক্ত করেছি, আসুন কিছু অতিরিক্ত রূপান্তর প্রয়োগ করি।

PySpark এ নিম্নলিখিত কাস্টম রূপান্তর যোগ করুন তাই has_heartfailure আমাদের লেবেল কলাম হয়ে ওঠে:
```
from pyspark.sql.functions import col, when
df = (
    df.withColumn("has_heartfailure", when(col("heartfailure").isNotNull(), 1).otherwise(0))
)
```
PySpark এ নিম্নলিখিত কাস্টম রূপান্তর যোগ করুন:
```
from pyspark.sql.functions import col

df = (
    df.filter(
      (col("has_heartfailure") == 0) | 
      ((col("has_heartfailure") == 1) & ((col("date_year") <= col("heartfailure_year")) | ((col("date_year") == col("heartfailure_year")) & (col("date_quarter") <= col("heartfailure_quarter")))))
    )
)
```
আমরা শুধুমাত্র হৃদযন্ত্রের ব্যর্থতার অবস্থা নির্ণয় করার আগে রেকর্ড করা পর্যবেক্ষণগুলিতে আগ্রহী এবং হার্টের ব্যর্থতার পূর্বাভাস দেওয়ার জন্য বৈশিষ্ট্য হিসাবে ব্যবহার করি। হৃদযন্ত্রের ব্যর্থতা নির্ণয় করার পরে নেওয়া পর্যবেক্ষণগুলি রোগীর ওষুধের দ্বারা প্রভাবিত হতে পারে, তাই আমরা সেইগুলিকে বাদ দিতে চাই।
অপ্রয়োজনীয় কলামগুলি ফেলে দিন যেগুলির আর প্রয়োজন নেই:
1. Id
2. DATE_year
3. DATE_quarter
4. patient
5. heartfailure
6. heartfailure_year
7. heartfailure_quarter
উপরে বিশ্লেষণ ট্যাব, জন্য বিশ্লেষণের ধরণপছন্দ করা সারণী সারাংশ.
সারাংশের মাধ্যমে একটি দ্রুত স্ক্যান দেখায় যে MARITAL কলামে ডেটা নেই।
পছন্দ উপাত্ত ট্যাব এবং একটি ধাপ যোগ করুন।
বেছে নিন হ্যান্ডেল অনুপস্থিত.
জন্য রুপান্তরনির্বাচন অনুপস্থিত পূরণ করুন.
জন্য ইনপুট কলামনির্বাচন বৈবাহিক.
জন্য মান পূরণ করুনপ্রবেশ করান S.
এখানে আমাদের কৌশল হল যদি বৈবাহিক অবস্থার মূল্য অনুপস্থিত থাকে তবে রোগী অবিবাহিত বলে ধরে নেওয়া। আপনি একটি ভিন্ন কৌশল থাকতে পারে.
বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
অনুপস্থিত মানটি 0 হিসাবে পূরণ করুন has_hypertension, has_diabetes, has_coronary, has_smoke, has_atrial.

Marital এবং Gender শ্রেণীগত ভেরিয়েবল। বিভাগীয় ভেরিয়েবল এনকোড করার জন্য ডেটা র্যাংলারের একটি অন্তর্নির্মিত ফাংশন রয়েছে।

একটি ধাপ যোগ করুন এবং চয়ন করুন এনকোড বিভাগ.
জন্য রুপান্তরনির্বাচন এক-গরম এনকোড.
জন্য ইনপুট কলামনির্বাচন বৈবাহিক.
জন্য আউটপুট শৈলীনির্বাচন স্তম্ভ.
এই আউটপুট শৈলী পৃথক কলামে এনকোডেড মান তৈরি করে।
বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
এর জন্য এই পদক্ষেপগুলি পুনরাবৃত্তি করুন লিঙ্গ কলাম।

এক-হট এনকোডিং বৈবাহিক কলামকে বিভক্ত করে Marital_M (বিবাহিত) এবং Marital_S (একক), এবং লিঙ্গ কলামকে বিভক্ত করে Gender_M (পুরুষ) এবং Gender_F (মহিলা). কারণ Marital_M এবং Marital_S পারস্পরিক একচেটিয়া (যেমন আছে Gender_M এবং Gender_Fঅপ্রয়োজনীয় বৈশিষ্ট্যগুলি এড়াতে আমরা একটি কলাম ছেড়ে দিতে পারি।

ড্রপ Marital_S এবং Gender_F.

সংখ্যাগত বৈশিষ্ট্য যেমন সিস্টোলিক, হৃদস্পন্দন, এবং বয়সের বিভিন্ন ইউনিট মান আছে। একটি লিনিয়ার রিগ্রেশন-ভিত্তিক মডেলের জন্য, আমাদের প্রথমে এই সংখ্যাসূচক বৈশিষ্ট্যগুলিকে স্বাভাবিক করতে হবে। অন্যথায়, উচ্চ পরম মান সহ কিছু বৈশিষ্ট্যের নিম্ন পরম মান সহ অন্যান্য বৈশিষ্ট্যগুলির তুলনায় একটি অযৌক্তিক সুবিধা থাকতে পারে এবং এর ফলে মডেলের কার্যকারিতা দুর্বল হতে পারে। ডেটা স্বাভাবিক করার জন্য ডেটা র্যাংলারের অন্তর্নির্মিত ট্রান্সফর্ম মিন-ম্যাক্স স্কেলার রয়েছে। একটি সিদ্ধান্ত গাছ-ভিত্তিক শ্রেণিবিন্যাস মডেলের জন্য, স্বাভাবিককরণের প্রয়োজন নেই। আমাদের অধ্যয়ন একটি শ্রেণিবিন্যাস সমস্যা তাই আমাদের স্বাভাবিককরণ প্রয়োগ করার দরকার নেই। ভারসাম্যহীন শ্রেণীগুলি শ্রেণিবিন্যাসে একটি সাধারণ সমস্যা। ভারসাম্যহীনতা ঘটে যখন প্রশিক্ষণ ডেটাসেটে মারাত্মকভাবে তির্যক শ্রেণি বিতরণ থাকে। উদাহরণস্বরূপ, যখন আমাদের ডেটাসেটে হার্ট ফেইলিউরের রোগীদের তুলনায় হৃদযন্ত্রের ব্যর্থতা ছাড়াই বেশি রোগী থাকে, তখন এটি মডেলটিকে হৃদযন্ত্রের ব্যর্থতার পূর্বাভাস দেওয়ার দিকে পক্ষপাতদুষ্ট হতে পারে এবং খারাপ কার্য সম্পাদন করতে পারে। সমস্যা মোকাবেলা করার জন্য ডেটা র্যাংলারের একটি অন্তর্নির্মিত ফাংশন রয়েছে।

কলামের ডেটা টাইপকে "অবজেক্ট" টাইপ থেকে নিউমেরিক টাইপে রূপান্তর করতে পান্ডাসে একটি কাস্টম ট্রান্সফর্ম যোগ করুন:
```
import pandas as pd
df=df.apply(pd.to_numeric)
```
পছন্দ বিশ্লেষণ ট্যাব।
জন্য বিশ্লেষণের ধরণপছন্দ করা বারলেখ.
জন্য এক্স অক্ষনির্বাচন has_heartfailure.
বেছে নিন প্রি.

এটা স্পষ্ট যে আমাদের একটি ভারসাম্যহীন শ্রেণী রয়েছে (হার্ট ফেইলিউর হিসাবে লেবেল করা ডেটা পয়েন্টের চেয়ে বেশি ডেটা পয়েন্ট হার্ট ফেইলিউর নয় বলে লেবেল করা হয়েছে)।
ফিরে যান উপাত্ত ট্যাব পছন্দ করা ধাপ যোগ করুন এবং নির্বাচন করুন ভারসাম্য ডেটা.
জন্য লক্ষ্য কলামনির্বাচন has_heartfailure.
জন্য কাঙ্ক্ষিত অনুপাতপ্রবেশ করান 1.
জন্য রুপান্তরনির্বাচন SMOTE.

SMOTE এর অর্থ হল কৃত্রিম সংখ্যালঘু ওভার-স্যাম্পলিং টেকনিক। এটি নতুন সংখ্যালঘু দৃষ্টান্ত তৈরি করার একটি কৌশল এবং শ্রেণী ব্যালেন্সে পৌঁছানোর জন্য ডেটাসেটে যোগ করা। বিস্তারিত তথ্যের জন্য, পড়ুন SMOTE: সিন্থেটিক সংখ্যালঘু ওভার-স্যাম্পলিং টেকনিক.
বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
20-23 ধাপে হিস্টোগ্রাম বিশ্লেষণটি পুনরাবৃত্তি করুন। ফলাফল একটি সুষম শ্রেণী।

লক্ষ্য ফাঁস এবং বৈশিষ্ট্য পারস্পরিক সম্পর্ক কল্পনা করুন

এর পরে, আমরা উন্নত ML-সমর্থিত বিশ্লেষণ প্রকারের ডেটা র্যাংলারের সমৃদ্ধ টুলসেট ব্যবহার করে কয়েকটি ভিজ্যুয়াল বিশ্লেষণ করতে যাচ্ছি। প্রথমত, আমরা লক্ষ্য ফুটো তাকান. টার্গেট লিকেজ ঘটে যখন ট্রেনিং ডেটাসেটের ডেটা টার্গেট লেবেলের সাথে দৃঢ়ভাবে সম্পর্কযুক্ত হয়, কিন্তু অনুমান করার সময় বাস্তব-বিশ্বের ডেটাতে পাওয়া যায় না।

উপরে বিশ্লেষণ ট্যাবজন্য বিশ্লেষণের ধরণপছন্দ করা টার্গেট লিকেজ.
জন্য সমস্যার ধরণনির্বাচন শ্রেণীবিন্যাস.
জন্য লক্ষ্যনির্বাচন has_heartfailure.
বেছে নিন প্রি.

বিশ্লেষণের উপর ভিত্তি করে, hr একটি লক্ষ্য ফুটো হয়. আমরা পরবর্তী ধাপে এটি ফেলে দেব। age একটি লক্ষ্য ফাঁস পতাকাঙ্কিত হয়. এটা বলা যুক্তিসঙ্গত যে একজন রোগীর বয়স অনুমানের সময় পাওয়া যাবে, তাই আমরা বয়সকে একটি বৈশিষ্ট্য হিসাবে রাখি। Systolic এবং diastolic এছাড়াও সম্ভাব্য লক্ষ্য ফাঁস হিসাবে পতাকাঙ্কিত করা হয়. আমরা অনুমানের সময় দুটি পরিমাপ আশা করি, তাই আমরা সেগুলিকে বৈশিষ্ট্য হিসাবে রাখি।
বেছে নিন বিজ্ঞাপন বিশ্লেষণ যোগ করতে.

তারপর, আমরা বৈশিষ্ট্য পারস্পরিক সম্পর্ক তাকান. আমরা এমন বৈশিষ্ট্য নির্বাচন করতে চাই যা লক্ষ্যের সাথে সম্পর্কযুক্ত কিন্তু নিজেদের মধ্যে সম্পর্কহীন।

উপরে বিশ্লেষণ ট্যাবজন্য বিশ্লেষণের ধরণপছন্দ করা বৈশিষ্ট্য পারস্পরিক সম্পর্ক.
জন্য Correlation Typeপছন্দ করা রৈখিক.
বেছে নিন প্রি.

সহগ স্কোরগুলি নিম্নলিখিত জোড়াগুলির মধ্যে শক্তিশালী পারস্পরিক সম্পর্ক নির্দেশ করে:

systolic এবং diastolic
bmi এবং age
has_hypertension এবং has_heartfailure (লেবেল)

দৃঢ়ভাবে সম্পর্কযুক্ত বৈশিষ্ট্যগুলির জন্য, ম্যাট্রিক্সগুলিকে উল্টানো গণনাগতভাবে কঠিন, যা সংখ্যাগতভাবে অস্থির অনুমানের দিকে নিয়ে যেতে পারে। পারস্পরিক সম্পর্ক প্রশমিত করার জন্য, আমরা কেবল জোড়া থেকে একটি সরাতে পারি। আমরা ড্রপ diastolic এবং bmi এবং রাখা systolic এবং age পরবর্তী ধাপে।

ডায়াস্টোলিক এবং বিএমআই কলাম বাদ দিন

ড্রপ করার জন্য অতিরিক্ত রূপান্তর পদক্ষেপ যোগ করুন hr, diastolic এবং bmi অন্তর্নির্মিত রূপান্তর ব্যবহার করে কলাম।

ডেটা গুণমান এবং অন্তর্দৃষ্টি প্রতিবেদন তৈরি করুন

সম্প্রতি AWS ঘোষিত ডেটা র‍্যাংলারে নতুন ডেটা কোয়ালিটি এবং ইনসাইটস রিপোর্ট বৈশিষ্ট্য। এই প্রতিবেদনটি স্বয়ংক্রিয়ভাবে ডেটার গুণমান যাচাই করে এবং আপনার ডেটাতে অস্বাভাবিকতা সনাক্ত করে। ডেটা সায়েন্টিস্ট এবং ডেটা ইঞ্জিনিয়াররা এমএল মডেল প্রশিক্ষণের জন্য ডেটাসেটগুলি প্রক্রিয়া করার জন্য দক্ষতার সাথে এবং দ্রুত ডোমেন জ্ঞান প্রয়োগ করতে এই সরঞ্জামটি ব্যবহার করতে পারেন। এই ধাপটি ঐচ্ছিক। আমাদের ডেটাসেটগুলিতে এই প্রতিবেদন তৈরি করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

উপরে বিশ্লেষণ ট্যাব, জন্য বিশ্লেষণের ধরণনির্বাচন ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট.
জন্য লক্ষ্য কলামনির্বাচন has_heartfailure.
জন্য সমস্যার ধরণ, নির্বাচন করুন শ্রেণীবিন্যাস.
বেছে নিন সৃষ্টি.

কয়েক মিনিটের মধ্যে, এটি একটি সারাংশ, ভিজ্যুয়াল এবং সুপারিশ সহ একটি প্রতিবেদন তৈরি করে৷

একটি দ্রুত মডেল বিশ্লেষণ তৈরি করুন

আমরা আমাদের ডেটা প্রস্তুতি, পরিষ্কার এবং বৈশিষ্ট্য প্রকৌশল সম্পন্ন করেছি। ডেটা র‍্যাংলারের একটি অন্তর্নির্মিত ফাংশন রয়েছে যা আমাদের ডেটাসেটে প্রত্যাশিত ভবিষ্যদ্বাণী করা গুণমান এবং বৈশিষ্ট্যগুলির ভবিষ্যদ্বাণীমূলক শক্তির মোটামুটি অনুমান প্রদান করে।

উপরে বিশ্লেষণ ট্যাব, জন্য বিশ্লেষণের ধরণপছন্দ করা দ্রুত মডেল.
জন্য লেবেলনির্বাচন has_heartfailure.
বেছে নিন প্রি.

আমাদের দ্রুত মডেল বিশ্লেষণ অনুসারে, আমরা বৈশিষ্ট্যটি দেখতে পাচ্ছি has_hypertension সব বৈশিষ্ট্যের মধ্যে সর্বোচ্চ বৈশিষ্ট্য গুরুত্ব স্কোর আছে.

ডেটা রপ্তানি করুন এবং মডেলটি প্রশিক্ষণ দিন

এখন আসুন রূপান্তরিত এমএল-রেডি বৈশিষ্ট্যগুলিকে একটি গন্তব্য S3 বালতিতে রপ্তানি করি এবং একটি বিতরণ করা পদ্ধতিতে সম্পূর্ণ ডেটাসেটে নমুনাগুলি ব্যবহার করে আমরা এখন পর্যন্ত তৈরি করা সম্পূর্ণ বৈশিষ্ট্য ইঞ্জিনিয়ারিং পাইপলাইনটি স্কেল করি।

ডেটা প্রবাহের শেষ বাক্সের পাশে প্লাস চিহ্নটি নির্বাচন করুন এবং নির্বাচন করুন গন্তব্য যোগ করুন.
বেছে নিন আমাজন S3.
একটি লিখুন ডাটাসেটের নাম। জন্য Amazon S3 অবস্থান, একটি S3 বালতি চয়ন করুন, তারপর চয়ন করুন৷ গন্তব্য যোগ করুন.
বেছে নিন চাকরি তৈরি করুন রূপান্তর সম্পাদন করতে এবং গন্তব্য S3 বালতিতে ডেটা আউটপুট করার জন্য একটি বিতরণকৃত PySpark প্রক্রিয়াকরণ কাজ চালু করতে।

ডেটাসেটের আকারের উপর নির্ভর করে, এই বিকল্পটি আমাদের সহজেই ক্লাস্টার কনফিগার করতে দেয় এবং নো-কোড ফ্যাশনে অনুভূমিকভাবে স্কেল করতে দেয়। ডেটাসেটগুলিকে বিভাজন বা ক্লাস্টার এবং স্পার্ক ইন্টারনালগুলি পরিচালনা করার বিষয়ে আমাদের চিন্তা করতে হবে না। ডেটা র‍্যাংলারের দ্বারা এই সমস্তগুলি স্বয়ংক্রিয়ভাবে আমাদের জন্য যত্ন নেওয়া হয়।
বাম ফলকে, নির্বাচন করুন পরবর্তী, 2. কাজ কনফিগার করুন।
তাহলে বেছে নাও চালান.

বিকল্পভাবে, আমরা রূপান্তরিত আউটপুটকে জুপিটার নোটবুকের মাধ্যমে S3 এ রপ্তানি করতে পারি। এই পদ্ধতির সাহায্যে, ডেটা র‍্যাংলার বৃহত্তর পূর্ণ ডেটাসেটে ডেটা প্রবাহের ধাপগুলি (একটি নমুনা ব্যবহার করে তৈরি) প্রয়োগ করার জন্য একটি প্রসেসিং কাজের কিক-অফ করার জন্য প্রয়োজনীয় সমস্ত কোড সহ একটি জুপিটার নোটবুক স্বয়ংক্রিয়ভাবে তৈরি করে এবং রূপান্তরিত ডেটাসেটটিকে বৈশিষ্ট্য হিসাবে ব্যবহার করে। পরে একটি প্রশিক্ষণ কাজ বন্ধ. নোটবুক কোডটি পরিবর্তন না করে বা না করে সহজেই চালানো যেতে পারে। এখন Data Wrangler's UI এর মাধ্যমে কিভাবে এটি করা যায় তার ধাপগুলো নিয়ে চলুন।

ডেটা প্রবাহের শেষ ধাপের পাশে প্লাস চিহ্নটি নির্বাচন করুন এবং নির্বাচন করুন রপ্তানি করা.
বেছে নিন আমাজন S3 (জুপিটার নোটবুকের মাধ্যমে).
এটি স্বয়ংক্রিয়ভাবে একটি জুপিটার নোটবুকের সাথে একটি নতুন ট্যাব খোলে।
জুপিটার নোটবুকে, সেলটি সনাক্ত করুন (ঐচ্ছিক) পরবর্তী পদক্ষেপ বিভাগ এবং পরিবর্তন run_optional_steps থেকে False থেকে True.
নোটবুকে সক্রিয় ঐচ্ছিক পদক্ষেপগুলি নিম্নলিখিতগুলি সম্পাদন করে:
- XGBoost ব্যবহার করে একটি মডেলকে প্রশিক্ষণ দিন
নোটবুকের শীর্ষে এবং তে ফিরে যান চালান মেনু, নির্বাচন করুন সমস্ত সেল চালান.

আপনি যদি জেনারেট করা নোটবুকটি ব্যবহার করেন তবে এটি একটি সেজমেকার প্রসেসিং কাজ চালু করে যা S5.4 বালতিতে সম্পূর্ণ ডেটাসেট প্রসেস করার জন্য দুটি m3x বড় উদাহরণ জুড়ে প্রসেসিংকে স্কেল করে। কাজটি সম্পূর্ণ করার জন্য আপনার প্রয়োজনীয় ডেটাসেটের আকার এবং সময়ের উপর ভিত্তি করে আপনি দৃষ্টান্তের সংখ্যা এবং উদাহরণের ধরন সামঞ্জস্য করতে পারেন।

শেষ সেল থেকে প্রশিক্ষণ কাজ সম্পূর্ণ না হওয়া পর্যন্ত অপেক্ষা করুন। এটি SageMaker ডিফল্ট S3 বালতিতে একটি মডেল তৈরি করে।

প্রশিক্ষিত মডেলটি রিয়েল-টাইম ইনফারেন্স বা ব্যাচ ট্রান্সফর্মেশনের জন্য স্থাপনার জন্য প্রস্তুত। মনে রাখবেন যে আমরা ডেটা র্যাংলারে কার্যকারিতা প্রদর্শনের জন্য সিন্থেটিক ডেটা ব্যবহার করেছি এবং প্রশিক্ষণ মডেলের জন্য প্রক্রিয়াকৃত ডেটা ব্যবহার করেছি। প্রদত্ত যে আমরা যে ডেটা ব্যবহার করেছি তা সিন্থেটিক, প্রশিক্ষিত মডেল থেকে অনুমান ফলাফলটি বাস্তব-বিশ্বের চিকিৎসা অবস্থা নির্ণয়ের জন্য বা চিকিত্সা অনুশীলনকারীদের কাছ থেকে রায়ের প্রতিস্থাপনের জন্য নয়।

এছাড়াও আপনি বেছে নিয়ে আপনার রূপান্তরিত ডেটাসেটকে Amazon S3 এ সরাসরি রপ্তানি করতে পারেন রপ্তানি রূপান্তর পূর্বরূপ পৃষ্ঠার উপরে। সরাসরি রপ্তানির বিকল্প শুধুমাত্র রূপান্তরিত নমুনা রপ্তানি করে যদি আমদানির সময় নমুনা সক্ষম করা থাকে। আপনি যদি ছোট ডেটাসেট নিয়ে কাজ করেন তবে এই বিকল্পটি সবচেয়ে উপযুক্ত। রূপান্তরিত ডেটা সরাসরি একটি বৈশিষ্ট্য স্টোরে প্রবেশ করা যেতে পারে। আরো তথ্যের জন্য, পড়ুন আমাজন সেজমেকার ফিচার স্টোর. ডেটা প্রবাহটি সেজমেকার পাইপলাইন হিসাবেও রপ্তানি করা যেতে পারে যা আপনার প্রয়োজনীয়তা অনুসারে সাজানো এবং নির্ধারিত হতে পারে। আরও তথ্যের জন্য, দেখুন অ্যামাজন সেজমেকার পাইপলাইন.

উপসংহার

এই পোস্টে, আমরা দেখিয়েছি কীভাবে স্বাস্থ্যসেবা ডেটা প্রক্রিয়া করতে ডেটা র্যাংলার ব্যবহার করতে হয় এবং একটি টুল-চালিত, কম-কোড ফ্যাশনে স্কেলেবল ফিচার ইঞ্জিনিয়ারিং সম্পাদন করতে হয়। আমরা শিখেছি কীভাবে বিল্ট-ইন ট্রান্সফর্মেশন প্রয়োগ করতে হয় এবং যেখানেই প্রয়োজন সেখানে যথাযথভাবে বিশ্লেষণ করতে হয়, এটিকে কাস্টম ট্রান্সফর্মেশনের সাথে একত্রিত করে আমাদের ডেটা প্রস্তুতির কর্মপ্রবাহে আরও বেশি নমনীয়তা যোগ করতে হয়। আমরা বিতরণকৃত প্রসেসিং কাজের মাধ্যমে ডেটা ফ্লো রেসিপি স্কেল করার জন্য বিভিন্ন বিকল্পের মাধ্যমেও হেঁটেছি। আমরা আরও শিখেছি কিভাবে রূপান্তরিত ডেটা সহজেই হার্টের ব্যর্থতার পূর্বাভাস দেওয়ার জন্য একটি মডেলকে প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে।

ডেটা র‍্যাংলারের আরও অনেক বৈশিষ্ট্য রয়েছে যা আমরা এই পোস্টে কভার করিনি। এর মধ্যে কী সম্ভব তা অন্বেষণ করুন অ্যামাজন সেজমেকার ডেটা র্যাংলার সহ এমএল ডেটা প্রস্তুত করুন এবং আপনার পরবর্তী ডেটা সায়েন্স বা মেশিন লার্নিং প্রকল্পের জন্য ডেটা র‍্যাংলারকে কীভাবে ব্যবহার করতে হয় তা শিখুন।

লেখক সম্পর্কে

ফরেস্ট সূর্য টরন্টো, কানাডার AWS পাবলিক সেক্টর টিমের সাথে একজন সিনিয়র সলিউশন আর্কিটেক্ট। তিনি গত দুই দশক ধরে স্বাস্থ্যসেবা এবং অর্থ শিল্পে কাজ করেছেন। কাজের বাইরে, তিনি তার পরিবারের সাথে ক্যাম্পিং উপভোগ করেন।

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence-এর সাথে স্বাস্থ্যসেবা এবং জীবন বিজ্ঞানের জন্য স্কেলে ফিচার ইঞ্জিনিয়ারিং। উল্লম্ব অনুসন্ধান. আ. অরুণপ্রসথ শংকর AWS এর সাহায্যে একটি কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং (এআই / এমএল) বিশেষজ্ঞ সলিউশন সমাধান আর্কিটেক্ট যা বিশ্বব্যাপী গ্রাহকদের মেঘে কার্যকরভাবে এবং দক্ষতার সাথে তাদের এআই সমাধানগুলি স্কেল করতে সহায়তা করে। অল্প সময়ে, অরুণ সায়েন্স-ফাই সিনেমা দেখা এবং শাস্ত্রীয় সংগীত শুনতে উপভোগ করেন।