ایمیزون سیج میکر ڈیٹا رینگلر کے ساتھ ہیلتھ کیئر اور لائف سائنسز کے لیے فیچر انجینئرنگ

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

مشین لرننگ (ML) بے مثال رفتار سے بہت ساری صنعتوں میں خلل ڈال رہی ہے۔ صحت کی دیکھ بھال اور لائف سائنسز (HCLS) کی صنعت حالیہ برسوں میں ایک تیز رفتار ارتقاء سے گزر رہی ہے جو معیاری دیکھ بھال فراہم کرنے اور مریضوں کے نتائج کو بہتر بنانے کے لیے استعمال کے بہت سے معاملات میں ML کو اپناتی ہے۔

ایک عام ایم ایل لائف سائیکل میں، ڈیٹا انجینئرز اور سائنس دان اپنا زیادہ تر وقت ڈیٹا کی تیاری اور فیچر انجینئرنگ کے مراحل میں صرف کرتے ہیں اس سے پہلے کہ ماڈل کی تعمیر اور تربیت کا عمل شروع ہو جائے۔ ایسے ٹول کا ہونا جو ڈیٹا کی تیاری کے لیے داخلے کی راہ میں حائل رکاوٹ کو کم کر سکتا ہے، اس طرح پیداواری صلاحیت کو بہتر بنا سکتا ہے، ان شخصیات کے لیے انتہائی مطلوبہ مطالبہ ہے۔ ایمیزون سیج میکر ڈیٹا رینگلر AWS کے ذریعہ سیکھنے کے منحنی خطوط کو کم کرنے اور ڈیٹا پریکٹیشنرز کو ڈیٹا کی تیاری، صفائی، اور فیچر انجینئرنگ کے کاموں کو کم محنت اور وقت میں پورا کرنے کے قابل بنانا ہے۔ یہ بہت سے بلٹ ان فنکشنز اور دیگر AWS خدمات کے ساتھ انضمام کے ساتھ ایک GUI انٹرفیس پیش کرتا ہے جیسے ایمیزون سادہ اسٹوریج سروس (ایمیزون S3) اور ایمیزون سیج میکر فیچر اسٹور، نیز پارٹنر ڈیٹا کے ذرائع بشمول Snowflake اور Databricks۔

اس پوسٹ میں، ہم یہ ظاہر کرتے ہیں کہ مریض کی آبادی، پیشگی طبی حالات، اور لیبارٹری ٹیسٹ کے نتائج کی تاریخ کو دیکھتے ہوئے، ہم دل کی خرابی کی پیش گوئی کرنے کے لیے ایک ماڈل کو تربیت دینے کے لیے ہیلتھ کیئر ڈیٹا تیار کرنے کے لیے ڈیٹا رینگلر کا استعمال کیسے کریں۔

حل جائزہ

حل مندرجہ ذیل اقدامات پر مشتمل ہے:

ڈیٹا رینگلر کو ان پٹ کے طور پر ہیلتھ کیئر ڈیٹاسیٹ حاصل کریں۔
ڈیٹا سیٹ کو تبدیل کرنے کے لیے ڈیٹا رینگلر کے بلٹ ان ٹرانسفارمیشن فنکشنز کا استعمال کریں۔ اس میں ڈراپ کالم، ڈیٹا/وقت کو نمایاں کرنا، ڈیٹا سیٹس میں شامل ہونا، گمشدہ اقدار کو انکوڈ کرنا، زمرہ وارانہ متغیرات کو انکوڈ کرنا، عددی قدروں کو پیمانہ کرنا، ڈیٹا سیٹ کو متوازن کرنا اور بہت کچھ شامل ہے۔
ڈیٹا رینگلر کا کسٹم ٹرانسفارم فنکشن (پانڈا یا پی اسپارک کوڈ) استعمال کریں تاکہ بلٹ ان ٹرانسفارمیشنز سے آگے درکار اضافی تبدیلیوں کو پورا کریں اور ڈیٹا رینگلر کی توسیع پذیری کو ظاہر کریں۔ اس میں فلٹر قطاریں، گروپ ڈیٹا، حالات کی بنیاد پر نئے ڈیٹا فریم بنانا، اور بہت کچھ شامل ہے۔
بصری تجزیہ کرنے کے لیے ڈیٹا رینگلر کے بلٹ ان ویژولائزیشن فنکشنز کا استعمال کریں۔ اس میں ہدف کا رساو، خصوصیت کا ارتباط، فوری ماڈل، اور بہت کچھ شامل ہے۔
تبدیل شدہ ڈیٹاسیٹ کو Amazon S3 میں ایکسپورٹ کرنے کے لیے ڈیٹا رینگلر کے بلٹ ان ایکسپورٹ آپشنز کا استعمال کریں۔
ایک ماڈل کو تربیت دینے کے لیے Amazon S3 میں تبدیل شدہ ڈیٹا سیٹ کو بطور ان پٹ استعمال کرنے کے لیے Jupyter نوٹ بک لانچ کریں۔

ڈیٹاسیٹ تیار کریں۔

اب جب کہ ہم نے ML مسئلہ کے بیان کو طے کر لیا ہے، ہم سب سے پہلے اپنے مطلوبہ ڈیٹا کو حاصل کرنے پر توجہ دیتے ہیں۔ تحقیقی مطالعات جیسے دل کی ناکامی کی پیشن گوئی ڈیٹا فراہم کر سکتا ہے جو پہلے سے اچھی حالت میں ہے۔ تاہم، ہمیں اکثر ایسے منظرناموں کا سامنا کرنا پڑتا ہے جہاں ڈیٹا کافی گڑبڑ ہوتا ہے اور اس میں شمولیت، صفائی اور کئی دیگر تبدیلیوں کی ضرورت ہوتی ہے جو کہ ML ٹریننگ کے لیے استعمال کیے جانے سے پہلے ہیلتھ کیئر ڈومین کے لیے بہت مخصوص ہیں۔ ہم ایسا ڈیٹا ڈھونڈنا یا بنانا چاہتے ہیں جو کافی گڑبڑ ہو اور ڈیٹا رینگلر کا استعمال کرتے ہوئے آپ کو اس کی تیاری کے مراحل سے گزرے۔ اس کو ذہن میں رکھتے ہوئے، ہم نے Synthea کو مصنوعی ڈیٹا تیار کرنے کے لیے ایک ٹول کے طور پر منتخب کیا جو ہمارے مقصد کے مطابق ہو۔ سنتھیا ایک اوپن سورس مصنوعی مریض جنریٹر ہے جو مصنوعی مریضوں کی طبی تاریخ کو ماڈل کرتا ہے۔ اپنا ڈیٹا سیٹ بنانے کے لیے، درج ذیل مراحل کو مکمل کریں:

کے مطابق ہدایات پر عمل کریں۔ فورا شروع کرنا ایک بنانے کے لئے دستاویزات ایمیزون سیج میکر اسٹوڈیو ڈومین اور لانچ اسٹوڈیو۔
یہ ایک لازمی قدم ہے۔ اگر آپ کے اکاؤنٹ میں اسٹوڈیو پہلے سے ہی سیٹ اپ ہے تو یہ اختیاری ہے۔
اسٹوڈیو شروع ہونے کے بعد، پر لانچر ٹیب، منتخب کریں سسٹم ٹرمینل.
یہ ایک ٹرمینل سیشن شروع کرتا ہے جو آپ کو کام کرنے کے لیے کمانڈ لائن انٹرفیس دیتا ہے۔

Synthea کو انسٹال کرنے اور ڈیٹا سیٹ کو CSV فارمیٹ میں بنانے کے لیے، لانچ کیے گئے ٹرمینل سیشن میں درج ذیل کمانڈز چلائیں:

$ sudo yum install -y java-1.8.0-openjdk-devel
$ export JAVA_HOME=/usr/lib/jvm/jre-1.8.0-openjdk.x86_64
$ export PATH=$JAVA_HOME/bin:$PATH
$ git clone https://github.com/synthetichealth/synthea
$ git checkout v3.0.0
$ cd synthea
$ ./run_synthea --exporter.csv.export=true -p 10000

ہم 10,000 کی آبادی والے ڈیٹا سیٹس بنانے کے لیے ایک پیرامیٹر فراہم کرتے ہیں۔ نوٹ کریں کہ سائز کا پیرامیٹر آبادی کے زندہ ارکان کی تعداد کو ظاہر کرتا ہے۔ مزید برآں، Synthea آبادی کے مردہ ارکان کے لیے ڈیٹا بھی تیار کرتا ہے جو مخصوص نمونے کے سائز کے اوپر کچھ اضافی ڈیٹا پوائنٹس کا اضافہ کر سکتا ہے۔

ڈیٹا جنریشن مکمل ہونے تک انتظار کریں۔ اس قدم میں عام طور پر تقریباً ایک گھنٹہ یا اس سے کم وقت لگتا ہے۔ سنتھیا متعدد ڈیٹاسیٹ تیار کرتا ہے، بشمول patients, medications, allergies, conditions، اور مزید. اس پوسٹ کے لیے، ہم نتیجے میں آنے والے تین ڈیٹاسیٹ استعمال کرتے ہیں:

مریض.csv - یہ ڈیٹاسیٹ تقریباً 3.2 MB ہے اور اس میں مریضوں کے ڈیٹا کی تقریباً 11,000 قطاریں ہیں (25 کالم بشمول مریض کی شناخت، تاریخ پیدائش، جنس، پتہ اور مزید)
condition.csv - یہ ڈیٹاسیٹ تقریباً 47 MB ہے اور اس میں طبی حالت کے ڈیٹا کی تقریباً 370,000 قطاریں ہیں (چھ کالم بشمول مریض کی شناخت، حالت شروع ہونے کی تاریخ، حالت کوڈ، اور مزید)
observations.csv - یہ ڈیٹاسیٹ تقریباً 830 MB ہے اور اس میں مشاہدے کے اعداد و شمار کی تقریباً 5 لاکھ قطاریں ہیں (آٹھ کالم بشمول مریض کی شناخت، مشاہدے کی تاریخ، مشاہداتی کوڈ، قدر اور مزید)

کے درمیان ایک سے کئی کا رشتہ ہے۔ patients اور conditions ڈیٹاسیٹس کے درمیان ایک سے کئی کا رشتہ بھی ہے۔ patients اور observations ڈیٹاسیٹس تفصیلی ڈیٹا ڈکشنری کے لیے رجوع کریں۔ CSV فائل ڈیٹا ڈکشنری.

ایمیزون S3 میں ماخذ بالٹی میں تیار کردہ ڈیٹاسیٹس کو اپ لوڈ کرنے کے لیے، ٹرمینل سیشن میں درج ذیل کمانڈز چلائیں:
```
$ cd ./output/csv
$ aws s3 sync . s3://<source bucket name>/
```

ڈیٹا رینگلر لانچ کریں۔

میں سے انتخاب کریں سیج میکر کے وسائل اسٹوڈیو میں نیویگیشن صفحہ میں اور پر منصوبوں کی تفصیل مینو، منتخب کریں ڈیٹا رینگلر ڈیٹا رینگلر ڈیٹا فلو بنانے کے لیے۔ اسٹوڈیو کے اندر سے ڈیٹا رینگلر کو کیسے لانچ کیا جائے اس کے تفصیلی اقدامات کے لیے، ملاحظہ کریں۔ ڈیٹا رینگلر کے ساتھ شروعات کریں۔.

ڈیٹا درآمد کریں۔

اپنا ڈیٹا درآمد کرنے کے لیے، درج ذیل مراحل کو مکمل کریں:

میں سے انتخاب کریں ایمیزون S3 اور S3 بالٹی میں مریضوں.csv فائل کو تلاش کریں۔
میں تفصیلات دیکھیں پین، منتخب کریں پہلے K لیے سیمپلنگ.
درج 1100 لیے نمونہ سائز.
پیش نظارہ پین میں، ڈیٹا رینگلر ڈیٹاسیٹ سے پہلی 100 قطاریں کھینچتا ہے اور انہیں پیش نظارہ کے طور پر درج کرتا ہے۔
میں سے انتخاب کریں درآمد کریں.
ڈیٹا رینگلر سنتھیا کے ذریعہ تیار کردہ کل مریضوں (1,100 قطاروں) میں سے پہلے 11,000 مریضوں کا انتخاب کرتا ہے اور ڈیٹا کو درآمد کرتا ہے۔ نمونے لینے کا طریقہ ڈیٹا رینگلر کو صرف نمونے کے ڈیٹا پر کارروائی کرنے دیتا ہے۔ یہ ہمیں ایک چھوٹے ڈیٹا سیٹ کے ساتھ اپنے ڈیٹا کے بہاؤ کو تیار کرنے کے قابل بناتا ہے، جس کے نتیجے میں تیز تر پروسیسنگ اور مختصر فیڈ بیک لوپ ہوتا ہے۔ ڈیٹا فلو بنانے کے بعد، ہم تیار شدہ نسخہ کو جمع کر سکتے ہیں۔ سیج میکر پروسیسنگ تقسیم شدہ انداز میں مکمل یا بڑے ڈیٹاسیٹ کی پروسیسنگ کو افقی طور پر پیمانہ کرنے کا کام۔
کے لیے اس عمل کو دہرائیں۔ conditions اور observations ڈیٹاسیٹس
1. کے لئے conditions ڈیٹا سیٹ، درج کریں۔ 37000 لیے نمونہ سائزجو کہ سنتھیا کے ذریعہ تیار کردہ کل 1 قطاروں کا 10/370,000 ہے۔
2. کے لئے observations ڈیٹا سیٹ، درج کریں۔ 500000 لیے نمونہ سائز، جو سنتھیا کے ذریعہ تیار کردہ کل مشاہدات 1 ملین قطاروں کا 10/5 ہے۔

مندرجہ ذیل اسکرین شاٹ میں دکھایا گیا ہے جیسا کہ آپ کو تین ڈیٹا سیٹس دیکھنے چاہئیں۔

ڈیٹا کو تبدیل کریں۔

ڈیٹا ٹرانسفارمیشن ڈیٹاسیٹ میں ایک یا زیادہ کالموں کی ساخت، قدر یا فارمیٹ کو تبدیل کرنے کا عمل ہے۔ یہ عمل عام طور پر ڈیٹا انجینئر کے ذریعے تیار کیا جاتا ہے اور یہ ان لوگوں کے لیے مشکل ہو سکتا ہے جن کے پاس ڈیٹا انجینئرنگ کی چھوٹی مہارت ہے تاکہ وہ تبدیلی کے لیے تجویز کردہ منطق کو سمجھ سکیں۔ ڈیٹا کی تبدیلی وسیع تر فیچر انجینئرنگ کے عمل کا حصہ ہے، اور اس طرح کی ترکیبیں وضع کرتے وقت دھیان میں رکھنے کے لیے اقدامات کی درست ترتیب ایک اور اہم معیار ہے۔

ڈیٹا رینگلر کو مؤثر ڈیٹا کی تیاری کے لیے اندراج کی رکاوٹ کو کم کرنے کے لیے ایک کم کوڈ والے ٹول کے لیے ڈیزائن کیا گیا ہے۔ یہ 300 سے زیادہ پہلے سے ترتیب شدہ ڈیٹا ٹرانسفارمیشنز کے ساتھ آتا ہے جس میں سے آپ کوڈ کی ایک لائن لکھے بغیر انتخاب کر سکتے ہیں۔ درج ذیل حصوں میں، ہم دیکھتے ہیں کہ ڈیٹا رینگلر میں درآمد شدہ ڈیٹاسیٹس کو کیسے تبدیل کیا جائے۔

مریضوں میں کالم چھوڑیں۔

ہم پہلے سے کچھ کالم چھوڑتے ہیں۔ patients ڈیٹاسیٹ بے کار کالموں کو چھوڑنے سے ڈیٹاسیٹ سے غیر متعلقہ معلومات ہٹ جاتی ہیں اور ڈیٹاسیٹ پر کارروائی کرنے اور ماڈل کو تربیت دینے کے لیے درکار کمپیوٹنگ وسائل کی مقدار کو کم کرنے میں ہماری مدد ہوتی ہے۔ اس سیکشن میں، ہم SSN یا پاسپورٹ نمبر جیسے کالم کو عام فہم کی بنیاد پر چھوڑتے ہیں کہ ان کالموں کی کوئی پیشین گوئی کی قدر نہیں ہے۔ دوسرے الفاظ میں، وہ ہمارے ماڈل کو دل کی ناکامی کی پیش گوئی کرنے میں مدد نہیں کرتے ہیں۔ ہمارا مطالعہ دوسرے کالموں کے بارے میں بھی فکر مند نہیں ہے جیسے پیدائش کی جگہ یا صحت کی دیکھ بھال کے اخراجات کا مریض کے دل کی خرابی پر اثر انداز ہوتا ہے، لہذا ہم انہیں بھی چھوڑ دیتے ہیں۔ فالتو کالموں کی شناخت بلٹ ان تجزیوں کو چلا کر بھی کی جا سکتی ہے جیسے ٹارگٹ لیکیج، فیچر کوریلیشن، ملٹی کولینیرٹی، اور بہت کچھ، جو ڈیٹا رینگلر میں بنائے گئے ہیں۔ تائید شدہ تجزیوں کی اقسام کے بارے میں مزید تفصیلات کے لیے رجوع کریں۔ تجزیہ کریں اور تصور کریں۔. اس کے علاوہ، آپ استعمال کر سکتے ہیں ڈیٹا کوالٹی اور بصیرت کی رپورٹ ختم کرنے کے لیے بے کار کالموں کی فہرست پر پہنچنے کے لیے ڈیٹا سیٹس پر خودکار تجزیہ کرنے کے لیے۔

آگے جمع کا نشان منتخب کریں۔ ڈیٹا کی اقسام مریضوں کے لیے سی ایس وی ڈیٹاسیٹ اور منتخب کریں۔ تبدیلی شامل کریں۔.
میں سے انتخاب کریں قدم شامل کریں۔ اور منتخب کریں کالموں کا نظم کریں۔.
کے لئے تبدیلمنتخب کریں ڈراپ کالم.
کے لئے چھوڑنے کے لیے کالم، درج ذیل کالم منتخب کریں:
1. SSN
2. DRIVERS
3. PASSPORT
4. PREFIX
5. FIRST
6. LAST
7. SUFFIX
8. MAIDEN
9. RACE
10. ETHNICITY
11. BIRTHPLACE
12. ADDRESS
13. CITY
14. STATE
15. COUNTY
16. ZIP
17. LAT
18. LON
19. HEALTHCARE_EXPENSES
20. HEALTHCARE_COVERAGE
میں سے انتخاب کریں پیش نظارہ تبدیل شدہ ڈیٹاسیٹ کا جائزہ لینے کے لیے، پھر منتخب کریں۔ شامل کریں.

آپ کو قدم دیکھنا چاہئے۔ ڈراپ کالم آپ کی تبدیلیوں کی فہرست میں۔

Patient.csv میں تاریخ/وقت نمایاں کریں۔

اب ہم نئی خصوصیت پیدا کرنے کے لیے فیچرائز ڈیٹ/ٹائم فنکشن کا استعمال کرتے ہیں۔ Year سے BIRTHDATE کالم patients ڈیٹاسیٹ ہم مشاہدے کے وقت مریض کی عمر کا حساب لگانے کے لیے اگلے مرحلے میں نئی خصوصیت کا استعمال کرتے ہیں۔

میں تبدیلیاں آپ کا پین ڈراپ کالم کے لئے صفحہ patients ڈیٹا سیٹ، منتخب کریں۔ قدم شامل کریں۔.
منتخب کیجئیے تاریخ/وقت کو نمایاں کریں۔ تبدیل
میں سے انتخاب کریں کالم نکالیں۔.
کے لئے ان پٹ کالمز، کالم شامل کریں۔ BIRTHDATE.
منتخب کریں سال اور غیر منتخب کریں مہینہ, ڈے, گھنٹہ, منٹس, دوسرا.
میں سے انتخاب کریں پیش نظارہ، پھر منتخب کریں شامل کریں.

observations.csv میں تبدیلیاں شامل کریں۔

ڈیٹا رینگلر Python (صارف کے بیان کردہ افعال)، PySpark، Pandas، یا PySpark (SQL) کا استعمال کرتے ہوئے اپنی مرضی کے مطابق تبدیلیوں کی حمایت کرتا ہے۔ آپ ہر آپشن اور ترجیح سے اپنی واقفیت کی بنیاد پر اپنی تبدیلی کی قسم کا انتخاب کر سکتے ہیں۔ بعد کے تین اختیارات کے لیے، ڈیٹا رینگلر متغیر کو بے نقاب کرتا ہے۔ df تاکہ آپ ڈیٹا فریم تک رسائی حاصل کر سکیں اور اس پر تبدیلیاں لاگو کریں۔ تفصیلی وضاحت اور مثالوں کے لیے رجوع کریں۔ کسٹم ٹرانسفارمز. اس حصے میں، ہم تین حسب ضرورت تبدیلیوں کو شامل کرتے ہیں۔ observations ڈیٹاسیٹ

observations.csv میں ایک تبدیلی شامل کریں اور ڈراپ کریں۔ DESCRIPTION کالم.
میں سے انتخاب کریں پیش نظارہ، پھر منتخب کریں شامل کریں.
میں تبدیلیاں پین، منتخب کریں قدم شامل کریں۔ اور منتخب کریں اپنی مرضی کی تبدیلی.
ڈراپ ڈاؤن مینو پر، منتخب کریں۔ ازگر (پانڈا).
درج ذیل کوڈ درج کریں:
```
df = df[df["CODE"].isin(['8867-4','8480-6','8462-4','39156-5','777-3'])]
```
یہ LONIC کوڈز ہیں جو درج ذیل مشاہدات سے مطابقت رکھتے ہیں جنہیں ہم دل کی ناکامی کی پیش گوئی کے لیے خصوصیات کے طور پر استعمال کرنے میں دلچسپی رکھتے ہیں:
```
heart rate: 8867-4
systolic blood pressure: 8480-6
diastolic blood pressure: 8462-4
body mass index (BMI): 39156-5
platelets [#/volume] in Blood: 777-3
```
میں سے انتخاب کریں پیش نظارہ، پھر منتخب کریں شامل کریں.
نکالنے کے لیے ٹرانسفارم شامل کریں۔ Year اور Quarter سے DATE کالم.
میں سے انتخاب کریں پیش نظارہ، پھر منتخب کریں شامل کریں.
میں سے انتخاب کریں قدم شامل کریں۔ اور منتخب کریں اپنی مرضی کی تبدیلی.
ڈراپ ڈاؤن مینو پر، منتخب کریں۔ Python (PySpark).

پانچ قسم کے مشاہدات ہمیشہ ایک ہی تاریخ کو ریکارڈ نہیں کیے جا سکتے۔ مثال کے طور پر، ایک مریض 21 جنوری کو اپنے فیملی ڈاکٹر کے پاس جا سکتا ہے اور اس کا سسٹولک بلڈ پریشر، ڈائیسٹولک بلڈ پریشر، دل کی شرح، اور باڈی ماس انڈیکس کی پیمائش اور ریکارڈ کر سکتا ہے۔ تاہم، پلیٹلیٹس پر مشتمل ایک لیب ٹیسٹ 2 فروری کو بعد کی تاریخ میں کیا جا سکتا ہے۔ لہذا، مشاہدے کی تاریخ تک ڈیٹا فریم میں شامل ہونا ہمیشہ ممکن نہیں ہوتا ہے۔ یہاں ہم سہ ماہی کی بنیاد پر ایک موٹے گرانولریٹی پر ڈیٹا فریم میں شامل ہوتے ہیں۔

درج ذیل کوڈ درج کریں:

from pyspark.sql.functions import col

systolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed("value", "systolic")
                   .filter((col("code") == "8480-6"))
  )

diastolic_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'diastolic')
                   .filter((col("code") == "8462-4"))
    )

hr_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'hr')
                   .filter((col("code") == "8867-4"))
    )

bmi_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'bmi')
                   .filter((col("code") == "39156-5"))
    )

platelets_df = (
    df.select("patient", "DATE_year", "DATE_quarter", "value")
                   .withColumnRenamed('value', 'platelets')
                   .filter((col("code") == "777-3"))
    )

df = (
    systolic_df.join(diastolic_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(hr_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(bmi_df, ["patient", "DATE_year", "DATE_quarter"])
                            .join(platelets_df, ["patient", "DATE_year", "DATE_quarter"])
)

میں سے انتخاب کریں پیش نظارہ، پھر منتخب کریں شامل کریں.
میں سے انتخاب کریں قدم شامل کریں۔، پھر منتخب کریں قطاروں کا نظم کریں۔.
کے لئے تبدیلمنتخب کریں نقلیں چھوڑیں۔.
میں سے انتخاب کریں پیش نظارہ، پھر منتخب کریں شامل کریں.
میں سے انتخاب کریں قدم شامل کریں۔ اور منتخب کریں اپنی مرضی کی تبدیلی.
ڈراپ ڈاؤن مینو پر، منتخب کریں۔ ازگر (پانڈا).

ایک ہی وقت کی قدر کا اشتراک کرنے والے ڈیٹا پوائنٹس کی اوسط لینے کے لیے درج ذیل کوڈ درج کریں:

import pandas as pd
df.loc[:, df.columns != 'patient']=df.loc[:, df.columns != 'patient'].apply(pd.to_numeric)
df = df.groupby(['patient','DATE_year','DATE_quarter']).mean().round(0).reset_index()

میں سے انتخاب کریں پیش نظارہ، پھر منتخب کریں شامل کریں.

مریض.csv اور observations.csv میں شامل ہوں۔

اس مرحلے میں، ہم دکھاتے ہیں کہ ڈیٹا رینگلر کے طاقتور UI کے ذریعے کوئی کوڈ لکھے بغیر ڈیٹا سیٹس پر پیچیدہ جوائنز کو مؤثر طریقے سے اور آسانی سے کیسے انجام دیا جائے۔ جوائن کی تائید شدہ اقسام کے بارے میں مزید جاننے کے لیے، رجوع کریں۔ ڈیٹا کو تبدیل کریں۔.

کے حق میں تبدیلی: مريض.csv، آگے جمع کا نشان منتخب کریں۔ مراحل اور منتخب کریں شامل ہوں.
آپ ذیل میں درج کی گئی تبدیل شدہ مریضوں.csv فائل کو دیکھ سکتے ہیں۔ ڈیٹا سیٹ بائیں پین میں.
کے حق میں تبدیلی: observations.csv، پر کلک کریں مراحل جوائننگ آپریشن شروع کرنے کے لیے۔
تبدیل شدہ observations.csv فائل اب ذیل میں درج ہے۔ ڈیٹا سیٹ بائیں پین میں.
میں سے انتخاب کریں سیٹ کریں.
کے لئے شمولیت کی قسممنتخب کریں اندرونی.
کے لئے چھوڑ دیامنتخب کریں Id.
کے لئے اس وقتمنتخب کریں مریض.
میں سے انتخاب کریں پیش نظارہ، پھر منتخب کریں شامل کریں.

شامل کردہ ڈیٹاسیٹس میں اپنی مرضی کے مطابق تبدیلی شامل کریں۔

اس مرحلے میں، ہم مشاہدے کے وقت مریض کی عمر کا حساب لگاتے ہیں۔ ہم ایسے کالم بھی چھوڑ دیتے ہیں جن کی مزید ضرورت نہیں ہے۔

آگے جمع کا نشان منتخب کریں۔ پہلی شمولیت اور منتخب کریں تبدیلی شامل کریں۔.

پانڈوں میں اپنی مرضی کی تبدیلی شامل کریں:

df['age'] = df['DATE_year'] - df['BIRTHDATE_year']
df = df.drop(columns=['BIRTHDATE','DEATHDATE','BIRTHDATE_year','patient'])

میں سے انتخاب کریں پیش نظارہ، پھر منتخب کریں شامل کریں.

condition.csv میں اپنی مرضی کے مطابق تبدیلیاں شامل کریں۔

آگے جمع کا نشان منتخب کریں۔ تبدیلی: condition.csv اور منتخب کریں تبدیلی شامل کریں۔.

پانڈوں میں اپنی مرضی کی تبدیلی شامل کریں:

df = df[df["CODE"].isin(['84114007', '88805009', '59621000', '44054006', '53741008', '449868002', '49436004'])]
df = df.drop(columns=['DESCRIPTION','ENCOUNTER','STOP'])

نوٹ: جیسا کہ ہم نے پہلے دکھایا ہے، آپ کالم چھوڑ سکتے ہیں یا تو حسب ضرورت کوڈ کا استعمال کرتے ہوئے یا ڈیٹا رینگلر کے ذریعے فراہم کردہ بلٹ ان ٹرانسفارمیشنز کا استعمال کرتے ہوئے۔ ڈیٹا رینگلر کے اندر اپنی مرضی کے مطابق تبدیلیاں معاون فریم ورکس میں کوڈ کے ٹکڑوں کی صورت میں آپ کی اپنی تبدیلی کی منطق لانے کے لیے لچک فراہم کرتی ہیں۔ ان ٹکڑوں کو بعد میں تلاش کیا جا سکتا ہے اور ضرورت پڑنے پر لاگو کیا جا سکتا ہے۔

پچھلے ٹرانسفارم میں موجود کوڈ SNOMED-CT کوڈز ہیں جو درج ذیل شرائط کے مطابق ہیں۔ دی heart failure or chronic congestive heart failure حالت لیبل بن جاتا ہے. ہم دل کی ناکامی کی پیشن گوئی کے لیے بقیہ حالات کو بطور خصوصیات استعمال کرتے ہیں۔ ہم کچھ کالم بھی چھوڑ دیتے ہیں جن کی مزید ضرورت نہیں ہے۔

Heart failure: 84114007
Chronic congestive heart failure: 88805009
Hypertension: 59621000
Diabetes: 44054006
Coronary Heart Disease: 53741008
Smokes tobacco daily: 449868002
Atrial Fibrillation: 49436004

اگلا، آئیے PySpark میں اپنی مرضی کے مطابق تبدیلی شامل کریں:

from pyspark.sql.functions import col, when

heartfailure_df = (
    df.select("patient", "start")
                      .withColumnRenamed("start", "heartfailure")
                   .filter((col("code") == "84114007") | (col("code") == "88805009"))
  )

hypertension_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "hypertension")
                   .filter((col("code") == "59621000"))
  )

diabetes_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "diabetes")
                   .filter((col("code") == "44054006"))
  )

coronary_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "coronary")
                   .filter((col("code") == "53741008"))
  )

smoke_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "smoke")
                   .filter((col("code") == "449868002"))
  )

atrial_df = (
    df.select("patient", "start")
                   .withColumnRenamed("start", "atrial")
                   .filter((col("code") == "49436004"))
  )

df = (
    heartfailure_df.join(hypertension_df, ["patient"], "leftouter").withColumn("has_hypertension", when(col("hypertension") < col("heartfailure"), 1).otherwise(0))
    .join(diabetes_df, ["patient"], "leftouter").withColumn("has_diabetes", when(col("diabetes") < col("heartfailure"), 1).otherwise(0))
    .join(coronary_df, ["patient"], "leftouter").withColumn("has_coronary", when(col("coronary") < col("heartfailure"), 1).otherwise(0))
    .join(smoke_df, ["patient"], "leftouter").withColumn("has_smoke", when(col("smoke") < col("heartfailure"), 1).otherwise(0))
    .join(atrial_df, ["patient"], "leftouter").withColumn("has_atrial", when(col("atrial") < col("heartfailure"), 1).otherwise(0))
)

ہم ہارٹ فیلیئر ڈیٹا فریم میں تمام اندراجات رکھنے کے لیے بائیں بیرونی جوائن کرتے ہیں۔ ایک نیا کالم has_xxx شرط کے آغاز کی تاریخ کی بنیاد پر دل کی ناکامی کے علاوہ ہر حالت کے لیے شمار کیا جاتا ہے۔ ہم صرف ان طبی حالات میں دلچسپی رکھتے ہیں جو دل کی ناکامی سے پہلے ریکارڈ کی گئی تھیں اور انہیں دل کی ناکامی کی پیش گوئی کرنے کے لیے خصوصیات کے طور پر استعمال کرتے ہیں۔

بلٹ ان شامل کریں۔ کالموں کا نظم کریں۔ فالتو کالموں کو چھوڑنے کے لیے تبدیل کریں جن کی مزید ضرورت نہیں ہے:
1. hypertension
2. diabetes
3. coronary
4. smoke
5. atrial
باہر نکالیں Year اور Quarter سے heartfailure کالم.
یہ اس گرینولریٹی سے میل کھاتا ہے جو ہم نے پہلے کی تبدیلی میں استعمال کیا تھا۔ observations ڈیٹاسیٹ
ہمارے پاس condition.csv کے لیے کل 6 مراحل ہونے چاہئیں۔

جوائنڈ ڈیٹاسیٹ میں condition.csv میں شامل ہوں۔

اب ہم شامل ہونے والے حالات کے ڈیٹاسیٹ میں شامل ہونے کے لیے ایک نیا جوائن کرتے ہیں۔ patients اور observations ڈیٹاسیٹ

میں سے انتخاب کریں تبدیلی: پہلی شمولیت.
جمع کا نشان منتخب کریں اور منتخب کریں۔ شامل ہوں.
میں سے انتخاب کریں مراحل کرنے کے لئے اگلے تبدیلی: condition.csv.
میں سے انتخاب کریں سیٹ کریں.
کے لئے شمولیت کی قسممنتخب کریں بیرونی بائیں.
کے لئے چھوڑ دیامنتخب کریں Id.
کے لئے اس وقتمنتخب کریں مریض.
میں سے انتخاب کریں پیش نظارہ، پھر منتخب کریں شامل کریں.

شامل کردہ ڈیٹاسیٹس میں تبدیلیاں شامل کریں۔

اب جب کہ ہمارے پاس تینوں ڈیٹا سیٹس شامل ہو چکے ہیں، آئیے کچھ اضافی تبدیلیاں لاگو کریں۔

PySpark میں درج ذیل کسٹم ٹرانسفارم کو شامل کریں۔ has_heartfailure ہمارا لیبل کالم بن جاتا ہے:

from pyspark.sql.functions import col, when
df = (
    df.withColumn("has_heartfailure", when(col("heartfailure").isNotNull(), 1).otherwise(0))
)

PySpark میں درج ذیل حسب ضرورت تبدیلی شامل کریں:
```
from pyspark.sql.functions import col

df = (
    df.filter(
      (col("has_heartfailure") == 0) | 
      ((col("has_heartfailure") == 1) & ((col("date_year") <= col("heartfailure_year")) | ((col("date_year") == col("heartfailure_year")) & (col("date_quarter") <= col("heartfailure_quarter")))))
    )
)
```
ہم صرف ان مشاہدات میں دلچسپی رکھتے ہیں جب دل کی ناکامی کی حالت کی تشخیص ہونے سے پہلے ریکارڈ کیا جاتا ہے اور انہیں دل کی ناکامی کی پیش گوئی کرنے کے لیے خصوصیات کے طور پر استعمال کرتے ہیں۔ دل کی ناکامی کی تشخیص کے بعد کیے گئے مشاہدات مریض کی لی جانے والی دوائیوں سے متاثر ہو سکتے ہیں، اس لیے ہم ان کو خارج کرنا چاہتے ہیں۔
بے کار کالموں کو چھوڑ دیں جن کی مزید ضرورت نہیں ہے:
1. Id
2. DATE_year
3. DATE_quarter
4. patient
5. heartfailure
6. heartfailure_year
7. heartfailure_quarter
پر تجزیہ ٹیب، کے لیے تجزیہ کی قسممنتخب کریں جدول کا خلاصہ.
خلاصہ کے ذریعے ایک فوری اسکین سے پتہ چلتا ہے کہ MARITAL کالم میں ڈیٹا غائب ہے۔
منتخب کیجئیے ڈیٹا ٹیب کریں اور ایک قدم شامل کریں۔
میں سے انتخاب کریں ہینڈل غائب.
کے لئے تبدیلمنتخب کریں بھرنا غائب ہے۔.
کے لئے ان پٹ کالمزمنتخب کریں ازدواجی.
کے لئے قدر بھریں۔، داخل کریں S.
ہماری حکمت عملی یہاں یہ فرض کرنا ہے کہ مریض سنگل ہے اگر ازدواجی حیثیت کی قدر نہیں ہے۔ آپ ایک مختلف حکمت عملی اختیار کر سکتے ہیں۔
میں سے انتخاب کریں پیش نظارہ، پھر منتخب کریں شامل کریں.
لاپتہ قدر کو بطور 0 بھریں۔ has_hypertension, has_diabetes, has_coronary, has_smoke, has_atrial.

Marital اور Gender زمرہ کے متغیرات ہیں۔ ڈیٹا رینگلر میں زمرہ واری ایبلز کو انکوڈ کرنے کے لیے بلٹ ان فنکشن ہوتا ہے۔

ایک قدم شامل کریں اور منتخب کریں۔ انکوڈ زمرہ.
کے لئے تبدیلمنتخب کریں ایک گرم انکوڈ.
کے لئے ان پٹ کالمزمنتخب کریں ازدواجی.
کے لئے آؤٹ پٹ اسٹائلمنتخب کریں کالم.
یہ آؤٹ پٹ اسٹائل الگ الگ کالموں میں انکوڈ شدہ اقدار پیدا کرتا ہے۔
میں سے انتخاب کریں پیش نظارہ، پھر منتخب کریں شامل کریں.
کے لیے ان اقدامات کو دہرائیں۔ جنس کالم.

ایک گرم انکوڈنگ ازدواجی کالم کو اس میں تقسیم کرتی ہے۔ Marital_M (شادی شدہ) اور Marital_S (سنگل)، اور صنفی کالم کو اس میں تقسیم کرتا ہے۔ Gender_M (مرد) اور Gender_F (عورت). کیونکہ Marital_M اور Marital_S باہمی طور پر خصوصی ہیں (جیسا کہ ہیں۔ Gender_M اور Gender_F)، ہم بے کار خصوصیات سے بچنے کے لیے ایک کالم چھوڑ سکتے ہیں۔

چھوڑ Marital_S اور Gender_F.

عددی خصوصیات جیسے سسٹولک، دل کی دھڑکن، اور عمر کے یونٹ کے مختلف معیار ہوتے ہیں۔ لکیری رجعت پر مبنی ماڈل کے لیے، ہمیں پہلے ان عددی خصوصیات کو معمول پر لانے کی ضرورت ہے۔ بصورت دیگر، اعلی مطلق اقدار کے ساتھ کچھ خصوصیات کو کم مطلق اقدار کے ساتھ دیگر خصوصیات پر غیرضروری فائدہ ہو سکتا ہے اور اس کے نتیجے میں ماڈل کی کارکردگی خراب ہو سکتی ہے۔ ڈیٹا رینگلر میں ڈیٹا کو معمول پر لانے کے لیے بلٹ ان ٹرانسفارم Min-max سکیلر ہے۔ درخت پر مبنی درجہ بندی کے فیصلے کے لیے، معمول کی ضرورت نہیں ہے۔ ہمارا مطالعہ درجہ بندی کا مسئلہ ہے لہذا ہمیں نارملائزیشن کو لاگو کرنے کی ضرورت نہیں ہے۔ غیر متوازن کلاسیں درجہ بندی میں ایک عام مسئلہ ہیں۔ عدم توازن اس وقت ہوتا ہے جب تربیتی ڈیٹاسیٹ میں شدید ترچھی طبقاتی تقسیم ہوتی ہے۔ مثال کے طور پر، جب ہمارے ڈیٹاسیٹ میں غیر متناسب طور پر دل کی ناکامی کے مریضوں کی نسبت دل کی ناکامی کے زیادہ مریض ہوتے ہیں، تو یہ ماڈل کو دل کی ناکامی کی پیش گوئی کرنے کی طرف متعصب ہونے اور خراب کارکردگی کا سبب بن سکتا ہے۔ ڈیٹا رینگلر کے پاس مسئلہ سے نمٹنے کے لیے ایک بلٹ ان فنکشن ہے۔

کالم کے ڈیٹا کی قسم کو "آبجیکٹ" قسم سے عددی قسم میں تبدیل کرنے کے لیے پانڈوں میں اپنی مرضی کے مطابق تبدیلی شامل کریں:
```
import pandas as pd
df=df.apply(pd.to_numeric)
```
منتخب کیجئیے تجزیہ ٹیب.
کے لئے تجزیہ کی قسممنتخب کریں ہسٹگرام.
کے لئے ایکس محورمنتخب کریں ہے_دل کی ناکامی.
میں سے انتخاب کریں پیش نظارہ.

یہ واضح ہے کہ ہمارے پاس ایک غیر متوازن طبقہ ہے (دل کی ناکامی کے لیبل والے ڈیٹا پوائنٹس سے زیادہ ڈیٹا پوائنٹس جن پر ہارٹ فیلیئر کا لیبل لگا ہوا ہے)۔
پر واپس جائیں ڈیٹا ٹیب منتخب کریں۔ قدم شامل کریں۔ اور منتخب کریں بیلنس ڈیٹا.
کے لئے ٹارگٹ کالممنتخب کریں ہے_دل کی ناکامی.
کے لئے مطلوبہ تناسب، داخل کریں 1.
کے لئے تبدیلمنتخب کریں SMOTE.

SMOTE کا مطلب مصنوعی اقلیت سے زیادہ نمونے لینے کی تکنیک ہے۔ یہ نئی اقلیتی مثالیں تخلیق کرنے اور طبقاتی توازن تک پہنچنے کے لیے ڈیٹاسیٹ میں شامل کرنے کی تکنیک ہے۔ تفصیلی معلومات کے لیے رجوع کریں۔ SMOTE: مصنوعی اقلیت سے زیادہ نمونے لینے کی تکنیک.
میں سے انتخاب کریں پیش نظارہ، پھر منتخب کریں شامل کریں.
ہسٹوگرام تجزیہ کو مرحلہ 20-23 میں دہرائیں۔ نتیجہ ایک متوازن طبقہ ہے۔

ہدف کے رساو اور خصوصیت کے ارتباط کا تصور کریں۔

اس کے بعد، ہم ڈیٹا رینگلر کے اعلی درجے کی ML کی حمایت یافتہ تجزیہ کی اقسام کے بھرپور ٹول سیٹ کا استعمال کرتے ہوئے چند بصری تجزیے کرنے جا رہے ہیں۔ سب سے پہلے، ہم ہدف کے رساو کو دیکھتے ہیں۔ ٹارگٹ لیکیج اس وقت ہوتا ہے جب ٹریننگ ڈیٹاسیٹ کا ڈیٹا ٹارگٹ لیبل کے ساتھ مضبوطی سے منسلک ہوتا ہے، لیکن قیاس کے وقت حقیقی دنیا کے ڈیٹا میں دستیاب نہیں ہوتا ہے۔

پر تجزیہ ٹیب، کے لئے تجزیہ کی قسممنتخب کریں ٹارگٹ لیکیج.
کے لئے مسئلہ کی قسممنتخب کریں درجہ بندی.
کے لئے ہدفمنتخب کریں ہے_دل کی ناکامی.
میں سے انتخاب کریں پیش نظارہ.

تجزیہ کی بنیاد پر، hr ایک ہدف رساو ہے. ہم اسے اگلے مرحلے میں چھوڑ دیں گے۔ age ایک ہدف کے رساو کو نشان زد کیا گیا ہے۔ یہ کہنا مناسب ہے کہ مریض کی عمر تخمینہ کے وقت کے دوران دستیاب ہوگی، لہذا ہم عمر کو ایک خصوصیت کے طور پر رکھتے ہیں۔ Systolic اور diastolic ممکنہ ہدف کے رساو کے طور پر بھی نشان زد ہیں۔ ہم تخمینہ کے وقت کے دوران دو پیمائشوں کی توقع کرتے ہیں، لہذا ہم انہیں خصوصیات کے طور پر رکھتے ہیں۔
میں سے انتخاب کریں شامل کریں تجزیہ شامل کرنے کے لیے۔

پھر، ہم خصوصیت کے ارتباط کو دیکھتے ہیں۔ ہم ایسی خصوصیات کو منتخب کرنا چاہتے ہیں جو ہدف کے ساتھ منسلک ہوں لیکن آپس میں غیر مربوط ہوں۔

پر تجزیہ ٹیب، کے لئے تجزیہ کی قسممنتخب کریں خصوصیت کا ارتباط.
کے لئے Correlation Typeمنتخب کریں لکیری.
میں سے انتخاب کریں پیش نظارہ.

قابلیت کے اسکور درج ذیل جوڑوں کے درمیان مضبوط ارتباط کی نشاندہی کرتے ہیں:

systolic اور diastolic
bmi اور age
has_hypertension اور has_heartfailure (لیبل)

ان خصوصیات کے لیے جو مضبوطی سے جڑے ہوئے ہیں، میٹرکس کا الٹنا کمپیوٹیشنل طور پر مشکل ہے، جو عددی اعتبار سے غیر مستحکم تخمینے کا باعث بن سکتا ہے۔ ارتباط کو کم کرنے کے لیے، ہم جوڑے سے صرف ایک کو ہٹا سکتے ہیں۔ ہم گرتے ہیں۔ diastolic اور bmi اور رکھیں systolic اور age اگلے مرحلے میں.

ڈائیسٹولک اور بی ایم آئی کالم چھوڑیں۔

چھوڑنے کے لیے اضافی تبدیلی کے اقدامات شامل کریں۔ hr, diastolic اور bmi بلٹ ان ٹرانسفارم کا استعمال کرتے ہوئے کالم۔

ڈیٹا کوالٹی اور بصیرت کی رپورٹ بنائیں

AWS حال ہی میں کا اعلان کیا ہے ڈیٹا رینگلر میں ڈیٹا کوالٹی اور بصیرت کی رپورٹ کی نئی خصوصیت۔ یہ رپورٹ خود بخود ڈیٹا کے معیار کی تصدیق کرتی ہے اور آپ کے ڈیٹا میں اسامانیتاوں کا پتہ لگاتی ہے۔ ڈیٹا سائنسدان اور ڈیٹا انجینئرز اس ٹول کو ایم ایل ماڈل ٹریننگ کے لیے ڈیٹا سیٹس پر کارروائی کرنے کے لیے ڈومین کے علم کو مؤثر طریقے سے اور تیزی سے لاگو کرنے کے لیے استعمال کر سکتے ہیں۔ یہ مرحلہ اختیاری ہے۔ ہمارے ڈیٹاسیٹس پر اس رپورٹ کو بنانے کے لیے، درج ذیل مراحل کو مکمل کریں:

پر تجزیہ ٹیب، کے لیے تجزیہ کی قسممنتخب کریں ڈیٹا کوالٹی اور بصیرت کی رپورٹ.
کے لئے ٹارگٹ کالممنتخب کریں ہے_دل کی ناکامی.
کے لئے مسئلہ کی قسممنتخب کی درجہ بندی.
میں سے انتخاب کریں تخلیق کریں.

چند منٹوں میں، یہ خلاصہ، بصری اور سفارشات کے ساتھ ایک رپورٹ تیار کرتا ہے۔

ایک فوری ماڈل تجزیہ تیار کریں۔

ہم نے اپنی ڈیٹا کی تیاری، صفائی، اور فیچر انجینئرنگ مکمل کر لی ہے۔ ڈیٹا رینگلر میں ایک بلٹ ان فنکشن ہے جو ہمارے ڈیٹاسیٹ میں متوقع پیشین گوئی کے معیار اور خصوصیات کی پیشن گوئی کی طاقت کا تخمینہ فراہم کرتا ہے۔

پر تجزیہ ٹیب، کے لیے تجزیہ کی قسممنتخب کریں فوری ماڈل.
کے لئے لیبلمنتخب کریں ہے_دل کی ناکامی.
میں سے انتخاب کریں پیش نظارہ.

ہمارے کوئیک ماڈل کے تجزیہ کے مطابق، ہم اس خصوصیت کو دیکھ سکتے ہیں۔ has_hypertension تمام خصوصیات میں سب سے زیادہ فیچر اہمیت کا سکور ہے۔

ڈیٹا برآمد کریں اور ماڈل کو تربیت دیں۔

اب آئیے تبدیل شدہ ایم ایل کے لیے تیار فیچرز کو ایک منزل S3 بالٹی میں ایکسپورٹ کریں اور پوری فیچر انجینئرنگ پائپ لائن کو سکیل کریں جو ہم نے اب تک نمونوں کو پورے ڈیٹاسیٹ میں تقسیم شدہ انداز میں استعمال کرتے ہوئے بنایا ہے۔

ڈیٹا فلو میں آخری باکس کے آگے جمع کا نشان منتخب کریں اور منتخب کریں۔ منزل شامل کریں۔.
میں سے انتخاب کریں ایمیزون S3.
ایک درج کریں ڈیٹا سیٹ کا نام. کے لئے ایمیزون S3 مقام، ایک S3 بالٹی منتخب کریں، پھر منتخب کریں۔ منزل شامل کریں۔.
میں سے انتخاب کریں نوکری پیدا کریں۔ ٹرانسفارمیشن کو انجام دینے اور ڈیٹا کو منزل S3 بالٹی میں آؤٹ پٹ کرنے کے لیے ایک تقسیم شدہ PySpark پروسیسنگ جاب شروع کرنے کے لیے۔

ڈیٹا سیٹس کے سائز پر منحصر ہے، یہ آپشن ہمیں بغیر کوڈ کے انداز میں کلسٹر اور افقی پیمانے کو آسانی سے ترتیب دینے دیتا ہے۔ ہمیں ڈیٹاسیٹس کو تقسیم کرنے یا کلسٹر اور اسپارک انٹرنلز کے انتظام کے بارے میں فکر کرنے کی ضرورت نہیں ہے۔ یہ سب ڈیٹا رینگلر کے ذریعہ خود بخود ہمارے لئے خیال رکھا جاتا ہے۔
بائیں پین پر، منتخب کریں۔ اگلا، 2. جاب کو کنفیگر کریں۔
پھر منتخب کریں رن.

متبادل طور پر، ہم تبدیل شدہ آؤٹ پٹ کو Jupyter Notebook کے ذریعے S3 میں بھی برآمد کر سکتے ہیں۔ اس نقطہ نظر کے ساتھ، ڈیٹا رینگلر خود بخود ایک Jupyter نوٹ بک تیار کرتا ہے جس میں پروسیسنگ جاب کو شروع کرنے کے لیے درکار تمام کوڈ ہوتے ہیں تاکہ بڑے مکمل ڈیٹاسیٹ پر ڈیٹا کے بہاؤ کے مراحل (ایک نمونے کا استعمال کرتے ہوئے تخلیق کیے گئے) کو لاگو کیا جا سکے۔ بعد میں ایک تربیتی کام بند. نوٹ بک کوڈ کو بغیر تبدیلیوں کے ساتھ یا بغیر آسانی سے چلایا جا سکتا ہے۔ آئیے اب ڈیٹا رینگلر کے UI کے ذریعے اس کو انجام دینے کے طریقوں پر چلتے ہیں۔

ڈیٹا فلو کے آخری مرحلے کے آگے جمع کا نشان منتخب کریں اور منتخب کریں۔ برآمد کریں.
میں سے انتخاب کریں ایمیزون S3 (بذریعہ Jupyter نوٹ بک).
یہ خود بخود Jupyter نوٹ بک کے ساتھ ایک نیا ٹیب کھولتا ہے۔
Jupyter نوٹ بک میں، سیل کو تلاش کریں۔ (اختیاری) اگلے اقدامات سیکشن اور تبدیلی run_optional_steps سے False کرنے کے لئے True.
نوٹ بک میں فعال اختیاری اقدامات درج ذیل کام انجام دیتے ہیں:
- XGBoost کا استعمال کرتے ہوئے ایک ماڈل کو تربیت دیں۔
نوٹ بک کے اوپری حصے پر اور پر واپس جائیں۔ رن مینو، منتخب کریں تمام سیل چلائیں۔.

اگر آپ تیار کردہ نوٹ بک کو اسی طرح استعمال کرتے ہیں، تو یہ ایک SageMaker پروسیسنگ جاب کا آغاز کرتا ہے جو S5.4 بالٹی پر مکمل ڈیٹاسیٹ پر کارروائی کرنے کے لیے دو m3x بڑی مثالوں میں پروسیسنگ کی پیمائش کرتا ہے۔ آپ ڈیٹا سیٹ کے سائز اور کام کو مکمل کرنے کے لیے درکار وقت کی بنیاد پر مثالوں کی تعداد اور مثال کی اقسام کو ایڈجسٹ کر سکتے ہیں۔

آخری سیل سے تربیتی کام مکمل ہونے تک انتظار کریں۔ یہ SageMaker ڈیفالٹ S3 بالٹی میں ایک ماڈل تیار کرتا ہے۔

تربیت یافتہ ماڈل ریئل ٹائم انفرنس یا بیچ ٹرانسفارمیشن کے لیے تعیناتی کے لیے تیار ہے۔ نوٹ کریں کہ ہم نے ڈیٹا رینگلر میں فنکشنلٹیز کو ظاہر کرنے کے لیے مصنوعی ڈیٹا کا استعمال کیا اور ٹریننگ ماڈل کے لیے پروسیسڈ ڈیٹا کا استعمال کیا۔ یہ دیکھتے ہوئے کہ ہم نے جو ڈیٹا استعمال کیا ہے وہ مصنوعی ہے، تربیت یافتہ ماڈل کا نتیجہ حقیقی دنیا کی طبی حالت کی تشخیص یا طبی پریکٹیشنرز کے فیصلے کے متبادل کے لیے نہیں ہے۔

آپ اپنے تبدیل شدہ ڈیٹاسیٹ کو ایمیزون S3 میں منتخب کر کے براہ راست برآمد بھی کر سکتے ہیں۔ برآمد ٹرانسفارم پیش نظارہ صفحہ کے اوپر۔ براہ راست برآمد کا اختیار صرف تبدیل شدہ نمونے کو برآمد کرتا ہے اگر درآمد کے دوران نمونے لینے کو فعال کیا گیا ہو۔ اگر آپ چھوٹے ڈیٹا سیٹس کے ساتھ کام کر رہے ہیں تو یہ آپشن بہترین ہے۔ تبدیل شدہ ڈیٹا کو براہ راست فیچر اسٹور میں بھی داخل کیا جا سکتا ہے۔ مزید معلومات کے لیے رجوع کریں۔ ایمیزون سیج میکر فیچر اسٹور. ڈیٹا فلو کو سیج میکر پائپ لائن کے طور پر بھی ایکسپورٹ کیا جا سکتا ہے جسے آپ کی ضروریات کے مطابق ترتیب اور شیڈول کیا جا سکتا ہے۔ مزید معلومات کے لیے دیکھیں ایمیزون سیج میکر پائپ لائنز.

نتیجہ

اس پوسٹ میں، ہم نے دکھایا کہ ڈیٹا رینگلر کو صحت کی دیکھ بھال کے ڈیٹا پر کارروائی کرنے اور ایک ٹول سے چلنے والے، کم کوڈ والے انداز میں اسکیل ایبل فیچر انجینئرنگ انجام دینے کے لیے کیسے استعمال کیا جائے۔ ہم نے سیکھا کہ بلٹ ان ٹرانسفارمیشنز کو کس طرح لاگو کیا جائے اور جہاں ضرورت ہو مناسب طریقے سے تجزیہ کیا جائے، اسے حسب ضرورت تبدیلیوں کے ساتھ ملا کر ہمارے ڈیٹا کی تیاری کے ورک فلو میں مزید لچک پیدا کی جائے۔ ہم نے تقسیم شدہ پروسیسنگ جابز کے ذریعے ڈیٹا فلو ریسیپی کو اسکیل کرنے کے لیے مختلف آپشنز کا بھی جائزہ لیا۔ ہم نے یہ بھی سیکھا کہ کس طرح تبدیل شدہ ڈیٹا کو دل کی ناکامی کی پیش گوئی کرنے کے لیے ماڈل کی تربیت کے لیے آسانی سے استعمال کیا جا سکتا ہے۔

ڈیٹا رینگلر میں بہت سی دوسری خصوصیات ہیں جن کا ہم نے اس پوسٹ میں احاطہ نہیں کیا ہے۔ دریافت کریں کہ اس میں کیا ممکن ہے۔ ایمیزون سیج میکر ڈیٹا رینگلر کے ساتھ ایم ایل ڈیٹا تیار کریں۔ اور اپنے اگلے ڈیٹا سائنس یا مشین لرننگ پروجیکٹ کے لیے ڈیٹا رینگلر کا فائدہ اٹھانے کا طریقہ سیکھیں۔

مصنفین کے بارے میں

فارسٹ سن ٹورنٹو، کینیڈا میں AWS پبلک سیکٹر ٹیم کے ساتھ ایک سینئر حل آرکیٹیکٹ ہے۔ انہوں نے صحت کی دیکھ بھال اور مالیاتی صنعتوں میں گزشتہ دو دہائیوں سے کام کیا ہے۔ کام سے باہر، وہ اپنے خاندان کے ساتھ کیمپنگ سے لطف اندوز ہوتا ہے۔

Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence کے ساتھ ہیلتھ کیئر اور لائف سائنسز کے لیے فیچر انجینئرنگ۔ عمودی تلاش۔ عی ارون پرستھ شنکر AWS کے ساتھ ایک آرٹیفیشل انٹیلی جنس اور مشین لرننگ (AI/ML) ماہر حل آرکیٹیکٹ ہے، جو عالمی صارفین کو اپنے AI سلوشنز کو کلاؤڈ میں موثر اور مؤثر طریقے سے پیمانہ کرنے میں مدد کرتا ہے۔ اپنے فارغ وقت میں، ارون سائنس فائی فلمیں دیکھنا اور کلاسیکی موسیقی سننا پسند کرتے ہیں۔

ٹائم اسٹیمپ: جولائی 7، 2022جولائی 19، 2022

ٹائم اسٹیمپ: مارچ 28، 2023

ایمیزون سیج میکر ڈیٹا رینگلر کے ساتھ ہیلتھ کیئر اور لائف سائنسز کے لیے فیچر انجینئرنگ

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

حل جائزہ

ڈیٹاسیٹ تیار کریں۔

ڈیٹا رینگلر لانچ کریں۔

ڈیٹا درآمد کریں۔

ڈیٹا کو تبدیل کریں۔

مریضوں میں کالم چھوڑیں۔

Patient.csv میں تاریخ/وقت نمایاں کریں۔

observations.csv میں تبدیلیاں شامل کریں۔

مریض.csv اور observations.csv میں شامل ہوں۔

شامل کردہ ڈیٹاسیٹس میں اپنی مرضی کے مطابق تبدیلی شامل کریں۔

condition.csv میں اپنی مرضی کے مطابق تبدیلیاں شامل کریں۔

جوائنڈ ڈیٹاسیٹ میں condition.csv میں شامل ہوں۔

شامل کردہ ڈیٹاسیٹس میں تبدیلیاں شامل کریں۔

ہدف کے رساو اور خصوصیت کے ارتباط کا تصور کریں۔

ڈائیسٹولک اور بی ایم آئی کالم چھوڑیں۔

ڈیٹا کوالٹی اور بصیرت کی رپورٹ بنائیں

ایک فوری ماڈل تجزیہ تیار کریں۔

ڈیٹا برآمد کریں اور ماڈل کو تربیت دیں۔

نتیجہ

مصنفین کے بارے میں

سے زیادہ AWS مشین لرننگ

Amazon Transcribe | کے ساتھ اپنے ٹرانسکرپٹس کو پیراگراف میں ترتیب دیں۔ ایمیزون ویب سروسز

ایمیزون سیج میکر ماڈل متوازی اور ڈیٹا متوازی لائبریریوں کے ساتھ تقسیم شدہ تربیت اور موثر اسکیلنگ | ایمیزون ویب سروسز

ایمیزون لیکس اور ٹاک ڈیسک کلاؤڈ کانٹیکٹ سنٹر کے ساتھ اپنے چیٹ بوٹ صارفین کے لیے براہ راست ایجنٹ کی مدد فراہم کریں۔ ایمیزون ویب سروسز

بہتر تشخیص اور تجزیہ کے لیے Amazon Textract Bulk Document Uploader کا تعارف ایمیزون ویب سروسز

ایمیزون پر Amp نے کس طرح کسٹمر کی مصروفیت بڑھانے کے لیے ڈیٹا کا استعمال کیا، حصہ 1: ڈیٹا اینالیٹکس پلیٹ فارم بنانا

یارا ایمیزون سیج میکر کی ایم ایل او پی خصوصیات کو اپنے امونیا پلانٹس میں توانائی کی اصلاح کی پیمائش کے لیے کس طرح استعمال کر رہا ہے

فورٹونا کا تعارف: غیر یقینی صورتحال کی مقدار کے لیے ایک لائبریری

ایمیزون سیج میکر پائپ لائنز کے ساتھ مشین لرننگ ورک فلو بنانے کے لیے بہترین طرز عمل اور ڈیزائن پیٹرن ایمیزون ویب سروسز

AWS کا استعمال کرتے ہوئے کسٹمر کے جذبات کا حقیقی وقت کا تجزیہ

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ