মেশিন লার্নিং (এমএল) অভূতপূর্ব গতিতে অনেক শিল্পকে ব্যাহত করছে। স্বাস্থ্যসেবা এবং জীবন বিজ্ঞান (HCLS) শিল্প সাম্প্রতিক বছরগুলিতে একটি দ্রুত বিবর্তনের মধ্য দিয়ে যাচ্ছে যা উচ্চমানের যত্ন প্রদান এবং রোগীর ফলাফলের উন্নতির জন্য বহুবিধ ব্যবহারের ক্ষেত্রে এমএলকে আলিঙ্গন করে।
একটি সাধারণ এমএল জীবনচক্রে, ডেটা ইঞ্জিনিয়ার এবং বিজ্ঞানীরা মডেল তৈরি এবং প্রশিক্ষণের প্রক্রিয়া শুরু করার আগে ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশল পদক্ষেপগুলিতে তাদের বেশিরভাগ সময় ব্যয় করে। এমন একটি সরঞ্জাম থাকা যা ডেটা প্রস্তুতির জন্য প্রবেশের বাধা কমাতে পারে, যার ফলে উত্পাদনশীলতা উন্নত হয়, এই ব্যক্তিদের জন্য একটি অত্যন্ত আকাঙ্খিত চাওয়া। অ্যামাজন সেজমেকার ডেটা র্যাংলার শেখার বক্ররেখা কমাতে এবং ডেটা অনুশীলনকারীদের কম পরিশ্রম এবং সময়ে ডেটা প্রস্তুতি, পরিষ্কার এবং বৈশিষ্ট্য ইঞ্জিনিয়ারিং কাজগুলি সম্পন্ন করতে সক্ষম করার জন্য AWS দ্বারা নির্মিত উদ্দেশ্য। এটি অনেকগুলি অন্তর্নির্মিত ফাংশন এবং অন্যান্য AWS পরিষেবাগুলির সাথে একীকরণ সহ একটি GUI ইন্টারফেস অফার করে যেমন আমাজন সিম্পল স্টোরেজ সার্ভিস (অ্যামাজন এস 3) এবং আমাজন সেজমেকার ফিচার স্টোর, পাশাপাশি Snowflake এবং Databricks সহ অংশীদার ডেটা উত্সগুলি৷
এই পোস্টে, রোগীর জনসংখ্যা, পূর্বের চিকিৎসা পরিস্থিতি এবং ল্যাব টেস্টের ফলাফলের ইতিহাসের ভিত্তিতে হৃদযন্ত্রের ব্যর্থতার পূর্বাভাস দেওয়ার জন্য একটি মডেলকে প্রশিক্ষণের জন্য স্বাস্থ্যসেবা ডেটা প্রস্তুত করতে ডেটা র্যাংলারকে কীভাবে ব্যবহার করতে হয় তা আমরা প্রদর্শন করি।
সমাধান ওভারভিউ
সমাধান নিম্নলিখিত পদক্ষেপ নিয়ে গঠিত:
- ডেটা র্যাংলারের ইনপুট হিসাবে একটি স্বাস্থ্যসেবা ডেটাসেট অর্জন করুন।
- ডেটাসেট রূপান্তর করতে ডেটা র্যাংলারের অন্তর্নির্মিত রূপান্তর ফাংশন ব্যবহার করুন। এর মধ্যে রয়েছে ড্রপ কলাম, ডেটা/টাইম ফিচারাইজ করা, ডেটাসেটে যোগ দেওয়া, অনুপস্থিত মানগুলিকে অভিযুক্ত করা, শ্রেণীগত ভেরিয়েবলগুলিকে এনকোড করা, সংখ্যাসূচক মানগুলি স্কেল করা, ডেটাসেটের ভারসাম্য বজায় রাখা এবং আরও অনেক কিছু।
- বিল্ট-ইন ট্রান্সফরমেশনের বাইরে প্রয়োজনীয় অতিরিক্ত ট্রান্সফর্মেশনের পরিপূরক করতে ডেটা র্যাংলারের কাস্টম ট্রান্সফর্ম ফাংশন (পান্ডাস বা পাইস্পার্ক কোড) ব্যবহার করুন এবং ডেটা র্যাংলারের এক্সটেনসিবিলিটি প্রদর্শন করুন। এর মধ্যে রয়েছে ফিল্টার সারি, গ্রুপ ডেটা, শর্তের উপর ভিত্তি করে নতুন ডেটাফ্রেম তৈরি করা এবং আরও অনেক কিছু।
- ভিজ্যুয়াল বিশ্লেষণ করতে ডেটা র্যাংলারের অন্তর্নির্মিত ভিজ্যুয়ালাইজেশন ফাংশন ব্যবহার করুন। এর মধ্যে রয়েছে লক্ষ্য ফাঁস, বৈশিষ্ট্যের সম্পর্ক, দ্রুত মডেল এবং আরও অনেক কিছু।
- Amazon S3 এ রূপান্তরিত ডেটাসেট রপ্তানি করতে ডেটা র্যাংলারের অন্তর্নির্মিত এক্সপোর্ট বিকল্পগুলি ব্যবহার করুন৷
- একটি মডেলকে প্রশিক্ষণের জন্য ইনপুট হিসাবে Amazon S3-এ রূপান্তরিত ডেটাসেট ব্যবহার করতে একটি Jupyter নোটবুক চালু করুন৷
একটি ডেটাসেট তৈরি করুন
এখন যেহেতু আমরা ML সমস্যা বিবৃতিতে মীমাংসা করেছি, আমরা প্রথমে আমাদের প্রয়োজনীয় ডেটা অর্জনের দিকে নজর রাখি। গবেষণা অধ্যয়ন যেমন হার্ট ফেইলার পূর্বাভাস ইতিমধ্যেই ভালো অবস্থায় আছে এমন ডেটা প্রদান করতে পারে। যাইহোক, আমরা প্রায়শই এমন পরিস্থিতির সম্মুখীন হই যেখানে ডেটা বেশ অগোছালো এবং এমএল প্রশিক্ষণের জন্য ব্যবহার করার আগে যোগদান, পরিষ্কার করা এবং অন্যান্য বেশ কিছু রূপান্তর প্রয়োজন যা স্বাস্থ্যসেবা ডোমেনের জন্য খুব নির্দিষ্ট। আমরা যথেষ্ট অগোছালো ডেটা খুঁজে পেতে বা জেনারেট করতে চাই এবং ডেটা র্যাংলার ব্যবহার করে এটি প্রস্তুত করার ধাপগুলি আপনাকে নিয়ে যেতে চাই৷ এটি মাথায় রেখে, আমরা আমাদের লক্ষ্যের সাথে মানানসই সিন্থেটিক ডেটা তৈরি করার জন্য সিন্থিয়াকে একটি টুল হিসাবে বেছে নিয়েছি। সিন্থিয়া একটি ওপেন সোর্স সিন্থেটিক পেশেন্ট জেনারেটর যা সিন্থেটিক রোগীদের চিকিৎসা ইতিহাসকে মডেল করে। আপনার ডেটাসেট তৈরি করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- অনুযায়ী নির্দেশাবলী অনুসরণ করুন দ্রুত শুরু একটি তৈরি করার জন্য ডকুমেন্টেশন অ্যামাজন সেজমেকার স্টুডিও ডোমেন এবং স্টুডিও চালু করুন।
এটি একটি পূর্বশর্ত পদক্ষেপ। স্টুডিও ইতিমধ্যে আপনার অ্যাকাউন্টে সেট আপ করা থাকলে এটি ঐচ্ছিক। - স্টুডিও চালু হওয়ার পর, লঞ্চার ট্যাব, চয়ন করুন সিস্টেম টার্মিনাল.
এটি একটি টার্মিনাল সেশন চালু করে যা আপনাকে কাজ করার জন্য একটি কমান্ড লাইন ইন্টারফেস দেয়। - Synthea ইনস্টল করতে এবং CSV ফরম্যাটে ডেটাসেট তৈরি করতে, চালু হওয়া টার্মিনাল সেশনে নিম্নলিখিত কমান্ডগুলি চালান:
আমরা 10,000 জনসংখ্যার আকার সহ ডেটাসেট তৈরি করার জন্য একটি প্যারামিটার সরবরাহ করি। মনে রাখবেন আকারের প্যারামিটারটি জনসংখ্যার জীবিত সদস্যের সংখ্যা নির্দেশ করে। উপরন্তু, সিন্থিয়া জনসংখ্যার মৃত সদস্যদের জন্য ডেটাও তৈরি করে যা নির্দিষ্ট নমুনার আকারের উপরে কয়েকটি অতিরিক্ত ডেটা পয়েন্ট যোগ করতে পারে।
ডেটা জেনারেশন সম্পূর্ণ না হওয়া পর্যন্ত অপেক্ষা করুন। এই পদক্ষেপটি সাধারণত প্রায় এক ঘন্টা বা তার কম সময় নেয়। সিন্থিয়া সহ একাধিক ডেটাসেট তৈরি করে patients
, medications
, allergies
, conditions
, এবং আরো এই পোস্টের জন্য, আমরা তিনটি ফলিত ডেটাসেট ব্যবহার করি:
- রোগীদের.সিএসভি - এই ডেটাসেটটি প্রায় 3.2 MB এবং এতে রোগীর ডেটার প্রায় 11,000 সারি রয়েছে (রোগীর আইডি, জন্মতারিখ, লিঙ্গ, ঠিকানা এবং আরও অনেক কিছু সহ 25টি কলাম)
- condition.csv - এই ডেটাসেটটি প্রায় 47 এমবি এবং এতে প্রায় 370,000 সারি চিকিৎসা অবস্থার ডেটা রয়েছে (রোগীর আইডি, শর্ত শুরুর তারিখ, শর্ত কোড এবং আরও অনেক কিছু সহ ছয়টি কলাম)
- observations.csv - এই ডেটাসেটটি প্রায় 830 MB এবং এতে প্রায় 5 মিলিয়ন সারি পর্যবেক্ষণ ডেটা রয়েছে (রোগীর আইডি, পর্যবেক্ষণের তারিখ, পর্যবেক্ষণ কোড, মান এবং আরও অনেক কিছু সহ আটটি কলাম)
মধ্যে একটি এক থেকে বহু সম্পর্ক আছে patients
এবং conditions
ডেটাসেট এর মধ্যেও এক থেকে বহু সম্পর্ক রয়েছে patients
এবং observations
ডেটাসেট একটি বিস্তারিত ডেটা অভিধানের জন্য, পড়ুন CSV ফাইল ডেটা অভিধান.
- Amazon S3-এ একটি সোর্স বাকেটে জেনারেট করা ডেটাসেটগুলি আপলোড করতে, টার্মিনাল সেশনে নিম্নলিখিত কমান্ডগুলি চালান:
ডেটা র্যাংলার চালু করুন
বেছে নিন সেজমেকার সম্পদ স্টুডিওতে নেভিগেশন পৃষ্ঠায় এবং প্রকল্প মেনু, নির্বাচন করুন ডেটা র্যাংলার একটি ডেটা র্যাংলার ডেটা ফ্লো তৈরি করতে। স্টুডিওর মধ্যে থেকে ডেটা র্যাংলার কীভাবে চালু করবেন তা বিস্তারিত পদক্ষেপের জন্য দেখুন ডেটা র্যাংলার দিয়ে শুরু করুন.
তথ্য আমদানি
আপনার ডেটা আমদানি করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- বেছে নিন আমাজন S3 এবং S3 বালতি রোগীদের.csv ফাইলটি সনাক্ত করুন।
- মধ্যে বিস্তারিত ফলক, চয়ন করুন প্রথম কে উন্নত আদর্শ.
- প্রবেশ করান
1100
উন্নত সাধারন মাপ.
প্রিভিউ প্যানে, ডেটা র্যাংলার ডেটাসেট থেকে প্রথম 100টি সারি টেনে নেয় এবং সেগুলিকে একটি প্রিভিউ হিসাবে তালিকাভুক্ত করে। - বেছে নিন আমদানি.
ডেটা র্যাংলার সিন্থিয়া দ্বারা উত্পন্ন মোট রোগী (1,100 সারি) থেকে প্রথম 11,000 রোগীকে নির্বাচন করে এবং ডেটা আমদানি করে। নমুনা পদ্ধতি ডেটা র্যাংলারকে শুধুমাত্র নমুনা ডেটা প্রক্রিয়া করতে দেয়। এটি আমাদের একটি ছোট ডেটাসেটের সাথে আমাদের ডেটা প্রবাহ বিকাশ করতে সক্ষম করে, যার ফলে দ্রুত প্রক্রিয়াকরণ এবং একটি ছোট প্রতিক্রিয়া লুপ হয়। আমরা ডেটা ফ্লো তৈরি করার পরে, আমরা একটি বিকশিত রেসিপি জমা দিতে পারি সেজমেকার প্রক্রিয়াকরণ একটি বিতরণ করা ফ্যাশনে সম্পূর্ণ বা বড় ডেটাসেটের জন্য অনুভূমিকভাবে প্রসেসিং স্কেল করার কাজ। - জন্য এই প্রক্রিয়া পুনরাবৃত্তি করুন
conditions
এবংobservations
ডেটাসেট- জন্য
conditions
ডেটাসেট, এন্টার করুন37000
উন্নত সাধারন মাপ, যা Synthea দ্বারা উত্পন্ন মোট 1 সারির 10/370,000। - জন্য
observations
ডেটাসেট, এন্টার করুন500000
উন্নত সাধারন মাপ, যা মোট পর্যবেক্ষণের 1/10 5 মিলিয়ন সারি সিন্থিয়া দ্বারা উত্পন্ন।
- জন্য
নিম্নলিখিত স্ক্রিনশটে দেখানো হিসাবে আপনি তিনটি ডেটাসেট দেখতে পাবেন।
তথ্য রূপান্তর
ডেটা ট্রান্সফরমেশন হল ডেটাসেটের এক বা একাধিক কলামের গঠন, মান বা বিন্যাস পরিবর্তন করার প্রক্রিয়া। প্রক্রিয়াটি সাধারণত একজন ডেটা প্রকৌশলী দ্বারা তৈরি করা হয় এবং রূপান্তরের জন্য প্রস্তাবিত যুক্তির পাঠোদ্ধার করার জন্য একটি ছোট ডেটা ইঞ্জিনিয়ারিং দক্ষতা সম্পন্ন লোকেদের জন্য এটি চ্যালেঞ্জিং হতে পারে। ডেটা ট্রান্সফরমেশন হল বৃহত্তর বৈশিষ্ট্য ইঞ্জিনিয়ারিং প্রক্রিয়ার অংশ, এবং এই ধরনের রেসিপি তৈরি করার সময় ধাপগুলির সঠিক ক্রমটি মনে রাখা আরেকটি গুরুত্বপূর্ণ মানদণ্ড।
ডেটা র্যাংলার কার্যকরী ডেটা প্রস্তুতির জন্য প্রবেশের বাধা কমাতে একটি কম-কোড সরঞ্জাম হিসাবে ডিজাইন করা হয়েছে। এটি 300 টিরও বেশি প্রি-কনফিগার করা ডেটা ট্রান্সফরমেশনের সাথে আসে যা আপনার জন্য কোডের একটি লাইন না লিখেই বেছে নিতে পারে। নিম্নলিখিত বিভাগগুলিতে, আমরা ডেটা র্যাংলারে আমদানি করা ডেটাসেটগুলিকে কীভাবে রূপান্তর করতে হয় তা দেখি।
রোগীদের মধ্যে কলাম ড্রপ করুন
আমরা প্রথমে কিছু কলাম থেকে ড্রপ patients
ডেটাসেট অপ্রয়োজনীয় কলামগুলি ড্রপ করা ডেটাসেট থেকে অ-প্রাসঙ্গিক তথ্য সরিয়ে দেয় এবং ডেটাসেট প্রক্রিয়া করতে এবং একটি মডেলকে প্রশিক্ষণের জন্য প্রয়োজনীয় কম্পিউটিং সংস্থানগুলির পরিমাণ কমাতে সাহায্য করে। এই বিভাগে, আমরা সাধারণ জ্ঞানের উপর ভিত্তি করে SSN বা পাসপোর্ট নম্বরের মতো কলামগুলি ফেলে দিই যে এই কলামগুলির কোনও ভবিষ্যদ্বাণীমূলক মান নেই। অন্য কথায়, তারা আমাদের মডেলকে হার্টের ব্যর্থতার পূর্বাভাস দিতে সাহায্য করে না। আমাদের অধ্যয়ন অন্যান্য কলাম যেমন জন্মস্থান বা স্বাস্থ্যসেবা ব্যয় রোগীর হার্ট ফেইলিউরের প্রভাব সম্পর্কে উদ্বিগ্ন নয়, তাই আমরা সেগুলিও বাদ দিই। অপ্রয়োজনীয় কলামগুলিকে বিল্ট-ইন বিশ্লেষণগুলি যেমন টার্গেট লিকেজ, ফিচার পারস্পরিক সম্পর্ক, মাল্টিকলিনিয়ারিটি এবং আরও অনেক কিছু চালিয়ে চিহ্নিত করা যেতে পারে, যা ডেটা র্যাংলারে তৈরি করা হয়েছে। সমর্থিত বিশ্লেষণের ধরন সম্পর্কে আরও বিস্তারিত জানার জন্য, পড়ুন বিশ্লেষণ করুন এবং কল্পনা করুন. উপরন্তু, আপনি ব্যবহার করতে পারেন ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট অপসারণের জন্য অপ্রয়োজনীয় কলামগুলির একটি তালিকায় পৌঁছানোর জন্য ডেটাসেটগুলিতে স্বয়ংক্রিয় বিশ্লেষণ করতে।
- পাশের প্লাস চিহ্নটি বেছে নিন তথ্যের ধরণ রোগীদের জন্য. সিএসভি ডেটাসেট এবং বেছে নিন রূপান্তর যোগ করুন.
- বেছে নিন ধাপ যোগ করুন এবং নির্বাচন করুন কলাম পরিচালনা করুন.
- জন্য রুপান্তরপছন্দ করা কলাম ড্রপ করুন.
- জন্য কলাম ড্রপ, নিম্নলিখিত কলাম নির্বাচন করুন:
SSN
DRIVERS
PASSPORT
PREFIX
FIRST
LAST
SUFFIX
MAIDEN
RACE
ETHNICITY
BIRTHPLACE
ADDRESS
CITY
STATE
COUNTY
ZIP
LAT
LON
HEALTHCARE_EXPENSES
HEALTHCARE_COVERAGE
- বেছে নিন প্রি রূপান্তরিত ডেটাসেট পর্যালোচনা করতে, তারপর বেছে নিন বিজ্ঞাপন.
আপনি পদক্ষেপ দেখতে হবে কলাম ড্রপ করুন আপনার রূপান্তরের তালিকায়।
Patient.csv-এ তারিখ/সময় ফিচার করুন
এখন আমরা নতুন বৈশিষ্ট্য তৈরি করতে তারিখ/সময় বৈশিষ্ট্য ব্যবহার করি Year
থেকে BIRTHDATE
মধ্যে কলাম patients
ডেটাসেট পর্যবেক্ষণের সময় রোগীর বয়স গণনা করার জন্য পরবর্তী ধাপে আমরা নতুন বৈশিষ্ট্যটি ব্যবহার করি।
- মধ্যে বদলে দেয় আপনার ফলক কলাম ড্রপ করুন জন্য পৃষ্ঠা
patients
ডেটাসেট, নির্বাচন করুন ধাপ যোগ করুন. - পছন্দ তারিখ/সময় বৈশিষ্ট্যযুক্ত করুন রূপান্তর
- বেছে নিন কলাম বের করুন.
- জন্য ইনপুট কলাম, কলাম যোগ করুন
BIRTHDATE
. - নির্বাচন করা বছর এবং নির্বাচন মুক্ত করুন মাস, দিন, ঘন্টা, মিনিট, দ্বিতীয়।
- বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
observations.csv-এ রূপান্তর যোগ করুন
ডেটা র্যাংলার পাইথন (ব্যবহারকারী-সংজ্ঞায়িত ফাংশন), পাইস্পার্ক, পান্ডাস বা পাইস্পার্ক (এসকিউএল) ব্যবহার করে কাস্টম রূপান্তর সমর্থন করে। প্রতিটি বিকল্প এবং পছন্দের সাথে আপনার পরিচিতির উপর ভিত্তি করে আপনি আপনার রূপান্তরের ধরন বেছে নিতে পারেন। পরবর্তী তিনটি বিকল্পের জন্য, ডেটা র্যাংলার ভেরিয়েবলটি প্রকাশ করে df
আপনি ডেটাফ্রেম অ্যাক্সেস করতে এবং এতে রূপান্তর প্রয়োগ করতে পারেন। একটি বিস্তারিত ব্যাখ্যা এবং উদাহরণের জন্য, পড়ুন কাস্টম রূপান্তর. এই বিভাগে, আমরা তিনটি কাস্টম রূপান্তর যোগ করুন observations
ডেটাসেট
- observations.csv-এ একটি রূপান্তর যোগ করুন এবং ড্রপ করুন
DESCRIPTION
কলাম। - বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
- মধ্যে বদলে দেয় ফলক, চয়ন করুন ধাপ যোগ করুন এবং নির্বাচন করুন কাস্টম রূপান্তর.
- ড্রপ-ডাউন মেনুতে, চয়ন করুন পাইথন (পান্ডাস).
- নিম্নলিখিত কোড লিখুন:
এইগুলি হল LONIC কোড যা নিম্নলিখিত পর্যবেক্ষণগুলির সাথে মিলে যায় যা আমরা হৃদযন্ত্রের ব্যর্থতার পূর্বাভাস দেওয়ার বৈশিষ্ট্য হিসাবে ব্যবহার করতে আগ্রহী:
- বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
- নিষ্কাশন করতে একটি রূপান্তর যোগ করুন
Year
এবংQuarter
থেকেDATE
কলাম। - বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
- বেছে নিন ধাপ যোগ করুন এবং নির্বাচন করুন কাস্টম রূপান্তর.
- ড্রপ-ডাউন মেনুতে, চয়ন করুন পাইথন (PySpark).
পাঁচ ধরনের পর্যবেক্ষণ সবসময় একই তারিখে রেকর্ড করা যাবে না। উদাহরণস্বরূপ, একজন রোগী 21 জানুয়ারি তাদের পারিবারিক ডাক্তারের কাছে যেতে পারেন এবং তাদের সিস্টোলিক রক্তচাপ, ডায়াস্টোলিক রক্তচাপ, হার্ট রেট এবং বডি মাস ইনডেক্স পরিমাপ এবং রেকর্ড করতে পারেন। যাইহোক, প্লেটলেট সমেত একটি ল্যাব পরীক্ষা পরবর্তী তারিখে 2 ফেব্রুয়ারি করা যেতে পারে। তাই, পর্যবেক্ষণের তারিখের মধ্যে ডেটাফ্রেমে যোগ দেওয়া সবসময় সম্ভব নয়। এখানে আমরা ত্রৈমাসিক ভিত্তিতে একটি মোটা দানাদারিতে ডেটাফ্রেমে যোগদান করি। - নিম্নলিখিত কোড লিখুন:
- বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
- বেছে নিন ধাপ যোগ করুন, তাহলে বেছে নাও সারি পরিচালনা করুন.
- জন্য রুপান্তরনির্বাচন ডুপ্লিকেট বাদ দিন.
- বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
- বেছে নিন ধাপ যোগ করুন এবং নির্বাচন করুন কাস্টম রূপান্তর.
- ড্রপ-ডাউন মেনুতে, চয়ন করুন পাইথন (পান্ডাস).
- একই সময়ের মান ভাগ করে এমন একটি গড় ডেটা পয়েন্ট নিতে নিম্নলিখিত কোডটি লিখুন:
- বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
রোগীদের.csv এবং observations.csv-এ যোগ দিন
এই ধাপে, আমরা ডেটা র্যাংলারের শক্তিশালী UI-এর মাধ্যমে কোনো কোড না লিখে কীভাবে কার্যকরভাবে এবং সহজে ডেটাসেটে জটিল যোগদান করতে পারি তা দেখাই। সমর্থিত ধরনের যোগদান সম্পর্কে আরও জানতে, পড়ুন তথ্য রূপান্তর.
- ডানদিকে রূপান্তর: রোগী, পাশের প্লাস চিহ্নটি বেছে নিন প্রারম্ভিক ব্যবহারের নির্দেশাবলী এবং নির্বাচন করুন যোগদান.
আপনি নীচে তালিকাভুক্ত রূপান্তরিত রোগীদের.csv ফাইলটি দেখতে পারেন ডেটাসেট বাম পাশে - ডানদিকে রূপান্তর: observations.csv, ক্লিক করুন প্রারম্ভিক ব্যবহারের নির্দেশাবলী যোগদান কার্যক্রম শুরু করতে।
রূপান্তরিত observations.csv ফাইলটি এখন তালিকাভুক্ত করা হয়েছে ডেটাসেট বাম পাশে - বেছে নিন কনফিগার করুন.
- জন্য যোগদানের ধরননির্বাচন ভিতরের.
- জন্য বামনির্বাচন Id.
- জন্য অধিকারনির্বাচন রোগী.
- বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
যোগ করা ডেটাসেটে একটি কাস্টম রূপান্তর যোগ করুন
এই ধাপে, আমরা পর্যবেক্ষণের সময় রোগীর বয়স গণনা করি। আমরা সেই কলামগুলিও ফেলে দিই যেগুলির আর প্রয়োজন নেই৷
- পাশের প্লাস চিহ্নটি বেছে নিন ১ম যোগদান এবং নির্বাচন করুন রূপান্তর যোগ করুন.
- পান্ডাসে একটি কাস্টম রূপান্তর যোগ করুন:
- বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
condition.csv-এ কাস্টম রূপান্তর যোগ করুন
- পাশের প্লাস চিহ্নটি বেছে নিন রূপান্তর: condition.csv এবং নির্বাচন করুন রূপান্তর যোগ করুন.
- পান্ডাসে একটি কাস্টম রূপান্তর যোগ করুন:
বিঃদ্রঃ: যেমনটি আমরা আগে দেখিয়েছি, আপনি কাস্টম কোড ব্যবহার করে বা ডেটা র্যাংলার দ্বারা প্রদত্ত অন্তর্নির্মিত রূপান্তরগুলি ব্যবহার করে কলাম ড্রপ করতে পারেন। ডেটা র্যাংলারের মধ্যে কাস্টম রূপান্তরগুলি সমর্থিত ফ্রেমওয়ার্কগুলিতে কোড স্নিপেট আকারে আপনার নিজস্ব রূপান্তর যুক্তি আনতে নমনীয়তা প্রদান করে। এই স্নিপেটগুলি পরে অনুসন্ধান করা যেতে পারে এবং প্রয়োজনে প্রয়োগ করা যেতে পারে।
পূর্ববর্তী রূপান্তরের কোডগুলি হল SNOMED-CT কোড যা নিম্নলিখিত শর্তগুলির সাথে সঙ্গতিপূর্ণ৷ দ্য heart failure
or chronic congestive heart failure
শর্ত লেবেল হয়ে যায়। আমরা হৃদযন্ত্রের ব্যর্থতার পূর্বাভাসের জন্য বৈশিষ্ট্য হিসাবে অবশিষ্ট শর্তগুলি ব্যবহার করি। আমরা কিছু কলামও ফেলে দিই যেগুলোর আর প্রয়োজন নেই।
- এর পরে, আসুন PySpark এ একটি কাস্টম রূপান্তর যোগ করি:
হার্ট ফেইলিওর ডেটাফ্রেমে সমস্ত এন্ট্রি রাখার জন্য আমরা একটি বাম বাইরের যোগদান করি। একটি নতুন কলাম
has_xxx
অবস্থার শুরুর তারিখের উপর ভিত্তি করে হৃদযন্ত্রের ব্যর্থতা ব্যতীত প্রতিটি অবস্থার জন্য গণনা করা হয়। আমরা কেবলমাত্র হৃদরোগের পূর্বে রেকর্ড করা মেডিকেল অবস্থার বিষয়ে আগ্রহী এবং হৃদযন্ত্রের ব্যর্থতার পূর্বাভাস দেওয়ার জন্য বৈশিষ্ট্য হিসাবে ব্যবহার করি। - একটি অন্তর্নির্মিত যোগ করুন কলাম পরিচালনা করুন আর প্রয়োজন নেই এমন অপ্রয়োজনীয় কলামগুলি ফেলে দিতে রূপান্তর করুন:
hypertension
diabetes
coronary
smoke
atrial
- নির্যাস
Year
এবংQuarter
থেকেheartfailure
কলাম।
এর রূপান্তরে আমরা আগে যে গ্রানুলারিটি ব্যবহার করেছি তার সাথে এটি মেলেobservations
ডেটাসেট - condition.csv-এর জন্য আমাদের মোট 6টি ধাপ থাকতে হবে।
যোগদান করা ডেটাসেটে condition.csv-এ যোগ দিন
আমরা এখন যোগদানের শর্ত ডেটাসেটে যোগ দিতে একটি নতুন যোগদান করি patients
এবং observations
ডেটাসেট
- বেছে নিন রূপান্তর: ১ম যোগদান.
- প্লাস চিহ্নটি বেছে নিন এবং নির্বাচন করুন যোগদান.
- বেছে নিন প্রারম্ভিক ব্যবহারের নির্দেশাবলী পরবর্তী রূপান্তর: condition.csv.
- বেছে নিন কনফিগার করুন.
- জন্য যোগদানের ধরননির্বাচন বাম বাইরের.
- জন্য বামনির্বাচন Id.
- জন্য অধিকারনির্বাচন রোগী.
- বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
যোগ করা ডেটাসেটে রূপান্তর যোগ করুন
এখন যেহেতু আমরা তিনটি ডেটাসেট যুক্ত করেছি, আসুন কিছু অতিরিক্ত রূপান্তর প্রয়োগ করি।
- PySpark এ নিম্নলিখিত কাস্টম রূপান্তর যোগ করুন তাই
has_heartfailure
আমাদের লেবেল কলাম হয়ে ওঠে: - PySpark এ নিম্নলিখিত কাস্টম রূপান্তর যোগ করুন:
- অপ্রয়োজনীয় কলামগুলি ফেলে দিন যেগুলির আর প্রয়োজন নেই:
Id
DATE_year
DATE_quarter
patient
heartfailure
heartfailure_year
heartfailure_quarter
- উপরে বিশ্লেষণ ট্যাব, জন্য বিশ্লেষণের ধরণপছন্দ করা সারণী সারাংশ.
সারাংশের মাধ্যমে একটি দ্রুত স্ক্যান দেখায় যেMARITAL
কলামে ডেটা নেই। - পছন্দ উপাত্ত ট্যাব এবং একটি ধাপ যোগ করুন।
- বেছে নিন হ্যান্ডেল অনুপস্থিত.
- জন্য রুপান্তরনির্বাচন অনুপস্থিত পূরণ করুন.
- জন্য ইনপুট কলামনির্বাচন বৈবাহিক.
- জন্য মান পূরণ করুনপ্রবেশ করান
S
.
এখানে আমাদের কৌশল হল যদি বৈবাহিক অবস্থার মূল্য অনুপস্থিত থাকে তবে রোগী অবিবাহিত বলে ধরে নেওয়া। আপনি একটি ভিন্ন কৌশল থাকতে পারে. - বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
- অনুপস্থিত মানটি 0 হিসাবে পূরণ করুন
has_hypertension
,has_diabetes
,has_coronary
,has_smoke
,has_atrial
.
Marital
এবং Gender
শ্রেণীগত ভেরিয়েবল। বিভাগীয় ভেরিয়েবল এনকোড করার জন্য ডেটা র্যাংলারের একটি অন্তর্নির্মিত ফাংশন রয়েছে।
- একটি ধাপ যোগ করুন এবং চয়ন করুন এনকোড বিভাগ.
- জন্য রুপান্তরনির্বাচন এক-গরম এনকোড.
- জন্য ইনপুট কলামনির্বাচন বৈবাহিক.
- জন্য আউটপুট শৈলীনির্বাচন স্তম্ভ.
এই আউটপুট শৈলী পৃথক কলামে এনকোডেড মান তৈরি করে। - বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
- এর জন্য এই পদক্ষেপগুলি পুনরাবৃত্তি করুন লিঙ্গ কলাম।
এক-হট এনকোডিং বৈবাহিক কলামকে বিভক্ত করে Marital_M
(বিবাহিত) এবং Marital_S
(একক), এবং লিঙ্গ কলামকে বিভক্ত করে Gender_M
(পুরুষ) এবং Gender_F
(মহিলা). কারণ Marital_M
এবং Marital_S
পারস্পরিক একচেটিয়া (যেমন আছে Gender_M
এবং Gender_F
অপ্রয়োজনীয় বৈশিষ্ট্যগুলি এড়াতে আমরা একটি কলাম ছেড়ে দিতে পারি।
- ড্রপ
Marital_S
এবংGender_F
.
সংখ্যাগত বৈশিষ্ট্য যেমন সিস্টোলিক, হৃদস্পন্দন, এবং বয়সের বিভিন্ন ইউনিট মান আছে। একটি লিনিয়ার রিগ্রেশন-ভিত্তিক মডেলের জন্য, আমাদের প্রথমে এই সংখ্যাসূচক বৈশিষ্ট্যগুলিকে স্বাভাবিক করতে হবে। অন্যথায়, উচ্চ পরম মান সহ কিছু বৈশিষ্ট্যের নিম্ন পরম মান সহ অন্যান্য বৈশিষ্ট্যগুলির তুলনায় একটি অযৌক্তিক সুবিধা থাকতে পারে এবং এর ফলে মডেলের কার্যকারিতা দুর্বল হতে পারে। ডেটা স্বাভাবিক করার জন্য ডেটা র্যাংলারের অন্তর্নির্মিত ট্রান্সফর্ম মিন-ম্যাক্স স্কেলার রয়েছে। একটি সিদ্ধান্ত গাছ-ভিত্তিক শ্রেণিবিন্যাস মডেলের জন্য, স্বাভাবিককরণের প্রয়োজন নেই। আমাদের অধ্যয়ন একটি শ্রেণিবিন্যাস সমস্যা তাই আমাদের স্বাভাবিককরণ প্রয়োগ করার দরকার নেই। ভারসাম্যহীন শ্রেণীগুলি শ্রেণিবিন্যাসে একটি সাধারণ সমস্যা। ভারসাম্যহীনতা ঘটে যখন প্রশিক্ষণ ডেটাসেটে মারাত্মকভাবে তির্যক শ্রেণি বিতরণ থাকে। উদাহরণস্বরূপ, যখন আমাদের ডেটাসেটে হার্ট ফেইলিউরের রোগীদের তুলনায় হৃদযন্ত্রের ব্যর্থতা ছাড়াই বেশি রোগী থাকে, তখন এটি মডেলটিকে হৃদযন্ত্রের ব্যর্থতার পূর্বাভাস দেওয়ার দিকে পক্ষপাতদুষ্ট হতে পারে এবং খারাপ কার্য সম্পাদন করতে পারে। সমস্যা মোকাবেলা করার জন্য ডেটা র্যাংলারের একটি অন্তর্নির্মিত ফাংশন রয়েছে।
- কলামের ডেটা টাইপকে "অবজেক্ট" টাইপ থেকে নিউমেরিক টাইপে রূপান্তর করতে পান্ডাসে একটি কাস্টম ট্রান্সফর্ম যোগ করুন:
- পছন্দ বিশ্লেষণ ট্যাব।
- জন্য বিশ্লেষণের ধরণপছন্দ করা বারলেখ.
- জন্য এক্স অক্ষনির্বাচন has_heartfailure.
- বেছে নিন প্রি.
এটা স্পষ্ট যে আমাদের একটি ভারসাম্যহীন শ্রেণী রয়েছে (হার্ট ফেইলিউর হিসাবে লেবেল করা ডেটা পয়েন্টের চেয়ে বেশি ডেটা পয়েন্ট হার্ট ফেইলিউর নয় বলে লেবেল করা হয়েছে)। - ফিরে যান উপাত্ত ট্যাব পছন্দ করা ধাপ যোগ করুন এবং নির্বাচন করুন ভারসাম্য ডেটা.
- জন্য লক্ষ্য কলামনির্বাচন has_heartfailure.
- জন্য কাঙ্ক্ষিত অনুপাতপ্রবেশ করান
1
. - জন্য রুপান্তরনির্বাচন SMOTE.
SMOTE এর অর্থ হল কৃত্রিম সংখ্যালঘু ওভার-স্যাম্পলিং টেকনিক। এটি নতুন সংখ্যালঘু দৃষ্টান্ত তৈরি করার একটি কৌশল এবং শ্রেণী ব্যালেন্সে পৌঁছানোর জন্য ডেটাসেটে যোগ করা। বিস্তারিত তথ্যের জন্য, পড়ুন SMOTE: সিন্থেটিক সংখ্যালঘু ওভার-স্যাম্পলিং টেকনিক. - বেছে নিন প্রি, তাহলে বেছে নাও বিজ্ঞাপন.
- 20-23 ধাপে হিস্টোগ্রাম বিশ্লেষণটি পুনরাবৃত্তি করুন। ফলাফল একটি সুষম শ্রেণী।
লক্ষ্য ফাঁস এবং বৈশিষ্ট্য পারস্পরিক সম্পর্ক কল্পনা করুন
এর পরে, আমরা উন্নত ML-সমর্থিত বিশ্লেষণ প্রকারের ডেটা র্যাংলারের সমৃদ্ধ টুলসেট ব্যবহার করে কয়েকটি ভিজ্যুয়াল বিশ্লেষণ করতে যাচ্ছি। প্রথমত, আমরা লক্ষ্য ফুটো তাকান. টার্গেট লিকেজ ঘটে যখন ট্রেনিং ডেটাসেটের ডেটা টার্গেট লেবেলের সাথে দৃঢ়ভাবে সম্পর্কযুক্ত হয়, কিন্তু অনুমান করার সময় বাস্তব-বিশ্বের ডেটাতে পাওয়া যায় না।
- উপরে বিশ্লেষণ ট্যাবজন্য বিশ্লেষণের ধরণপছন্দ করা টার্গেট লিকেজ.
- জন্য সমস্যার ধরণনির্বাচন শ্রেণীবিন্যাস.
- জন্য লক্ষ্যনির্বাচন has_heartfailure.
- বেছে নিন প্রি.
বিশ্লেষণের উপর ভিত্তি করে,hr
একটি লক্ষ্য ফুটো হয়. আমরা পরবর্তী ধাপে এটি ফেলে দেব।age
একটি লক্ষ্য ফাঁস পতাকাঙ্কিত হয়. এটা বলা যুক্তিসঙ্গত যে একজন রোগীর বয়স অনুমানের সময় পাওয়া যাবে, তাই আমরা বয়সকে একটি বৈশিষ্ট্য হিসাবে রাখি।Systolic
এবংdiastolic
এছাড়াও সম্ভাব্য লক্ষ্য ফাঁস হিসাবে পতাকাঙ্কিত করা হয়. আমরা অনুমানের সময় দুটি পরিমাপ আশা করি, তাই আমরা সেগুলিকে বৈশিষ্ট্য হিসাবে রাখি। - বেছে নিন বিজ্ঞাপন বিশ্লেষণ যোগ করতে.
তারপর, আমরা বৈশিষ্ট্য পারস্পরিক সম্পর্ক তাকান. আমরা এমন বৈশিষ্ট্য নির্বাচন করতে চাই যা লক্ষ্যের সাথে সম্পর্কযুক্ত কিন্তু নিজেদের মধ্যে সম্পর্কহীন।
- উপরে বিশ্লেষণ ট্যাবজন্য বিশ্লেষণের ধরণপছন্দ করা বৈশিষ্ট্য পারস্পরিক সম্পর্ক.
- জন্য Correlation Typeপছন্দ করা রৈখিক.
- বেছে নিন প্রি.
সহগ স্কোরগুলি নিম্নলিখিত জোড়াগুলির মধ্যে শক্তিশালী পারস্পরিক সম্পর্ক নির্দেশ করে:
systolic
এবংdiastolic
bmi
এবংage
has_hypertension
এবংhas_heartfailure
(লেবেল)
দৃঢ়ভাবে সম্পর্কযুক্ত বৈশিষ্ট্যগুলির জন্য, ম্যাট্রিক্সগুলিকে উল্টানো গণনাগতভাবে কঠিন, যা সংখ্যাগতভাবে অস্থির অনুমানের দিকে নিয়ে যেতে পারে। পারস্পরিক সম্পর্ক প্রশমিত করার জন্য, আমরা কেবল জোড়া থেকে একটি সরাতে পারি। আমরা ড্রপ diastolic
এবং bmi
এবং রাখা systolic
এবং age
পরবর্তী ধাপে।
ডায়াস্টোলিক এবং বিএমআই কলাম বাদ দিন
ড্রপ করার জন্য অতিরিক্ত রূপান্তর পদক্ষেপ যোগ করুন hr
, diastolic
এবং bmi
অন্তর্নির্মিত রূপান্তর ব্যবহার করে কলাম।
ডেটা গুণমান এবং অন্তর্দৃষ্টি প্রতিবেদন তৈরি করুন
সম্প্রতি AWS ঘোষিত ডেটা র্যাংলারে নতুন ডেটা কোয়ালিটি এবং ইনসাইটস রিপোর্ট বৈশিষ্ট্য। এই প্রতিবেদনটি স্বয়ংক্রিয়ভাবে ডেটার গুণমান যাচাই করে এবং আপনার ডেটাতে অস্বাভাবিকতা সনাক্ত করে। ডেটা সায়েন্টিস্ট এবং ডেটা ইঞ্জিনিয়াররা এমএল মডেল প্রশিক্ষণের জন্য ডেটাসেটগুলি প্রক্রিয়া করার জন্য দক্ষতার সাথে এবং দ্রুত ডোমেন জ্ঞান প্রয়োগ করতে এই সরঞ্জামটি ব্যবহার করতে পারেন। এই ধাপটি ঐচ্ছিক। আমাদের ডেটাসেটগুলিতে এই প্রতিবেদন তৈরি করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- উপরে বিশ্লেষণ ট্যাব, জন্য বিশ্লেষণের ধরণনির্বাচন ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট.
- জন্য লক্ষ্য কলামনির্বাচন has_heartfailure.
- জন্য সমস্যার ধরণ, নির্বাচন করুন শ্রেণীবিন্যাস.
- বেছে নিন সৃষ্টি.
কয়েক মিনিটের মধ্যে, এটি একটি সারাংশ, ভিজ্যুয়াল এবং সুপারিশ সহ একটি প্রতিবেদন তৈরি করে৷
একটি দ্রুত মডেল বিশ্লেষণ তৈরি করুন
আমরা আমাদের ডেটা প্রস্তুতি, পরিষ্কার এবং বৈশিষ্ট্য প্রকৌশল সম্পন্ন করেছি। ডেটা র্যাংলারের একটি অন্তর্নির্মিত ফাংশন রয়েছে যা আমাদের ডেটাসেটে প্রত্যাশিত ভবিষ্যদ্বাণী করা গুণমান এবং বৈশিষ্ট্যগুলির ভবিষ্যদ্বাণীমূলক শক্তির মোটামুটি অনুমান প্রদান করে।
- উপরে বিশ্লেষণ ট্যাব, জন্য বিশ্লেষণের ধরণপছন্দ করা দ্রুত মডেল.
- জন্য লেবেলনির্বাচন has_heartfailure.
- বেছে নিন প্রি.
আমাদের দ্রুত মডেল বিশ্লেষণ অনুসারে, আমরা বৈশিষ্ট্যটি দেখতে পাচ্ছি has_hypertension
সব বৈশিষ্ট্যের মধ্যে সর্বোচ্চ বৈশিষ্ট্য গুরুত্ব স্কোর আছে.
ডেটা রপ্তানি করুন এবং মডেলটি প্রশিক্ষণ দিন
এখন আসুন রূপান্তরিত এমএল-রেডি বৈশিষ্ট্যগুলিকে একটি গন্তব্য S3 বালতিতে রপ্তানি করি এবং একটি বিতরণ করা পদ্ধতিতে সম্পূর্ণ ডেটাসেটে নমুনাগুলি ব্যবহার করে আমরা এখন পর্যন্ত তৈরি করা সম্পূর্ণ বৈশিষ্ট্য ইঞ্জিনিয়ারিং পাইপলাইনটি স্কেল করি।
- ডেটা প্রবাহের শেষ বাক্সের পাশে প্লাস চিহ্নটি নির্বাচন করুন এবং নির্বাচন করুন গন্তব্য যোগ করুন.
- বেছে নিন আমাজন S3.
- একটি লিখুন ডাটাসেটের নাম। জন্য Amazon S3 অবস্থান, একটি S3 বালতি চয়ন করুন, তারপর চয়ন করুন৷ গন্তব্য যোগ করুন.
- বেছে নিন চাকরি তৈরি করুন রূপান্তর সম্পাদন করতে এবং গন্তব্য S3 বালতিতে ডেটা আউটপুট করার জন্য একটি বিতরণকৃত PySpark প্রক্রিয়াকরণ কাজ চালু করতে।
ডেটাসেটের আকারের উপর নির্ভর করে, এই বিকল্পটি আমাদের সহজেই ক্লাস্টার কনফিগার করতে দেয় এবং নো-কোড ফ্যাশনে অনুভূমিকভাবে স্কেল করতে দেয়। ডেটাসেটগুলিকে বিভাজন বা ক্লাস্টার এবং স্পার্ক ইন্টারনালগুলি পরিচালনা করার বিষয়ে আমাদের চিন্তা করতে হবে না। ডেটা র্যাংলারের দ্বারা এই সমস্তগুলি স্বয়ংক্রিয়ভাবে আমাদের জন্য যত্ন নেওয়া হয়। - বাম ফলকে, নির্বাচন করুন পরবর্তী, 2. কাজ কনফিগার করুন।
- তাহলে বেছে নাও চালান.
বিকল্পভাবে, আমরা রূপান্তরিত আউটপুটকে জুপিটার নোটবুকের মাধ্যমে S3 এ রপ্তানি করতে পারি। এই পদ্ধতির সাহায্যে, ডেটা র্যাংলার বৃহত্তর পূর্ণ ডেটাসেটে ডেটা প্রবাহের ধাপগুলি (একটি নমুনা ব্যবহার করে তৈরি) প্রয়োগ করার জন্য একটি প্রসেসিং কাজের কিক-অফ করার জন্য প্রয়োজনীয় সমস্ত কোড সহ একটি জুপিটার নোটবুক স্বয়ংক্রিয়ভাবে তৈরি করে এবং রূপান্তরিত ডেটাসেটটিকে বৈশিষ্ট্য হিসাবে ব্যবহার করে। পরে একটি প্রশিক্ষণ কাজ বন্ধ. নোটবুক কোডটি পরিবর্তন না করে বা না করে সহজেই চালানো যেতে পারে। এখন Data Wrangler's UI এর মাধ্যমে কিভাবে এটি করা যায় তার ধাপগুলো নিয়ে চলুন।
- ডেটা প্রবাহের শেষ ধাপের পাশে প্লাস চিহ্নটি নির্বাচন করুন এবং নির্বাচন করুন রপ্তানি করা.
- বেছে নিন আমাজন S3 (জুপিটার নোটবুকের মাধ্যমে).
- এটি স্বয়ংক্রিয়ভাবে একটি জুপিটার নোটবুকের সাথে একটি নতুন ট্যাব খোলে।
- জুপিটার নোটবুকে, সেলটি সনাক্ত করুন (ঐচ্ছিক) পরবর্তী পদক্ষেপ বিভাগ এবং পরিবর্তন
run_optional_steps
থেকেFalse
থেকেTrue
.
নোটবুকে সক্রিয় ঐচ্ছিক পদক্ষেপগুলি নিম্নলিখিতগুলি সম্পাদন করে: - নোটবুকের শীর্ষে এবং তে ফিরে যান চালান মেনু, নির্বাচন করুন সমস্ত সেল চালান.
আপনি যদি জেনারেট করা নোটবুকটি ব্যবহার করেন তবে এটি একটি সেজমেকার প্রসেসিং কাজ চালু করে যা S5.4 বালতিতে সম্পূর্ণ ডেটাসেট প্রসেস করার জন্য দুটি m3x বড় উদাহরণ জুড়ে প্রসেসিংকে স্কেল করে। কাজটি সম্পূর্ণ করার জন্য আপনার প্রয়োজনীয় ডেটাসেটের আকার এবং সময়ের উপর ভিত্তি করে আপনি দৃষ্টান্তের সংখ্যা এবং উদাহরণের ধরন সামঞ্জস্য করতে পারেন।
শেষ সেল থেকে প্রশিক্ষণ কাজ সম্পূর্ণ না হওয়া পর্যন্ত অপেক্ষা করুন। এটি SageMaker ডিফল্ট S3 বালতিতে একটি মডেল তৈরি করে।
প্রশিক্ষিত মডেলটি রিয়েল-টাইম ইনফারেন্স বা ব্যাচ ট্রান্সফর্মেশনের জন্য স্থাপনার জন্য প্রস্তুত। মনে রাখবেন যে আমরা ডেটা র্যাংলারে কার্যকারিতা প্রদর্শনের জন্য সিন্থেটিক ডেটা ব্যবহার করেছি এবং প্রশিক্ষণ মডেলের জন্য প্রক্রিয়াকৃত ডেটা ব্যবহার করেছি। প্রদত্ত যে আমরা যে ডেটা ব্যবহার করেছি তা সিন্থেটিক, প্রশিক্ষিত মডেল থেকে অনুমান ফলাফলটি বাস্তব-বিশ্বের চিকিৎসা অবস্থা নির্ণয়ের জন্য বা চিকিত্সা অনুশীলনকারীদের কাছ থেকে রায়ের প্রতিস্থাপনের জন্য নয়।
এছাড়াও আপনি বেছে নিয়ে আপনার রূপান্তরিত ডেটাসেটকে Amazon S3 এ সরাসরি রপ্তানি করতে পারেন রপ্তানি রূপান্তর পূর্বরূপ পৃষ্ঠার উপরে। সরাসরি রপ্তানির বিকল্প শুধুমাত্র রূপান্তরিত নমুনা রপ্তানি করে যদি আমদানির সময় নমুনা সক্ষম করা থাকে। আপনি যদি ছোট ডেটাসেট নিয়ে কাজ করেন তবে এই বিকল্পটি সবচেয়ে উপযুক্ত। রূপান্তরিত ডেটা সরাসরি একটি বৈশিষ্ট্য স্টোরে প্রবেশ করা যেতে পারে। আরো তথ্যের জন্য, পড়ুন আমাজন সেজমেকার ফিচার স্টোর. ডেটা প্রবাহটি সেজমেকার পাইপলাইন হিসাবেও রপ্তানি করা যেতে পারে যা আপনার প্রয়োজনীয়তা অনুসারে সাজানো এবং নির্ধারিত হতে পারে। আরও তথ্যের জন্য, দেখুন অ্যামাজন সেজমেকার পাইপলাইন.
উপসংহার
এই পোস্টে, আমরা দেখিয়েছি কীভাবে স্বাস্থ্যসেবা ডেটা প্রক্রিয়া করতে ডেটা র্যাংলার ব্যবহার করতে হয় এবং একটি টুল-চালিত, কম-কোড ফ্যাশনে স্কেলেবল ফিচার ইঞ্জিনিয়ারিং সম্পাদন করতে হয়। আমরা শিখেছি কীভাবে বিল্ট-ইন ট্রান্সফর্মেশন প্রয়োগ করতে হয় এবং যেখানেই প্রয়োজন সেখানে যথাযথভাবে বিশ্লেষণ করতে হয়, এটিকে কাস্টম ট্রান্সফর্মেশনের সাথে একত্রিত করে আমাদের ডেটা প্রস্তুতির কর্মপ্রবাহে আরও বেশি নমনীয়তা যোগ করতে হয়। আমরা বিতরণকৃত প্রসেসিং কাজের মাধ্যমে ডেটা ফ্লো রেসিপি স্কেল করার জন্য বিভিন্ন বিকল্পের মাধ্যমেও হেঁটেছি। আমরা আরও শিখেছি কিভাবে রূপান্তরিত ডেটা সহজেই হার্টের ব্যর্থতার পূর্বাভাস দেওয়ার জন্য একটি মডেলকে প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে।
ডেটা র্যাংলারের আরও অনেক বৈশিষ্ট্য রয়েছে যা আমরা এই পোস্টে কভার করিনি। এর মধ্যে কী সম্ভব তা অন্বেষণ করুন অ্যামাজন সেজমেকার ডেটা র্যাংলার সহ এমএল ডেটা প্রস্তুত করুন এবং আপনার পরবর্তী ডেটা সায়েন্স বা মেশিন লার্নিং প্রকল্পের জন্য ডেটা র্যাংলারকে কীভাবে ব্যবহার করতে হয় তা শিখুন।
লেখক সম্পর্কে
ফরেস্ট সূর্য টরন্টো, কানাডার AWS পাবলিক সেক্টর টিমের সাথে একজন সিনিয়র সলিউশন আর্কিটেক্ট। তিনি গত দুই দশক ধরে স্বাস্থ্যসেবা এবং অর্থ শিল্পে কাজ করেছেন। কাজের বাইরে, তিনি তার পরিবারের সাথে ক্যাম্পিং উপভোগ করেন।
অরুণপ্রসথ শংকর AWS এর সাহায্যে একটি কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং (এআই / এমএল) বিশেষজ্ঞ সলিউশন সমাধান আর্কিটেক্ট যা বিশ্বব্যাপী গ্রাহকদের মেঘে কার্যকরভাবে এবং দক্ষতার সাথে তাদের এআই সমাধানগুলি স্কেল করতে সহায়তা করে। অল্প সময়ে, অরুণ সায়েন্স-ফাই সিনেমা দেখা এবং শাস্ত্রীয় সংগীত শুনতে উপভোগ করেন।
- AI
- ai শিল্প
- এআই আর্ট জেনারেটর
- আইআই রোবট
- আমাজন সেজমেকার
- অ্যামাজন সেজমেকার ডেটা র্যাংলার
- কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তা সার্টিফিকেশন
- ব্যাংকিং এ কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তা সফ্টওয়্যার
- এডাব্লুএস মেশিন লার্নিং
- blockchain
- ব্লকচেইন সম্মেলন এআই
- coingenius
- কথোপকথন কৃত্রিম বুদ্ধিমত্তা
- ক্রিপ্টো সম্মেলন এআই
- ডাল-ই
- গভীর জ্ঞানার্জন
- গুগল আই
- মেশিন লার্নিং
- Plato
- প্লেটো এআই
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটো গেম
- প্লেটোডাটা
- প্লেটোগেমিং
- স্কেল ai
- বাক্য গঠন
- zephyrnet