ডেটা ফুয়েল মেশিন লার্নিং (ML); ডেটার গুণমান ML মডেলের মানের উপর সরাসরি প্রভাব ফেলে। অতএব, সঠিক ML মডেল তৈরির জন্য ডেটার গুণমান উন্নত করা এবং সঠিক বৈশিষ্ট্য প্রকৌশল কৌশলগুলিকে নিযুক্ত করা গুরুত্বপূর্ণ। এমএল অনুশীলনকারীরা প্রায়শই ক্লান্তিকরভাবে ফিচার ইঞ্জিনিয়ারিং, অ্যালগরিদমের পছন্দ এবং এমএল-এর অন্যান্য দিকগুলিকে সর্বোত্তম মডেলের সন্ধানে পুনরাবৃত্তি করে যা বাস্তব-বিশ্বের ডেটাতে ভালভাবে সাধারণীকরণ করে এবং পছন্দসই ফলাফল প্রদান করে। যেহেতু ব্যবসা করার গতি অসামঞ্জস্যপূর্ণভাবে গুরুত্বপূর্ণ, এই অত্যন্ত ক্লান্তিকর এবং পুনরাবৃত্তিমূলক প্রক্রিয়াটি প্রকল্প বিলম্ব এবং ব্যবসার সুযোগ হারাতে পারে।
অ্যামাজন সেজমেকার ডেটা র্যাংলার ML-এর জন্য সপ্তাহ থেকে মিনিটে ডেটা একত্রিত এবং প্রস্তুত করার সময় কমিয়ে দেয়, এবং অ্যামাজন সেজমেকার অটোপাইলট স্বয়ংক্রিয়ভাবে আপনার ডেটার উপর ভিত্তি করে সেরা এমএল মডেলগুলি তৈরি করে, প্রশিক্ষণ দেয় এবং সুর করে৷ অটোপাইলটের মাধ্যমে, আপনি এখনও আপনার ডেটা এবং মডেলের সম্পূর্ণ নিয়ন্ত্রণ এবং দৃশ্যমানতা বজায় রাখেন। উভয় পরিষেবাই এমএল অনুশীলনকারীদের আরও বেশি উত্পাদনশীল করতে এবং মূল্যের সময়কে ত্বরান্বিত করতে উদ্দেশ্য-নির্মিত।
ডেটা র্যাংলার এখন একটি ইউনিফাইড অভিজ্ঞতা প্রদান করে যা আপনাকে ডেটা প্রস্তুত করতে এবং অটোপাইলটে একটি এমএল মডেলকে নির্বিঘ্নে প্রশিক্ষণ দিতে সক্ষম করে। নতুন চালু হওয়া এই বৈশিষ্ট্যটির সাহায্যে, আপনি এখন ডেটা র্যাংলারে আপনার ডেটা প্রস্তুত করতে পারেন এবং ডেটা র্যাংলার ইউজার ইন্টারফেস (UI) থেকে সরাসরি অটোপাইলট পরীক্ষাগুলি সহজে চালু করতে পারেন। মাত্র কয়েকটি ক্লিকের মাধ্যমে, আপনি স্বয়ংক্রিয়ভাবে ML মডেল তৈরি করতে, প্রশিক্ষণ দিতে এবং সুর করতে পারেন, যা অত্যাধুনিক বৈশিষ্ট্য ইঞ্জিনিয়ারিং কৌশলগুলিকে নিযুক্ত করা, উচ্চ-মানের ML মডেলগুলিকে প্রশিক্ষণ দেওয়া এবং আপনার ডেটা থেকে দ্রুত অন্তর্দৃষ্টি অর্জন করা সহজ করে তোলে৷
এই পোস্টে, আমরা আলোচনা করব কিভাবে আপনি ডেটাসেট বিশ্লেষণ করতে এবং অটোপাইলটে উচ্চ-মানের ML মডেলগুলি সহজেই তৈরি করতে ডেটা র্যাংলারে এই নতুন সমন্বিত অভিজ্ঞতা ব্যবহার করতে পারেন।
ডেটাসেট ওভারভিউ
পিমা ইন্ডিয়ানরা একটি আদিবাসী গোষ্ঠী যারা মেক্সিকো এবং অ্যারিজোনা, মার্কিন যুক্তরাষ্ট্রে বাস করে। স্টাডিজ পিমা ইন্ডিয়ানদের ডায়াবেটিস মেলিটাসের জন্য একটি উচ্চ-ঝুঁকিপূর্ণ জনগোষ্ঠী হিসাবে দেখান। ডায়াবেটিসের মতো দীর্ঘস্থায়ী অসুস্থতার জন্য একজন ব্যক্তির ঝুঁকি এবং সংবেদনশীলতার সম্ভাবনার ভবিষ্যদ্বাণী করা এই প্রায়শই কম প্রতিনিধিত্ব করা সংখ্যালঘু গোষ্ঠীর স্বাস্থ্য এবং সুস্থতার উন্নতির জন্য একটি গুরুত্বপূর্ণ কাজ।
আমরা ব্যবহার করি পিমা ইন্ডিয়ান ডায়াবেটিস পাবলিক ডেটাসেট একজন ব্যক্তির ডায়াবেটিসের সংবেদনশীলতার পূর্বাভাস দিতে। আমরা ডেটা প্রস্তুত করতে ডেটা রেংলার এবং অটোপাইলটের মধ্যে নতুন একীকরণের উপর ফোকাস করি এবং কোডের একটি লাইন না লিখে স্বয়ংক্রিয়ভাবে একটি ML মডেল তৈরি করতে পারি।
ডেটাসেটে 21 বছর বা তার বেশি বয়সী পিমা ভারতীয় মহিলাদের সম্পর্কে তথ্য রয়েছে এবং এতে বেশ কয়েকটি চিকিৎসা ভবিষ্যদ্বাণীকারী (স্বাধীন) ভেরিয়েবল এবং একটি লক্ষ্য (নির্ভরশীল) পরিবর্তনশীল, ফলাফল অন্তর্ভুক্ত রয়েছে। নিম্নলিখিত চার্ট আমাদের ডেটাসেটের কলামগুলি বর্ণনা করে৷
স্তম্ভ নাম | বিবরণ |
গর্ভাবস্থা | গর্ভবতী বার সংখ্যা |
গ্লুকোজ | 2 ঘন্টার মধ্যে একটি মৌখিক গ্লুকোজ সহনশীলতা পরীক্ষায় প্লাজমা গ্লুকোজ ঘনত্ব |
রক্তচাপ | ডায়াস্টোলিক রক্তচাপ (মিমি এইচজি) |
চামড়া পুরুত্ব | ট্রাইসেপস ত্বকের ভাঁজ বেধ (মিমি) |
ইন্সুলিন | 2-ঘন্টা সিরাম ইনসুলিন (mu U/ml) |
তাহলে BMI | বডি মাস ইনডেক্স (ওজন কেজি/(মিটারে উচ্চতা)^2) |
ডায়াবেটিস পেডিগ্রি | ডায়াবেটিস বংশের ফাংশন |
বয়স | বয়স বছর |
ফলাফল | লক্ষ্য পরিবর্তনশীল |
ডেটাসেটে মোট 768টি বৈশিষ্ট্য সহ 9টি রেকর্ড রয়েছে। আমরা এই ডেটাসেট সংরক্ষণ করি আমাজন সহজ স্টোরেজ বালতি (Amazon S3) একটি CSV ফাইল হিসাবে এবং তারপর Amazon S3 থেকে সরাসরি একটি ডেটা র্যাংলার ফ্লোতে CSV আমদানি করুন৷
সমাধান ওভারভিউ
নিম্নলিখিত চিত্রটি এই পোস্টে আমরা যা অর্জন করেছি তার সংক্ষিপ্ত বিবরণ দেয়।[KT1]
ডেটা সায়েন্টিস্ট, ডাক্তার এবং অন্যান্য মেডিক্যাল ডোমেন বিশেষজ্ঞরা রোগীর ডেটা দিয়ে গ্লুকোজের মাত্রা, রক্তচাপ, বডি মাস ইনডেক্স এবং ডায়াবেটিস হওয়ার সম্ভাবনা ভবিষ্যদ্বাণী করতে ব্যবহৃত অন্যান্য বৈশিষ্ট্যের তথ্য দিয়ে থাকেন। Amazon S3-এ ডেটাসেট সহ, আমরা অনুসন্ধানমূলক ডেটা বিশ্লেষণ (EDA), ডেটা প্রোফাইলিং, ফিচার ইঞ্জিনিয়ারিং এবং ডেটাসেটকে ট্রেনে বিভক্ত করার জন্য ডেটা র্যাংলারে ডেটাসেট আমদানি করি এবং মডেল তৈরি এবং মূল্যায়নের জন্য পরীক্ষা করি।
আমরা তারপরে ডেটা র্যাংলার ইন্টারফেস থেকে সরাসরি একটি মডেল তৈরি করতে অটোপাইলটের নতুন বৈশিষ্ট্য একীকরণ ব্যবহার করি। আমরা সর্বোচ্চ F-বিটা স্কোর সহ মডেলের উপর ভিত্তি করে অটোপাইলটের সেরা মডেল বেছে নিই। অটোপাইলট সেরা মডেল খুঁজে পাওয়ার পর, আমরা একটি চালাই সেজমেকার ব্যাচ ট্রান্সফর্ম পরীক্ষায় জব (হোল্ডআউট) মূল্যায়নের জন্য সেরা মডেলের মডেল আর্টিফ্যাক্ট সহ সেট।
একজন রোগীর সম্ভবত ডায়াবেটিস আছে কিনা তা দেখার জন্য একটি ভবিষ্যদ্বাণী পেতে চিকিৎসা বিশেষজ্ঞরা বৈধ মডেলে নতুন ডেটা সরবরাহ করতে পারেন। এই অন্তর্দৃষ্টিগুলির সাহায্যে, চিকিত্সা বিশেষজ্ঞরা দুর্বল জনগোষ্ঠীর স্বাস্থ্য এবং মঙ্গল উন্নত করতে প্রাথমিকভাবে চিকিত্সা শুরু করতে পারেন। মেডিকেল বিশেষজ্ঞরাও অটোপাইলটে মডেলের বিশদ উল্লেখ করে একটি মডেলের ভবিষ্যদ্বাণী ব্যাখ্যা করতে পারেন কারণ তাদের মডেলের ব্যাখ্যাযোগ্যতা, কর্মক্ষমতা এবং শিল্পকর্মের সম্পূর্ণ দৃশ্যমানতা রয়েছে। পরীক্ষার সেট থেকে মডেলের বৈধতা ছাড়াও এই দৃশ্যমানতা চিকিৎসা বিশেষজ্ঞদের মডেলের ভবিষ্যদ্বাণী করার ক্ষমতার উপর আরও বেশি আস্থা দেয়।
আমরা আপনাকে নিম্নোক্ত উচ্চ-স্তরের ধাপগুলো দিয়ে হেঁটেছি।
- Amazon S3 থেকে ডেটাসেট আমদানি করুন।
- ডেটা র্যাংলারের সাথে EDA এবং ডেটা প্রোফাইলিং সম্পাদন করুন।
- আউটলিয়ার এবং অনুপস্থিত মানগুলি পরিচালনা করতে বৈশিষ্ট্য প্রকৌশল সম্পাদন করুন।
- ট্রেন এবং পরীক্ষা সেটে ডেটা বিভক্ত করুন।
- অটোপাইলট সহ একটি মডেল প্রশিক্ষণ এবং তৈরি করুন।
- একটি সেজমেকার নোটবুক দিয়ে একটি হোল্ডআউট নমুনায় মডেলটি পরীক্ষা করুন।
- যাচাইকরণ এবং পরীক্ষা সেট কর্মক্ষমতা বিশ্লেষণ.
পূর্বশর্ত
নিম্নলিখিত পূর্বশর্ত পদক্ষেপগুলি সম্পূর্ণ করুন:
- ডেটাসেট আপলোড করুন আপনার পছন্দের একটি S3 বালতিতে।
- আপনার প্রয়োজনীয় অনুমতি আছে তা নিশ্চিত করুন। আরো তথ্যের জন্য, পড়ুন ডেটা র্যাংলার দিয়ে শুরু করুন.
- ডেটা র্যাংলার ব্যবহার করার জন্য কনফিগার করা একটি সেজমেকার ডোমেন সেট আপ করুন। নির্দেশাবলীর জন্য, পড়ুন Amazon SageMaker ডোমেনে অনবোর্ড.
ডেটা র্যাংলার দিয়ে আপনার ডেটাসেট আমদানি করুন
আপনি সামান্য থেকে কোন কোডিং ব্যবহার করে ডেটা প্রিপ্রসেসিং এবং ফিচার ইঞ্জিনিয়ারিংকে সরল ও স্ট্রীমলাইন করতে আপনার ML ওয়ার্কফ্লোতে একটি ডেটা র্যাংলার ডেটা প্রবাহকে একীভূত করতে পারেন। নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- নতুন একটি তৈরি কর ডেটা র্যাংলার প্রবাহ.
যদি এটি আপনার প্রথমবার ডেটা র্যাংলার খোলা হয়, তবে এটি প্রস্তুত হওয়ার জন্য আপনাকে কয়েক মিনিট অপেক্ষা করতে হতে পারে।
- Amazon S3 তে সংরক্ষিত ডেটাসেটটি চয়ন করুন এবং এটি ডেটা র্যাংলারে আমদানি করুন।
আপনি ডেটাসেট আমদানি করার পরে, আপনি ডেটা র্যাংলার UI এর মধ্যে একটি ডেটা প্রবাহের সূচনা দেখতে পাবেন। আপনার কাছে এখন একটি প্রবাহ চিত্র রয়েছে।
- পাশের প্লাস চিহ্নটি বেছে নিন তথ্যের ধরণ এবং নির্বাচন করুন সম্পাদন করা নিশ্চিত করতে যে ডেটা র্যাংলার স্বয়ংক্রিয়ভাবে আপনার ডেটা কলামগুলির জন্য সঠিক ডেটা প্রকারগুলি অনুমান করেছে৷
যদি ডেটা প্রকারগুলি সঠিক না হয় তবে আপনি সহজেই UI এর মাধ্যমে সেগুলি সংশোধন করতে পারেন৷ যদি একাধিক ডেটা উত্স উপস্থিত থাকে তবে আপনি সেগুলিতে যোগ দিতে বা সংযুক্ত করতে পারেন৷
আমরা এখন একটি বিশ্লেষণ তৈরি করতে এবং রূপান্তর যোগ করতে পারি।
ডেটা অন্তর্দৃষ্টি প্রতিবেদনের সাথে অনুসন্ধানমূলক ডেটা বিশ্লেষণ সম্পাদন করুন
অনুসন্ধানমূলক ডেটা বিশ্লেষণ হল ML কর্মপ্রবাহের একটি গুরুত্বপূর্ণ অংশ। আমরা আমাদের ডেটার প্রোফাইল এবং বিতরণ সম্পর্কে আরও ভাল বোঝার জন্য ডেটা র্যাংলারের নতুন ডেটা ইনসাইট রিপোর্ট ব্যবহার করতে পারি। প্রতিবেদনে সংক্ষিপ্ত পরিসংখ্যান, ডেটা গুণমান সতর্কতা, লক্ষ্য কলাম অন্তর্দৃষ্টি, একটি দ্রুত মডেল এবং অস্বাভাবিক এবং সদৃশ সারি সম্পর্কে তথ্য অন্তর্ভুক্ত রয়েছে।
- পাশের প্লাস চিহ্নটি বেছে নিন তথ্যের ধরণ এবং নির্বাচন করুন ডেটা অন্তর্দৃষ্টি পান.
- জন্য লক্ষ্য স্তম্ভনির্বাচন ফলাফল.
- জন্য সমস্যার ধরণ, এবং (ঐচ্ছিকভাবে) নির্বাচন করুন শ্রেণীবিন্যাস.
- বেছে নিন সৃষ্টি.
ফলাফল ডেটাসেট পরিসংখ্যান সহ একটি সংক্ষিপ্ত তথ্য দেখায়।
আমরা একটি হিস্টোগ্রাম সহ লেবেলযুক্ত সারিগুলির বিতরণ, দ্রুত মডেল বৈশিষ্ট্য সহ মডেলটির প্রত্যাশিত পূর্বাভাসিত মানের একটি অনুমান এবং একটি বৈশিষ্ট্যের সারাংশ সারণী দেখতে পারি।
আমরা ডেটা অন্তর্দৃষ্টি প্রতিবেদন বিশ্লেষণের বিশদ বিবরণে যাই না; নির্দেশ করে অ্যামাজন সেজমেকার ডেটা র্যাংলারে ডেটা গুণমান এবং অন্তর্দৃষ্টি সহ ডেটা প্রস্তুতি ত্বরান্বিত করুন আপনার ডেটা প্রস্তুতির পদক্ষেপগুলিকে ত্বরান্বিত করতে আপনি কীভাবে ডেটা অন্তর্দৃষ্টি রিপোর্ট ব্যবহার করতে পারেন সে সম্পর্কে অতিরিক্ত বিবরণের জন্য।
বৈশিষ্ট্য প্রকৌশল সঞ্চালন
এখন যেহেতু আমরা উচ্চ স্তরে আমাদের ইনপুট কলামগুলির বিতরণকে প্রোফাইল এবং বিশ্লেষণ করেছি, আমাদের ডেটার গুণমান উন্নত করার জন্য প্রথম বিবেচনাটি অনুপস্থিত মানগুলি পরিচালনা করা হতে পারে।
উদাহরণস্বরূপ, আমরা জানি যে শূন্য (0) এর জন্য Insulin
কলাম অনুপস্থিত মান প্রতিনিধিত্ব করে। আমরা শূন্য প্রতিস্থাপনের সুপারিশ অনুসরণ করতে পারি NaN
. কিন্তু কাছাকাছি পরীক্ষায়, আমরা দেখতে পাই যে ন্যূনতম মান হল অন্যান্য কলামের জন্য 0 যেমন Glucose
, BloodPressure
, SkinThickness
, এবং BMI
. আমাদের অনুপস্থিত মানগুলি পরিচালনা করার একটি উপায় দরকার, তবে বৈধ ডেটা হিসাবে শূন্য সহ কলামগুলির প্রতি সংবেদনশীল হওয়া দরকার। দেখা যাক কিভাবে আমরা এটা ঠিক করতে পারি।
মধ্যে বৈশিষ্ট্য বিশদ বিভাগে, রিপোর্ট একটি উত্থাপন ছদ্মবেশী অনুপস্থিত মান বৈশিষ্ট্যের জন্য সতর্কতা Insulin
.
কারণ শূন্য Insulin
কলাম আসলে তথ্য অনুপস্থিত, আমরা ব্যবহার অনুপস্থিত regex রূপান্তর শূন্য মানকে খালিতে রূপান্তর করতে রূপান্তর করুন (অনুপস্থিত মান)।
- পাশের প্লাস চিহ্নটি বেছে নিন উপাত্ত ধরনের এবং নির্বাচন করুন বিজ্ঞাপন রুপান্তর.
- বেছে নিন অনুসন্ধান এবং সম্পাদনা করুন.
- জন্য রুপান্তরনির্বাচন অনুপস্থিত regex রূপান্তর.
- জন্য ইনপুট কলাম, কলাম নির্বাচন করুন
Insulin
,Glucose
,BloodPressure
,SkinThickness
, এবংBMI
. - জন্য প্যাটার্নপ্রবেশ করান
0
. - বেছে নিন প্রি এবং বিজ্ঞাপন এই পদক্ষেপ সংরক্ষণ করতে।
অধীনে 0 এন্ট্রি Insulin
, Glucose
, BloodPressure
, SkinThickness
, এবং BMI
এখন মান অনুপস্থিত.
ডেটা র্যাংলার অনুপস্থিত মানগুলি ঠিক করার জন্য আপনাকে আরও কয়েকটি বিকল্প দেয়।
- আমরা অনুপস্থিত মানগুলির জন্য আনুমানিক মধ্যককে অভিযুক্ত করে পরিচালনা করি৷
Glucose
কলাম।
আমরা নিশ্চিত করতে চাই যে আমাদের বৈশিষ্ট্যগুলি একই স্কেলে রয়েছে৷ আমরা দুর্ঘটনাক্রমে একটি নির্দিষ্ট বৈশিষ্ট্যকে আরও বেশি ওজন দিতে চাই না কারণ সেগুলিতে একটি বড় সাংখ্যিক পরিসর রয়েছে৷ এটি করার জন্য আমরা আমাদের বৈশিষ্ট্যগুলিকে স্বাভাবিক করি।
- একটি নতুন যুক্ত করুন প্রক্রিয়া সংখ্যা রূপান্তর এবং চয়ন করুন স্কেল মান.
- জন্য Scalerনির্বাচন সর্বনিম্ন-সর্বোচ্চ স্কেলার.
- জন্য ইনপুট কলাম, কলাম নির্বাচন করুন
Pregnancies
,BloodPressure
,Glucose
,SkinThickness
,Insulin
,BMI
, এবংAge
. - সেট ন্যূনতম থেকে
0
এবং সর্বোচ্চ থেকে1
.
এটি নিশ্চিত করে যে আমাদের বৈশিষ্ট্যগুলি মানগুলির মধ্যে রয়েছে৷ 0
এবং 1
.
এখন আমরা কিছু বৈশিষ্ট্য তৈরি করেছি, আমরা একটি মডেল তৈরি করার আগে আমাদের ডেটাসেটকে প্রশিক্ষণ এবং পরীক্ষায় বিভক্ত করেছি।
প্রশিক্ষণ এবং পরীক্ষায় ডেটা বিভক্ত করুন
আপনার ML কর্মপ্রবাহের মডেল বিল্ডিং পর্বে, আপনি ব্যাচের পূর্বাভাসগুলি চালিয়ে আপনার মডেলের কার্যকারিতা পরীক্ষা করেন। গ্রাউন্ড ট্রুথের সাথে ভবিষ্যদ্বাণীর তুলনা করে আপনার মডেল কীভাবে পারফর্ম করে তা দেখতে আপনি মূল্যায়নের জন্য একটি টেস্টিং বা হোল্ডআউট ডেটাসেট আলাদা করে রাখতে পারেন। সাধারণত, মডেলের ভবিষ্যতবাণী বেশি মিললে true
লেবেল, আমরা নির্ধারণ করতে পারি মডেলটি ভাল কাজ করছে।
আমরা পরীক্ষার জন্য আমাদের ডেটাসেট বিভক্ত করতে ডেটা র্যাংলার ব্যবহার করি। আমরা প্রশিক্ষণের জন্য আমাদের ডেটাসেটের 90% ধরে রাখি কারণ আমাদের কাছে তুলনামূলকভাবে ছোট ডেটাসেট রয়েছে। আমাদের ডেটাসেটের অবশিষ্ট 10% পরীক্ষার ডেটাসেট হিসাবে কাজ করে। আমরা এই পোস্টে অটোপাইলট মডেলকে যাচাই করতে এই ডেটাসেটটি ব্যবহার করি।
আমরা নির্বাচন করে আমাদের তথ্য বিভক্ত ডেটা স্প্লিট করুন রূপান্তর এবং নির্বাচন এলোমেলোভাবে বিভক্ত পদ্ধতি হিসাবে। আমরা প্রশিক্ষণের জন্য বিভক্ত শতাংশ হিসাবে 0.9 এবং পরীক্ষার জন্য 0.1 মনোনীত করি।
ডেটা ট্রান্সফর্মেশন এবং ফিচারিং ইঞ্জিনিয়ারিং ধাপগুলি সম্পূর্ণ হওয়ার সাথে সাথে, আমরা এখন একটি মডেলকে প্রশিক্ষণ দেওয়ার জন্য প্রস্তুত।
ট্রেন এবং মডেল যাচাই
Data Wrangler ডেটা ফ্লো UI থেকে সরাসরি একটি মডেলকে প্রশিক্ষণ দিতে আমরা Autopilot-এর সাথে নতুন Data Wrangler ইন্টিগ্রেশন ব্যবহার করতে পারি।
- পাশের প্লাস চিহ্নটি বেছে নিন ডেটা সেটটি এবং নির্বাচন করুন ট্রেন মডেল.
- জন্য Amazon S3 অবস্থান, Amazon S3 অবস্থান নির্দিষ্ট করুন যেখানে SageMaker আপনার ডেটা রপ্তানি করে৷
অটোপাইলট একটি মডেলকে স্বয়ংক্রিয়ভাবে প্রশিক্ষণ দিতে এই অবস্থানটি ব্যবহার করে, ডেটা র্যাংলার প্রবাহের আউটপুট অবস্থান সংজ্ঞায়িত করা থেকে আপনার সময় বাঁচায়, তারপর অটোপাইলট প্রশিক্ষণ ডেটার ইনপুট অবস্থান সংজ্ঞায়িত করতে হয়। এটি আরও নির্বিঘ্ন অভিজ্ঞতার জন্য তৈরি করে।
- বেছে নিন রপ্তানি এবং প্রশিক্ষণ অটোপাইলটের সাথে মডেল বিল্ডিং শুরু করতে।
অটোপাইলট স্বয়ংক্রিয়ভাবে প্রশিক্ষণ ডেটা ইনপুট এবং আউটপুট অবস্থান নির্বাচন করে। আপনি শুধুমাত্র লক্ষ্য কলাম নির্দিষ্ট করতে হবে এবং ক্লিক করুন পরীক্ষা তৈরি করুন আপনার মডেলকে প্রশিক্ষণ দিতে।
একটি হোল্ডআউট নমুনা উপর মডেল পরীক্ষা
যখন অটোপাইলট পরীক্ষা শেষ করে, তখন আমরা প্রশিক্ষণের ফলাফল দেখতে পারি এবং সেরা মডেলটি অন্বেষণ করতে পারি।
- বেছে নিন মডেল বিবরণ দেখুন আপনার পছন্দসই মডেলের জন্য, তারপর চয়ন করুন সম্পাদন মডেল বিবরণ পৃষ্ঠায় ট্যাব.
সার্জারির সম্পাদন ট্যাব একটি বিভ্রান্তি ম্যাট্রিক্স, নির্ভুলতা/রিকল বক্ররেখা (AUCPR) এবং রিসিভার অপারেটিং চরিত্রগত বক্ররেখা (ROC) এর অধীনে এলাকা সহ বেশ কয়েকটি মডেল পরিমাপ পরীক্ষা প্রদর্শন করে। এগুলি মডেলের সামগ্রিক বৈধতা কার্যকারিতা চিত্রিত করে, তবে মডেলটি ভালভাবে সাধারণীকরণ করবে কিনা তা তারা আমাদের জানায় না। একজন ব্যক্তির ডায়াবেটিস আছে কিনা মডেলটি কতটা সঠিকভাবে ভবিষ্যদ্বাণী করে তা দেখতে আমাদের এখনও অদেখা পরীক্ষার ডেটার উপর মূল্যায়ন চালাতে হবে।
মডেলটি যথেষ্ট ভালভাবে সাধারণীকরণ নিশ্চিত করার জন্য, আমরা স্বাধীন নমুনার জন্য পরীক্ষার নমুনা আলাদা করে রেখেছি। আমরা ডেটা র্যাংলার ফ্লো UI-তে তা করতে পারি।
- পাশের প্লাস চিহ্নটি বেছে নিন ডেটা সেটটিনির্বাচন রপ্তানি করা, এবং চয়ন করুন আমাজন S3.
- একটি Amazon S3 পথ নির্দিষ্ট করুন।
আমরা এই পথটি উল্লেখ করি যখন আমরা পরবর্তী বিভাগে বৈধতার জন্য ব্যাচ অনুমান চালাই।
- হোল্ডআউট নমুনাতে ব্যাচ ইনফারেন্সিং সঞ্চালনের জন্য একটি নতুন সেজমেকার নোটবুক তৈরি করুন এবং পরীক্ষার কার্যকারিতা মূল্যায়ন করুন। নিম্নলিখিত পড়ুন গিটহুব রেপো একটি জন্য নমুনা নোটবুক বৈধতা জন্য ব্যাচ অনুমান চালানোর জন্য.
যাচাইকরণ এবং পরীক্ষা সেট কর্মক্ষমতা বিশ্লেষণ
যখন ব্যাচ রূপান্তর সম্পূর্ণ হয়, আমরা হোল্ডআউট ডেটাসেটের প্রকৃত এবং পূর্বাভাসিত ফলাফলের তুলনা করার জন্য একটি বিভ্রান্তি ম্যাট্রিক্স তৈরি করি।
আমরা আমাদের ফলাফল থেকে 23টি সত্য ইতিবাচক এবং 33টি সত্য নেতিবাচক দেখতে পাই। আমাদের ক্ষেত্রে, সত্যিকারের ইতিবাচক মডেলগুলিকে বোঝায় যা সঠিকভাবে একজন ব্যক্তির ডায়াবেটিস আছে বলে ভবিষ্যদ্বাণী করে। বিপরীতে, সত্যিকারের নেতিবাচকগুলি এমন মডেলকে নির্দেশ করে যা একজন ব্যক্তির ডায়াবেটিস নেই বলে সঠিকভাবে ভবিষ্যদ্বাণী করে।
আমাদের ক্ষেত্রে, নির্ভুলতা এবং প্রত্যাহার গুরুত্বপূর্ণ মেট্রিক্স। নির্ভুলতা মূলত ডায়াবেটিস আছে বলে ভবিষ্যদ্বাণী করা সমস্ত ব্যক্তিকে পরিমাপ করে, আসলে কতজনের ডায়াবেটিস আছে? বিপরীতে, প্রত্যাহার প্রকৃতপক্ষে ডায়াবেটিস আছে এমন সমস্ত ব্যক্তিকে পরিমাপ করতে সহায়তা করে, কতজনের ডায়াবেটিস হওয়ার পূর্বাভাস দেওয়া হয়েছিল? উদাহরণস্বরূপ, আপনি উচ্চ নির্ভুলতার সাথে একটি মডেল ব্যবহার করতে চাইতে পারেন কারণ আপনি যত বেশি ব্যক্তিকে আপনার পক্ষে চিকিত্সা করতে চান, বিশেষ করে যদি চিকিত্সার প্রথম পর্যায়ে ডায়াবেটিসবিহীন ব্যক্তিদের উপর কোন প্রভাব না পড়ে (এগুলি মিথ্যা ইতিবাচক - যাদের এটি আছে বলে লেবেল করা হয়েছে) যখন আসলে তারা তা করে না)।
আমরা ফলাফলগুলি মূল্যায়ন করতে ROC বক্ররেখা (AUC) গ্রাফের অধীনে এলাকাটিও প্লট করি। AUC যত বেশি হবে, মডেলটি ক্লাসের মধ্যে পার্থক্য করতে তত ভাল, যা আমাদের ক্ষেত্রে মডেলটি ডায়াবেটিস সহ এবং ছাড়া রোগীদের মধ্যে পার্থক্য করতে কতটা ভাল পারফর্ম করে।
উপসংহার
এই পোস্টে, আমরা দেখিয়েছি কিভাবে ডেটা র্যাংলার এবং অটোপাইলট ব্যবহার করে আপনার ডেটা প্রসেসিং, ফিচারিং ইঞ্জিনিয়ারিং এবং মডেল বিল্ডিংকে একীভূত করতে হয়। আমরা হাইলাইট করেছি কিভাবে আপনি সহজেই ডেটা র্যাংলার ইউজার ইন্টারফেস থেকে অটোপাইলটের মাধ্যমে একটি মডেলকে সহজে প্রশিক্ষণ ও টিউন করতে পারেন। এই ইন্টিগ্রেশন ফিচারের সাহায্যে আমরা ফিচার ইঞ্জিনিয়ারিং শেষ করার পর কোনো কোড না লিখে দ্রুত একটি মডেল তৈরি করতে পারি। তারপরে আমরা সেজমেকার পাইথন SDK-এর সাথে AutoML ক্লাস ব্যবহার করে ব্যাচের পূর্বাভাস চালানোর জন্য অটোপাইলটের সেরা মডেলটি উল্লেখ করেছি।
লো-কোড এবং অটোএমএল সমাধান যেমন ডেটা র্যাংলার এবং অটোপাইলট শক্তিশালী এমএল মডেল তৈরি করতে গভীর কোডিং জ্ঞান থাকা প্রয়োজনকে সরিয়ে দেয়। ডেটা র্যাংলার ব্যবহার করা শুরু করুন এমএল মডেলগুলি ব্যবহার করে তৈরি করা কতটা সহজ তা আজ অনুভব করুন সেজমেকার অটোপাইলট.
লেখক সম্পর্কে
পিটার চুং তিনি AWS-এর জন্য একজন সলিউশন আর্কিটেক্ট, এবং গ্রাহকদের তাদের ডেটা থেকে অন্তর্দৃষ্টি উন্মোচন করতে সাহায্য করার বিষয়ে উত্সাহী৷ তিনি সরকারী এবং বেসরকারী উভয় ক্ষেত্রেই সংস্থাগুলিকে ডেটা-চালিত সিদ্ধান্ত নিতে সহায়তা করার জন্য সমাধান তৈরি করছেন। তার কাছে সমস্ত AWS শংসাপত্রের পাশাপাশি দুটি GCP শংসাপত্র রয়েছে৷ তিনি কফি উপভোগ করেন, রান্না করেন, সক্রিয় থাকেন এবং তার পরিবারের সাথে সময় কাটান।
প্রদীপ রেড্ডি সেজমেকার লো/নো কোড এমএল টিমের একজন সিনিয়র প্রোডাক্ট ম্যানেজার, যার মধ্যে রয়েছে সেজমেকার অটোপাইলট, সেজমেকার অটোমেটিক মডেল টিউনার। কাজের বাইরে, প্রদীপ রাস্পবেরি পাই এবং অন্যান্য হোম অটোমেশন প্রযুক্তির মতো পাম আকারের কম্পিউটারের সাথে পড়া, দৌড়ানো এবং গিকিং করা উপভোগ করে।
অরুণপ্রসথ শংকর AWS এর সাহায্যে একটি কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং (এআই / এমএল) বিশেষজ্ঞ সলিউশন সমাধান আর্কিটেক্ট যা বিশ্বব্যাপী গ্রাহকদের মেঘে কার্যকরভাবে এবং দক্ষতার সাথে তাদের এআই সমাধানগুলি স্কেল করতে সহায়তা করে। অল্প সময়ে, অরুণ সায়েন্স-ফাই সিনেমা দেখা এবং শাস্ত্রীয় সংগীত শুনতে উপভোগ করেন।
সৃজন গোপু সেজমেকার লো কোড/নো কোড এমএল-এর একজন সিনিয়র ফ্রন্টেন্ড ইঞ্জিনিয়ার অটোপাইলট এবং ক্যানভাস পণ্যের গ্রাহকদের সাহায্য করছেন। কোডিং না করার সময়, সরুজান তার কুকুর ম্যাক্সের সাথে দৌড়ে যাওয়া, অডিও বই এবং ভিআর গেম ডেভেলপমেন্ট শুনতে উপভোগ করে।
- Coinsmart. ইউরোপের সেরা বিটকয়েন এবং ক্রিপ্টো এক্সচেঞ্জ।
- প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. বিনামূল্যে এক্সেস.
- ক্রিপ্টোহক। Altcoin রাডার। বিনামূল্যে ট্রায়াল.
- সূত্র: https://aws.amazon.com/blogs/machine-learning/unified-data-preparation-and-model-training-with-amazon-sagemaker-data-wrangler-and-amazon-sagemaker-autopilot/
- "
- 100
- 7
- 9
- a
- ক্ষমতা
- সম্পর্কে
- দ্রুততর করা
- সঠিক
- সক্রিয়
- যোগ
- অতিরিক্ত
- AI
- আলগোরিদিম
- সব
- মর্দানী স্ত্রীলোক
- বিশ্লেষণ
- বিশ্লেষণ করা
- এলাকায়
- অ্যারিজোনা
- কৃত্রিম
- কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম গোয়েন্দা এবং মেশিন লার্নিং
- অডিও
- স্বয়ংক্রিয়
- স্বয়ংক্রিয়ভাবে
- স্বয়ংক্রিয়তা
- ডেস্কটপ AWS
- কারণ
- আগে
- সর্বোত্তম
- মধ্যে
- রক্ত
- শরীর
- বই
- নির্মাণ করা
- ভবন
- তৈরী করে
- ব্যবসায়
- ক্যানভাস
- কেস
- কিছু
- পছন্দ
- বেছে নিন
- শ্রেণী
- ক্লাস
- কাছাকাছি
- মেঘ
- কোড
- কোডিং
- কফি
- স্তম্ভ
- সম্পূর্ণ
- পরিপূরক
- কম্পিউটার
- একাগ্রতা
- বিশ্বাস
- বিশৃঙ্খলা
- বিবেচনা
- ধারণ
- নিয়ন্ত্রণ
- পারা
- সৃষ্টি
- নির্মিত
- তৈরি করা হচ্ছে
- সংকটপূর্ণ
- বাঁক
- গ্রাহকদের
- উপাত্ত
- তথ্য বিশ্লেষণ
- তথ্য প্রক্রিয়াজাতকরণ
- সিদ্ধান্ত
- গভীর
- বিলম্ব
- প্রদর্শিত
- নির্ভরশীল
- বিস্তারিত
- বিস্তারিত
- নির্ধারণ
- উন্নয়ন
- সরাসরি
- সরাসরি
- আলোচনা করা
- প্রদর্শন
- বিতরণ
- ডাক্তার
- ডোমেইন
- গোড়ার দিকে
- সহজে
- প্রভাব
- কার্যকরীভাবে
- দক্ষতার
- সক্রিয়
- প্রকৌশলী
- প্রকৌশল
- প্রবেশ করান
- বিশেষত
- মূলত
- হিসাব
- মূল্যায়ন
- মূল্যায়ন
- উদাহরণ
- প্রত্যাশিত
- অভিজ্ঞতা
- পরীক্ষা
- বিশেষজ্ঞদের
- অন্বেষণ করুণ
- পরিবার
- দ্রুত
- বৈশিষ্ট্য
- বৈশিষ্ট্য
- সমন্বিত
- খুঁজে বের করে
- প্রথম
- প্রথমবার
- ঠিক করা
- প্রবাহ
- কেন্দ্রবিন্দু
- অনুসরণ করা
- অনুসরণ
- থেকে
- সম্পূর্ণ
- খেলা
- সাধারণত
- বিশ্বব্যাপী
- চালু
- বৃহত্তর
- গ্রুপ
- হাতল
- জমিদারি
- স্বাস্থ্য
- উচ্চতা
- সাহায্য
- সাহায্য
- সাহায্য
- উচ্চ
- উচ্চ গুনসম্পন্ন
- উচ্চ ঝুঁকি
- ঊর্ধ্বতন
- হাইলাইট করা
- ঝুলিতে
- হোম
- অধিবাস স্বয়ংক্রিয়তা
- কিভাবে
- কিভাবে
- HTTPS দ্বারা
- অসুস্থতা
- প্রভাব
- গুরুত্বপূর্ণ
- উন্নত করা
- উন্নতি
- অন্তর্ভুক্ত
- সুদ্ধ
- স্বাধীন
- সূচক
- স্বতন্ত্র
- ব্যক্তি
- তথ্য
- ইনপুট
- অর্ন্তদৃষ্টি
- সম্পূর্ণ
- সংহত
- ইন্টিগ্রেশন
- বুদ্ধিমত্তা
- ইন্টারফেস
- IT
- কাজ
- যোগদানের
- জানা
- জ্ঞান
- লেবেলগুলি
- বৃহত্তর
- শুরু করা
- চালু
- নেতৃত্ব
- শিক্ষা
- উচ্চতা
- মাত্রা
- সম্ভবত
- লাইন
- শ্রবণ
- সামান্য
- জীবিত
- অবস্থান
- অবস্থানগুলি
- মেশিন
- মেশিন লার্নিং
- বজায় রাখা
- করা
- তৈরি করে
- মেকিং
- পরিচালক
- ম্যাচ
- জরায়ু
- ম্যাটার্স
- মাপ
- পরিমাপ
- চিকিৎসা
- ছন্দোবিজ্ঞান
- মেক্সিকো
- সর্বনিম্ন
- নাবালকত্ব
- ML
- মডেল
- মডেল
- অধিক
- চলচ্চিত্র
- বহু
- সঙ্গীত
- প্রয়োজনীয়
- পরবর্তী
- NIH এ
- নোটবই
- সংখ্যা
- উদ্বোধন
- অপারেটিং
- সুযোগ
- অপশন সমূহ
- সংগঠন
- অন্যান্য
- সামগ্রিক
- অংশ
- কামুক
- শতকরা হার
- কর্মক্ষমতা
- করণ
- ফেজ
- জনসংখ্যা
- প্রদীপ
- ভবিষ্যদ্বাণী করা
- ভবিষ্যদ্বাণী
- ভবিষ্যতবাণী
- প্রস্তুত করা
- বর্তমান
- চাপ
- ব্যক্তিগত
- প্রক্রিয়া
- প্রক্রিয়াজাতকরণ
- পণ্য
- পণ্য
- প্রোফাইল
- প্রোফাইলিং
- প্রকল্প
- প্রদান
- উপলব্ধ
- প্রকাশ্য
- গুণ
- দ্রুত
- দ্রুত
- উত্থাপন
- পরিসর
- পড়া
- রেকর্ড
- অবশিষ্ট
- রিপোর্ট
- চিত্রিত করা
- ফলাফল
- ঝুঁকি
- চালান
- দৌড়
- একই
- রক্ষা
- স্কেল
- বিজ্ঞানীরা
- SDK
- নির্বিঘ্ন
- নির্বিঘ্নে
- সার্চ
- সেক্টর
- সেবা
- সেট
- বিভিন্ন
- চিহ্ন
- সহজ
- একক
- চামড়া
- ছোট
- So
- সলিউশন
- কিছু
- বিশেষজ্ঞ
- স্পীড
- খরচ
- বিভক্ত করা
- পর্যায়
- শুরু
- শুরু
- রাষ্ট্র-এর-শিল্প
- পরিসংখ্যান
- এখনো
- স্টোরেজ
- দোকান
- স্ট্রিমলাইন
- লক্ষ্য
- টীম
- প্রযুক্তি
- প্রযুক্তি
- পরীক্ষা
- পরীক্ষামূলক
- পরীক্ষা
- সার্জারির
- অতএব
- দ্বারা
- সময়
- বার
- আজ
- সহ্য
- প্রশিক্ষণ
- ট্রেন
- রুপান্তর
- রুপান্তর
- রূপান্তরের
- আচরণ করা
- চিকিৎসা
- ধরনের
- ui
- উন্মোচন
- অধীনে
- বোধশক্তি
- us
- ব্যবহার
- যাচাই
- বৈধতা
- মূল্য
- চেক
- দৃষ্টিপাত
- vr
- জেয়
- অপেক্ষা করুন
- কি
- হু
- মধ্যে
- ছাড়া
- হয়া যাই ?
- কর্মপ্রবাহ
- লেখা
- বছর
- আপনার
- শূন্য