Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ

ডেটা ফুয়েল মেশিন লার্নিং (ML); ডেটার গুণমান ML মডেলের মানের উপর সরাসরি প্রভাব ফেলে। অতএব, সঠিক ML মডেল তৈরির জন্য ডেটার গুণমান উন্নত করা এবং সঠিক বৈশিষ্ট্য প্রকৌশল কৌশলগুলিকে নিযুক্ত করা গুরুত্বপূর্ণ। এমএল অনুশীলনকারীরা প্রায়শই ক্লান্তিকরভাবে ফিচার ইঞ্জিনিয়ারিং, অ্যালগরিদমের পছন্দ এবং এমএল-এর অন্যান্য দিকগুলিকে সর্বোত্তম মডেলের সন্ধানে পুনরাবৃত্তি করে যা বাস্তব-বিশ্বের ডেটাতে ভালভাবে সাধারণীকরণ করে এবং পছন্দসই ফলাফল প্রদান করে। যেহেতু ব্যবসা করার গতি অসামঞ্জস্যপূর্ণভাবে গুরুত্বপূর্ণ, এই অত্যন্ত ক্লান্তিকর এবং পুনরাবৃত্তিমূলক প্রক্রিয়াটি প্রকল্প বিলম্ব এবং ব্যবসার সুযোগ হারাতে পারে।

অ্যামাজন সেজমেকার ডেটা র্যাংলার ML-এর জন্য সপ্তাহ থেকে মিনিটে ডেটা একত্রিত এবং প্রস্তুত করার সময় কমিয়ে দেয়, এবং অ্যামাজন সেজমেকার অটোপাইলট স্বয়ংক্রিয়ভাবে আপনার ডেটার উপর ভিত্তি করে সেরা এমএল মডেলগুলি তৈরি করে, প্রশিক্ষণ দেয় এবং সুর করে৷ অটোপাইলটের মাধ্যমে, আপনি এখনও আপনার ডেটা এবং মডেলের সম্পূর্ণ নিয়ন্ত্রণ এবং দৃশ্যমানতা বজায় রাখেন। উভয় পরিষেবাই এমএল অনুশীলনকারীদের আরও বেশি উত্পাদনশীল করতে এবং মূল্যের সময়কে ত্বরান্বিত করতে উদ্দেশ্য-নির্মিত।

ডেটা র্যাংলার এখন একটি ইউনিফাইড অভিজ্ঞতা প্রদান করে যা আপনাকে ডেটা প্রস্তুত করতে এবং অটোপাইলটে একটি এমএল মডেলকে নির্বিঘ্নে প্রশিক্ষণ দিতে সক্ষম করে। নতুন চালু হওয়া এই বৈশিষ্ট্যটির সাহায্যে, আপনি এখন ডেটা র্যাংলারে আপনার ডেটা প্রস্তুত করতে পারেন এবং ডেটা র্যাংলার ইউজার ইন্টারফেস (UI) থেকে সরাসরি অটোপাইলট পরীক্ষাগুলি সহজে চালু করতে পারেন। মাত্র কয়েকটি ক্লিকের মাধ্যমে, আপনি স্বয়ংক্রিয়ভাবে ML মডেল তৈরি করতে, প্রশিক্ষণ দিতে এবং সুর করতে পারেন, যা অত্যাধুনিক বৈশিষ্ট্য ইঞ্জিনিয়ারিং কৌশলগুলিকে নিযুক্ত করা, উচ্চ-মানের ML মডেলগুলিকে প্রশিক্ষণ দেওয়া এবং আপনার ডেটা থেকে দ্রুত অন্তর্দৃষ্টি অর্জন করা সহজ করে তোলে৷

এই পোস্টে, আমরা আলোচনা করব কিভাবে আপনি ডেটাসেট বিশ্লেষণ করতে এবং অটোপাইলটে উচ্চ-মানের ML মডেলগুলি সহজেই তৈরি করতে ডেটা র্যাংলারে এই নতুন সমন্বিত অভিজ্ঞতা ব্যবহার করতে পারেন।

ডেটাসেট ওভারভিউ

পিমা ইন্ডিয়ানরা একটি আদিবাসী গোষ্ঠী যারা মেক্সিকো এবং অ্যারিজোনা, মার্কিন যুক্তরাষ্ট্রে বাস করে। স্টাডিজ পিমা ইন্ডিয়ানদের ডায়াবেটিস মেলিটাসের জন্য একটি উচ্চ-ঝুঁকিপূর্ণ জনগোষ্ঠী হিসাবে দেখান। ডায়াবেটিসের মতো দীর্ঘস্থায়ী অসুস্থতার জন্য একজন ব্যক্তির ঝুঁকি এবং সংবেদনশীলতার সম্ভাবনার ভবিষ্যদ্বাণী করা এই প্রায়শই কম প্রতিনিধিত্ব করা সংখ্যালঘু গোষ্ঠীর স্বাস্থ্য এবং সুস্থতার উন্নতির জন্য একটি গুরুত্বপূর্ণ কাজ।

আমরা ব্যবহার করি পিমা ইন্ডিয়ান ডায়াবেটিস পাবলিক ডেটাসেট একজন ব্যক্তির ডায়াবেটিসের সংবেদনশীলতার পূর্বাভাস দিতে। আমরা ডেটা প্রস্তুত করতে ডেটা রেংলার এবং অটোপাইলটের মধ্যে নতুন একীকরণের উপর ফোকাস করি এবং কোডের একটি লাইন না লিখে স্বয়ংক্রিয়ভাবে একটি ML মডেল তৈরি করতে পারি।

ডেটাসেটে 21 বছর বা তার বেশি বয়সী পিমা ভারতীয় মহিলাদের সম্পর্কে তথ্য রয়েছে এবং এতে বেশ কয়েকটি চিকিৎসা ভবিষ্যদ্বাণীকারী (স্বাধীন) ভেরিয়েবল এবং একটি লক্ষ্য (নির্ভরশীল) পরিবর্তনশীল, ফলাফল অন্তর্ভুক্ত রয়েছে। নিম্নলিখিত চার্ট আমাদের ডেটাসেটের কলামগুলি বর্ণনা করে৷

স্তম্ভ নাম বিবরণ
গর্ভাবস্থা গর্ভবতী বার সংখ্যা
গ্লুকোজ 2 ঘন্টার মধ্যে একটি মৌখিক গ্লুকোজ সহনশীলতা পরীক্ষায় প্লাজমা গ্লুকোজ ঘনত্ব
রক্তচাপ ডায়াস্টোলিক রক্তচাপ (মিমি এইচজি)
চামড়া পুরুত্ব ট্রাইসেপস ত্বকের ভাঁজ বেধ (মিমি)
ইন্সুলিন 2-ঘন্টা সিরাম ইনসুলিন (mu U/ml)
তাহলে BMI বডি মাস ইনডেক্স (ওজন কেজি/(মিটারে উচ্চতা)^2)
ডায়াবেটিস পেডিগ্রি ডায়াবেটিস বংশের ফাংশন
বয়স বয়স বছর
ফলাফল লক্ষ্য পরিবর্তনশীল

ডেটাসেটে মোট 768টি বৈশিষ্ট্য সহ 9টি রেকর্ড রয়েছে। আমরা এই ডেটাসেট সংরক্ষণ করি আমাজন সহজ স্টোরেজ বালতি (Amazon S3) একটি CSV ফাইল হিসাবে এবং তারপর Amazon S3 থেকে সরাসরি একটি ডেটা র্যাংলার ফ্লোতে CSV আমদানি করুন৷

সমাধান ওভারভিউ

নিম্নলিখিত চিত্রটি এই পোস্টে আমরা যা অর্জন করেছি তার সংক্ষিপ্ত বিবরণ দেয়।[KT1]

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

ডেটা সায়েন্টিস্ট, ডাক্তার এবং অন্যান্য মেডিক্যাল ডোমেন বিশেষজ্ঞরা রোগীর ডেটা দিয়ে গ্লুকোজের মাত্রা, রক্তচাপ, বডি মাস ইনডেক্স এবং ডায়াবেটিস হওয়ার সম্ভাবনা ভবিষ্যদ্বাণী করতে ব্যবহৃত অন্যান্য বৈশিষ্ট্যের তথ্য দিয়ে থাকেন। Amazon S3-এ ডেটাসেট সহ, আমরা অনুসন্ধানমূলক ডেটা বিশ্লেষণ (EDA), ডেটা প্রোফাইলিং, ফিচার ইঞ্জিনিয়ারিং এবং ডেটাসেটকে ট্রেনে বিভক্ত করার জন্য ডেটা র্যাংলারে ডেটাসেট আমদানি করি এবং মডেল তৈরি এবং মূল্যায়নের জন্য পরীক্ষা করি।

আমরা তারপরে ডেটা র্যাংলার ইন্টারফেস থেকে সরাসরি একটি মডেল তৈরি করতে অটোপাইলটের নতুন বৈশিষ্ট্য একীকরণ ব্যবহার করি। আমরা সর্বোচ্চ F-বিটা স্কোর সহ মডেলের উপর ভিত্তি করে অটোপাইলটের সেরা মডেল বেছে নিই। অটোপাইলট সেরা মডেল খুঁজে পাওয়ার পর, আমরা একটি চালাই সেজমেকার ব্যাচ ট্রান্সফর্ম পরীক্ষায় জব (হোল্ডআউট) মূল্যায়নের জন্য সেরা মডেলের মডেল আর্টিফ্যাক্ট সহ সেট।

একজন রোগীর সম্ভবত ডায়াবেটিস আছে কিনা তা দেখার জন্য একটি ভবিষ্যদ্বাণী পেতে চিকিৎসা বিশেষজ্ঞরা বৈধ মডেলে নতুন ডেটা সরবরাহ করতে পারেন। এই অন্তর্দৃষ্টিগুলির সাহায্যে, চিকিত্সা বিশেষজ্ঞরা দুর্বল জনগোষ্ঠীর স্বাস্থ্য এবং মঙ্গল উন্নত করতে প্রাথমিকভাবে চিকিত্সা শুরু করতে পারেন। মেডিকেল বিশেষজ্ঞরাও অটোপাইলটে মডেলের বিশদ উল্লেখ করে একটি মডেলের ভবিষ্যদ্বাণী ব্যাখ্যা করতে পারেন কারণ তাদের মডেলের ব্যাখ্যাযোগ্যতা, কর্মক্ষমতা এবং শিল্পকর্মের সম্পূর্ণ দৃশ্যমানতা রয়েছে। পরীক্ষার সেট থেকে মডেলের বৈধতা ছাড়াও এই দৃশ্যমানতা চিকিৎসা বিশেষজ্ঞদের মডেলের ভবিষ্যদ্বাণী করার ক্ষমতার উপর আরও বেশি আস্থা দেয়।

আমরা আপনাকে নিম্নোক্ত উচ্চ-স্তরের ধাপগুলো দিয়ে হেঁটেছি।

  1. Amazon S3 থেকে ডেটাসেট আমদানি করুন।
  2. ডেটা র্যাংলারের সাথে EDA এবং ডেটা প্রোফাইলিং সম্পাদন করুন।
  3. আউটলিয়ার এবং অনুপস্থিত মানগুলি পরিচালনা করতে বৈশিষ্ট্য প্রকৌশল সম্পাদন করুন।
  4. ট্রেন এবং পরীক্ষা সেটে ডেটা বিভক্ত করুন।
  5. অটোপাইলট সহ একটি মডেল প্রশিক্ষণ এবং তৈরি করুন।
  6. একটি সেজমেকার নোটবুক দিয়ে একটি হোল্ডআউট নমুনায় মডেলটি পরীক্ষা করুন।
  7. যাচাইকরণ এবং পরীক্ষা সেট কর্মক্ষমতা বিশ্লেষণ.

পূর্বশর্ত

নিম্নলিখিত পূর্বশর্ত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. ডেটাসেট আপলোড করুন আপনার পছন্দের একটি S3 বালতিতে।
  2. আপনার প্রয়োজনীয় অনুমতি আছে তা নিশ্চিত করুন। আরো তথ্যের জন্য, পড়ুন ডেটা র্যাংলার দিয়ে শুরু করুন.
  3. ডেটা র্যাংলার ব্যবহার করার জন্য কনফিগার করা একটি সেজমেকার ডোমেন সেট আপ করুন। নির্দেশাবলীর জন্য, পড়ুন Amazon SageMaker ডোমেনে অনবোর্ড.

ডেটা র্যাংলার দিয়ে আপনার ডেটাসেট আমদানি করুন

আপনি সামান্য থেকে কোন কোডিং ব্যবহার করে ডেটা প্রিপ্রসেসিং এবং ফিচার ইঞ্জিনিয়ারিংকে সরল ও স্ট্রীমলাইন করতে আপনার ML ওয়ার্কফ্লোতে একটি ডেটা র্যাংলার ডেটা প্রবাহকে একীভূত করতে পারেন। নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:

  1. নতুন একটি তৈরি কর ডেটা র‍্যাংলার প্রবাহ.

যদি এটি আপনার প্রথমবার ডেটা র্যাংলার খোলা হয়, তবে এটি প্রস্তুত হওয়ার জন্য আপনাকে কয়েক মিনিট অপেক্ষা করতে হতে পারে।

  1. Amazon S3 তে সংরক্ষিত ডেটাসেটটি চয়ন করুন এবং এটি ডেটা র্যাংলারে আমদানি করুন।

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

আপনি ডেটাসেট আমদানি করার পরে, আপনি ডেটা র্যাংলার UI এর মধ্যে একটি ডেটা প্রবাহের সূচনা দেখতে পাবেন। আপনার কাছে এখন একটি প্রবাহ চিত্র রয়েছে।

  1. পাশের প্লাস চিহ্নটি বেছে নিন তথ্যের ধরণ এবং নির্বাচন করুন সম্পাদন করা নিশ্চিত করতে যে ডেটা র্যাংলার স্বয়ংক্রিয়ভাবে আপনার ডেটা কলামগুলির জন্য সঠিক ডেটা প্রকারগুলি অনুমান করেছে৷

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

যদি ডেটা প্রকারগুলি সঠিক না হয় তবে আপনি সহজেই UI এর মাধ্যমে সেগুলি সংশোধন করতে পারেন৷ যদি একাধিক ডেটা উত্স উপস্থিত থাকে তবে আপনি সেগুলিতে যোগ দিতে বা সংযুক্ত করতে পারেন৷

আমরা এখন একটি বিশ্লেষণ তৈরি করতে এবং রূপান্তর যোগ করতে পারি।

ডেটা অন্তর্দৃষ্টি প্রতিবেদনের সাথে অনুসন্ধানমূলক ডেটা বিশ্লেষণ সম্পাদন করুন

অনুসন্ধানমূলক ডেটা বিশ্লেষণ হল ML কর্মপ্রবাহের একটি গুরুত্বপূর্ণ অংশ। আমরা আমাদের ডেটার প্রোফাইল এবং বিতরণ সম্পর্কে আরও ভাল বোঝার জন্য ডেটা র্যাংলারের নতুন ডেটা ইনসাইট রিপোর্ট ব্যবহার করতে পারি। প্রতিবেদনে সংক্ষিপ্ত পরিসংখ্যান, ডেটা গুণমান সতর্কতা, লক্ষ্য কলাম অন্তর্দৃষ্টি, একটি দ্রুত মডেল এবং অস্বাভাবিক এবং সদৃশ সারি সম্পর্কে তথ্য অন্তর্ভুক্ত রয়েছে।

  1. পাশের প্লাস চিহ্নটি বেছে নিন তথ্যের ধরণ এবং নির্বাচন করুন ডেটা অন্তর্দৃষ্টি পান.

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

  1. জন্য লক্ষ্য স্তম্ভনির্বাচন ফলাফল.
  2. জন্য সমস্যার ধরণ, এবং (ঐচ্ছিকভাবে) নির্বাচন করুন শ্রেণীবিন্যাস.
  3. বেছে নিন সৃষ্টি.

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

ফলাফল ডেটাসেট পরিসংখ্যান সহ একটি সংক্ষিপ্ত তথ্য দেখায়।

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

আমরা একটি হিস্টোগ্রাম সহ লেবেলযুক্ত সারিগুলির বিতরণ, দ্রুত মডেল বৈশিষ্ট্য সহ মডেলটির প্রত্যাশিত পূর্বাভাসিত মানের একটি অনুমান এবং একটি বৈশিষ্ট্যের সারাংশ সারণী দেখতে পারি।

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

আমরা ডেটা অন্তর্দৃষ্টি প্রতিবেদন বিশ্লেষণের বিশদ বিবরণে যাই না; নির্দেশ করে অ্যামাজন সেজমেকার ডেটা র্যাংলারে ডেটা গুণমান এবং অন্তর্দৃষ্টি সহ ডেটা প্রস্তুতি ত্বরান্বিত করুন আপনার ডেটা প্রস্তুতির পদক্ষেপগুলিকে ত্বরান্বিত করতে আপনি কীভাবে ডেটা অন্তর্দৃষ্টি রিপোর্ট ব্যবহার করতে পারেন সে সম্পর্কে অতিরিক্ত বিবরণের জন্য।

বৈশিষ্ট্য প্রকৌশল সঞ্চালন

এখন যেহেতু আমরা উচ্চ স্তরে আমাদের ইনপুট কলামগুলির বিতরণকে প্রোফাইল এবং বিশ্লেষণ করেছি, আমাদের ডেটার গুণমান উন্নত করার জন্য প্রথম বিবেচনাটি অনুপস্থিত মানগুলি পরিচালনা করা হতে পারে।

উদাহরণস্বরূপ, আমরা জানি যে শূন্য (0) এর জন্য Insulin কলাম অনুপস্থিত মান প্রতিনিধিত্ব করে। আমরা শূন্য প্রতিস্থাপনের সুপারিশ অনুসরণ করতে পারি NaN. কিন্তু কাছাকাছি পরীক্ষায়, আমরা দেখতে পাই যে ন্যূনতম মান হল অন্যান্য কলামের জন্য 0 যেমন Glucose, BloodPressure, SkinThickness, এবং BMI. আমাদের অনুপস্থিত মানগুলি পরিচালনা করার একটি উপায় দরকার, তবে বৈধ ডেটা হিসাবে শূন্য সহ কলামগুলির প্রতি সংবেদনশীল হওয়া দরকার। দেখা যাক কিভাবে আমরা এটা ঠিক করতে পারি।

মধ্যে বৈশিষ্ট্য বিশদ বিভাগে, রিপোর্ট একটি উত্থাপন ছদ্মবেশী অনুপস্থিত মান বৈশিষ্ট্যের জন্য সতর্কতা Insulin.

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

কারণ শূন্য Insulin কলাম আসলে তথ্য অনুপস্থিত, আমরা ব্যবহার অনুপস্থিত regex রূপান্তর শূন্য মানকে খালিতে রূপান্তর করতে রূপান্তর করুন (অনুপস্থিত মান)।

  1. পাশের প্লাস চিহ্নটি বেছে নিন উপাত্ত ধরনের এবং নির্বাচন করুন বিজ্ঞাপন রুপান্তর.
  2.  বেছে নিন অনুসন্ধান এবং সম্পাদনা করুন.
  3. জন্য রুপান্তরনির্বাচন অনুপস্থিত regex রূপান্তর.
  4. জন্য ইনপুট কলাম, কলাম নির্বাচন করুন Insulin, Glucose, BloodPressure, SkinThickness, এবং BMI.
  5. জন্য প্যাটার্নপ্রবেশ করান 0.
  6. বেছে নিন প্রি এবং বিজ্ঞাপন এই পদক্ষেপ সংরক্ষণ করতে।

অধীনে 0 এন্ট্রি Insulin, Glucose, BloodPressure, SkinThickness, এবং BMI এখন মান অনুপস্থিত.

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

ডেটা র‍্যাংলার অনুপস্থিত মানগুলি ঠিক করার জন্য আপনাকে আরও কয়েকটি বিকল্প দেয়।

  1. আমরা অনুপস্থিত মানগুলির জন্য আনুমানিক মধ্যককে অভিযুক্ত করে পরিচালনা করি৷ Glucose কলাম।

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

আমরা নিশ্চিত করতে চাই যে আমাদের বৈশিষ্ট্যগুলি একই স্কেলে রয়েছে৷ আমরা দুর্ঘটনাক্রমে একটি নির্দিষ্ট বৈশিষ্ট্যকে আরও বেশি ওজন দিতে চাই না কারণ সেগুলিতে একটি বড় সাংখ্যিক পরিসর রয়েছে৷ এটি করার জন্য আমরা আমাদের বৈশিষ্ট্যগুলিকে স্বাভাবিক করি।

  1. একটি নতুন যুক্ত করুন প্রক্রিয়া সংখ্যা রূপান্তর এবং চয়ন করুন স্কেল মান.
  2. জন্য Scalerনির্বাচন সর্বনিম্ন-সর্বোচ্চ স্কেলার.
  3. জন্য ইনপুট কলাম, কলাম নির্বাচন করুন Pregnancies, BloodPressure, Glucose, SkinThickness, Insulin, BMI, এবং Age.
  4. সেট ন্যূনতম থেকে 0 এবং সর্বোচ্চ থেকে 1.

এটি নিশ্চিত করে যে আমাদের বৈশিষ্ট্যগুলি মানগুলির মধ্যে রয়েছে৷ 0 এবং 1.

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

এখন আমরা কিছু বৈশিষ্ট্য তৈরি করেছি, আমরা একটি মডেল তৈরি করার আগে আমাদের ডেটাসেটকে প্রশিক্ষণ এবং পরীক্ষায় বিভক্ত করেছি।

প্রশিক্ষণ এবং পরীক্ষায় ডেটা বিভক্ত করুন

আপনার ML কর্মপ্রবাহের মডেল বিল্ডিং পর্বে, আপনি ব্যাচের পূর্বাভাসগুলি চালিয়ে আপনার মডেলের কার্যকারিতা পরীক্ষা করেন। গ্রাউন্ড ট্রুথের সাথে ভবিষ্যদ্বাণীর তুলনা করে আপনার মডেল কীভাবে পারফর্ম করে তা দেখতে আপনি মূল্যায়নের জন্য একটি টেস্টিং বা হোল্ডআউট ডেটাসেট আলাদা করে রাখতে পারেন। সাধারণত, মডেলের ভবিষ্যতবাণী বেশি মিললে true লেবেল, আমরা নির্ধারণ করতে পারি মডেলটি ভাল কাজ করছে।

আমরা পরীক্ষার জন্য আমাদের ডেটাসেট বিভক্ত করতে ডেটা র্যাংলার ব্যবহার করি। আমরা প্রশিক্ষণের জন্য আমাদের ডেটাসেটের 90% ধরে রাখি কারণ আমাদের কাছে তুলনামূলকভাবে ছোট ডেটাসেট রয়েছে। আমাদের ডেটাসেটের অবশিষ্ট 10% পরীক্ষার ডেটাসেট হিসাবে কাজ করে। আমরা এই পোস্টে অটোপাইলট মডেলকে যাচাই করতে এই ডেটাসেটটি ব্যবহার করি।

আমরা নির্বাচন করে আমাদের তথ্য বিভক্ত ডেটা স্প্লিট করুন রূপান্তর এবং নির্বাচন এলোমেলোভাবে বিভক্ত পদ্ধতি হিসাবে। আমরা প্রশিক্ষণের জন্য বিভক্ত শতাংশ হিসাবে 0.9 এবং পরীক্ষার জন্য 0.1 মনোনীত করি।

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

ডেটা ট্রান্সফর্মেশন এবং ফিচারিং ইঞ্জিনিয়ারিং ধাপগুলি সম্পূর্ণ হওয়ার সাথে সাথে, আমরা এখন একটি মডেলকে প্রশিক্ষণ দেওয়ার জন্য প্রস্তুত।

ট্রেন এবং মডেল যাচাই

Data Wrangler ডেটা ফ্লো UI থেকে সরাসরি একটি মডেলকে প্রশিক্ষণ দিতে আমরা Autopilot-এর সাথে নতুন Data Wrangler ইন্টিগ্রেশন ব্যবহার করতে পারি।

  1. পাশের প্লাস চিহ্নটি বেছে নিন ডেটা সেটটি এবং নির্বাচন করুন ট্রেন মডেল.

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

  1. জন্য Amazon S3 অবস্থান, Amazon S3 অবস্থান নির্দিষ্ট করুন যেখানে SageMaker আপনার ডেটা রপ্তানি করে৷

অটোপাইলট একটি মডেলকে স্বয়ংক্রিয়ভাবে প্রশিক্ষণ দিতে এই অবস্থানটি ব্যবহার করে, ডেটা র‍্যাংলার প্রবাহের আউটপুট অবস্থান সংজ্ঞায়িত করা থেকে আপনার সময় বাঁচায়, তারপর অটোপাইলট প্রশিক্ষণ ডেটার ইনপুট অবস্থান সংজ্ঞায়িত করতে হয়। এটি আরও নির্বিঘ্ন অভিজ্ঞতার জন্য তৈরি করে।

  1. বেছে নিন রপ্তানি এবং প্রশিক্ষণ অটোপাইলটের সাথে মডেল বিল্ডিং শুরু করতে।

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

অটোপাইলট স্বয়ংক্রিয়ভাবে প্রশিক্ষণ ডেটা ইনপুট এবং আউটপুট অবস্থান নির্বাচন করে। আপনি শুধুমাত্র লক্ষ্য কলাম নির্দিষ্ট করতে হবে এবং ক্লিক করুন পরীক্ষা তৈরি করুন আপনার মডেলকে প্রশিক্ষণ দিতে।

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

একটি হোল্ডআউট নমুনা উপর মডেল পরীক্ষা

যখন অটোপাইলট পরীক্ষা শেষ করে, তখন আমরা প্রশিক্ষণের ফলাফল দেখতে পারি এবং সেরা মডেলটি অন্বেষণ করতে পারি।

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

  1. বেছে নিন মডেল বিবরণ দেখুন আপনার পছন্দসই মডেলের জন্য, তারপর চয়ন করুন সম্পাদন মডেল বিবরণ পৃষ্ঠায় ট্যাব.

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

সার্জারির সম্পাদন ট্যাব একটি বিভ্রান্তি ম্যাট্রিক্স, নির্ভুলতা/রিকল বক্ররেখা (AUCPR) এবং রিসিভার অপারেটিং চরিত্রগত বক্ররেখা (ROC) এর অধীনে এলাকা সহ বেশ কয়েকটি মডেল পরিমাপ পরীক্ষা প্রদর্শন করে। এগুলি মডেলের সামগ্রিক বৈধতা কার্যকারিতা চিত্রিত করে, তবে মডেলটি ভালভাবে সাধারণীকরণ করবে কিনা তা তারা আমাদের জানায় না। একজন ব্যক্তির ডায়াবেটিস আছে কিনা মডেলটি কতটা সঠিকভাবে ভবিষ্যদ্বাণী করে তা দেখতে আমাদের এখনও অদেখা পরীক্ষার ডেটার উপর মূল্যায়ন চালাতে হবে।

মডেলটি যথেষ্ট ভালভাবে সাধারণীকরণ নিশ্চিত করার জন্য, আমরা স্বাধীন নমুনার জন্য পরীক্ষার নমুনা আলাদা করে রেখেছি। আমরা ডেটা র্যাংলার ফ্লো UI-তে তা করতে পারি।

  1.  পাশের প্লাস চিহ্নটি বেছে নিন ডেটা সেটটিনির্বাচন রপ্তানি করা, এবং চয়ন করুন আমাজন S3.

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

  1. একটি Amazon S3 পথ নির্দিষ্ট করুন।

আমরা এই পথটি উল্লেখ করি যখন আমরা পরবর্তী বিভাগে বৈধতার জন্য ব্যাচ অনুমান চালাই।

  1. হোল্ডআউট নমুনাতে ব্যাচ ইনফারেন্সিং সঞ্চালনের জন্য একটি নতুন সেজমেকার নোটবুক তৈরি করুন এবং পরীক্ষার কার্যকারিতা মূল্যায়ন করুন। নিম্নলিখিত পড়ুন গিটহুব রেপো একটি জন্য নমুনা নোটবুক বৈধতা জন্য ব্যাচ অনুমান চালানোর জন্য.

যাচাইকরণ এবং পরীক্ষা সেট কর্মক্ষমতা বিশ্লেষণ

যখন ব্যাচ রূপান্তর সম্পূর্ণ হয়, আমরা হোল্ডআউট ডেটাসেটের প্রকৃত এবং পূর্বাভাসিত ফলাফলের তুলনা করার জন্য একটি বিভ্রান্তি ম্যাট্রিক্স তৈরি করি।

আমরা আমাদের ফলাফল থেকে 23টি সত্য ইতিবাচক এবং 33টি সত্য নেতিবাচক দেখতে পাই। আমাদের ক্ষেত্রে, সত্যিকারের ইতিবাচক মডেলগুলিকে বোঝায় যা সঠিকভাবে একজন ব্যক্তির ডায়াবেটিস আছে বলে ভবিষ্যদ্বাণী করে। বিপরীতে, সত্যিকারের নেতিবাচকগুলি এমন মডেলকে নির্দেশ করে যা একজন ব্যক্তির ডায়াবেটিস নেই বলে সঠিকভাবে ভবিষ্যদ্বাণী করে।

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

আমাদের ক্ষেত্রে, নির্ভুলতা এবং প্রত্যাহার গুরুত্বপূর্ণ মেট্রিক্স। নির্ভুলতা মূলত ডায়াবেটিস আছে বলে ভবিষ্যদ্বাণী করা সমস্ত ব্যক্তিকে পরিমাপ করে, আসলে কতজনের ডায়াবেটিস আছে? বিপরীতে, প্রত্যাহার প্রকৃতপক্ষে ডায়াবেটিস আছে এমন সমস্ত ব্যক্তিকে পরিমাপ করতে সহায়তা করে, কতজনের ডায়াবেটিস হওয়ার পূর্বাভাস দেওয়া হয়েছিল? উদাহরণস্বরূপ, আপনি উচ্চ নির্ভুলতার সাথে একটি মডেল ব্যবহার করতে চাইতে পারেন কারণ আপনি যত বেশি ব্যক্তিকে আপনার পক্ষে চিকিত্সা করতে চান, বিশেষ করে যদি চিকিত্সার প্রথম পর্যায়ে ডায়াবেটিসবিহীন ব্যক্তিদের উপর কোন প্রভাব না পড়ে (এগুলি মিথ্যা ইতিবাচক - যাদের এটি আছে বলে লেবেল করা হয়েছে) যখন আসলে তারা তা করে না)।

আমরা ফলাফলগুলি মূল্যায়ন করতে ROC বক্ররেখা (AUC) গ্রাফের অধীনে এলাকাটিও প্লট করি। AUC যত বেশি হবে, মডেলটি ক্লাসের মধ্যে পার্থক্য করতে তত ভাল, যা আমাদের ক্ষেত্রে মডেলটি ডায়াবেটিস সহ এবং ছাড়া রোগীদের মধ্যে পার্থক্য করতে কতটা ভাল পারফর্ম করে।

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.

উপসংহার

এই পোস্টে, আমরা দেখিয়েছি কিভাবে ডেটা র‍্যাংলার এবং অটোপাইলট ব্যবহার করে আপনার ডেটা প্রসেসিং, ফিচারিং ইঞ্জিনিয়ারিং এবং মডেল বিল্ডিংকে একীভূত করতে হয়। আমরা হাইলাইট করেছি কিভাবে আপনি সহজেই ডেটা র‍্যাংলার ইউজার ইন্টারফেস থেকে অটোপাইলটের মাধ্যমে একটি মডেলকে সহজে প্রশিক্ষণ ও টিউন করতে পারেন। এই ইন্টিগ্রেশন ফিচারের সাহায্যে আমরা ফিচার ইঞ্জিনিয়ারিং শেষ করার পর কোনো কোড না লিখে দ্রুত একটি মডেল তৈরি করতে পারি। তারপরে আমরা সেজমেকার পাইথন SDK-এর সাথে AutoML ক্লাস ব্যবহার করে ব্যাচের পূর্বাভাস চালানোর জন্য অটোপাইলটের সেরা মডেলটি উল্লেখ করেছি।

লো-কোড এবং অটোএমএল সমাধান যেমন ডেটা র‍্যাংলার এবং অটোপাইলট শক্তিশালী এমএল মডেল তৈরি করতে গভীর কোডিং জ্ঞান থাকা প্রয়োজনকে সরিয়ে দেয়। ডেটা র্যাংলার ব্যবহার করা শুরু করুন এমএল মডেলগুলি ব্যবহার করে তৈরি করা কতটা সহজ তা আজ অনুভব করুন সেজমেকার অটোপাইলট.


লেখক সম্পর্কে

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.পিটার চুং তিনি AWS-এর জন্য একজন সলিউশন আর্কিটেক্ট, এবং গ্রাহকদের তাদের ডেটা থেকে অন্তর্দৃষ্টি উন্মোচন করতে সাহায্য করার বিষয়ে উত্সাহী৷ তিনি সরকারী এবং বেসরকারী উভয় ক্ষেত্রেই সংস্থাগুলিকে ডেটা-চালিত সিদ্ধান্ত নিতে সহায়তা করার জন্য সমাধান তৈরি করছেন। তার কাছে সমস্ত AWS শংসাপত্রের পাশাপাশি দুটি GCP শংসাপত্র রয়েছে৷ তিনি কফি উপভোগ করেন, রান্না করেন, সক্রিয় থাকেন এবং তার পরিবারের সাথে সময় কাটান।

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.প্রদীপ রেড্ডি সেজমেকার লো/নো কোড এমএল টিমের একজন সিনিয়র প্রোডাক্ট ম্যানেজার, যার মধ্যে রয়েছে সেজমেকার অটোপাইলট, সেজমেকার অটোমেটিক মডেল টিউনার। কাজের বাইরে, প্রদীপ রাস্পবেরি পাই এবং অন্যান্য হোম অটোমেশন প্রযুক্তির মতো পাম আকারের কম্পিউটারের সাথে পড়া, দৌড়ানো এবং গিকিং করা উপভোগ করে।

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.অরুণপ্রসথ শংকর AWS এর সাহায্যে একটি কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং (এআই / এমএল) বিশেষজ্ঞ সলিউশন সমাধান আর্কিটেক্ট যা বিশ্বব্যাপী গ্রাহকদের মেঘে কার্যকরভাবে এবং দক্ষতার সাথে তাদের এআই সমাধানগুলি স্কেল করতে সহায়তা করে। অল্প সময়ে, অরুণ সায়েন্স-ফাই সিনেমা দেখা এবং শাস্ত্রীয় সংগীত শুনতে উপভোগ করেন।

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence-এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ। উল্লম্ব অনুসন্ধান. আ.সৃজন গোপু সেজমেকার লো কোড/নো কোড এমএল-এর একজন সিনিয়র ফ্রন্টেন্ড ইঞ্জিনিয়ার অটোপাইলট এবং ক্যানভাস পণ্যের গ্রাহকদের সাহায্য করছেন। কোডিং না করার সময়, সরুজান তার কুকুর ম্যাক্সের সাথে দৌড়ে যাওয়া, অডিও বই এবং ভিআর গেম ডেভেলপমেন্ট শুনতে উপভোগ করে।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

অ্যামাজনে অ্যাম্প কীভাবে গ্রাহকদের ব্যস্ততা বাড়াতে ডেটা ব্যবহার করে, পার্ট 1: ডেটা অ্যানালিটিক্স প্ল্যাটফর্ম তৈরি করা

উত্স নোড: 1660282
সময় স্ট্যাম্প: সেপ্টেম্বর 9, 2022

ট্যাবুলার ডেটা মডেলিংয়ের জন্য নতুন বিল্ট-ইন অ্যামাজন সেজমেকার অ্যালগরিদম: লাইটজিবিএম, ক্যাটবুস্ট, অটোগ্লুওন-টেবুলার এবং ট্যাবট্রান্সফরমার

উত্স নোড: 1541386
সময় স্ট্যাম্প: জুন 28, 2022