অ্যামাজন সেজমেকার স্টুডিও ল্যাব যে কেউ AWS ML কম্পিউট রিসোর্স ব্যবহার করে ML শিখতে এবং পরীক্ষা করার জন্য ওপেন-সোর্স JupyterLab-এর উপর ভিত্তি করে একটি বিনামূল্যের মেশিন লার্নিং (ML) উন্নয়ন পরিবেশ। এটি একই আর্কিটেকচার এবং ইউজার ইন্টারফেসের উপর ভিত্তি করে অ্যামাজন সেজমেকার স্টুডিও, কিন্তু স্টুডিও ক্ষমতার একটি উপসেট সহ।
আপনি যখন ML উদ্যোগে কাজ শুরু করেন, তখন আপনাকে মডেল বিল্ডিংয়ের সাথে এগিয়ে যাওয়ার আগে অনুসন্ধানমূলক ডেটা বিশ্লেষণ (EDA) বা ডেটা প্রস্তুতি সম্পাদন করতে হবে। অ্যামাজন সেজমেকার ডেটা র্যাংলার এর একটি ক্ষমতা আমাজন সেজমেকার এটি ডেটা বিজ্ঞানী এবং প্রকৌশলীদের জন্য একটি ভিজ্যুয়াল ইন্টারফেসের মাধ্যমে ML অ্যাপ্লিকেশনের জন্য ডেটা প্রস্তুত করতে দ্রুত করে তোলে। ডেটা র্যাংলার ML-এর জন্য ডেটা একত্রিত করতে এবং প্রস্তুত করতে কয়েক সপ্তাহ থেকে মিনিট পর্যন্ত সময় কমিয়ে দেয়।
ডেটা র্যাংলারে বৈশিষ্ট্য প্রস্তুতির একটি মূল ত্বরক হল ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট. এই প্রতিবেদনটি ডেটার গুণমান পরীক্ষা করে এবং আপনার ডেটাতে অস্বাভাবিকতা সনাক্ত করতে সাহায্য করে, যাতে আপনি আপনার ডেটাসেট ঠিক করার জন্য প্রয়োজনীয় ডেটা ইঞ্জিনিয়ারিং করতে পারেন৷ আপনি আপনার ডেটাসেটের অন্তর্দৃষ্টি যেমন অনুপস্থিত মান এবং আউটলারের সংখ্যার মতো অন্তর্দৃষ্টি পেতে আপনার ডেটা বিশ্লেষণ করতে ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট ব্যবহার করতে পারেন৷ যদি আপনার ডেটা নিয়ে সমস্যা থাকে, যেমন লক্ষ্য ফাঁস বা ভারসাম্যহীনতা, তাহলে অন্তর্দৃষ্টি রিপোর্ট সেই সমস্যাগুলি আপনার নজরে আনতে পারে এবং আপনাকে যে ডেটা প্রস্তুতির পদক্ষেপগুলি সম্পাদন করতে হবে তা সনাক্ত করতে সহায়তা করতে পারে৷
স্টুডিও ল্যাব ব্যবহারকারীরা ডেটা র্যাংলার থেকে উপকৃত হতে পারেন কারণ ডেটা গুণমান এবং বৈশিষ্ট্য প্রকৌশল আপনার মডেলের ভবিষ্যদ্বাণীমূলক কর্মক্ষমতার জন্য গুরুত্বপূর্ণ। ডেটা র্যাংলার ডেটা গুণমানের সমস্যাগুলির অন্তর্দৃষ্টি প্রদান করে এবং কম-কোড UI ব্যবহার করে দ্রুত বৈশিষ্ট্য পুনরাবৃত্তি এবং প্রকৌশল সক্ষম করে ডেটা গুণমান এবং বৈশিষ্ট্য প্রকৌশলে সহায়তা করে।
এই পোস্টে, আমরা আপনাকে দেখাব কীভাবে অনুসন্ধানমূলক ডেটা বিশ্লেষণ করতে হয়, ডেটা র্যাংলার ব্যবহার করে ডেটা প্রস্তুত এবং রূপান্তর করতে হয় এবং মডেল তৈরি করার জন্য স্টুডিও ল্যাবে রূপান্তরিত এবং প্রস্তুত ডেটা রপ্তানি করতে হয়।
সমাধান ওভারভিউ
সমাধানটিতে নিম্নলিখিত উচ্চ-স্তরের পদক্ষেপগুলি অন্তর্ভুক্ত রয়েছে:
- AWS অ্যাকাউন্ট এবং অ্যাডমিন ব্যবহারকারী তৈরি করুন। এটি একটি পূর্বশর্ত
- ডেটাসেট ডাউনলোড করুন churn.csv.
- এতে ডেটাসেট লোড করুন আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3)।
- একটি সেজমেকার স্টুডিও ডোমেন তৈরি করুন এবং ডেটা র্যাংলার চালু করুন।
- Amazon S3 থেকে ডেটা র্যাংলার ফ্লোতে ডেটাসেট আমদানি করুন।
- ডেটা কোয়ালিটি এবং ইনসাইটস রিপোর্ট তৈরি করুন এবং প্রয়োজনীয় ফিচার ইঞ্জিনিয়ারিং এর উপর উপসংহার টানুন।
- ডেটা র্যাংলারে প্রয়োজনীয় ডেটা ট্রান্সফর্মগুলি সম্পাদন করুন।
- ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট এবং রূপান্তরিত ডেটাসেট ডাউনলোড করুন।
- মডেল প্রশিক্ষণের জন্য একটি স্টুডিও ল্যাব প্রকল্পে ডেটা আপলোড করুন।
নিম্নলিখিত চিত্রটি এই কর্মপ্রবাহকে চিত্রিত করে।
পূর্বশর্ত
ডেটা র্যাংলার এবং স্টুডিও ল্যাব ব্যবহার করতে, আপনার নিম্নলিখিত পূর্বশর্তগুলির প্রয়োজন:
ডেটা র্যাংলারের সাথে ডেটা প্রস্তুতির ওয়ার্কফ্লো তৈরি করুন
শুরু করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- Amazon S3 এ আপনার ডেটাসেট আপলোড করুন।
- সেজমেকার কনসোলে, এর অধীনে কন্ট্রোল প্যানেল নেভিগেশন ফলকে, নির্বাচন করুন স্টুডিও.
- উপরে এপ্লিকেশন চালু করুন আপনার ব্যবহারকারী প্রোফাইলের পাশে মেনু, নির্বাচন করুন স্টুডিও.
আপনি সফলভাবে স্টুডিওতে লগ ইন করার পরে, আপনি নিম্নলিখিত স্ক্রিনশটের মতো একটি উন্নয়ন পরিবেশ দেখতে পাবেন। - একটি নতুন ডেটা র্যাংলার ওয়ার্কফ্লো তৈরি করতে, ফাইল মেনু, নির্বাচন করুন নতুন, তাহলে বেছে নাও ডেটা র্যাংলার প্রবাহ.
ডাটা র্যাংলারের প্রথম ধাপ হল আমদানি আপনার তথ্য. আপনি একাধিক ডেটা উত্স থেকে ডেটা আমদানি করতে পারেন, যেমন Amazon S3, অ্যামাজন অ্যাথেনা, আমাজন রেডশিফ্ট, তুষারকণা, এবং ডেটাব্রিক্স. এই উদাহরণে, আমরা Amazon S3 ব্যবহার করি। আপনি যদি শুধু দেখতে চান কিভাবে Data Wrangler কাজ করে, আপনি সবসময় বেছে নিতে পারেন নমুনা ডেটাসেট ব্যবহার করুন. - বেছে নিন তথ্য আমদানি.
- বেছে নিন আমাজন S3.
- আপনার আপলোড করা ডেটাসেট বেছে নিন এবং বেছে নিন আমদানি.
ডেটা র্যাংলার আপনাকে হয় সমগ্র ডেটাসেট আমদানি করতে বা এর একটি অংশের নমুনা করতে সক্ষম করে। - দ্রুত ডেটাসেটের অন্তর্দৃষ্টি পেতে, বেছে নিন প্রথম কে উন্নত আদর্শ এবং 50000 লিখুন সাধারন মাপ.
ডেটা গুণমান বুঝুন এবং অন্তর্দৃষ্টি পান
আমরা ডেটা র্যাংলারে যে ডেটা আমদানি করেছি তার বিশ্লেষণ করতে ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট ব্যবহার করি। আপনার ডেটা পরিষ্কার এবং প্রক্রিয়া করার জন্য আপনাকে কী পদক্ষেপ নিতে হবে তা বুঝতে আপনি প্রতিবেদনটি ব্যবহার করতে পারেন। এই প্রতিবেদনটি তথ্য প্রদান করে যেমন অনুপস্থিত মানের সংখ্যা এবং আউটলারের সংখ্যা। যদি আপনার ডেটাতে সমস্যা থাকে, যেমন লক্ষ্য ফাঁস বা ভারসাম্যহীনতা, তাহলে অন্তর্দৃষ্টি রিপোর্ট সেই সমস্যাগুলি আপনার নজরে আনতে পারে।
- পাশের প্লাস চিহ্নটি বেছে নিন তথ্যের ধরণ এবং নির্বাচন করুন ডেটা অন্তর্দৃষ্টি পান.
- জন্য বিশ্লেষণের ধরণনির্বাচন ডেটা গুণমান এবং অন্তর্দৃষ্টি রিপোর্ট.
- জন্য লক্ষ্য কলামনির্বাচন মন্থন?.
- জন্য সমস্যার ধরণ¸ নির্বাচন করুন শ্রেণীবিন্যাস.
- বেছে নিন সৃষ্টি.
আপনাকে একটি বিশদ প্রতিবেদন উপস্থাপন করা হয়েছে যা আপনি পর্যালোচনা এবং ডাউনলোড করতে পারেন। প্রতিবেদনটিতে দ্রুত মডেল, বৈশিষ্ট্যের সারাংশ, বৈশিষ্ট্যের পারস্পরিক সম্পর্ক এবং ডেটা অন্তর্দৃষ্টির মতো বেশ কয়েকটি বিভাগ রয়েছে। নিম্নলিখিত স্ক্রিনশটগুলি এই বিভাগগুলির উদাহরণ প্রদান করে৷
রিপোর্ট থেকে পর্যবেক্ষণ
প্রতিবেদন থেকে, আমরা নিম্নলিখিত পর্যবেক্ষণ করতে পারি:
- কোন ডুপ্লিকেট সারি পাওয়া যায়নি.
- সার্জারির
State
কলামটি বেশ সমানভাবে বিতরণ করা হয়েছে বলে মনে হচ্ছে, তাই রাজ্যের জনসংখ্যার পরিপ্রেক্ষিতে ডেটা ভারসাম্যপূর্ণ। - সার্জারির
Phone
কলাম ব্যবহারিক ব্যবহারের জন্য অনেকগুলি অনন্য মান উপস্থাপন করে। অনেকগুলি অনন্য মান এই কলামটিকে উপযোগী করে তোলে না। আমরা ড্রপ করতে পারেনPhone
আমাদের রূপান্তরের কলাম। - প্রতিবেদনের বৈশিষ্ট্য পারস্পরিক সম্পর্ক বিভাগের উপর ভিত্তি করে,
Mins
এবংCharge
অত্যন্ত পারস্পরিক সম্পর্কযুক্ত। আমরা তাদের একটি অপসারণ করতে পারেন.
রুপান্তর
আমাদের পর্যবেক্ষণের উপর ভিত্তি করে, আমরা নিম্নলিখিত রূপান্তরগুলি করতে চাই:
- অপসারণ
Phone
কলাম কারণ এতে অনেক অনন্য মান রয়েছে। - আমরা বেশ কিছু বৈশিষ্ট্যও দেখতে পাই যেগুলি মূলত একে অপরের সাথে 100% সম্পর্কযুক্ত। কিছু ML অ্যালগরিদমে এই বৈশিষ্ট্য জোড়াগুলিকে অন্তর্ভুক্ত করা অবাঞ্ছিত সমস্যা তৈরি করতে পারে, যেখানে অন্যদের মধ্যে এটি শুধুমাত্র ছোটখাটো অপ্রয়োজনীয়তা এবং পক্ষপাতের পরিচয় দেয়। চলুন প্রতিটি অত্যন্ত পারস্পরিক সম্পর্কযুক্ত জোড়া থেকে একটি বৈশিষ্ট্য সরিয়ে ফেলি:
Day Charge
সঙ্গে জোড়া থেকেDay Mins
,Night Charge
সঙ্গে জোড়া থেকেNight Mins
, এবংIntl Charge
সঙ্গে জোড়া থেকেIntl Mins
. - রূপান্তর করুন
True
orFalse
মধ্যেChurn
কলামটি 1 বা 0 এর একটি সংখ্যাসূচক মান।
- ডেটা প্রবাহে ফিরে যান এবং পাশের প্লাস চিহ্নটি বেছে নিন তথ্যের ধরণ.
- বেছে নিন রূপান্তর যোগ করুন.
- বেছে নিন ধাপ যোগ করুন.
- আপনি যে রূপান্তরটি খুঁজছেন তা অনুসন্ধান করতে পারেন (আমাদের ক্ষেত্রে, কলামগুলি পরিচালনা করুন)।
- বেছে নিন কলাম পরিচালনা করুন.
- জন্য রুপান্তরপছন্দ করা কলাম ড্রপ করুন.
- জন্য কলাম ড্রপপছন্দ করা
Phone
,Day Charge
,Eve Charge
,Night Charge
, এবংIntl Charge
. - বেছে নিন প্রি, তাহলে বেছে নাও আপডেট.
এর উপর একটি শ্রেণীবদ্ধ এনকোড সঞ্চালনের জন্য আরেকটি রূপান্তর যোগ করা যাকChurn?
কলাম। - রূপান্তর চয়ন করুন এনকোড শ্রেণিবদ্ধ.
- জন্য রুপান্তরনির্বাচন সাধারণ এনকোড.
- জন্য ইনপুট কলাম, পছন্দ করা
Churn?
কলাম। - জন্য অবৈধ হ্যান্ডলিং কৌশলনির্বাচন NaN দিয়ে প্রতিস্থাপন করুন.
- বেছে নিন প্রি, তাহলে বেছে নাও আপডেট.
এখন True
এবং False
যথাক্রমে 1 এবং 0 এ রূপান্তরিত হয়।
এখন যেহেতু আমরা ডেটা ভালভাবে বুঝতে পেরেছি এবং মডেল বিল্ডিংয়ের জন্য ডেটা প্রস্তুত ও রূপান্তর করেছি, আমরা মডেল বিল্ডিংয়ের জন্য স্টুডিও ল্যাবে ডেটা স্থানান্তর করতে পারি।
স্টুডিও ল্যাবে ডেটা আপলোড করুন
স্টুডিও ল্যাবে ডেটা ব্যবহার শুরু করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- বেছে নিন রপ্তানি তথ্য থেকে রপ্তানি একটি S3 বালতি থেকে.
- জন্য Amazon S3 অবস্থান, আপনার S3 পাথ লিখুন।
- ফাইলের ধরন উল্লেখ করুন।
- বেছে নিন রপ্তানি তথ্য.
- আপনি ডেটা রপ্তানি করার পরে, আপনি S3 বালতি থেকে আপনার স্থানীয় কম্পিউটারে ডেটা ডাউনলোড করতে পারেন৷
- এখন আপনি স্টুডিও ল্যাবে গিয়ে ফাইলটি স্টুডিও ল্যাবে আপলোড করতে পারেন।
বিকল্পভাবে, আপনি Studio Lab থেকে Amazon S3 এর সাথে সংযোগ করতে পারেন। আরো তথ্যের জন্য, পড়ুন Amazon SageMaker স্টুডিও ল্যাবে বাহ্যিক সম্পদ ব্যবহার করুন. - আসুন সেজমেকার ইনস্টল করি এবং পান্ডা আমদানি করি।
- প্রয়োজন অনুসারে সমস্ত লাইব্রেরি আমদানি করুন।
- এখন আমরা CSV ফাইল পড়তে পারি।
- এর প্রিন্ট করা যাক
churn
ডেটাসেট সঠিক কিনা তা নিশ্চিত করতে।
এখন আপনার স্টুডিও ল্যাবে প্রক্রিয়াকৃত ডেটাসেট রয়েছে, আপনি মডেল তৈরির জন্য প্রয়োজনীয় আরও পদক্ষেপগুলি সম্পাদন করতে পারেন।
ডেটা র্যাংলার মূল্য
আপনি ডাটা র্যাংলার এবং এর মধ্যে EDA বা ডেটা প্রস্তুতির জন্য এই পোস্টের সমস্ত পদক্ষেপগুলি সম্পাদন করতে পারেন বেতন সাধারণ উদাহরণের জন্য, ব্যবহার বা খরচের উপর ভিত্তি করে চাকরি এবং স্টোরেজ মূল্য। কোন আগাম বা লাইসেন্সিং ফি প্রয়োজন হয় না.
পরিষ্কার কর
আপনি যখন ডেটা র্যাংলার ব্যবহার করছেন না, তখন অতিরিক্ত ফি খরচ এড়াতে এটি যে দৃষ্টান্তে চলে তা বন্ধ করা গুরুত্বপূর্ণ। কাজ হারানো এড়াতে, ডাটা র্যাংলার বন্ধ করার আগে আপনার ডেটা প্রবাহ সংরক্ষণ করুন।
- স্টুডিওতে আপনার ডেটা প্রবাহ সংরক্ষণ করতে, বেছে নিন ফাইল, তাহলে বেছে নাও ডেটা র্যাংলার প্রবাহ সংরক্ষণ করুন.
ডেটা র্যাংলার স্বয়ংক্রিয়ভাবে প্রতি 60 সেকেন্ডে আপনার ডেটা প্রবাহ সংরক্ষণ করে। - ডাটা র্যাংলার ইনস্ট্যান্স বন্ধ করতে, স্টুডিওতে, নির্বাচন করুন চলমান দৃষ্টান্ত এবং কার্নেলগুলি.
- অধীনে চলমান অ্যাপস, এর পাশে শাটডাউন আইকনটি নির্বাচন করুন
sagemaker-data-wrangler-1.0 app
. - বেছে নিন সব বন্ধ করুন নিশ্চিত করতে.
ডেটা র্যাংলার একটি ml.m5.4x বৃহৎ উদাহরণে চলে। এই উদাহরণ থেকে অদৃশ্য হয় চলমান উদাহরণ যখন আপনি ডাটা র্যাংলার অ্যাপ বন্ধ করেন।
আপনি ডেটা র্যাংলার অ্যাপটি বন্ধ করার পরে, পরের বার যখন আপনি একটি ডেটা র্যাংলার ফ্লো ফাইল খুলবেন তখন এটি পুনরায় চালু করতে হবে। এই কয়েক মিনিট সময় নিতে পারে.
উপসংহার
এই পোস্টে, আমরা দেখেছি কীভাবে আপনি আপনার ডেটাসেটের অন্তর্দৃষ্টি অর্জন করতে পারেন, অনুসন্ধানমূলক ডেটা বিশ্লেষণ করতে পারেন, স্টুডিওর মধ্যে ডেটা র্যাংলার ব্যবহার করে ডেটা প্রস্তুত এবং রূপান্তর করতে পারেন এবং রূপান্তরিত এবং প্রস্তুত ডেটা স্টুডিও ল্যাবে রপ্তানি করতে পারেন এবং মডেল বিল্ডিং এবং অন্যান্য পদক্ষেপগুলি সম্পাদন করতে পারেন৷
সেজমেকার ডেটা র্যাংলারের সাহায্যে, আপনি ডেটা প্রস্তুতি এবং বৈশিষ্ট্য প্রকৌশলের প্রক্রিয়াটিকে সহজ করতে পারেন এবং ডেটা নির্বাচন, পরিষ্কারকরণ, অন্বেষণ এবং একটি একক ভিজ্যুয়াল ইন্টারফেস থেকে ভিজ্যুয়ালাইজেশন সহ ডেটা প্রস্তুতির কর্মপ্রবাহের প্রতিটি ধাপ সম্পূর্ণ করতে পারেন।
লেখক সম্পর্কে
রাজকুমার সম্পতকুমার AWS-এর একজন প্রধান টেকনিক্যাল অ্যাকাউন্ট ম্যানেজার, গ্রাহকদের ব্যবসা-প্রযুক্তি সারিবদ্ধকরণের বিষয়ে নির্দেশনা প্রদান করে এবং তাদের ক্লাউড অপারেশন মডেল এবং প্রক্রিয়াগুলির পুনর্বিবেচনাকে সমর্থন করে। তিনি ক্লাউড এবং মেশিন লার্নিং সম্পর্কে উত্সাহী। রাজ একজন মেশিন লার্নিং বিশেষজ্ঞ এবং AWS গ্রাহকদের সাথে তাদের AWS ওয়ার্কলোড এবং আর্কিটেকচার ডিজাইন, স্থাপন এবং পরিচালনা করতে কাজ করে।
মীনাক্ষীসুন্দরম ঠাণ্ডাভারায়ণ মনুষ্য-কেন্দ্রিক ডেটা এবং অ্যানালিটিক্স অভিজ্ঞতা ডিজাইন, তৈরি এবং প্রচার করার আবেগ সহ একজন সিনিয়র AI/ML বিশেষজ্ঞ। তিনি AWS কৌশলগত গ্রাহকদের ডেটা চালিত প্রতিষ্ঠানের প্রতি তাদের রূপান্তরের বিষয়ে সমর্থন করেন।
জেমস উ AWS-এর একজন সিনিয়র AI/ML স্পেশালিস্ট সলিউশন আর্কিটেক্ট। গ্রাহকদের এআই/এমএল সলিউশন ডিজাইন এবং তৈরি করতে সাহায্য করা। জেমসের কাজ এমএল ব্যবহারের ক্ষেত্রের একটি বিস্তৃত পরিসর কভার করে, যার মধ্যে প্রাথমিক আগ্রহ কম্পিউটার ভিশন, গভীর শিক্ষা, এবং এন্টারপ্রাইজ জুড়ে এমএল স্কেলিং। AWS-এ যোগদানের আগে, জেমস 10 বছরেরও বেশি সময় ধরে একজন স্থপতি, বিকাশকারী এবং প্রযুক্তি নেতা ছিলেন, যার মধ্যে 6 বছর ইঞ্জিনিয়ারিং এবং 4 বছর মার্কেটিং এবং বিজ্ঞাপন শিল্পে ছিল।
- AI
- ai শিল্প
- এআই আর্ট জেনারেটর
- আইআই রোবট
- আমাজন সেজমেকার
- অ্যামাজন সেজমেকার ডেটা র্যাংলার
- কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তা সার্টিফিকেশন
- ব্যাংকিং এ কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তা সফ্টওয়্যার
- এডাব্লুএস মেশিন লার্নিং
- blockchain
- ব্লকচেইন সম্মেলন এআই
- coingenius
- কথোপকথন কৃত্রিম বুদ্ধিমত্তা
- ক্রিপ্টো সম্মেলন এআই
- ডাল-ই
- গভীর জ্ঞানার্জন
- গুগল আই
- মেশিন লার্নিং
- Plato
- প্লেটো এআই
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটো গেম
- প্লেটোডাটা
- প্লেটোগেমিং
- স্কেল ai
- বাক্য গঠন
- zephyrnet