গত বছর, আমরা সাধারণ প্রাপ্যতা ঘোষণা অ্যামাজন সেজমেকারে RStudio, ক্লাউডে শিল্পের প্রথম সম্পূর্ণরূপে পরিচালিত RStudio Workbench ইন্টিগ্রেটেড ডেভেলপমেন্ট এনভায়রনমেন্ট (IDE)। আপনি দ্রুত পরিচিত RStudio IDE চালু করতে পারেন এবং আপনার কাজে বাধা না দিয়ে অন্তর্নিহিত কম্পিউট রিসোর্সগুলিকে ডায়াল করতে এবং ডাউন করতে পারেন, এটিকে সহজ করে মেশিন লার্নিং (ML) এবং অ্যানালিটিক্স সলিউশনগুলি R এ স্কেলে তৈরি করা সহজ করে তোলে৷
ক্রমবর্ধমান ডেটা ভলিউম তৈরি হওয়ার সাথে সাথে, ML এবং পরিসংখ্যান বিশ্লেষণের জন্য ব্যবহৃত ডেটাসেটগুলি একই সাথে বাড়ছে। এটির সাথে বর্ধিত উন্নয়ন সময় এবং গণনা পরিকাঠামো ব্যবস্থাপনার চ্যালেঞ্জ নিয়ে আসে। এই চ্যালেঞ্জগুলি সমাধান করার জন্য, ডেটা বিজ্ঞানীরা সমান্তরাল ডেটা প্রক্রিয়াকরণ কৌশলগুলি বাস্তবায়নের দিকে নজর দিয়েছেন। সমান্তরাল তথ্য প্রক্রিয়াকরণ, বা ডেটা সমান্তরালকরণ, বৃহৎ বিদ্যমান ডেটাসেট নেয় এবং একযোগে ডেটা চালানোর জন্য একাধিক প্রসেসর বা নোড জুড়ে বিতরণ করে। এটি কম্পিউটে অপ্টিমাইজড ব্যবহারের পাশাপাশি বৃহত্তর ডেটাসেটের দ্রুত প্রক্রিয়াকরণের জন্য অনুমতি দিতে পারে। এটি এমএল অনুশীলনকারীদের ডেটাসেট তৈরির জন্য পুনরায় ব্যবহারযোগ্য প্যাটার্ন তৈরি করতে এবং গণনা পরিকাঠামোর লোড এবং খরচ কমাতে সাহায্য করতে পারে।
সমাধান ওভারভিউ
মধ্যে আমাজন সেজমেকার, অনেক গ্রাহক ব্যবহার সেজমেকার প্রসেসিং সমান্তরাল ডেটা প্রসেসিং বাস্তবায়নে সহায়তা করতে। SageMaker প্রক্রিয়াকরণের সাথে, আপনি আপনার ডেটা প্রসেসিং ওয়ার্কলোডগুলি চালানোর জন্য SageMaker-এ একটি সরলীকৃত, পরিচালিত অভিজ্ঞতা ব্যবহার করতে পারেন, যেমন বৈশিষ্ট্য প্রকৌশল, ডেটা বৈধতা, মডেল মূল্যায়ন এবং মডেল ব্যাখ্যা। এটি অনেক সুবিধা নিয়ে আসে কারণ পরিচালনা করার জন্য দীর্ঘমেয়াদী অবকাঠামো নেই—প্রসেসিং দৃষ্টান্তগুলি স্পিন হয়ে যায় যখন কাজগুলি সম্পূর্ণ হয়, পরিবেশগুলি কন্টেইনারগুলির মাধ্যমে মানক করা যেতে পারে, এর মধ্যে ডেটা আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) স্থানীয়ভাবে বিভিন্ন দৃষ্টান্ত জুড়ে বিতরণ করা হয় এবং অবকাঠামো সেটিংস মেমরি, গণনা এবং স্টোরেজের ক্ষেত্রে নমনীয়।
সেজমেকার প্রসেসিং কীভাবে ডেটা বিতরণ করতে হয় তার বিকল্পগুলি সরবরাহ করে। সমান্তরাল ডেটা প্রক্রিয়াকরণের জন্য, আপনাকে অবশ্যই ব্যবহার করতে হবে S3DataDistributionType-এর জন্য ShardedByS3Key বিকল্প. যখন এই পরামিতিটি নির্বাচন করা হয়, তখন সেজমেকার প্রসেসিং প্রদান করে নেয় n দৃষ্টান্ত এবং বস্তু বিতরণ 1/n ইনপুট তথ্য উৎস থেকে বস্তু উদাহরণস্বরূপ, যদি দুটি দৃষ্টান্ত চারটি ডেটা অবজেক্টের সাথে সরবরাহ করা হয়, প্রতিটি উদাহরণ দুটি বস্তু গ্রহণ করে।
SageMaker প্রসেসিং প্রক্রিয়াকরণ কাজ চালানোর জন্য তিনটি উপাদান প্রয়োজন:
- আপনার ডেটা প্রসেসিং ওয়ার্কলোডগুলি চালানোর জন্য আপনার কোড এবং নির্ভরতা রয়েছে এমন একটি ধারক চিত্র
- Amazon S3-এর মধ্যে একটি ইনপুট ডেটা উৎসের পথ
- Amazon S3-এর মধ্যে একটি আউটপুট ডেটা উৎসের পথ
প্রক্রিয়াটি নিম্নলিখিত চিত্রে চিত্রিত করা হয়েছে।
এই পোস্টে, আমরা আপনাকে দেখাব কিভাবে SageMaker-এ RStudio ব্যবহার করে একটি সমান্তরাল ডেটা প্রসেসিং পাইপলাইন তৈরি করতে সেজমেকার প্রসেসিং কাজের একটি সিরিজের সাথে ইন্টারফেস করতে হয়। আর প্রোগ্রামিং ভাষা।
সমাধান নিম্নলিখিত পদক্ষেপ নিয়ে গঠিত:
- RStudio প্রকল্প সেট আপ করুন।
- প্রসেসিং কন্টেইনার ইমেজ তৈরি এবং রেজিস্টার করুন।
- দুই-পদক্ষেপ প্রক্রিয়াকরণ পাইপলাইন চালান:
- প্রথম পদক্ষেপটি একাধিক ডেটা ফাইল নেয় এবং সেগুলিকে প্রক্রিয়াকরণ কাজের একটি সিরিজ জুড়ে প্রক্রিয়া করে।
- দ্বিতীয় ধাপটি আউটপুট ফাইলগুলিকে সংযুক্ত করে এবং সেগুলিকে ট্রেন, পরীক্ষা এবং বৈধতা ডেটাসেটে বিভক্ত করে।
পূর্বশর্ত
নিম্নলিখিত পূর্বশর্তগুলি সম্পূর্ণ করুন:
- সেজমেকার ওয়ার্কবেঞ্চে RStudio সেট আপ করুন। আরো তথ্যের জন্য, পড়ুন ডেটা বিজ্ঞানীদের জন্য Amazon SageMaker-এ সম্পূর্ণরূপে পরিচালিত RStudio ঘোষণা করা হচ্ছে.
- উপযুক্ত অ্যাক্সেস অনুমতি সহ SageMaker-এ RStudio সহ একজন ব্যবহারকারী তৈরি করুন।
RStudio প্রকল্প সেট আপ করুন
RStudio প্রকল্প সেট আপ করতে, নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- আপনার নেভিগেট করুন অ্যামাজন সেজমেকার স্টুডিও SageMaker কনসোলে নিয়ন্ত্রণ প্যানেল।
- RStudio পরিবেশে আপনার অ্যাপ চালু করুন।
- একটি নতুন RStudio সেশন শুরু করুন।
- জন্য সেশনের নাম, একটি নাম লিখুন।
- জন্য ইনস্ট্যান্স টাইপ এবং ভাবমূর্তি, ডিফল্ট সেটিংস ব্যবহার করুন।
- বেছে নিন সেশন শুরু করুন.
- অধিবেশনে নেভিগেট করুন.
- বেছে নিন নতুন প্রকল্প, ভর্সন নিয্ন্ত্র্ন, এবং তারপর গিট নির্বাচন করুন.
- জন্য সংগ্রহস্থল URLপ্রবেশ করান
https://github.com/aws-samples/aws-parallel-data-processing-r.git
- অবশিষ্ট বিকল্পগুলি ডিফল্ট হিসাবে ছেড়ে দিন এবং নির্বাচন করুন প্রকল্প তৈরি করুন.
আপনি নেভিগেট করতে পারেন aws-parallel-data-processing-R
উপর ডিরেক্টরি নথি পত্র সংগ্রহস্থল দেখতে ট্যাব. সংগ্রহস্থলে নিম্নলিখিত ফাইলগুলি রয়েছে:
Container_Build.rmd
/dataset
bank-additional-full-data1.csv
bank-additional-full-data2.csv
bank-additional-full-data3.csv
bank-additional-full-data4.csv
/docker
Dockerfile-Processing
Parallel_Data_Processing.rmd
/preprocessing
filter.R
process.R
পাত্র তৈরি করুন
এই ধাপে, আমরা আমাদের প্রসেসিং কন্টেইনার ইমেজ তৈরি করি এবং এটিতে পুশ করি অ্যামাজন ইলাস্টিক কনটেইনার রেজিস্ট্রি (আমাজন ইসিআর)। নিম্নলিখিত পদক্ষেপগুলি সম্পূর্ণ করুন:
- নেভিগেট করুন
Container_Build.rmd
ফাইল. - ইনস্টল করুন সেজমেকার স্টুডিও ইমেজ বিল্ড সিএলআই নিম্নলিখিত সেল চালানোর মাধ্যমে। এই ধাপটি সম্পূর্ণ করার আগে আপনার কাছে প্রয়োজনীয় অনুমতি রয়েছে তা নিশ্চিত করুন, এটি একটি CLI যা স্টুডিওতে কন্টেইনার ছবি পুশ এবং নিবন্ধন করার জন্য ডিজাইন করা হয়েছে।
- আমাদের প্রক্রিয়াকরণ ধারক তৈরি এবং নিবন্ধন করতে পরবর্তী সেল চালান:
কাজ সফলভাবে চালানোর পরে, আপনি একটি আউটপুট পাবেন যা নিচের মত দেখাচ্ছে:
প্রসেসিং পাইপলাইন চালান
আপনি ধারক তৈরি করার পরে, নেভিগেট করুন Parallel_Data_Processing.rmd
ফাইল এই ফাইলটিতে কয়েকটি ধাপ রয়েছে যা সেজমেকার প্রসেসিং ব্যবহার করে আমাদের সমান্তরাল ডেটা প্রসেসিং পাইপলাইন তৈরি করতে সাহায্য করে। নিম্নলিখিত চিত্রটি পাইপলাইনের ধাপগুলিকে চিত্রিত করে যা আমরা সম্পূর্ণ করি।
প্যাকেজ আমদানি পদক্ষেপ চালানোর মাধ্যমে শুরু করুন. SageMaker SDK সহ প্রয়োজনীয় RStudio প্যাকেজগুলি আমদানি করুন:
এখন আপনার সেজমেকার এক্সিকিউশন ভূমিকা এবং পরিবেশের বিবরণ সেট আপ করুন:
আমরা যে কন্টেইনারটি তৈরি করেছি এবং আগের ধাপে নিবন্ধিত করেছি তা শুরু করুন:
এখান থেকে আমরা প্রক্রিয়াকরণের প্রতিটি ধাপে আরও বিশদে ডুব দিই।
ডেটাসেট আপলোড করুন
আমাদের উদাহরণের জন্য, আমরা ব্যবহার করি UCI থেকে ব্যাঙ্ক মার্কেটিং ডেটাসেট. আমরা ইতিমধ্যেই ডেটাসেটটিকে একাধিক ছোট ফাইলে বিভক্ত করেছি। Amazon S3 এ ফাইলগুলি আপলোড করতে নিম্নলিখিত কোডটি চালান:
ফাইলগুলি আপলোড হওয়ার পরে, পরবর্তী ধাপে যান।
সমান্তরাল তথ্য প্রক্রিয়াকরণ সঞ্চালন
এই ধাপে, আমরা ডেটা ফাইলগুলি নিয়ে থাকি এবং নির্দিষ্ট কলামগুলি ফিল্টার করার জন্য বৈশিষ্ট্য প্রকৌশল সম্পাদন করি। এই কাজটি প্রসেসিং দৃষ্টান্তগুলির একটি সিরিজ জুড়ে বিতরণ করা হয় (আমাদের উদাহরণের জন্য, আমরা দুটি ব্যবহার করি)।
আমরা ব্যবহার করি filter.R
ডেটা প্রক্রিয়া করার জন্য ফাইল, এবং কাজটি নিম্নরূপ কনফিগার করুন:
পূর্বে উল্লিখিত হিসাবে, একটি সমান্তরাল ডেটা প্রসেসিং কাজ চালানোর সময়, আপনাকে অবশ্যই ইনপুট প্যারামিটারের সাথে ডাটা শার্ড করা হবে এবং ডেটার প্রকারের সাথে সামঞ্জস্য করতে হবে। অতএব, আমরা দ্বারা শার্ডিং পদ্ধতি প্রদান S3Prefix
:
আপনি এই প্যারামিটারগুলি সন্নিবেশ করার পরে, সেজমেকার প্রসেসিং নির্বাচিত দৃষ্টান্তগুলির সংখ্যা জুড়ে সমানভাবে ডেটা বিতরণ করবে।
প্রয়োজনীয় পরামিতিগুলি সামঞ্জস্য করুন এবং তারপরে কাজটি ইনস্ট্যান্টিয়েট করতে সেলটি চালান৷
প্রশিক্ষণ, পরীক্ষা, এবং বৈধতা ডেটাসেট তৈরি করুন
এই ধাপে, আমরা প্রক্রিয়াকৃত ডেটা ফাইলগুলি নিয়ে থাকি, সেগুলিকে একত্রিত করি এবং সেগুলিকে পরীক্ষা, ট্রেন এবং বৈধতা ডেটাসেটে বিভক্ত করি৷ এটি আমাদের মডেল তৈরির জন্য ডেটা ব্যবহার করতে দেয়।
আমরা ব্যবহার করি process.R
ডেটা প্রক্রিয়া করার জন্য ফাইল, এবং কাজটি নিম্নরূপ কনফিগার করুন:
প্রয়োজনীয় পরামিতিগুলি সামঞ্জস্য করুন এবং তারপরে কাজটি ইনস্ট্যান্টিয়েট করতে সেলটি চালান৷
পাইপলাইন চালান
সমস্ত পদক্ষেপগুলি তাত্ক্ষণিক হওয়ার পরে, নিম্নলিখিত সেলটি চালিয়ে প্রতিটি ধাপ চালানোর জন্য প্রক্রিয়াকরণ পাইপলাইন শুরু করুন:
এই কাজের প্রতিটিতে যে সময় লাগে তা ইনস্ট্যান্সের আকার এবং নির্বাচিত গণনার উপর ভিত্তি করে পরিবর্তিত হবে।
আপনার সমস্ত প্রক্রিয়াকরণের কাজগুলি দেখতে SageMaker কনসোলে নেভিগেট করুন৷
আমরা ফিল্টারিং কাজ দিয়ে শুরু করি, যেমনটি নিম্নলিখিত স্ক্রিনশটে দেখানো হয়েছে।
এটি সম্পূর্ণ হলে, পাইপলাইন ডেটা প্রসেসিং কাজে চলে যায়।
উভয় কাজ সম্পূর্ণ হলে, আপনার S3 বালতিতে নেভিগেট করুন। মধ্যে দেখুন sagemaker-rstudio-example
ফোল্ডার, অধীনে processed
. আপনি ট্রেন, পরীক্ষা এবং বৈধতা ডেটাসেটের ফাইল দেখতে পারেন।
উপসংহার
আরও বেশি পরিশীলিত মডেল তৈরি করার জন্য প্রয়োজনীয় ডেটার বর্ধিত পরিমাণের সাথে, আমরা কীভাবে ডেটা প্রক্রিয়া করি সে সম্পর্কে আমাদের দৃষ্টিভঙ্গি পরিবর্তন করতে হবে। সমান্তরাল ডেটা প্রসেসিং হল ডেটাসেট জেনারেশনকে ত্বরান্বিত করার একটি কার্যকরী পদ্ধতি, এবং যদি আধুনিক ক্লাউড পরিবেশ এবং টুলিং যেমন সেজমেকার এবং সেজমেকার প্রসেসিং-এর RStudio-এর সাথে মিলিত হয়, তাহলে অবকাঠামো ব্যবস্থাপনা, বয়লারপ্লেট কোড জেনারেশন এবং পরিবেশ ব্যবস্থাপনার অনেকটাই ভিন্নতাহীন ভারী উত্তোলন দূর করতে পারে। এই পোস্টে, আমরা সেজমেকার-এ RStudio-এর মধ্যে আপনি কীভাবে সমান্তরাল ডেটা প্রসেসিং প্রয়োগ করতে পারেন তার মধ্য দিয়ে হেঁটেছি। আমরা আপনাকে GitHub রিপোজিটরি ক্লোন করে এটি চেষ্টা করার জন্য উত্সাহিত করি, এবং অভিজ্ঞতাটি কীভাবে আরও ভাল করা যায় সে সম্পর্কে আপনার যদি পরামর্শ থাকে তবে দয়া করে একটি সমস্যা বা একটি পুল অনুরোধ জমা দিন।
এই সমাধানে ব্যবহৃত বৈশিষ্ট্য এবং পরিষেবাগুলি সম্পর্কে আরও জানতে, পড়ুন অ্যামাজন সেজমেকারে RStudio এবং আমাজন সেজমেকার প্রসেসিং.
লেখক সম্পর্কে
রাজ পাঠক কানাডা এবং মার্কিন যুক্তরাষ্ট্র জুড়ে ফরচুন 50 এবং মিড-সাইজ এফএসআই (ব্যাংকিং, ইন্স্যুরেন্স, ক্যাপিটাল মার্কেটস) গ্রাহকদের একজন সমাধান স্থপতি এবং প্রযুক্তিগত উপদেষ্টা। রাজ ডকুমেন্ট এক্সট্রাকশন, কন্টাক্ট সেন্টার ট্রান্সফরমেশন এবং কম্পিউটার ভিশনের অ্যাপ্লিকেশন সহ মেশিন লার্নিং-এ বিশেষজ্ঞ।
জ্যাক ওয়েন এমএল প্রশিক্ষণ এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণের জন্য আবেগ সহ AWS-এর একজন সমাধান স্থপতি। জেক ছোট মাঝারি ব্যবসার গ্রাহকদের ডিজাইন এবং চিন্তার নেতৃত্ব দিয়ে সাহায্য করে স্কেলে অ্যাপ্লিকেশন তৈরি এবং স্থাপন করতে। কাজের বাইরে, তিনি হাইকিং উপভোগ করেন।
অদিতি রজনীশ ওয়াটারলু বিশ্ববিদ্যালয়ের প্রথম বর্ষের সফ্টওয়্যার ইঞ্জিনিয়ারিং ছাত্র। তার আগ্রহের মধ্যে রয়েছে কম্পিউটার দৃষ্টি, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং এজ কম্পিউটিং। তিনি সম্প্রদায়-ভিত্তিক STEM আউটরিচ এবং অ্যাডভোকেসি সম্পর্কে উত্সাহী। তার অবসর সময়ে, তাকে রক ক্লাইম্বিং, পিয়ানো বাজাতে বা নিখুঁত স্কোন কীভাবে বেক করতে হয় তা শিখতে দেখা যায়।
শন মরগান AWS-এর একজন AI/ML সলিউশন আর্কিটেক্ট। সেমিকন্ডাক্টর এবং একাডেমিক গবেষণা ক্ষেত্রে তার অভিজ্ঞতা রয়েছে এবং গ্রাহকদের AWS-এ তাদের লক্ষ্যে পৌঁছাতে সাহায্য করার জন্য তার অভিজ্ঞতা ব্যবহার করে। তার অবসর সময়ে, শন একজন সক্রিয় ওপেন-সোর্স অবদানকারী এবং রক্ষণাবেক্ষণকারী, এবং টেনসরফ্লো অ্যাড-অনগুলির জন্য বিশেষ আগ্রহের গ্রুপ লিড।
পল উ টেক্সাসে AWS'র গ্রীনফিল্ড ব্যবসায় কর্মরত একজন সলিউশন আর্কিটেক্ট। তার দক্ষতার ক্ষেত্রগুলির মধ্যে রয়েছে কন্টেইনার এবং মাইগ্রেশন।
- AI
- ai শিল্প
- এআই আর্ট জেনারেটর
- আইআই রোবট
- আমাজন সেজমেকার
- কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তা সার্টিফিকেশন
- ব্যাংকিং এ কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তা সফ্টওয়্যার
- এডাব্লুএস মেশিন লার্নিং
- blockchain
- ব্লকচেইন সম্মেলন এআই
- coingenius
- কথোপকথন কৃত্রিম বুদ্ধিমত্তা
- ক্রিপ্টো সম্মেলন এআই
- ডাল-ই
- গভীর জ্ঞানার্জন
- গুগল আই
- মেশিন লার্নিং
- Plato
- প্লেটো এআই
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটো গেম
- প্লেটোডাটা
- প্লেটোগেমিং
- স্কেল ai
- বাক্য গঠন
- zephyrnet