অ্যামাজন সেজমেকারের ব্যয় বিশ্লেষণ করুন এবং ব্যবহারের উপর ভিত্তি করে খরচ অপ্টিমাইজেশানের সুযোগগুলি নির্ধারণ করুন, পার্ট 3: প্রক্রিয়াকরণ এবং ডেটা র্যাংলার চাকরি

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

2021 সালে, আমরা চালু করেছি AWS সমর্থন সক্রিয় পরিষেবা এর অংশ হিসাবে AWS এন্টারপ্রাইজ সাপোর্ট পরিকল্পনা এটির প্রবর্তনের পর থেকে, আমরা শত শত গ্রাহকদের তাদের কাজের লোড অপ্টিমাইজ করতে, রেললাইন সেট করতে এবং তাদের মেশিন লার্নিং (ML) ওয়ার্কলোডের খরচ এবং ব্যবহারের দৃশ্যমানতা উন্নত করতে সাহায্য করেছি।

এই সিরিজের পোস্টগুলিতে, আমরা খরচ অপ্টিমাইজ করার বিষয়ে শেখা পাঠগুলি শেয়ার করি৷ আমাজন সেজমেকার. এই পোস্টে, আমরা ব্যবহার করে ডেটা প্রিপ্রসেসিংয়ের উপর ফোকাস করি আমাজন সেজমেকার প্রসেসিং এবং অ্যামাজন সেজমেকার ডেটা র্যাংলার কাজ।

ডেটা-কেন্দ্রিক এআই পদ্ধতিতে ডেটা প্রিপ্রসেসিং একটি গুরুত্বপূর্ণ ভূমিকা রাখে। যাইহোক, এমএল প্রশিক্ষণ এবং মূল্যায়নের জন্য কাঁচা ডেটা প্রস্তুত করা প্রায়শই গণনা সংস্থান, সময় এবং মানুষের প্রচেষ্টার পরিপ্রেক্ষিতে একটি ক্লান্তিকর এবং চাহিদাপূর্ণ কাজ। ডেটা প্রস্তুতি সাধারণত বিভিন্ন উত্স থেকে একত্রিত করা প্রয়োজন এবং অনুপস্থিত বা শোরগোল মান, বহিরাগত, এবং তাই মোকাবেলা করতে হবে।

তদুপরি, সাধারণ নির্যাস, রূপান্তর এবং লোড (ETL) কাজগুলি ছাড়াও, ML টিমগুলির মাঝে মাঝে আরও উন্নত ক্ষমতার প্রয়োজন হয় যেমন ডেটা মূল্যায়ন করার জন্য দ্রুত মডেল তৈরি করা এবং বৈশিষ্ট্যের গুরুত্ব স্কোর তৈরি করা বা MLOps পাইপলাইনের অংশ হিসাবে প্রশিক্ষণ-পরবর্তী মডেল মূল্যায়ন।

সেজমেকার দুটি বৈশিষ্ট্য অফার করে যা বিশেষভাবে এই সমস্যাগুলির সাথে সাহায্য করার জন্য ডিজাইন করা হয়েছে: সেজমেকার প্রসেসিং এবং ডেটা র্যাংলার। সেজমেকার প্রসেসিং আপনাকে সম্পূর্ণরূপে পরিচালিত পরিকাঠামোতে প্রিপ্রসেসিং, পোস্টপ্রসেসিং এবং মডেল মূল্যায়ন সহজে চালাতে সক্ষম করে। ডেটা র‍্যাংলার একটি একক ভিজ্যুয়াল ইন্টারফেস এবং একটি সম্পূর্ণরূপে বিতরণ করা ডেটা প্রক্রিয়াকরণ পরিবেশ ব্যবহার করে ডেটা উত্স একীকরণ এবং বৈশিষ্ট্য প্রকৌশলের প্রক্রিয়াকে সহজ করে ডেটা একত্রিত করতে এবং প্রস্তুত করতে যে সময় লাগে তা হ্রাস করে।

উভয় SageMaker বৈশিষ্ট্য I/O, স্টোরেজ, এবং গণনার জন্য বিভিন্ন বিকল্পের সাথে দুর্দান্ত নমনীয়তা প্রদান করে। যাইহোক, এই বিকল্পগুলিকে ভুলভাবে সেট করার ফলে অপ্রয়োজনীয় খরচ হতে পারে, বিশেষ করে যখন বড় ডেটাসেটের সাথে কাজ করা হয়।

এই পোস্টে, আমরা মূল্যের কারণগুলি বিশ্লেষণ করি এবং সেজমেকার প্রসেসিং এবং ডেটা র্যাংলার কাজের জন্য খরচ অপ্টিমাইজেশান নির্দেশিকা প্রদান করি।

সেজমেকার প্রসেসিং

সেজমেকার প্রসেসিং হল ডেটা প্রসেসিং এবং মডেল মূল্যায়ন কাজের চাপ চালানোর জন্য একটি পরিচালিত সমাধান। আপনি এটিকে ডেটা প্রসেসিং ধাপে ব্যবহার করতে পারেন যেমন ফিচার ইঞ্জিনিয়ারিং, ডেটা যাচাইকরণ, মডেল মূল্যায়ন এবং এমএল ওয়ার্কফ্লোতে মডেল ব্যাখ্যা। সেজমেকার প্রসেসিং এর মাধ্যমে, আপনি আপনার নিজস্ব কাস্টম প্রসেসিং স্ক্রিপ্ট আনতে পারেন এবং একটি কাস্টম কন্টেইনার তৈরি করতে বা স্কিট-লার্ন, লাইম, স্পার্ক এবং আরও অনেক কিছুর মতো সাধারণ ফ্রেমওয়ার্ক সহ একটি সেজমেকার পরিচালিত কন্টেইনার ব্যবহার করতে পারেন।

সেজমেকার প্রসেসিং আপনার বেছে নেওয়া দৃষ্টান্তের জন্য চার্জ করে, ব্যবহারের সময়কাল এবং সেই দৃষ্টান্তের সাথে সংযুক্ত স্টোরেজের উপর ভিত্তি করে। পার্ট 1 এ, আমরা দেখিয়েছি কিভাবে ব্যবহার শুরু করতে হয় AWS কস্ট এক্সপ্লোরার SageMaker-এ খরচ অপ্টিমাইজেশানের সুযোগ সনাক্ত করতে।

আপনি ব্যবহারের প্রকারে একটি ফিল্টার প্রয়োগ করে প্রক্রিয়াকরণের খরচ ফিল্টার করতে পারেন। এই ধরনের ব্যবহারের নাম নিম্নরূপ:

REGION-Processing:instanceType (উদাহরণ স্বরূপ, USE1-Processing:ml.m5.large)
REGION-Processing:VolumeUsage.gp2 (উদাহরণ স্বরূপ, USE1-Processing:VolumeUsage.gp2)

কস্ট এক্সপ্লোরারে আপনার সেজমেকার প্রসেসিং খরচ পর্যালোচনা করতে, সেজমেকার দিয়ে ফিল্টার করে শুরু করুন সেবা, এবং জন্য ব্যবহারের ধরণ, আপনি প্রবেশ করে সমস্ত প্রক্রিয়াকরণ দৃষ্টান্ত চলমান ঘন্টা নির্বাচন করতে পারেন processing:ml উপসর্গ এবং মেনুতে তালিকা নির্বাচন করা।

প্রক্রিয়াকরণ এবং পাইপলাইন উন্নয়ন খরচ এড়িয়ে চলুন

একটি SageMaker প্রসেসিং কাজের রানের সময়কালকে ডান-আকার এবং অপ্টিমাইজ করার আগে, আমরা ঐতিহাসিক কাজের রান সম্পর্কে উচ্চ-স্তরের মেট্রিক্স পরীক্ষা করি। এটি করার জন্য আপনি দুটি পদ্ধতি থেকে বেছে নিতে পারেন।

প্রথমত, আপনি অ্যাক্সেস করতে পারেন প্রসেসিং সেজমেকার কনসোলে পৃষ্ঠা।

বিকল্পভাবে, আপনি ব্যবহার করতে পারেন list_processing_jobs API.

একটি প্রক্রিয়াকরণ কাজের অবস্থা হতে পারে InProgress, Completed, Failed, Stopping, বা Stopped.

নতুন MLOps পাইপলাইন তৈরি করার সময় প্রচুর পরিমাণে ব্যর্থ চাকরি সাধারণ। যাইহোক, আপনার সর্বদা পরীক্ষা করা উচিত এবং সেজমেকারে কাজগুলি চালু করার আগে তাদের যাচাই করার জন্য সর্বাত্মক প্রচেষ্টা করা উচিত কারণ ব্যবহৃত সংস্থানগুলির জন্য চার্জ রয়েছে৷ সেই উদ্দেশ্যে, আপনি সেজমেকার প্রসেসিং ব্যবহার করতে পারেন স্থানীয় মোড. স্থানীয় মোড হল একটি SageMaker SDK বৈশিষ্ট্য যা আপনাকে অনুমানকারী, প্রসেসর এবং পাইপলাইন তৈরি করতে এবং সেগুলিকে আপনার স্থানীয় উন্নয়ন পরিবেশে স্থাপন করতে দেয়। এটি একটি SageMaker পরিচালিত পরিবেশে চালানোর আগে আপনার স্ক্রিপ্টগুলি পরীক্ষা করার একটি দুর্দান্ত উপায়। স্থানীয় মোড SageMaker পরিচালিত কন্টেইনার এবং আপনি নিজে যেগুলি সরবরাহ করেন তা দ্বারা সমর্থিত। কীভাবে স্থানীয় মোড ব্যবহার করবেন সে সম্পর্কে আরও জানতে অ্যামাজন সেজমেকার পাইপলাইন, নির্দেশ করে স্থানীয় মোড.

I/O-সম্পর্কিত খরচ অপ্টিমাইজ করুন

সেজমেকার প্রসেসিং কাজগুলি পরিচালিত অংশ হিসাবে তিনটি ডেটা উত্সে অ্যাক্সেস অফার করে প্রক্রিয়াকরণ ইনপুট: আমাজন সিম্পল স্টোরেজ সার্ভিস (অ্যামাজন এস 3), অ্যামাজন অ্যাথেনা, এবং আমাজন রেডশিফ্ট. আরো তথ্যের জন্য, পড়ুন প্রসেসিংS3ইনপুট, অ্যাথেনা ডেটাসেট সংজ্ঞা, এবং RedshiftDataset সংজ্ঞা, যথাক্রমে।

অপ্টিমাইজেশান দেখার আগে, এটা মনে রাখা গুরুত্বপূর্ণ যে যদিও সেজমেকার প্রসেসিং কাজগুলি এই ডেটা উত্সগুলিকে সমর্থন করে, সেগুলি বাধ্যতামূলক নয়৷ আপনার প্রসেসিং কোডে, আপনি যেকোনো উৎস থেকে অ্যাক্সেসিং ডেটা ডাউনলোড করার জন্য যে কোনো পদ্ধতি প্রয়োগ করতে পারেন (প্রসেসিং উদাহরণটি এটি অ্যাক্সেস করতে পারে)।

পারফরম্যান্স প্রক্রিয়াকরণ এবং অপ্টিমাইজেশানের সুযোগগুলি সনাক্ত করার বিষয়ে আরও ভাল অন্তর্দৃষ্টি পেতে, আমরা অনুসরণ করার পরামর্শ দিই সর্বোত্তম অভ্যাস লগিং আপনার প্রসেসিং স্ক্রিপ্টে। SageMaker আপনার প্রক্রিয়াকরণ লগ প্রকাশ করে অ্যামাজন ক্লাউডওয়াচ.

নিম্নলিখিত উদাহরণের কাজের লগে, আমরা দেখতে পাচ্ছি যে স্ক্রিপ্ট প্রক্রিয়াকরণে 15 মিনিট সময় লেগেছে (এর মধ্যে Start custom script এবং End custom script).

যাইহোক, SageMaker কনসোলে, আমরা দেখি যে কাজটি 4 অতিরিক্ত মিনিট সময় নিয়েছে (কাজের মোট রানটাইমের প্রায় 25%)।

এটি এই কারণে যে আমাদের প্রক্রিয়াকরণের স্ক্রিপ্টের সময় ছাড়াও, সেজমেকার-পরিচালিত ডেটা ডাউনলোড এবং আপলোড করতেও সময় লেগেছিল (4 মিনিট)। যদি এটি খরচের একটি বড় অংশ বলে প্রমাণিত হয়, তবে ডাউনলোডের সময় দ্রুত করার বিকল্প উপায়গুলি বিবেচনা করুন, যেমন একই সাথে ফাইলগুলি ডাউনলোড করতে মাল্টিপ্রসেসিং সহ Boto3 API ব্যবহার করা, অথবা Amazon S5 থেকে দ্রুত ডাউনলোডের জন্য WebDataset বা s3cmd হিসাবে তৃতীয় পক্ষের লাইব্রেরি ব্যবহার করা। . আরো তথ্যের জন্য, পড়ুন S3 ওয়ার্কলোডগুলিকে s5cmd এর সাথে সমান্তরাল করা. উল্লেখ্য যে এই ধরনের পদ্ধতির কারণে আমাজন S3-তে চার্জ প্রবর্তন হতে পারে তথ্য স্থানান্তর.

প্রসেসিং কাজগুলিও সমর্থন করে পাইপ মোড. এই পদ্ধতির সাহায্যে, সেজমেকার ML স্টোরেজ ভলিউম ব্যবহার না করেই উৎস থেকে সরাসরি আপনার প্রসেসিং কন্টেইনারে ইনপুট ডেটা স্ট্রীম করে নামযুক্ত পাইপগুলিতে, যার ফলে ডেটা ডাউনলোডের সময় এবং একটি ছোট ডিস্ক ভলিউম দূর হয়। যাইহোক, এর জন্য একটি ডিস্কের ফাইলগুলি থেকে পড়ার চেয়ে আরও জটিল প্রোগ্রামিং মডেল প্রয়োজন।

আগেই উল্লিখিত হিসাবে, সেজমেকার প্রসেসিং ডেটা উত্স হিসাবে অ্যাথেনা এবং অ্যামাজন রেডশিফ্টকে সমর্থন করে। এই উত্সগুলির সাথে একটি প্রসেসিং কাজ সেট আপ করার সময়, SageMaker স্বয়ংক্রিয়ভাবে Amazon S3 এ ডেটা অনুলিপি করে এবং প্রক্রিয়াকরণের উদাহরণটি Amazon S3 অবস্থান থেকে ডেটা নিয়ে আসে। যাইহোক, যখন কাজটি শেষ হয়ে যায়, তখন কোন ম্যানেজড ক্লিনআপ প্রক্রিয়া নেই এবং কপি করা ডেটা এখনও Amazon S3-তে থাকবে এবং অবাঞ্ছিত স্টোরেজ চার্জ হতে পারে। অতএব, অ্যাথেনা এবং অ্যামাজন রেডশিফ্ট ডেটা উত্সগুলি ব্যবহার করার সময়, একটি পরিষ্কার পদ্ধতি প্রয়োগ করতে ভুলবেন না, যেমন একটি ল্যাম্বডা ফাংশন একটি সময়সূচীতে চলে বা এ ল্যাম্বডা স্টেপ একটি সেজমেকার পাইপলাইনের অংশ হিসাবে।

ডাউনলোডের মতো, আপলোড প্রক্রিয়াকরণ শিল্পকর্মও অপ্টিমাইজেশনের একটি সুযোগ হতে পারে। যখন একটি প্রসেসিং কাজের আউটপুট ব্যবহার করে কনফিগার করা হয় ProcessingS3Output পরামিতি, আপনি যা নির্দিষ্ট করতে পারেন S3UploadMode ব্যবহার করা. দ্য S3UploadMode পরামিতি ডিফল্ট মান EndOfJob, যা কাজ শেষ হওয়ার পরে ফলাফল আপলোড করার জন্য SageMaker পাবে। যাইহোক, যদি আপনার প্রসেসিং কাজ একাধিক ফাইল তৈরি করে, আপনি সেট করতে পারেন S3UploadMode থেকে Continuous, এর ফলে প্রক্রিয়াজাতকরণ অব্যাহত থাকার সাথে সাথে শিল্পকর্মের আপলোড সক্ষম করে এবং কাজের রানটাইম হ্রাস পায়।

ডান-আকার প্রক্রিয়াকরণ কাজের উদাহরণ

সেজমেকার প্রসেসিং কাজের খরচ অপ্টিমাইজ করার জন্য সঠিক উদাহরণের ধরন এবং আকার নির্বাচন করা একটি প্রধান কারণ। আপনি একই দৃষ্টান্ত পরিবারের মধ্যে একটি ভিন্ন সংস্করণে স্থানান্তরিত করে বা অন্য দৃষ্টান্ত পরিবারে স্থানান্তর করে একটি দৃষ্টান্তকে ডান আকার দিতে পারেন৷ একই উদাহরণ পরিবারের মধ্যে স্থানান্তর করার সময়, আপনাকে শুধুমাত্র CPU/GPU এবং মেমরি বিবেচনা করতে হবে। সঠিক প্রক্রিয়াকরণ সংস্থানগুলি বেছে নেওয়ার বিষয়ে আরও তথ্য এবং সাধারণ নির্দেশনার জন্য, পড়ুন Amazon SageMaker-এ দক্ষ গণনা সংস্থান নিশ্চিত করুন.

দৃষ্টান্ত নির্বাচনকে সূক্ষ্ম সুর করতে, আমরা ক্লাউডওয়াচ-এ প্রসেসিং কাজের মেট্রিক্স বিশ্লেষণ করে শুরু করি। আরো তথ্যের জন্য, পড়ুন অ্যামাজন ক্লাউডওয়াচ দিয়ে অ্যামাজন সেজমেকার মনিটর করুন.

ক্লাউডওয়াচ সেজমেকার থেকে কাঁচা ডেটা সংগ্রহ করে এবং এটি পাঠযোগ্য, কাছাকাছি-রিয়েল-টাইম মেট্রিক্সে প্রক্রিয়া করে। যদিও এই পরিসংখ্যানগুলি 15 মাসের জন্য রাখা হয়, ক্লাউডওয়াচ কনসোল গত 2 সপ্তাহে আপডেট করা মেট্রিকগুলিতে অনুসন্ধানকে সীমাবদ্ধ করে (এটি নিশ্চিত করে যে শুধুমাত্র বর্তমান চাকরিগুলি দেখানো হয়েছে)৷ প্রসেসিং কাজের মেট্রিক্স /aws/sagemaker/ProcessingJobs নামস্থানে পাওয়া যাবে এবং সংগৃহীত মেট্রিকগুলি হল CPUUtilization, MemoryUtilization, GPUUtilization, GPUMemoryUtilization, এবং DiskUtilization.

নিম্নলিখিত স্ক্রিনশটটি আমরা আগে দেখেছি প্রসেসিং কাজের ক্লাউডওয়াচে একটি উদাহরণ দেখায়।

এই উদাহরণে, আমরা গড় CPU এবং মেমরির মান দেখতে পাই (যা CloudWatch-এ ডিফল্ট): গড় CPU ব্যবহার 0.04%, মেমরি 1.84% এবং ডিস্ক ব্যবহার 13.7%। ডান-আকারের জন্য, সর্বদা সর্বাধিক CPU এবং মেমরি ব্যবহার বিবেচনা করুন (এই উদাহরণে, প্রথম 98 মিনিটে সর্বাধিক CPU ব্যবহার 3% ছিল)। একটি সাধারণ নিয়ম হিসাবে, যদি আপনার সর্বাধিক CPU এবং মেমরির ব্যবহার ধারাবাহিকভাবে 40% এর কম হয়, আপনি নিরাপদে মেশিনটিকে অর্ধেক কেটে ফেলতে পারেন। উদাহরণস্বরূপ, আপনি যদি একটি ml.c5.4xlarge ইন্সট্যান্স ব্যবহার করেন, তাহলে আপনি একটি ml.c5.2xlarge-এ যেতে পারেন, যা আপনার খরচ 50% কমাতে পারে।

ডেটা র‍্যাংলারের চাকরি

ডেটা র‍্যাংলার এর একটি বৈশিষ্ট্য অ্যামাজন সেজমেকার স্টুডিও যা ডেটা অন্বেষণ এবং প্রক্রিয়াকরণের জন্য একটি পুনরাবৃত্তিযোগ্য এবং মাপযোগ্য সমাধান প্রদান করে। আপনি ইন্টারেক্টিভভাবে আপনার ডেটা আমদানি, বিশ্লেষণ, রূপান্তর এবং বৈশিষ্ট্যযুক্ত করতে ডেটা র্যাংলার ইন্টারফেস ব্যবহার করেন। এই পদক্ষেপগুলি একটি রেসিপিতে (একটি ফ্লো ফাইল) ক্যাপচার করা হয়েছে যা আপনি ডেটা র্যাংলার কাজে ব্যবহার করতে পারেন। এটি আপনাকে আপনার ডেটাতে একই ডেটা রূপান্তরগুলি পুনরায় প্রয়োগ করতে এবং একটি ML পাইপলাইনের অংশ হিসাবে বা স্বাধীনভাবে একটি বিতরণকৃত ব্যাচ ডেটা প্রক্রিয়াকরণ কাজের স্কেল করতে সহায়তা করে।

স্টুডিওতে আপনার ডেটা র্যাংলার অ্যাপটি অপ্টিমাইজ করার বিষয়ে নির্দেশনার জন্য, এই সিরিজের অংশ 2 পড়ুন।

এই বিভাগে, আমরা ডেটা র্যাংলারের কাজগুলিকে অপ্টিমাইজ করার উপর ফোকাস করি।

ডেটা র‍্যাংলার ব্যবহার করে SageMaker স্পার্ক প্রক্রিয়াকরণ কাজ একটি ডেটা র‍্যাংলার-পরিচালিত কন্টেইনার সহ। এই ধারকটি কাজের .flow ফাইল থেকে নির্দেশনা চালায়। যেকোন প্রসেসিং কাজের মতো, ডেটা র‍্যাংলার আপনার বেছে নেওয়া দৃষ্টান্তগুলির জন্য চার্জ করে, ব্যবহারের সময়কাল এবং সেই দৃষ্টান্তের সাথে সংযুক্ত স্টোরেজের উপর ভিত্তি করে।

কস্ট এক্সপ্লোরারে, আপনি ব্যবহারের ধরণে একটি ফিল্টার প্রয়োগ করে ডেটা র্যাংলার কাজের খরচ ফিল্টার করতে পারেন। এই ধরনের ব্যবহারের নাম হল:

REGION-processing_DW:instanceType (উদাহরণ স্বরূপ, USE1-processing_DW:ml.m5.large)
REGION-processing_DW:VolumeUsage.gp2 (উদাহরণ স্বরূপ, USE1-processing_DW:VolumeUsage.gp2)

কস্ট এক্সপ্লোরারে আপনার ডেটা র্যাংলার খরচ দেখতে, সেজমেকার ব্যবহার করতে পরিষেবাটি ফিল্টার করুন এবং এর জন্য ব্যবহারের ধরণ, পছন্দ করা processing_DW উপসর্গ এবং মেনুতে তালিকা নির্বাচন করুন। এটি আপনাকে ইনস্ট্যান্স ব্যবহার (ঘন্টা) এবং স্টোরেজ ভলিউম (GB) সম্পর্কিত খরচ উভয়ই দেখাবে। (আপনি যদি স্টুডিও ডেটা র‍্যাংলারের খরচ দেখতে চান তবে আপনি ব্যবহারের ধরনটি ফিল্টার করতে পারেন Studio_DW উপসর্গ।)

ডান-আকার এবং সময়সূচী ডেটা র্যাংলার কাজের উদাহরণ

এই মুহুর্তে, ডেটা র‍্যাংলার নিম্নলিখিত ইন্সট্যান্স মাপের সাথে শুধুমাত্র m5 দৃষ্টান্ত সমর্থন করে: ml.m5.4xlarge, ml.m5.12xlarge, এবং ml.m5.24xlarge। আপনি আপনার কাজের খরচ ঠিক করার জন্য বিতরণ করা কাজের বৈশিষ্ট্য ব্যবহার করতে পারেন। উদাহরণস্বরূপ, ধরুন আপনাকে একটি ডেটাসেট প্রক্রিয়া করতে হবে যার জন্য RAM-তে 350 GiB প্রয়োজন। 4xlarge (128 GiB) এবং 12xlarge (256 GiB) প্রক্রিয়া করতে সক্ষম নাও হতে পারে এবং আপনাকে m5.24xlarge ইন্সট্যান্স (768 GiB) ব্যবহার করতে পরিচালিত করবে। যাইহোক, আপনি দুটি m5.12x বড় দৃষ্টান্ত (2 * 256 GiB = 512 GiB) ব্যবহার করতে পারেন এবং খরচ 40% বা তিনটি m5.4x বড় দৃষ্টান্ত (3 * 128 GiB = 384 GiB) কমাতে পারেন এবং m50xlarge-এর 5.24% সংরক্ষণ করতে পারেন। উদাহরণ খরচ। আপনার মনে রাখা উচিত যে এইগুলি অনুমান এবং বিতরণকৃত প্রক্রিয়াকরণ কিছু ওভারহেড প্রবর্তন করতে পারে যা সামগ্রিক রানটাইমকে প্রভাবিত করবে।

উদাহরণ টাইপ পরিবর্তন করার সময়, নিশ্চিত করুন যে আপনি আপডেট করেছেন স্পার্ক কনফিগারেশন সেই অনুযায়ী উদাহরণস্বরূপ, যদি আপনার একটি প্রাথমিক ml.m5.4xlarge ইনস্ট্যান্স কাজ থাকে যা বৈশিষ্ট্যগুলির সাথে কনফিগার করা হয় spark.driver.memory 2048 এ সেট করুন এবং spark.executor.memory 55742 এ সেট করুন, এবং পরে ml.m5.12xlarge পর্যন্ত স্কেল করুন, সেই কনফিগারেশন মানগুলিকে বাড়ানো দরকার, অন্যথায় সেগুলি প্রসেসিং কাজের ক্ষেত্রে বাধা হয়ে দাঁড়াবে। আপনি এই ভেরিয়েবলগুলি ডেটা র্যাংলার GUI-তে বা কনফিগারেশন পাথের সাথে সংযুক্ত একটি কনফিগারেশন ফাইলে আপডেট করতে পারেন (নিম্নলিখিত উদাহরণগুলি দেখুন)।

ডেটা র‍্যাংলারের আরেকটি আকর্ষণীয় বৈশিষ্ট্য হল করার ক্ষমতা একটি নির্ধারিত কাজ সেট করুন. আপনি যদি পর্যায়ক্রমে ডেটা প্রক্রিয়াকরণ করেন, আপনি প্রক্রিয়াকরণের কাজটি স্বয়ংক্রিয়ভাবে চালানোর জন্য একটি সময়সূচী তৈরি করতে পারেন। উদাহরণস্বরূপ, আপনি একটি সময়সূচী তৈরি করতে পারেন যা একটি প্রক্রিয়াকরণ কাজ স্বয়ংক্রিয়ভাবে চালায় যখন আপনি নতুন ডেটা পান (উদাহরণস্বরূপ, দেখুন Amazon S3 এ রপ্তানি করুন or Amazon SageMaker ফিচার স্টোরে রপ্তানি করুন) যাইহোক, আপনার মনে রাখা উচিত যে আপনি যখন একটি সময়সূচী তৈরি করেন, তখন ডেটা র্যাংলার একটি তৈরি করে eventRule ইভেন্টব্রিজে। এর অর্থ হল আপনি যে ইভেন্ট নিয়মগুলি তৈরি করেন তার জন্যও আপনাকে চার্জ করা হবে (সেসাথে প্রসেসিং কাজ চালানোর জন্য ব্যবহৃত উদাহরণগুলি)। আরও তথ্যের জন্য, দেখুন আমাজন ইভেন্টব্রিজের দাম.

উপসংহার

এই পোস্টে, আমরা প্রাক প্রক্রিয়াকরণের সময় ব্যয় বিশ্লেষণ এবং সর্বোত্তম অনুশীলনের বিষয়ে নির্দেশিকা প্রদান করেছি

সেজমেকার প্রসেসিং এবং ডেটা র্যাংলার কাজ ব্যবহার করে ডেটা। প্রিপ্রসেসিংয়ের মতো, এমএল মডেল তৈরি, প্রশিক্ষণ এবং চালানোর ক্ষেত্রে অনেকগুলি বিকল্প এবং কনফিগারেশন সেটিংস রয়েছে যা অপ্রয়োজনীয় খরচের দিকে নিয়ে যেতে পারে। অতএব, যেহেতু মেশিন লার্নিং শিল্প জুড়ে একটি শক্তিশালী হাতিয়ার হিসেবে নিজেকে প্রতিষ্ঠিত করে, তাই এমএল ওয়ার্কলোডগুলিকে সাশ্রয়ী রাখতে হবে।

SageMaker ML পাইপলাইনের প্রতিটি ধাপকে সহজতর করার জন্য একটি প্রশস্ত এবং গভীর বৈশিষ্ট্য সেট অফার করে।

এই দৃঢ়তা কর্মক্ষমতা বা তত্পরতা সঙ্গে আপস ছাড়া ক্রমাগত খরচ অপ্টিমাইজেশান সুযোগ প্রদান করে.

লেখক সম্পর্কে

Amazon SageMaker খরচ বিশ্লেষণ করুন এবং ব্যবহারের উপর ভিত্তি করে খরচ অপ্টিমাইজেশান সুযোগ নির্ধারণ করুন, পার্ট 3: প্রসেসিং এবং ডেটা র্যাংলার চাকরি | আমাজন ওয়েব সার্ভিস প্লেটোব্লকচেইন ডেটা ইন্টেলিজেন্স। উল্লম্ব অনুসন্ধান. আ. দীপালি রাজলে AWS-এর একজন সিনিয়র এআই/এমএল বিশেষজ্ঞ। তিনি AWS ইকোসিস্টেমে AI/ML সমাধান স্থাপন এবং বজায় রাখার জন্য সর্বোত্তম অনুশীলন সহ প্রযুক্তিগত দিকনির্দেশনা প্রদানকারী এন্টারপ্রাইজ গ্রাহকদের সাথে কাজ করেন। তিনি NLP এবং কম্পিউটার দৃষ্টি জড়িত বিভিন্ন গভীর শিক্ষার ব্যবহার ক্ষেত্রে বিস্তৃত সংস্থার সাথে কাজ করেছেন। তিনি সংস্থাগুলিকে তাদের ব্যবহারের অভিজ্ঞতা বাড়ানোর জন্য জেনারেটিভ AI ব্যবহার করার জন্য ক্ষমতায়নের বিষয়ে উত্সাহী৷ তার অবসর সময়ে, তিনি চলচ্চিত্র, সঙ্গীত এবং সাহিত্য উপভোগ করেন।

উরি রোজেনবার্গ ইউরোপ, মধ্যপ্রাচ্য এবং আফ্রিকার জন্য এআই এবং এমএল বিশেষজ্ঞ প্রযুক্তিগত ব্যবস্থাপক। ইস্রায়েলের বাইরে, Uri এন্টারপ্রাইজ গ্রাহকদের ML ডিজাইন, নির্মাণ এবং স্কেলে পরিচালনা করার সমস্ত বিষয়ে ক্ষমতায়নের জন্য কাজ করে। তার অবসর সময়ে, তিনি সাইক্লিং, হাইকিং এবং সূর্যাস্ত দেখতে উপভোগ করেন (দিনে অন্তত একবার)।