যেহেতু এন্টারপ্রাইজ ব্যবসাগুলি তাদের প্রতিষ্ঠান জুড়ে মেশিন লার্নিং (এমএল) গ্রহণ করে, এমএল মডেল তৈরি, প্রশিক্ষণ এবং স্থাপনের জন্য ম্যানুয়াল ওয়ার্কফ্লোগুলি উদ্ভাবনের পথে বাধা হয়ে দাঁড়ায়৷ এটি কাটিয়ে ওঠার জন্য, এন্টারপ্রাইজগুলিকে একটি সুস্পষ্ট অপারেটিং মডেল তৈরি করতে হবে যাতে একাধিক ব্যক্তি, যেমন ডেটা বিজ্ঞানী, ডেটা ইঞ্জিনিয়ার, এমএল ইঞ্জিনিয়ার, আইটি এবং ব্যবসায়িক স্টেকহোল্ডারদের সহযোগিতা এবং যোগাযোগ করা উচিত; উদ্বেগ, দায়িত্ব এবং দক্ষতা কিভাবে আলাদা করতে হয়; এবং কীভাবে AWS পরিষেবাগুলি সর্বোত্তমভাবে ব্যবহার করবেন। ML এবং অপারেশনগুলির (MLOps) এই সংমিশ্রণটি কোম্পানিগুলিকে তাদের এন্ড-টু-এন্ড ML লাইফসাইকেল স্ট্রিমলাইন করতে এবং উচ্চ মডেলের নির্ভুলতা বজায় রেখে এবং নিরাপত্তা ও সম্মতি বাড়াতে ডেটা বিজ্ঞানীদের উত্পাদনশীলতা বাড়াতে সাহায্য করছে।
এই পোস্টে, আপনি একটি MLOps ফাউন্ডেশন তৈরির মূল পর্যায়গুলি সম্পর্কে শিখবেন, কিভাবে একাধিক ব্যক্তি এই ফাউন্ডেশনে একসাথে কাজ করে এবং আমাজন সেজমেকার উদ্দেশ্য-নির্মিত সরঞ্জাম এবং অন্যান্য AWS পরিষেবাগুলির সাথে অন্তর্নির্মিত ইন্টিগ্রেশন যা একটি এন্টারপ্রাইজ ব্যবসায় ML গ্রহণকে ত্বরান্বিত করতে পারে।
MLOps পরিপক্কতা মডেল
একটি MLOps ফাউন্ডেশন তৈরি করা যা এন্টারপ্রাইজ গ্রাহকদের ক্রিয়াকলাপ, মানুষ এবং প্রযুক্তিগত চাহিদাগুলিকে কভার করতে পারে তা চ্যালেঞ্জিং। অতএব, আমরা নিম্নলিখিত পরিপক্কতা মডেলটি সংজ্ঞায়িত করি যা চারটি মূল পর্যায়ে MLOps-এর প্রয়োজনীয় ক্ষমতাগুলিকে সংজ্ঞায়িত করে।
- প্রাথমিক ধাপ: এই পর্যায়ে, ডেটা বিজ্ঞানীরা সেজমেকার পরিষেবাগুলি ব্যবহার করে AWS-এ মডেলগুলি পরীক্ষা করতে এবং তৈরি করতে, প্রশিক্ষণ দিতে এবং স্থাপন করতে সক্ষম হন। প্রস্তাবিত উন্নয়ন পরিবেশ হয় অ্যামাজন সেজমেকার স্টুডিও, যেখানে ডেটা বিজ্ঞানীরা স্টুডিও নোটবুকের উপর ভিত্তি করে পরীক্ষা করতে এবং সহযোগিতা করতে সক্ষম।
- পুনরাবৃত্তিযোগ্য পর্যায় – AWS-এ পরীক্ষা-নিরীক্ষা করার ক্ষমতা সহ, পরবর্তী ধাপ হল ডেটা প্রিপ্রসেস করার জন্য স্বয়ংক্রিয় ওয়ার্কফ্লো তৈরি করা এবং মডেলগুলি (ML পাইপলাইন) তৈরি করা এবং প্রশিক্ষণ দেওয়া। ডেটা বিজ্ঞানীরা এমএল ইঞ্জিনিয়ারদের সাথে একটি পৃথক পরিবেশে সহযোগিতা করে শক্তিশালী এবং উৎপাদন-প্রস্তুত অ্যালগরিদম এবং সোর্স কোড, ব্যবহার করে সাজানো অ্যামাজন সেজমেকার পাইপলাইন. উৎপন্ন মডেলগুলি অ্যামাজন সেজমেকার মডেল রেজিস্ট্রিতে সংরক্ষিত এবং বেঞ্চমার্ক করা হয়।
- নির্ভরযোগ্য পর্যায় - যদিও মডেলগুলি ML পাইপলাইনগুলির মাধ্যমে তৈরি করা হয়েছে, তারা উত্পাদনে উন্নীত হওয়ার আগে তাদের পরীক্ষা করা দরকার। অতএব, এই পর্যায়ে, মডেল এবং ট্রিগারিং অবকাঠামো উভয়ের জন্যই স্বয়ংক্রিয় পরীক্ষা পদ্ধতি চালু করা হয়, একটি বিচ্ছিন্ন স্টেজিং (প্রাক-প্রোডাকশন) পরিবেশে যা উত্পাদনকে অনুকরণ করে। পরীক্ষা সফলভাবে চালানোর পরে, মডেলগুলি উৎপাদনের বিচ্ছিন্ন পরিবেশে স্থাপন করা হয়। একাধিক পরিবেশের মধ্যে মডেলগুলিকে উন্নীত করার জন্য, ম্যানুয়াল মূল্যায়ন এবং অনুমোদনের প্রয়োজন।
- পরিমাপযোগ্য পর্যায় – প্রথম ML সলিউশনের উৎপাদনের পর, একাধিক ডেটা সায়েন্স টিমকে সহযোগিতা করার জন্য MLOps ফাউন্ডেশনের স্কেল করা এবং দশ বা শত শত ML ব্যবহারের ক্ষেত্রে তৈরি করা প্রয়োজন। এই পর্যায়ে, আমরা সমাধানগুলির টেমপ্লেটাইজেশন প্রবর্তন করি, যা নতুন উত্পাদন সমাধানগুলির বিকাশের সময়কে সপ্তাহ থেকে দিনে হ্রাস করে মূল্যের গতি নিয়ে আসে। অতিরিক্তভাবে, আমরা একাধিক টিমকে তাদের ডেটাতে কাজ করতে সক্ষম করার জন্য নিরাপদ MLOps পরিবেশের সূচনা স্বয়ংক্রিয়ভাবে করি যাতে IT-তে নির্ভরতা এবং ওভারহেড হ্রাস পায়।
নিম্নলিখিত বিভাগগুলিতে, আমরা দেখাই কিভাবে পূর্ববর্তী পরিপক্কতার মডেল এবং নিম্নলিখিত নীতিগুলির উপর ভিত্তি করে একটি MLOps ভিত্তি তৈরি করা যায়:
- নমনীয়তা - ডেটা বিজ্ঞানীরা যেকোন ফ্রেমওয়ার্ক (যেমন TensorFlow বা PyTorch) মিটমাট করতে সক্ষম
- reproducibility - ডেটা বিজ্ঞানীরা অতীতের পরীক্ষাগুলি (কোড, ডেটা এবং ফলাফল) পুনরায় তৈরি করতে বা পর্যবেক্ষণ করতে সক্ষম
- রাউস ক্ষমতা - ডেটা বিজ্ঞানী এবং এমএল ইঞ্জিনিয়াররা অসঙ্গতি এবং খরচ এড়িয়ে সোর্স কোড এবং এমএল পাইপলাইনগুলি পুনরায় ব্যবহার করতে সক্ষম
- স্কেলেবিলিটি - ডেটা সায়েন্টিস্ট এবং এমএল ইঞ্জিনিয়াররা চাহিদা অনুযায়ী সংস্থান এবং পরিষেবাগুলি স্কেল করতে সক্ষম
- নিরীক্ষণযোগ্যতা - ডেটা সায়েন্টিস্ট, আইটি এবং আইনি বিভাগগুলি নিরীক্ষা করতে সক্ষম হয় লগ, সংস্করণ এবং নিদর্শন এবং ডেটার নির্ভরতা
- ঐক্য – যেহেতু MLOps একাধিক পরিবেশ নিয়ে গঠিত, তাই ফাউন্ডেশনকে পরিবেশের মধ্যে পার্থক্য দূর করতে হবে
প্রাথমিক ধাপ
প্রাথমিক পর্যায়ে, লক্ষ্য হল একটি নিরাপদ পরীক্ষামূলক পরিবেশ তৈরি করা যেখানে ডেটা বিজ্ঞানী SageMaker নোটবুক ব্যবহার করে ডেটা এবং পরীক্ষার স্ন্যাপশট গ্রহণ করে প্রমাণ করে যে ML একটি নির্দিষ্ট ব্যবসায়িক সমস্যার সমাধান করতে পারে। এটি অর্জনের জন্য, VPC এন্ডপয়েন্টের মাধ্যমে পরিষেবাগুলিতে উপযোগী অ্যাক্সেস সহ একটি স্টুডিও পরিবেশ সুপারিশ করা হয়। রেফারেন্স আর্কিটেকচারের সোর্স কোড সেজমেকার টিমের দেওয়া উদাহরণগুলিতে পাওয়া যায় অ্যামাজন সেজমেকার স্টুডিও রেফারেন্স আর্কিটেকচারের সাথে ডেটা সায়েন্স সুরক্ষিত করুন GitHub রেপো।
সেজমেকার পরিষেবাগুলি ছাড়াও, ডেটা বিজ্ঞানীরা ডেটা প্রক্রিয়া করার জন্য অন্যান্য পরিষেবাগুলি ব্যবহার করতে পারেন, যেমন আমাজন ইএমআর, অ্যামাজন অ্যাথেনা, এবং এডাব্লুএস আঠালো, সংরক্ষিত এবং সংস্করণে নোটবুক সহ এডাব্লুএস কোডকমিট সংগ্রহস্থল (নিম্নলিখিত চিত্র দেখুন)।
পুনরাবৃত্তিযোগ্য পর্যায়
ডেটা বিজ্ঞানীরা প্রমাণ করার পরে যে এমএল ব্যবসায়িক সমস্যার সমাধান করতে পারে এবং সেজমেকার পরীক্ষা, প্রশিক্ষণ এবং মডেল স্থাপনের সাথে পরিচিত হয়, পরবর্তী পদক্ষেপটি হল এমএল সমাধান উত্পাদন শুরু করা। নিচের চিত্রটি এই স্থাপত্যকে তুলে ধরে।
এই পর্যায়ে, উদ্বেগ পৃথক করা প্রয়োজন। আমরা পরিবেশকে একাধিক AWS অ্যাকাউন্টে বিভক্ত করেছি:
- ডাটা লেক - প্রাঙ্গনে (বা অন্যান্য সিস্টেম) থেকে ক্লাউডে সমস্ত ইনজেস্ট করা ডেটা সঞ্চয় করে। ডেটা ইঞ্জিনিয়াররা এক্সট্র্যাক্ট, ট্রান্সফর্ম এবং লোড (ETL) পাইপলাইন তৈরি করতে সক্ষম হয় যাতে একাধিক ডেটা উত্স একত্রিত হয় এবং এমএল ব্যবহারের ক্ষেত্রে প্রয়োজনীয় ডেটাসেট প্রস্তুত করে। ডেটা AWS গ্লু ডেটা ক্যাটালগের মাধ্যমে ক্যাটালগ করা হয়েছে এবং এর মাধ্যমে অন্যান্য ব্যবহারকারী এবং অ্যাকাউন্টগুলির সাথে ভাগ করা হয়েছে AWS লেক গঠন (ডেটা গভর্নেন্স লেয়ার)। একই খাতায়, আমাজন সেজমেকার ফিচার স্টোর হোস্ট করা যেতে পারে, কিন্তু আমরা এই পোস্ট এটি কভার না. আরো তথ্যের জন্য, পড়ুন Amazon SageMaker ফিচার স্টোর ব্যবহার করে অ্যাকাউন্ট এবং দল জুড়ে বৈশিষ্ট্য পুনঃব্যবহার সক্ষম করুন.
- পরীক্ষা - ডেটা বিজ্ঞানীদের তাদের গবেষণা পরিচালনা করতে সক্ষম করে। শুধুমাত্র পার্থক্য হল যে ডেটা স্ন্যাপশটগুলির উত্স হল ডেটা লেক। ডেটা সায়েন্টিস্টদের শুধুমাত্র নির্দিষ্ট ডেটাসেটেই অ্যাক্সেস থাকে, যা GDPR বা অন্যান্য ডেটা গোপনীয়তার সীমাবদ্ধতার ক্ষেত্রে বেনামী করা যেতে পারে। অধিকন্তু, ডেটা বিজ্ঞানীদের নতুন ডেটা সায়েন্স ফ্রেমওয়ার্ক বা থার্ড-পার্টি ওপেন-সোর্স লাইব্রেরি ব্যবহার করতে সক্ষম করার জন্য পরীক্ষামূলক অ্যাকাউন্টের ইন্টারনেট অ্যাক্সেস থাকতে পারে। অতএব, পরীক্ষার খাতা অ-উৎপাদন পরিবেশের অংশ হিসাবে বিবেচিত হয়।
- উন্নয়ন (দেব) - উত্পাদন পরিবেশের প্রথম পর্যায়। তথ্য বিজ্ঞানীরা নোটবুক থেকে স্বয়ংক্রিয় ওয়ার্কফ্লো এবং সেজমেকার পাইপলাইনের জগতে চলে যান। তাদের কোড বিমূর্ত করতে এবং পরীক্ষার কভারেজ, ত্রুটি পরিচালনা এবং কোডের গুণমান নিশ্চিত করতে তাদের এমএল ইঞ্জিনিয়ারদের সাথে সহযোগিতা করতে হবে। লক্ষ্য হল এমএল পাইপলাইনগুলি বিকাশ করা, যা স্বয়ংক্রিয় কর্মপ্রবাহ যা সেজমেকার মডেল রেজিস্ট্রিতে মডেলগুলিকে প্রিপ্রসেস, প্রশিক্ষণ, মূল্যায়ন এবং নিবন্ধন করে। এমএল পাইপলাইনের স্থাপনা শুধুমাত্র সিআই/সিডি পাইপলাইনের মাধ্যমে চালিত হয় এবং এডাব্লুএস ম্যানেজমেন্ট কনসোল সীমাবদ্ধ। ইন্টারনেট সংযোগ অনুমোদিত নয় কারণ ML পাইপলাইনের ডেটা লেকে উৎপাদন ডেটার অ্যাক্সেস রয়েছে (শুধুমাত্র পঠনযোগ্য)৷
- টুলিং (বা অটোমেশন) - কোডকমিট রিপোজিটরি হোস্ট করে, AWS কোড পাইপলাইন CI/CD পাইপলাইন, SageMaker মডেল রেজিস্ট্রি, এবং Amazon ECR কাস্টম কন্টেইনার হোস্ট করতে। যেহেতু ডেটা লেক ডেটার জন্য সত্যের একক বিন্দু, টুলিং অ্যাকাউন্ট কোড, কন্টেইনার এবং উত্পাদিত শিল্পকর্মের জন্য।
মনে রাখবেন যে এই অ্যাকাউন্টের নামকরণের নিয়ম এবং মাল্টি-অ্যাকাউন্ট কৌশলটি আপনার ব্যবসার প্রয়োজনের উপর নির্ভর করে পরিবর্তিত হতে পারে, কিন্তু এই কাঠামোটি প্রস্তাবিত বিচ্ছিন্নতার মাত্রা দেখানোর জন্য। উদাহরণস্বরূপ, আপনি মডেল প্রশিক্ষণ বা বিল্ড অ্যাকাউন্টে ডেভেলপমেন্ট অ্যাকাউন্টের নাম পরিবর্তন করতে পারেন।
স্বয়ংক্রিয় স্থাপনা অর্জনের জন্য, নোটবুক থেকে ML পাইপলাইনে কীভাবে সরানো যায় এবং কোড সংগ্রহস্থল এবং ডেটা কাঠামোকে মানক করা যায় তা বোঝা গুরুত্বপূর্ণ, যা আমরা নিম্নলিখিত বিভাগে আলোচনা করব।
নোটবুক থেকে এমএল পাইপলাইন পর্যন্ত
উন্নয়ন পরিবেশের লক্ষ্য হল নোটবুকের কোডকে পুনর্গঠন করা, বৃদ্ধি করা, উন্নতি করা এবং স্কেল করা এবং এটিকে এমএল পাইপলাইনে স্থানান্তর করা। একটি ML পাইপলাইন হল ধাপগুলির একটি সেট যা ডেটা প্রিপ্রসেসিং, ট্রেনিং বা মডেল ব্যবহার করে এবং ফলাফল পোস্টপ্রসেস করার জন্য দায়ী৷ প্রতিটি ধাপে একটি সঠিক কাজ (একটি নির্দিষ্ট রূপান্তর) করা উচিত এবং পুনরায় ব্যবহারযোগ্যতা সক্ষম করতে যথেষ্ট বিমূর্ত হওয়া উচিত (উদাহরণস্বরূপ, ইনপুট পরামিতি হিসাবে কলামের নামগুলি পাস করুন)। নিম্নলিখিত চিত্রটি একটি উদাহরণ পাইপলাইন চিত্রিত করে।
এমএল পাইপলাইন বাস্তবায়ন করতে, ডেটা বিজ্ঞানী (বা এমএল ইঞ্জিনিয়ার) সেজমেকার পাইপলাইন ব্যবহার করেন। একটি সেজমেকার পাইপলাইন হল আন্তঃসংযুক্ত পদক্ষেপগুলির একটি সিরিজ (সেজমেকার প্রক্রিয়াকরণ কাজ, প্রশিক্ষণ, এইচপিও) যা পাইথন SDK ব্যবহার করে একটি JSON পাইপলাইন সংজ্ঞা দ্বারা সংজ্ঞায়িত করা হয়। এই পাইপলাইন সংজ্ঞা একটি নির্দেশিত অ্যাসাইক্লিক গ্রাফ (DAG) ব্যবহার করে একটি পাইপলাইনকে এনকোড করে। এই DAG আপনার ML পাইপলাইনের প্রতিটি ধাপের জন্য প্রয়োজনীয়তা এবং সম্পর্ক সম্পর্কে তথ্য দেয়।
ব্যবহারের ক্ষেত্রের উপর নির্ভর করে, আপনি ML পাইপলাইনটিকে দুটি প্রধান প্রকারে আলাদা করতে পারেন: প্রশিক্ষণ এবং ব্যাচ অনুমান।
নিম্নলিখিত চিত্রটি প্রশিক্ষণ এমএল পাইপলাইন প্রবাহকে চিত্রিত করে।
প্রিপ্রসেসিং ফেজ একাধিক ধাপ নিয়ে গঠিত হতে পারে। সাধারণ ডেটা সায়েন্স ট্রান্সফরমেশন হল ডেটা স্প্লিটিং এবং স্যাম্পলিং (ট্রেন, ভ্যালিডেশন, টেস্ট সেট), ওয়ান-হট এনকোডিং বা ভেক্টরাইজেশন, বিনিং এবং স্কেলিং। মডেল প্রশিক্ষণের ধাপটি হয় একটি প্রশিক্ষণের কাজ হতে পারে, যদি ডেটা বিজ্ঞানী সর্বোত্তম মডেল কনফিগারেশন সম্পর্কে সচেতন হন, অথবা একটি হাইপারপ্যারামিটার অপ্টিমাইজেশান (HPO) কাজ, যেখানে AWS মডেলের জন্য সর্বোত্তম হাইপারপ্যারামিটার সংজ্ঞায়িত করে (বায়েসিয়ান পদ্ধতি) এবং সংশ্লিষ্ট তৈরি করে। মডেল আর্টিফ্যাক্ট। মূল্যায়ন ধাপে, উত্পাদিত মডেল আর্টিফ্যাক্টটি বৈধতা ডেটাসেটের অনুমান করতে ব্যবহৃত হয়। তারপরে ML পাইপলাইন পরীক্ষা করে যে উত্পাদিত নির্ভুলতা মেট্রিক্স (যেমন F1, নির্ভুলতা এবং লাভ ডেসিল) প্রয়োজনীয় থ্রেশহোল্ডগুলি অতিক্রম করে কিনা। এই ধাপটি সফল হলে, মডেল আর্টিফ্যাক্ট এবং মেটাডেটা উৎপাদনের জন্য মডেল রেজিস্ট্রিতে সরানো হয়। উল্লেখ্য যে রপ্তানি বেসলাইন পদক্ষেপ শোষণ করে অ্যামাজন সেজমেকার মডেল মনিটর কার্যকারিতা, পরিসংখ্যান সহ একটি JSON অবজেক্ট তৈরি করে যা মডেল ড্রিফটিং সনাক্তকরণের জন্য পরে ব্যবহৃত হয় এবং মডেল মেটাডেটা হিসাবে সেজমেকার মডেল রেজিস্ট্রিতে হোস্ট করা যেতে পারে।
ব্যাচ ইনফারেন্সের ক্ষেত্রে, ডেটা বিজ্ঞানীরা অনুরূপ পাইপলাইন তৈরি করতে সক্ষম, যেমনটি নিম্নলিখিত চিত্রে চিত্রিত হয়েছে।
ব্যাচ ইনফারেন্সের প্রি-প্রসেসিং ধাপটি প্রায়শই ডেটা স্যাম্পলিং এবং গ্রাউন্ড ট্রুথের কলাম বাদ দিয়ে প্রশিক্ষণের মতোই। ব্যাচ ইনফারেন্স হল এমন একটি ধাপ যা সংশ্লিষ্ট এন্ডপয়েন্টের অনুমানের জন্য ব্যাচগুলিতে ডেটা পাঠায় এবং এটি ব্যবহার করে প্রয়োগ করা যেতে পারে ব্যাচ রূপান্তর. পোস্টপ্রসেসিং ধাপ অতিরিক্ত পরিসংখ্যান তৈরি করে, যেমন ফলাফল বিতরণ, বা বহিরাগত আইডিগুলির সাথে ফলাফলের সাথে যোগ দেয়। তারপর, একটি মডেল মনিটর ধাপ প্রশিক্ষণের জন্য ব্যবহৃত ডেটার বেসলাইন পরিসংখ্যান (মডেল রেজিস্ট্রিতে JSON মেটাডেটা) অনুমানের জন্য নতুন আগত ডেটার সাথে তুলনা করতে সক্ষম।
যদি ডেটা বিজ্ঞানীরা সেজমেকার মডেল রেজিস্ট্রিতে সংরক্ষণ করা যেতে পারে এমন পাইপলাইন মডেল তৈরি করে তবে আপনি প্রিপ্রসেসিং পদক্ষেপগুলি এড়িয়ে যেতে পারেন। আরো বিস্তারিত জানার জন্য, পড়ুন একটি শেষ পয়েন্টের পিছনে সিরিয়াল ইনফারেন্স পাইপলাইন হিসাবে প্রাক-প্রসেসিং লজিক সহ হোস্ট মডেলগুলি.
স্ট্যান্ডার্ডাইজিং ভান্ডার
ডেটা সায়েন্টিস্ট এবং এমএল ইঞ্জিনিয়ারদের মধ্যে সহযোগিতা সক্ষম করার জন্য, কোড রিপোজিটরি কাঠামোর প্রমিতকরণ প্রয়োজন। এছাড়াও, CI/CD পাইপলাইন কাঠামোর জন্য মানককরণ উপকারী, স্বয়ংক্রিয় বৈধতা, বিল্ডিং (যেমন কাস্টম কন্টেইনার বিল্ডিং) এবং পরীক্ষার পদক্ষেপগুলি অন্তর্ভুক্ত করতে সক্ষম করে।
নিম্নলিখিত উদাহরণ দুটি সংগ্রহস্থলে ML সমাধানগুলির বিভাজনকে চিত্রিত করে: প্রশিক্ষণের জন্য একটি বিল্ডিং এবং প্রশিক্ষণ সংগ্রহস্থল (এবং ঐচ্ছিকভাবে পাইপলাইন মডেল), এবং ব্যাচ ইনফারেন্স পাইপলাইন মডেলগুলিকে প্রচার করতে বা রিয়েল-টাইম এন্ডপয়েন্টগুলিকে ইনস্ট্যান্টিয়েট করার জন্য স্থাপনা:
বিল্ডিং/ট্রেনিং রিপোজিটরি
স্থাপনা সংগ্রহস্থল
বিল্ডিং এবং ট্রেনিং রিপোজিটরি তিনটি প্রধান ফোল্ডারে বিভক্ত:
- আলগোরিদিম - ডেটা বিজ্ঞানীরা অ্যালগরিদম রুট ফোল্ডারে এমএল পাইপলাইনের প্রতিটি ধাপের জন্য কোড তৈরি করে। পদক্ষেপগুলি প্রিপ্রসেসিং, প্রশিক্ষণ, ব্যাচ ইনফারেন্স এবং পোস্টপ্রসেসিং (মূল্যায়ন) এ গোষ্ঠীভুক্ত করা যেতে পারে। প্রতিটি গ্রুপে, একাধিক ধাপ সংশ্লিষ্ট সাবফোল্ডারে সংজ্ঞায়িত করা যেতে পারে, যেটিতে ইউনিট পরীক্ষার জন্য একটি ফোল্ডার থাকে (ঐচ্ছিক ইনপুট এবং আউটপুট সহ), প্রধান ফাংশন, রিডমি এবং একটি কাস্টম ধারক প্রয়োজনের ক্ষেত্রে একটি ডকার ফাইল। প্রধান ছাড়াও, একাধিক কোড ফাইল একই ফোল্ডারে হোস্ট করা যেতে পারে। সমস্ত পদক্ষেপের জন্য সাধারণ সাহায্যকারী লাইব্রেরিগুলি একটি ভাগ করা লাইব্রেরি ফোল্ডারে হোস্ট করা যেতে পারে। ডেটা বিজ্ঞানীরা ইউনিট পরীক্ষার বিকাশের জন্য দায়ী কারণ তারা পদক্ষেপগুলির যুক্তির মালিক, এবং এমএল ইঞ্জিনিয়াররা ত্রুটি পরিচালনার উন্নতি এবং পরীক্ষার কভারেজ সুপারিশের জন্য দায়ী। সিআই/সিডি পাইপলাইন পরীক্ষা চালানোর জন্য, স্বয়ংক্রিয়ভাবে কন্টেইনার তৈরি করার জন্য (যদি প্রয়োজন হয়), এবং একাধিক সোর্স কোড ফাইল প্যাকেজ করার জন্য দায়ী।
- এমএল পাইপলাইন - আপনি প্রতিটি ধাপের সোর্স কোড এবং পরীক্ষাগুলি বিকাশ করার পরে, পরবর্তী ধাপটি হল অন্য রুট ফোল্ডারে সেজমেকার পাইপলাইনগুলি সংজ্ঞায়িত করা। প্রতিটি ML পাইপলাইন সংজ্ঞা সাবফোল্ডারে স্থাপন করা হয় যাতে .py ফাইল এবং ইনপুট প্যারামিটারের জন্য একটি JSON বা .yaml ফাইল থাকে, যেমন হাইপারপ্যারামিটার রেঞ্জ। এমএল পাইপলাইন বর্ণনা করার জন্য একটি রিডমি ফাইল প্রয়োজন।
- নোটবুক - এই ফোল্ডারটি মূল নোটবুকগুলি হোস্ট করে যা ডেটা বিজ্ঞানী পরীক্ষার সময় ব্যবহার করেছিলেন।
স্থাপনার সংগ্রহস্থল তিনটি প্রধান অংশ নিয়ে গঠিত:
- অনুমান কনফিগারেশন - রিয়েল-টাইম এন্ডপয়েন্টের কনফিগারেশন বা বিকাশ পরিবেশ প্রতি ব্যাচ ইনফারেন্স, যেমন উদাহরণের ধরন রয়েছে।
- অ্যাপ্লিকেশন পরিকাঠামো - প্রয়োজনে অনুমান চালানোর জন্য প্রয়োজনীয় অবকাঠামোর সোর্স কোড হোস্ট করে। এই মাধ্যমে একটি ট্রিগার প্রক্রিয়া হতে পারে অ্যামাজন ইভেন্টব্রিজ, অ্যামাজন এপিআই গেটওয়ে, এডাব্লুএস ল্যাম্বদা ফাংশন, বা সেজমেকার পাইপলাইন।
- টেস্ট - গ্রাহক পরীক্ষার পদ্ধতির উপর নির্ভর করে একাধিক সাবফোল্ডার নিয়ে গঠিত। পরীক্ষার ন্যূনতম সেট হিসাবে, আমরা একটি ইন্টিগ্রেশন টেস্ট (অ্যাপ্লিকেশন পরিকাঠামো সহ অনুমানের শেষ থেকে শেষ রান), স্ট্রেস টেস্ট (এজ কেস পরীক্ষা করা) এবং ML পরীক্ষা (যেমন আত্মবিশ্বাসের স্কোর বা সম্ভাবনার বিতরণ) পরামর্শ দিই।
বিল্ডিং এবং ট্রেনিং রিপোজিটরিতে পরিবর্তন করার মাধ্যমে, একটি CI/CD পাইপলাইন রিপোজিটরি স্ট্রাকচার যাচাইকরণ, পরীক্ষাগুলি সম্পাদন এবং ML পাইপলাইন স্থাপন ও চালানোর জন্য দায়ী। একটি ভিন্ন CI/CD পাইপলাইন মডেলগুলির প্রচারের জন্য দায়ী, যা আমরা নিম্নলিখিত বিভাগে পরীক্ষা করব।
স্ট্যান্ডার্ডাইজিং রিপোজিটরি ব্রাঞ্চিং এবং সিআই/সিডি
ডেভ অ্যাকাউন্টে ML পাইপলাইনগুলির দৃঢ়তা নিশ্চিত করার জন্য, একটি বহু-শাখার সংগ্রহস্থলের কৌশল প্রস্তাবিত হয়, যখন স্থাপনাটি শুধুমাত্র CI/CD পাইপলাইনের মাধ্যমে সঞ্চালিত হয়। ডেটা বিজ্ঞানীদের তাদের নতুন কার্যকারিতা (সোর্স কোড) বিকাশের জন্য একটি বৈশিষ্ট্য শাখা ব্যবহার করা উচিত। যখন তারা সংশ্লিষ্ট ML পাইপলাইন স্থাপন করতে প্রস্তুত হয়, তখন তারা এটিকে বিকাশ শাখায় ঠেলে দিতে পারে। এই পদ্ধতির একটি বিকল্প হল বৈশিষ্ট্য শাখা প্রতি ML পাইপলাইন স্থাপনের অনুমতি দেওয়া। আরো তথ্যের জন্য, পড়ুন AWS ব্যবহার করে একটি বহু-শাখা প্রশিক্ষণ MLOps পাইপলাইনের মাধ্যমে আপনার ডেটা বিজ্ঞানের কর্মপ্রবাহ উন্নত করুন.
নিম্নলিখিত চিত্রটি শাখার কৌশল এবং প্রয়োজনীয় CI/CD পাইপলাইন পদক্ষেপগুলিকে চিত্রিত করে যা আমরা ML পাইপলাইন এবং মডেল বিল্ডিংয়ের জন্য ডেভ পরিবেশে চালাই।
বহু-শাখা পদ্ধতির কোড উদাহরণ পাওয়া যায় মাল্টি-শাখা MLOps প্রশিক্ষণ পাইপলাইন. আমরা একটি বৈশিষ্ট্য শাখা-ভিত্তিক ML পাইপলাইন দ্বারা উত্পাদিত মডেলগুলিকে একটি পৃথক বৈশিষ্ট্য মডেল গ্রুপে সংরক্ষণ করতে পারি এবং মূল শাখার সাথে একীভূত করার অনুরোধের সময় সেগুলিকে বাতিল করতে পারি। প্রধান মডেল গ্রুপের মডেলগুলিই উৎপাদনে উন্নীত হয়।
স্ট্যান্ডার্ডাইজিং ডেটা স্ট্রাকচার
সোর্স কোড স্ট্যান্ডার্ডাইজেশনের জন্য সমানভাবে গুরুত্বপূর্ণ হল ডেটার স্ট্রাকচার স্ট্যান্ডার্ডাইজেশন, যা ডেটা বিজ্ঞানী এবং এমএল ইঞ্জিনিয়ারদের ডিবাগ, অডিট এবং মডেল এবং এমএল পাইপলাইনের উৎপত্তি ও ইতিহাস পর্যবেক্ষণ করতে দেয়। নিম্নলিখিত চিত্রটি এমন একটি উদাহরণ তুলে ধরে।
সরলতার জন্য, অনুমান করা যাক যে ইনপুট ঐতিহাসিক ডেটা ইনপুট সাব-কি (সাধারণত এটি ডেটা লেকে অবস্থিত) এর অধীনে বিকাশ অ্যাকাউন্টের একটি বালতিতে ল্যান্ড করে। প্রতিটি ML ব্যবহারের ক্ষেত্রে, একটি পৃথক উপ-কী তৈরি করা প্রয়োজন। চালানোর জন্য একটি নতুন ML পাইপলাইন ট্রিগার করতে, ডেটা বিজ্ঞানীকে একটি গিট কমিট এবং পুশ করতে হবে, যা CI/CD পাইপলাইনকে ট্রিগার করে। তারপরে CI/CD পাইপলাইন কোড আর্টিফ্যাক্টগুলি অনুলিপি করে একটি সাব-কি তৈরি করে ( code
উপ-কী) এবং ইনপুট ডেটা (দি input
সাব-কী) বিল্ড আইডির একটি সাব-পার্টিশনের অধীনে. উদাহরণ হিসেবে বিল্ড আইডি cতারিখ-সময় এবং গিট হ্যাশের সংমিশ্রণ, অথবা একটি SageMaker পাইপলাইন রান আইডি। এই কাঠামো ডেটা সায়েন্টিস্টকে অতীতের স্থাপনা এবং রানের অডিট এবং অনুসন্ধান করতে সক্ষম করে। এর পরে, CI/CD পাইপলাইন এমএল পাইপলাইন স্থাপন করে এবং ট্রিগার করে। যখন ML পাইপলাইন চলছে, প্রতিটি ধাপ মধ্যবর্তী ফলাফল রপ্তানি করে ml-pipeline-outputs
. এটি মনে রাখা গুরুত্বপূর্ণ যে বিভিন্ন বৈশিষ্ট্য শাখাগুলি ML পাইপলাইনের একটি নতুন উদাহরণ স্থাপন এবং চালায় এবং প্রতিটিকে একটি নতুন সাব-কি এবং/অথবা একটি প্রমিত উপসর্গ বা প্রত্যয় সহ বিভিন্ন সাব-ফোল্ডারে মধ্যবর্তী ফলাফল রপ্তানি করতে হবে বৈশিষ্ট্য শাখা আইডি।
এই পদ্ধতিটি প্রতিটি পরীক্ষার সম্পূর্ণ নিরীক্ষাযোগ্যতা সমর্থন করে। যাইহোক, উন্নয়ন কৌশলের বহু-শাখা পদ্ধতি প্রচুর পরিমাণে ডেটা তৈরি করে। অতএব, একটি ডেটা জীবনচক্র কৌশল প্রয়োজন। আমরা প্রতিটি সফল টান/একত্রীকরণ অনুরোধে প্রতিটি বৈশিষ্ট্য শাখা ML পাইপলাইনের অন্তত ডেটা মুছে ফেলার পরামর্শ দিই। কিন্তু এটি নির্ভর করে অপারেটিং মডেল এবং অডিট গ্রানুলারিটির উপর আপনার ব্যবসাকে সমর্থন করতে হবে। আপনি ব্যাচ ইনফারেন্স এমএল পাইপলাইনে অনুরূপ পদ্ধতি ব্যবহার করতে পারেন
নির্ভরযোগ্য পর্যায়
একাধিক অ্যাকাউন্ট ব্যবহার করে ডেটা সায়েন্টিস্ট, এমএল ইঞ্জিনিয়ার এবং ডেটা ইঞ্জিনিয়ারদের মধ্যে উদ্বেগের প্রাথমিক বিভাজন করার পর, পরবর্তী ধাপ হল মডেল রেজিস্ট্রি থেকে উৎপাদিত মডেলগুলিকে অনুমান করার জন্য একটি বিচ্ছিন্ন পরিবেশে উন্নীত করা। যাইহোক, আমাদের স্থাপন করা মডেলগুলির দৃঢ়তা নিশ্চিত করতে হবে। অতএব, উৎপাদনের মিরর পরিবেশে স্থাপন করা মডেলের একটি সিমুলেশন বাধ্যতামূলক, যথা প্রাক-উৎপাদন (বা স্টেজিং)।
নিচের চিত্রটি এই স্থাপত্যকে তুলে ধরে।
প্রি-প্রোডাকশন এনভায়রনমেন্টে মডেল এবং এন্ডপয়েন্ট ডিপ্লয়মেন্টের প্রচার মডেল রেজিস্ট্রি স্ট্যাটাস আপডেট ইভেন্ট (বা ডিপ্লয়মেন্ট রিপোজিটরিতে গিট পুশ) ব্যবহার করে সম্পাদিত হয়, যা ইভেন্টব্রিজ ইভেন্ট ব্যবহার করে একটি আলাদা CI/CD পাইপলাইন ট্রিগার করে। CI/CD পাইপলাইনের প্রথম ধাপে লিড ডেটা সায়েন্টিস্ট (এবং ঐচ্ছিকভাবে পণ্যের মালিক, ব্যবসায়িক বিশ্লেষক বা অন্যান্য লিড ডেটা বিজ্ঞানী) দ্বারা একটি ম্যানুয়াল অনুমোদনের অনুরোধ করা হয়। অনুমোদনকারীকে মডেলের পারফরম্যান্স কেপিআই এবং ডিপ্লয়মেন্ট রিপোজিটরিতে কোডের QA যাচাই করতে হবে। অনুমোদনের পরে, CI/CD পাইপলাইন পরীক্ষার কোডটি স্থাপনার সংগ্রহস্থলে চালায় (একীকরণ পরীক্ষা, স্ট্রেস পরীক্ষা, ML পরীক্ষা)। মডেল এন্ডপয়েন্ট ছাড়াও, CI/CD ট্রিগারিং অবকাঠামো যেমন ইভেন্টব্রিজ, ল্যাম্বডা ফাংশন, বা API গেটওয়ে পরীক্ষা করে। নিম্নলিখিত চিত্রটি এই আপডেট করা আর্কিটেকচার দেখায়।
পরীক্ষাগুলি সফলভাবে চালানোর পরে, CI/CD পাইপলাইন নতুন (বা একই) অনুমোদনকারীদের সূচিত করে যে একটি মডেল উৎপাদনে উন্নীত হওয়ার জন্য প্রস্তুত। এই পর্যায়ে, ব্যবসা বিশ্লেষক মডেলের ফলাফলের উপর কিছু অতিরিক্ত পরিসংখ্যানগত হাইপোথিসিস পরীক্ষা করতে চাইতে পারেন। অনুমোদনের পরে, মডেল এবং ট্রিগারিং অবকাঠামো উৎপাদনে স্থাপন করা হয়। একাধিক স্থাপনার পদ্ধতি SageMaker দ্বারা সমর্থিত, যেমন নীল/সবুজ, ক্যানারি, এবং A/B পরীক্ষা (এতে আরও দেখুন স্থাপনার গার্ডেল) যদি CI/CD পাইপলাইন ব্যর্থ হয়, একটি রোলব্যাক মেকানিজম সিস্টেমটিকে সর্বশেষ শক্তিশালী অবস্থায় ফিরিয়ে দেয়।
নিম্নলিখিত চিত্রটি একটি মডেলকে উন্নীত করার জন্য CI/CD পাইপলাইনের প্রধান পদক্ষেপ এবং মডেল এন্ডপয়েন্ট, যেমন API গেটওয়ে, ল্যাম্বডা ফাংশন এবং ইভেন্টব্রিজকে ট্রিগার করার জন্য পরিকাঠামোকে চিত্রিত করে।
ডেটা লেক এবং MLOps ইন্টিগ্রেশন
এই মুহুর্তে, বিকাশের পর্যায় বা অ্যাকাউন্টের প্রতি ডেটা প্রয়োজনীয়তা এবং কেন্দ্রীভূত ডেটা লেকের সাথে MLOpsকে অন্তর্ভুক্ত করার উপায় বোঝা গুরুত্বপূর্ণ। নিম্নলিখিত চিত্রটি MLOps এবং ডেটা লেক স্তরগুলিকে চিত্রিত করে৷
ডেটা লেকে, ডেটা ইঞ্জিনিয়াররা ETL তৈরি করে এমএল ব্যবহারের ক্ষেত্রে একাধিক ডেটা উত্সে যোগদান এবং সংশ্লিষ্ট ডেটাসেটগুলি (উদাহরণস্বরূপ, কাঠামো ডেটার একটি একক টেবিল, বা পিডিএফ ফাইল বা চিত্র সহ একটি একক ফোল্ডার) তৈরি করার জন্য দায়ী। ডেটা বিজ্ঞানীদের দ্বারা সংজ্ঞায়িত পাইপলাইনগুলি (অন্বেষণ ডেটা বিশ্লেষণের পর্যায়ে)। এই ডেটাসেটগুলিকে ঐতিহাসিক তথ্য এবং উপাত্তে বিভক্ত করা যেতে পারে অনুমান এবং পরীক্ষার জন্য। সমস্ত ডেটা ক্যাটালগ করা হয়েছে (উদাহরণস্বরূপ, AWS গ্লু ডেটা ক্যাটালগের সাথে), এবং লেক ফরমেশনকে ডেটা গভর্নেন্স লেয়ার হিসাবে ব্যবহার করে (স্ট্রাকচার্ড ডেটার জন্য) অন্যান্য অ্যাকাউন্ট এবং ব্যবহারকারীদের সাথে ভাগ করা যেতে পারে। এই লেখার মতো, লেক ফর্মেশন শুধুমাত্র অ্যাথেনা প্রশ্ন, AWS গ্লু জবস এবং অ্যামাজন EMR এর সাথে সামঞ্জস্যপূর্ণ।
অন্যদিকে, MLOps এনভায়রনমেন্টের জন্য ML পাইপলাইনগুলিকে dev, pre-prod এবং prod-এ স্থানীয় বালতিতে অবস্থিত নির্দিষ্ট ডেটাসেট দিয়ে সেচ করতে হবে। ডেভ এনভায়রনমেন্ট ডেটা লেক থেকে ডেটা টেনে SageMaker পাইপলাইন ব্যবহার করে চাহিদা অনুযায়ী মডেল তৈরি ও প্রশিক্ষণের জন্য দায়ী। তাই, পাইপলাইনের প্রথম ধাপ হিসেবে আমরা পরামর্শ দিই যে হয় একটি অ্যাথেনা ধাপ, যেখানে শুধুমাত্র ডেটা স্যাম্পলিং এবং অনুসন্ধানের প্রয়োজন হয়, অথবা আরও জটিল রূপান্তরের প্রয়োজন হলে একটি Amazon EMR ধাপ। বিকল্পভাবে, আপনি একটি কলব্যাক পদক্ষেপের মাধ্যমে একটি AWS আঠালো কাজ ব্যবহার করতে পারেন, কিন্তু সেজমেকার পাইপলাইনগুলির সাথে এখনও একটি নেটিভ পদক্ষেপ হিসাবে নয়।
প্রি-প্রোড এবং প্রোড হয় রিয়েল-টাইম এবং ব্যাচ ইনফারেন্স পরীক্ষা বা পরিচালনার জন্য দায়ী। রিয়েল-টাইম ইনফারেন্সের ক্ষেত্রে, MLOps প্রাক-প্রোড এবং প্রোড অ্যাকাউন্টগুলিতে ডেটা পাঠানোর প্রয়োজন নেই কারণ অনুমানের জন্য ইনপুট API গেটওয়ে অনুরোধের পেলোডে পিগি-ব্যাক করতে পারে। ব্যাচ ইনফারেন্সের (বা বড় আকারের ইনপুট ডেটা) ক্ষেত্রে, প্রয়োজনীয় ডেটাসেটগুলি, হয় পরীক্ষার ডেটা বা অনুমানের জন্য ডেটা, স্থানীয় ML ডেটা বাকেটগুলিতে (প্রি-প্রোড বা প্রোড) অবতরণ করতে হবে। প্রি-প্রোড এবং প্রোড-এ ডেটা সরানোর জন্য আপনার কাছে দুটি বিকল্প রয়েছে: হয় অ্যাথেনা বা অ্যামাজন EMR ট্রিগার করে এবং ডেটা লেক থেকে ডেটা টেনে, অথবা ডেটা লেক থেকে সেই MLOps অ্যাকাউন্টগুলিতে ডেটা পুশ করে৷ প্রথম বিকল্পটির জন্য MLOps অ্যাকাউন্টগুলিতে অতিরিক্ত প্রক্রিয়ার বিকাশ প্রয়োজন, উদাহরণস্বরূপ, নির্ধারিত ইভেন্টব্রিজ ইভেন্ট তৈরি করা (ডেটা লেকের ডেটা আপডেট করা থাকলে জ্ঞান ছাড়াই) বা ডেটা লেকের S3 ইভেন্টব্রিজ ইভেন্টগুলিতে অন-ডেটা আগমন (এর জন্য আরো বিস্তারিত, দেখুন অ্যামাজন ইভেন্টব্রিজ রিসোর্স নীতির সাথে ক্রস-অ্যাকাউন্ট অ্যাক্সেস সহজ করা) MLOps সাইডে ইভেন্টটি ধরার পরে, একটি Athena ক্যোয়ারী বা Amazon EMR স্থানীয়ভাবে ডেটা আনতে পারে এবং ট্রিগার করতে পারে অ্যাসিঙ্ক্রোনাস অনুমান or ব্যাচ রূপান্তর. এটি সরলতার জন্য একটি সেজমেকার পাইপলাইনে মোড়ানো যেতে পারে। দ্বিতীয় বিকল্পটি হল ETL পাইপলাইনের শেষ ধাপে MLOps বালতিতে ডেটা পুশ করার কার্যকারিতা যোগ করা। যাইহোক, এই পদ্ধতিটি দায়িত্বগুলিকে মিশ্রিত করে (ডেটা লেক অনুমানকে ট্রিগার করে) এবং MLOps বালতিতে লেখার জন্য ডেটা লেকে অ্যাক্সেস দেওয়ার জন্য লেক ফর্মেশনের প্রয়োজন।
শেষ ধাপ হল ইনফারেন্সের ফলাফলগুলিকে ডেটা লেকে ফিরিয়ে আনা। ডেটা ক্যাটালগ করতে এবং এটি অন্যান্য ব্যবহারকারীদের কাছে উপলব্ধ করতে, ডেটা ল্যান্ডিং বাকেটে একটি নতুন ডেটা উত্স হিসাবে ফিরে আসা উচিত৷
স্কেলেবল ফেজ
MLOps ফাউন্ডেশনের বিকাশ এবং প্রথম ML ব্যবহারের ক্ষেত্রে এন্ড-টু-এন্ড প্রোডাকশনাইজেশনের পরে, dev, pre-prod, prod এবং রিপোজিটরি, CI/CD পাইপলাইন এবং ডেটা স্ট্রাকচারের পরিকাঠামো পরীক্ষা ও চূড়ান্ত করা হয়েছে। . পরবর্তী পদক্ষেপটি হল প্ল্যাটফর্মে নতুন এমএল ব্যবহারের কেস এবং দলগুলিকে অনবোর্ড করা। গতি-থেকে-মান নিশ্চিত করতে, সেজমেকার আপনাকে কাস্টম সেজমেকার প্রকল্প টেমপ্লেট তৈরি করতে দেয়, যা আপনি স্বয়ংক্রিয়ভাবে টেমপ্লেট সংগ্রহস্থল এবং সিআই/সিডি পাইপলাইনগুলিকে ইনস্ট্যান্টিয়েট করতে ব্যবহার করতে পারেন। এই ধরনের SageMaker প্রকল্পের টেমপ্লেটগুলির সাথে, প্রধান ডেটা বিজ্ঞানীরা নতুন প্রকল্পগুলিকে সূচনা করার জন্য এবং নতুন এমএল ব্যবহারের ক্ষেত্রে একটি ডেডিকেটেড টিম বরাদ্দ করার জন্য দায়ী৷
নিচের চিত্রটি এই প্রক্রিয়াটিকে ব্যাখ্যা করে।
সমস্যাটি আরও জটিল হয়ে ওঠে যদি বিভিন্ন ডেটা সায়েন্টিস্ট টিম (অথবা একাধিক ব্যবসায়িক ইউনিট যেগুলিকে ML উত্পাদন করতে হয়) বিভিন্ন গোপনীয় ডেটাতে অ্যাক্সেস থাকে এবং একাধিক পণ্য মালিকরা মডেলগুলির প্রশিক্ষণ, স্থাপনা এবং চালানোর জন্য একটি পৃথক বিল পরিশোধের জন্য দায়ী। . তাই, দল প্রতি MLOps অ্যাকাউন্টের একটি পৃথক সেট (পরীক্ষা, ডেভ, প্রি-প্রোড এবং প্রোড) প্রয়োজন। নতুন MLOps অ্যাকাউন্টগুলি সহজে তৈরি করতে সক্ষম করার জন্য, আমরা আরেকটি অ্যাকাউন্ট প্রবর্তন করি, অ্যাডভান্স অ্যানালিটিক্স গভর্নেন্স অ্যাকাউন্ট, যা আইটি সদস্যদের দ্বারা অ্যাক্সেসযোগ্য এবং তাদের চাহিদা অনুযায়ী MLOps অ্যাকাউন্টগুলিকে ক্যাটালগ, তাত্ক্ষণিক বা ডিকমিশন করার অনুমতি দেয়। বিশেষ করে, এই অ্যাকাউন্টে MLOps অ্যাকাউন্টের (VPC, সাবনেট, এন্ডপয়েন্ট, বালতি, এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট (আইএএম) ভূমিকা এবং নীতি, এডাব্লুএস ক্লাউডফর্মেশন স্ট্যাকস), একটি AWS পরিষেবা ক্যাটালগ পণ্য স্বয়ংক্রিয়ভাবে পরিকাঠামোর ক্লাউডফরমেশন স্ট্যাকগুলিকে একাধিক অ্যাকাউন্টে এক ক্লিকে স্থাপন করতে, এবং একটি আমাজন ডায়নামোডিবি মেটাডেটা ক্যাটালগ করার টেবিল, যেমন কোন দল অ্যাকাউন্টের প্রতিটি সেটের জন্য দায়ী। এই ক্ষমতার সাথে, আইটি টিম চাহিদা অনুযায়ী MLOps অ্যাকাউন্টগুলিকে তাত্ক্ষণিক করে এবং প্রয়োজনীয় ব্যবহারকারী, অ্যাকাউন্ট প্রতি ডেটা অ্যাক্সেস এবং ধারাবাহিক নিরাপত্তা সীমাবদ্ধতা বরাদ্দ করে।
এই দৃশ্যের উপর ভিত্তি করে, আমরা অ্যাকাউন্টগুলিকে ক্ষণস্থায়ী এবং টেকসই হিসাবে আলাদা করি। ডেটা লেক এবং টুলিং হল টেকসই অ্যাকাউন্ট এবং যথাক্রমে ডেটা এবং সোর্স কোডের জন্য সত্যের একক পয়েন্টের ভূমিকা পালন করে। MLOps অ্যাকাউন্টগুলি বেশিরভাগই রাষ্ট্রবিহীন এবং চাহিদা অনুযায়ী তাৎক্ষণিক বা ডিকমিশন করা হয়, সেগুলিকে ক্ষণস্থায়ী করে তোলে। এমনকি MLOps অ্যাকাউন্টগুলির একটি সেট বাতিল করা হলেও, ব্যবহারকারী বা নিরীক্ষকরা অতীতের পরীক্ষাগুলি এবং ফলাফলগুলি পরীক্ষা করতে সক্ষম হয় কারণ সেগুলি টেকসই পরিবেশে সংরক্ষণ করা হয়।
আপনি যদি MLOps-এর জন্য Studio UI ব্যবহার করতে চান, তাহলে নিচের চিত্র অনুযায়ী টুলিং অ্যাকাউন্টটি dev অ্যাকাউন্টের অংশ।
ব্যবহারকারী যদি MLOps-এর জন্য Sagemaker Studio UI ব্যবহার করতে চান, তাহলে টুলিং অ্যাকাউন্টটি dev-এর অংশ
উপরের চিত্র অনুযায়ী অ্যাকাউন্ট। এই MLOPs ফাউন্ডেশনের উদাহরণ সোর্স কোড পাওয়া যাবে
সিডিকে-এর উপর ভিত্তি করে মাল্টি-অ্যাকাউন্ট MLOps ফাউন্ডেশন সুরক্ষিত করুন.
উল্লেখ্য যে সেজমেকার কোডকমিট এবং কোডপাইপলাইনকে অন্য তৃতীয় পক্ষের উন্নয়ন সরঞ্জাম যেমন গিটহাব এবং জেনকিন্স দ্বারা প্রতিস্থাপন করার ক্ষমতা প্রদান করে (আরো বিশদ বিবরণ এখানে পাওয়া যাবে Amazon SageMaker প্রকল্প তৈরি করুন তৃতীয় পক্ষের উৎস নিয়ন্ত্রণ এবং জেনকিন্স ব্যবহার করে এবং Amazon SageMaker প্রকল্প MLOps GitLab এবং GitLab পাইপলাইন সহ টেমপ্লেট).
ব্যক্তিত্ব, অপারেশন এবং প্রযুক্তির সারাংশ
MLOps পরিপক্কতা মডেলের সাথে, আমরা একটি পরিষ্কার আর্কিটেকচার ডিজাইন এবং ডেলিভারি রোডম্যাপ সংজ্ঞায়িত করতে পারি। যাইহোক, প্রতিটি ব্যক্তিত্বের সাথে ইন্টারঅ্যাক্ট করার জন্য মূল AWS অ্যাকাউন্ট এবং পরিষেবাগুলি এবং পরিচালনা করার জন্য ক্রিয়াকলাপগুলির একটি পরিষ্কার দৃষ্টিভঙ্গি থাকা দরকার। নিম্নলিখিত চিত্রটি সেই বিভাগগুলির সংক্ষিপ্ত বিবরণ দেয়৷
উপসংহার
একটি শক্তিশালী MLOps ফাউন্ডেশন, যা একাধিক ব্যক্তি এবং প্রযুক্তির মধ্যে মিথস্ক্রিয়াকে স্পষ্টভাবে সংজ্ঞায়িত করে, গতি-থেকে-মান বাড়াতে এবং খরচ কমাতে পারে এবং ডেটা বিজ্ঞানীদের উদ্ভাবনের উপর ফোকাস করতে সক্ষম করে। এই পোস্টে, আমরা দেখিয়েছি কিভাবে পর্যায়ক্রমে এই ধরনের একটি ভিত্তি তৈরি করা যায়, যার ফলে ব্যবসার জন্য একটি মসৃণ MLOps পরিপক্কতা মডেল এবং একাধিক ডেটা সায়েন্স টিম এবং উৎপাদনে এমএল ব্যবহারের ক্ষেত্রে সমর্থন করার ক্ষমতা। আমরা একাধিক দক্ষতা এবং দায়িত্ব সহ একাধিক ব্যক্তি সমন্বিত একটি অপারেটিং মডেল সংজ্ঞায়িত করেছি। অবশেষে, আমরা কোড ডেভেলপমেন্ট (রিপোজিটরি এবং সিআই/সিডি পাইপলাইন), ডেটা স্টোরেজ এবং শেয়ারিং এবং এমএলওপি এন্টারপ্রাইজ এনভায়রনমেন্টের জন্য সুরক্ষিত পরিকাঠামোর ব্যবস্থা কীভাবে মানসম্মত করা যায় তার উদাহরণ শেয়ার করেছি। অনেক এন্টারপ্রাইজ গ্রাহকরা এই পদ্ধতি গ্রহণ করেছেন এবং মাসের পরিবর্তে দিনের মধ্যে তাদের এমএল সমাধান উত্পাদন করতে সক্ষম হয়েছেন।
আপনার যদি কোনও মন্তব্য বা প্রশ্ন থাকে তবে দয়া করে মন্তব্য বিভাগে রেখে দিন।
লেখক সম্পর্কে
ডঃ সোক্রতিস কার্তকিস অ্যামাজন ওয়েব পরিষেবাগুলির জন্য একজন সিনিয়র মেশিন লার্নিং স্পেশালিস্ট সলিউশন আর্কিটেক্ট৷ Sokratis এন্টারপ্রাইজ গ্রাহকদের AWS পরিষেবাগুলিকে কাজে লাগিয়ে এবং তাদের অপারেটিং মডেলকে, যেমন MLOps ফাউন্ডেশন, এবং সর্বোত্তম উন্নয়ন অনুশীলনগুলিকে কাজে লাগিয়ে রূপান্তর রোডম্যাপ গঠনের মাধ্যমে তাদের মেশিন লার্নিং (ML) সমাধানগুলিকে শিল্পায়ন করতে সক্ষম করার উপর দৃষ্টি নিবদ্ধ করে৷ তিনি জ্বালানি, খুচরা, স্বাস্থ্য, ফিনান্স/ব্যাংকিং, মোটরস্পোর্টস ইত্যাদি ক্ষেত্রে উদ্ভাবনী এন্ড-টু-এন্ড প্রোডাকশন-লেভেল এমএল এবং ইন্টারনেট অফ থিংস (IoT) সমাধান উদ্ভাবন, ডিজাইন, নেতৃত্ব এবং বাস্তবায়নে 15+ বছর অতিবাহিত করেছেন। সোক্রটিস তার অবসর সময় পরিবার এবং বন্ধুদের সাথে কাটাতে বা মোটরবাইক চালাতে পছন্দ করে।
জর্জিওস শিনাস EMEA অঞ্চলে AI/ML-এর জন্য একজন বিশেষজ্ঞ সমাধান স্থপতি৷ তিনি লন্ডনে অবস্থিত এবং যুক্তরাজ্য এবং আয়ারল্যান্ডের গ্রাহকদের সাথে ঘনিষ্ঠভাবে কাজ করেন। Georgios গ্রাহকদের MLOps অনুশীলনে বিশেষ আগ্রহের সাথে AWS-এ উৎপাদনে মেশিন লার্নিং অ্যাপ্লিকেশন ডিজাইন ও স্থাপন করতে সাহায্য করে এবং গ্রাহকদের স্কেলে মেশিন লার্নিং করতে সক্ষম করে। তার অবসর সময়ে, তিনি ভ্রমণ, রান্না এবং বন্ধু এবং পরিবারের সাথে সময় কাটাতে উপভোগ করেন।
জিউসেপ অ্যাঞ্জেলো পোরসেলি অ্যামাজন ওয়েব পরিষেবাগুলির জন্য একজন প্রধান মেশিন লার্নিং বিশেষজ্ঞ সমাধান স্থপতি৷ বেশ কয়েক বছর সফ্টওয়্যার ইঞ্জিনিয়ারিং একটি ML ব্যাকগ্রাউন্ডের সাথে, তিনি যেকোন আকারের গ্রাহকদের সাথে তাদের ব্যবসা এবং প্রযুক্তিগত চাহিদাগুলি গভীরভাবে বুঝতে এবং AI এবং মেশিন লার্নিং সমাধানগুলি ডিজাইন করেন যা AWS ক্লাউড এবং Amazon মেশিন লার্নিং স্ট্যাকের সর্বোত্তম ব্যবহার করে৷ তিনি MLOps, Computer Vision, NLP সহ বিভিন্ন ডোমেনে প্রকল্পে কাজ করেছেন এবং AWS পরিষেবার বিস্তৃত সেট জড়িত। তার অবসর সময়ে, জিউসেপ ফুটবল খেলা উপভোগ করেন।
শেলবি আইজেনব্রোড Amazon Web Services (AWS)-এর একজন প্রিন্সিপাল এআই এবং মেশিন লার্নিং স্পেশালিস্ট সলিউশন আর্কিটেক্ট। তিনি 24 বছর ধরে একাধিক শিল্প, প্রযুক্তি এবং ভূমিকা নিয়ে প্রযুক্তিতে রয়েছেন। গ্রাহকদের স্কেলে এমএল ওয়ার্কলোড সরবরাহ এবং পরিচালনা করতে সহায়তা করার জন্য তিনি বর্তমানে তার DevOps এবং ML ব্যাকগ্রাউন্ডকে MLOps-এর ডোমেনে একত্রিত করার উপর মনোযোগ নিবদ্ধ করছেন। বিভিন্ন প্রযুক্তি ডোমেন জুড়ে 35টিরও বেশি পেটেন্ট মঞ্জুর করার সাথে, ব্যবসায়িক ফলাফল চালনা করার জন্য ক্রমাগত উদ্ভাবন এবং ডেটা ব্যবহার করার জন্য তার একটি আবেগ রয়েছে। Shelbee Coursera-এর ব্যবহারিক ডেটা সায়েন্স স্পেশালাইজেশনের একজন সহ-নির্মাতা এবং প্রশিক্ষক। তিনি ডেনভার চ্যাপ্টারের উইমেন ইন বিগ ডেটা (WiBD) এর সহ-পরিচালক। তার অবসর সময়ে, সে তার পরিবার, বন্ধুবান্ধব এবং অতি সক্রিয় কুকুরের সাথে সময় কাটাতে পছন্দ করে।
- Coinsmart. ইউরোপের সেরা বিটকয়েন এবং ক্রিপ্টো এক্সচেঞ্জ।
- প্লেটোব্লকচেন। Web3 মেটাভার্স ইন্টেলিজেন্স। জ্ঞান প্রসারিত. বিনামূল্যে এক্সেস.
- ক্রিপ্টোহক। Altcoin রাডার। বিনামূল্যে ট্রায়াল.
- সূত্র: https://aws.amazon.com/blogs/machine-learning/mlops-foundation-roadmap-for-enterprises-with-amazon-sagemaker/
- "
- 100
- a
- ক্ষমতা
- সম্পর্কে
- বিমূর্ত
- দ্রুততর করা
- প্রবেশ
- প্রবেশযোগ্য
- মিটমাট করা
- হিসাব
- অর্জন করা
- দিয়ে
- যোগ
- অতিরিক্ত
- গ্রহণ
- অগ্রসর
- বিরুদ্ধে
- AI
- আলগোরিদিম
- সব
- অনুমতি
- বিকল্প
- মর্দানী স্ত্রীলোক
- অ্যামাজন ওয়েব সার্ভিসেস
- মধ্যে
- পরিমাণ
- বিশ্লেষণ
- বিশ্লেষক
- বৈশ্লেষিক ন্যায়
- অন্য
- API
- আবেদন
- অ্যাপ্লিকেশন
- অভিগমন
- স্থাপত্য
- নিরীক্ষা
- স্বয়ংক্রিয় পদ্ধতি প্রয়োগ করা
- স্বয়ংক্রিয়
- স্বয়ংক্রিয়ভাবে
- স্বয়ংক্রিয়তা
- সহজলভ্য
- এড়ানো
- ডেস্কটপ AWS
- পটভূমি
- বেসলাইন
- কারণ
- পরিণত
- আগে
- পিছনে
- উপকারী
- সর্বোত্তম
- মধ্যে
- বড় ডেটা
- বিল
- সাহায্য
- নির্মাণ করা
- ভবন
- বিল্ট-ইন
- ব্যবসায়
- ব্যবসা
- ক্ষমতা
- কেস
- মামলা
- কেন্দ্রীভূত
- চ্যালেঞ্জিং
- অধ্যায়
- চেক
- সর্বোত্তম
- মেঘ
- কোড
- সহযোগিতা করা
- সহযোগিতা
- স্তম্ভ
- সমাহার
- মন্তব্য
- সমর্পণ করা
- সাধারণ
- কোম্পানি
- উপযুক্ত
- সম্পূর্ণ
- জটিল
- সম্মতি
- কম্পিউটার
- আচার
- আবহ
- বিশ্বাস
- কনফিগারেশন
- সংযোগ
- সঙ্গত
- আধার
- কন্টেনারগুলি
- ধারণ
- নিয়ন্ত্রণ
- নকল
- অনুরূপ
- পারা
- আবরণ
- সৃষ্টি
- নির্মিত
- সৃষ্টি
- তৈরি করা হচ্ছে
- সৃষ্টি
- এখন
- প্রথা
- ক্রেতা
- গ্রাহকদের
- উপাত্ত
- তথ্য এক্সেস
- তথ্য বিশ্লেষণ
- তথ্য গোপনীয়তা
- তথ্য বিজ্ঞান
- তথ্য বিজ্ঞানী
- তথ্য ভান্ডার
- দিন
- নিবেদিত
- বিলি
- চাহিদা
- ডেনভার
- নির্ভর করে
- নির্ভর করে
- স্থাপন
- মোতায়েন
- মোতায়েন
- বিস্তৃতি
- স্থাপনার
- স্থাপন
- বর্ণনা করা
- নকশা
- ফন্দিবাজ
- বিস্তারিত
- সনাক্তকরণ
- দেব
- বিকাশ
- উন্নয়ন
- ডেভেলপমেন্ট টুলস
- পার্থক্য
- বিভিন্ন
- আলোচনা করা
- বিতরণ
- ডকশ্রমিক
- ডোমেইন
- ডোমেইনের
- ড্রাইভ
- চালিত
- সময়
- প্রতি
- প্রান্ত
- বাছা
- আলিঙ্গন
- সক্ষম করা
- সম্ভব
- সক্রিয়
- সর্বশেষ সীমা
- শেষপ্রান্ত
- শক্তি
- প্রকৌশল
- প্রকৌশলী
- উদ্যোগ
- উদ্যোগ
- পরিবেশ
- ইত্যাদি
- মূল্যায়ন
- মূল্যায়ন
- ঘটনা
- ঘটনাবলী
- ঠিক
- উদাহরণ
- উদাহরণ
- অপসারণ
- পরীক্ষা
- কীর্তিকলাপ
- অন্বেষণ
- পরিবার
- বৈশিষ্ট্য
- ব্যক্তিত্ব
- পরিশেষে
- প্রথম
- প্রবাহ
- কেন্দ্রবিন্দু
- গুরুত্ত্ব
- মনোযোগ
- অনুসরণ
- ফুটবল
- গঠন
- পাওয়া
- ভিত
- ফাউন্ডেশন
- ফ্রেমওয়ার্ক
- অবকাঠামো
- বিনামূল্যে
- থেকে
- কার্যকারিতা
- ক্রিয়াকলাপ
- তদ্ব্যতীত
- প্রবেশপথ
- GDPR
- উত্পন্ন
- git
- GitHub
- লক্ষ্য
- শাসন
- মঞ্জুর
- গ্রুপ
- হ্যান্ডলিং
- কাটা
- স্বাস্থ্য
- সাহায্য
- সাহায্য
- সাহায্য
- উচ্চ
- ঐতিহাসিক
- ইতিহাস
- হোস্ট
- কিভাবে
- কিভাবে
- যাহোক
- HTTPS দ্বারা
- শত শত
- পরিচয়
- চিত্র
- বাস্তবায়ন
- বাস্তবায়িত
- বাস্তবায়ন
- গুরুত্বপূর্ণ
- উন্নত করা
- অন্তর্ভুক্ত
- সুদ্ধ
- বৃদ্ধি
- শিল্প
- তথ্য
- পরিকাঠামো
- ইনোভেশন
- প্রবর্তিত
- উদ্ভাবনী
- ইনপুট
- উদাহরণ
- ইন্টিগ্রেশন
- ঐক্যবদ্ধতার
- মিথষ্ক্রিয়া
- স্বার্থ
- ইন্টারফেস
- Internet
- কিছু ইন্টারনেট
- IOT
- আয়ারল্যাণ্ড
- বিচ্ছিন্নতা
- IT
- কাজ
- জবস
- যোগদান
- যোগদান করেছে
- রাখা
- চাবি
- জ্ঞান
- বড়
- সর্বশেষ
- স্তর
- নেতৃত্ব
- নেতৃত্ব
- শিখতে
- শিক্ষা
- ত্যাগ
- আইনগত
- মাত্রা
- উপজীব্য
- লাইব্রেরি
- বোঝা
- স্থানীয়
- স্থানীয়ভাবে
- লণ্ডন
- মেশিন
- মেশিন লার্নিং
- করা
- মেকিং
- পরিচালনা করা
- ব্যবস্থাপনা
- কার্যভার
- ম্যানুয়াল
- পরিপক্বতা
- পদ্ধতি
- সদস্য
- মার্জ
- প্রণালী বিজ্ঞান
- পদ্ধতি
- ছন্দোবিজ্ঞান
- হতে পারে
- মন
- সর্বনিম্ন
- আয়না
- ML
- মডেল
- মডেল
- মনিটর
- মাসের
- অধিক
- মোটর স্পোর্টসের
- পদক্ষেপ
- চলন্ত
- বহু
- যথা
- নাম
- নামকরণ
- প্রয়োজনীয়
- চাহিদা
- পরবর্তী
- স্বাভাবিকভাবে
- পরিচালনা করা
- অপারেটিং
- অপারেশনস
- অপ্টিমাইজেশান
- পছন্দ
- অপশন সমূহ
- ক্রম
- সংগঠন
- মূল
- অন্যান্য
- নিজের
- মালিক
- মালিকদের
- অংশ
- বিশেষ
- পার্টি
- আবেগ
- পেটেন্ট
- পিডিএফ
- সম্প্রদায়
- কর্মক্ষমতা
- করণ
- ফেজ
- মাচা
- খেলা
- কেলি
- দয়া করে
- বিন্দু
- নীতি
- প্রস্তুত করা
- অধ্যক্ষ
- গোপনীয়তা
- সমস্যা
- প্রক্রিয়া
- প্রক্রিয়াজাতকরণ
- প্রযোজনা
- পণ্য
- উত্পাদনের
- প্রমোদ
- প্রকল্প
- প্রকল্প
- উন্নীত করা
- পদোন্নতি
- প্রদান
- প্রদত্ত
- উপলব্ধ
- কাছে
- গুণ
- RE
- প্রকৃত সময়
- হ্রাস করা
- হ্রাস
- এলাকা
- খাতা
- সম্পর্ক
- বিশ্বাসযোগ্য
- সংগ্রহস্থলের
- অনুরোধ
- অনুরোধ
- প্রয়োজনীয়
- আবশ্যকতা
- প্রয়োজন
- গবেষণা
- সংস্থান
- Resources
- দায়িত্ব
- দায়ী
- ফলাফল
- খুচরা
- প্রত্যাবর্তন
- আয়
- রোডম্যাপ
- বলিষ্ঠতা
- ভূমিকা
- শিকড়
- চালান
- দৌড়
- একই
- মাপযোগ্য
- স্কেল
- আরোহী
- তালিকাভুক্ত
- বিজ্ঞান
- বিজ্ঞানী
- বিজ্ঞানীরা
- SDK
- নিরাপদ
- নিরাপত্তা
- ক্রমিক
- ক্রম
- সেবা
- সেবা
- সেট
- সেটআপ
- বিভিন্ন
- আকৃতি
- ভাগ
- শেয়ারিং
- প্রদর্শনী
- অনুরূপ
- ব্যাজ
- একক
- আয়তন
- দক্ষতা
- সফটওয়্যার
- সফ্টওয়্যার প্রকৌশল
- সমাধান
- সলিউশন
- সমাধান
- কিছু
- সোর্স কোড
- বিশেষজ্ঞ
- নির্দিষ্ট
- বিশেষভাবে
- স্পীড
- ব্যয় করা
- খরচ
- বিভক্ত করা
- গাদা
- পর্যায়
- ইন্টার্নশিপ
- শুরু
- রাষ্ট্র
- পরিসংখ্যানসংক্রান্ত
- পরিসংখ্যান
- অবস্থা
- স্টোরেজ
- দোকান
- দোকান
- কৌশল
- স্ট্রিমলাইন
- জোর
- কাঠামোবদ্ধ
- চিত্রশালা
- সফল
- সমর্থন
- সমর্থিত
- সমর্থন
- পদ্ধতি
- সিস্টেম
- টীম
- দল
- কারিগরী
- প্রযুক্তি
- প্রযুক্তিঃ
- টেমপ্লেট
- পরীক্ষা
- পরীক্ষামূলক
- পরীক্ষা
- সার্জারির
- উৎস
- বিশ্ব
- অতএব
- কিছু
- তৃতীয় পক্ষের
- তিন
- সময়
- একসঙ্গে
- সরঞ্জাম
- রেলগাড়ি
- প্রশিক্ষণ
- রুপান্তর
- রুপান্তর
- রূপান্তরের
- ভ্রমণ
- ধরনের
- ui
- Uk
- অধীনে
- বোঝা
- ইউনিট
- আপডেট
- ব্যবহার
- ব্যবহারকারী
- সদ্ব্যবহার করা
- বৈধতা
- মূল্য
- বিভিন্ন
- চেক
- দৃষ্টি
- ওয়েব
- ওয়েব সার্ভিস
- যখন
- মধ্যে
- ছাড়া
- নারী
- হয়া যাই ?
- কাজ করছে
- কর্মপ্রবাহ
- কাজ
- বিশ্ব
- লেখা
- বছর
- আপনার