Amazon SageMaker এর সাথে উদ্যোগের জন্য MLOps ফাউন্ডেশন রোডম্যাপ

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

যেহেতু এন্টারপ্রাইজ ব্যবসাগুলি তাদের প্রতিষ্ঠান জুড়ে মেশিন লার্নিং (এমএল) গ্রহণ করে, এমএল মডেল তৈরি, প্রশিক্ষণ এবং স্থাপনের জন্য ম্যানুয়াল ওয়ার্কফ্লোগুলি উদ্ভাবনের পথে বাধা হয়ে দাঁড়ায়৷ এটি কাটিয়ে ওঠার জন্য, এন্টারপ্রাইজগুলিকে একটি সুস্পষ্ট অপারেটিং মডেল তৈরি করতে হবে যাতে একাধিক ব্যক্তি, যেমন ডেটা বিজ্ঞানী, ডেটা ইঞ্জিনিয়ার, এমএল ইঞ্জিনিয়ার, আইটি এবং ব্যবসায়িক স্টেকহোল্ডারদের সহযোগিতা এবং যোগাযোগ করা উচিত; উদ্বেগ, দায়িত্ব এবং দক্ষতা কিভাবে আলাদা করতে হয়; এবং কীভাবে AWS পরিষেবাগুলি সর্বোত্তমভাবে ব্যবহার করবেন। ML এবং অপারেশনগুলির (MLOps) এই সংমিশ্রণটি কোম্পানিগুলিকে তাদের এন্ড-টু-এন্ড ML লাইফসাইকেল স্ট্রিমলাইন করতে এবং উচ্চ মডেলের নির্ভুলতা বজায় রেখে এবং নিরাপত্তা ও সম্মতি বাড়াতে ডেটা বিজ্ঞানীদের উত্পাদনশীলতা বাড়াতে সাহায্য করছে।

ML Ops ব্যক্তিত্ব, অপারেশন এবং প্রযুক্তি

এই পোস্টে, আপনি একটি MLOps ফাউন্ডেশন তৈরির মূল পর্যায়গুলি সম্পর্কে শিখবেন, কিভাবে একাধিক ব্যক্তি এই ফাউন্ডেশনে একসাথে কাজ করে এবং আমাজন সেজমেকার উদ্দেশ্য-নির্মিত সরঞ্জাম এবং অন্যান্য AWS পরিষেবাগুলির সাথে অন্তর্নির্মিত ইন্টিগ্রেশন যা একটি এন্টারপ্রাইজ ব্যবসায় ML গ্রহণকে ত্বরান্বিত করতে পারে।

MLOps পরিপক্কতা মডেল

একটি MLOps ফাউন্ডেশন তৈরি করা যা এন্টারপ্রাইজ গ্রাহকদের ক্রিয়াকলাপ, মানুষ এবং প্রযুক্তিগত চাহিদাগুলিকে কভার করতে পারে তা চ্যালেঞ্জিং। অতএব, আমরা নিম্নলিখিত পরিপক্কতা মডেলটি সংজ্ঞায়িত করি যা চারটি মূল পর্যায়ে MLOps-এর প্রয়োজনীয় ক্ষমতাগুলিকে সংজ্ঞায়িত করে।

MLOps পরিপক্কতার মডেল 4টি ধাপ সহ

প্রাথমিক ধাপ: এই পর্যায়ে, ডেটা বিজ্ঞানীরা সেজমেকার পরিষেবাগুলি ব্যবহার করে AWS-এ মডেলগুলি পরীক্ষা করতে এবং তৈরি করতে, প্রশিক্ষণ দিতে এবং স্থাপন করতে সক্ষম হন। প্রস্তাবিত উন্নয়ন পরিবেশ হয় অ্যামাজন সেজমেকার স্টুডিও, যেখানে ডেটা বিজ্ঞানীরা স্টুডিও নোটবুকের উপর ভিত্তি করে পরীক্ষা করতে এবং সহযোগিতা করতে সক্ষম।
পুনরাবৃত্তিযোগ্য পর্যায় – AWS-এ পরীক্ষা-নিরীক্ষা করার ক্ষমতা সহ, পরবর্তী ধাপ হল ডেটা প্রিপ্রসেস করার জন্য স্বয়ংক্রিয় ওয়ার্কফ্লো তৈরি করা এবং মডেলগুলি (ML পাইপলাইন) তৈরি করা এবং প্রশিক্ষণ দেওয়া। ডেটা বিজ্ঞানীরা এমএল ইঞ্জিনিয়ারদের সাথে একটি পৃথক পরিবেশে সহযোগিতা করে শক্তিশালী এবং উৎপাদন-প্রস্তুত অ্যালগরিদম এবং সোর্স কোড, ব্যবহার করে সাজানো অ্যামাজন সেজমেকার পাইপলাইন. উৎপন্ন মডেলগুলি অ্যামাজন সেজমেকার মডেল রেজিস্ট্রিতে সংরক্ষিত এবং বেঞ্চমার্ক করা হয়।
নির্ভরযোগ্য পর্যায় - যদিও মডেলগুলি ML পাইপলাইনগুলির মাধ্যমে তৈরি করা হয়েছে, তারা উত্পাদনে উন্নীত হওয়ার আগে তাদের পরীক্ষা করা দরকার। অতএব, এই পর্যায়ে, মডেল এবং ট্রিগারিং অবকাঠামো উভয়ের জন্যই স্বয়ংক্রিয় পরীক্ষা পদ্ধতি চালু করা হয়, একটি বিচ্ছিন্ন স্টেজিং (প্রাক-প্রোডাকশন) পরিবেশে যা উত্পাদনকে অনুকরণ করে। পরীক্ষা সফলভাবে চালানোর পরে, মডেলগুলি উৎপাদনের বিচ্ছিন্ন পরিবেশে স্থাপন করা হয়। একাধিক পরিবেশের মধ্যে মডেলগুলিকে উন্নীত করার জন্য, ম্যানুয়াল মূল্যায়ন এবং অনুমোদনের প্রয়োজন।
পরিমাপযোগ্য পর্যায় – প্রথম ML সলিউশনের উৎপাদনের পর, একাধিক ডেটা সায়েন্স টিমকে সহযোগিতা করার জন্য MLOps ফাউন্ডেশনের স্কেল করা এবং দশ বা শত শত ML ব্যবহারের ক্ষেত্রে তৈরি করা প্রয়োজন। এই পর্যায়ে, আমরা সমাধানগুলির টেমপ্লেটাইজেশন প্রবর্তন করি, যা নতুন উত্পাদন সমাধানগুলির বিকাশের সময়কে সপ্তাহ থেকে দিনে হ্রাস করে মূল্যের গতি নিয়ে আসে। অতিরিক্তভাবে, আমরা একাধিক টিমকে তাদের ডেটাতে কাজ করতে সক্ষম করার জন্য নিরাপদ MLOps পরিবেশের সূচনা স্বয়ংক্রিয়ভাবে করি যাতে IT-তে নির্ভরতা এবং ওভারহেড হ্রাস পায়।

নিম্নলিখিত বিভাগগুলিতে, আমরা দেখাই কিভাবে পূর্ববর্তী পরিপক্কতার মডেল এবং নিম্নলিখিত নীতিগুলির উপর ভিত্তি করে একটি MLOps ভিত্তি তৈরি করা যায়:

নমনীয়তা - ডেটা বিজ্ঞানীরা যেকোন ফ্রেমওয়ার্ক (যেমন TensorFlow বা PyTorch) মিটমাট করতে সক্ষম
reproducibility - ডেটা বিজ্ঞানীরা অতীতের পরীক্ষাগুলি (কোড, ডেটা এবং ফলাফল) পুনরায় তৈরি করতে বা পর্যবেক্ষণ করতে সক্ষম
রাউস ক্ষমতা - ডেটা বিজ্ঞানী এবং এমএল ইঞ্জিনিয়াররা অসঙ্গতি এবং খরচ এড়িয়ে সোর্স কোড এবং এমএল পাইপলাইনগুলি পুনরায় ব্যবহার করতে সক্ষম
স্কেলেবিলিটি - ডেটা সায়েন্টিস্ট এবং এমএল ইঞ্জিনিয়াররা চাহিদা অনুযায়ী সংস্থান এবং পরিষেবাগুলি স্কেল করতে সক্ষম
নিরীক্ষণযোগ্যতা - ডেটা সায়েন্টিস্ট, আইটি এবং আইনি বিভাগগুলি নিরীক্ষা করতে সক্ষম হয় লগ, সংস্করণ এবং নিদর্শন এবং ডেটার নির্ভরতা
ঐক্য – যেহেতু MLOps একাধিক পরিবেশ নিয়ে গঠিত, তাই ফাউন্ডেশনকে পরিবেশের মধ্যে পার্থক্য দূর করতে হবে

প্রাথমিক ধাপ

প্রাথমিক পর্যায়ে, লক্ষ্য হল একটি নিরাপদ পরীক্ষামূলক পরিবেশ তৈরি করা যেখানে ডেটা বিজ্ঞানী SageMaker নোটবুক ব্যবহার করে ডেটা এবং পরীক্ষার স্ন্যাপশট গ্রহণ করে প্রমাণ করে যে ML একটি নির্দিষ্ট ব্যবসায়িক সমস্যার সমাধান করতে পারে। এটি অর্জনের জন্য, VPC এন্ডপয়েন্টের মাধ্যমে পরিষেবাগুলিতে উপযোগী অ্যাক্সেস সহ একটি স্টুডিও পরিবেশ সুপারিশ করা হয়। রেফারেন্স আর্কিটেকচারের সোর্স কোড সেজমেকার টিমের দেওয়া উদাহরণগুলিতে পাওয়া যায় অ্যামাজন সেজমেকার স্টুডিও রেফারেন্স আর্কিটেকচারের সাথে ডেটা সায়েন্স সুরক্ষিত করুন GitHub রেপো।

সেজমেকার পরিষেবাগুলি ছাড়াও, ডেটা বিজ্ঞানীরা ডেটা প্রক্রিয়া করার জন্য অন্যান্য পরিষেবাগুলি ব্যবহার করতে পারেন, যেমন আমাজন ইএমআর, অ্যামাজন অ্যাথেনা, এবং এডাব্লুএস আঠালো, সংরক্ষিত এবং সংস্করণে নোটবুক সহ এডাব্লুএস কোডকমিট সংগ্রহস্থল (নিম্নলিখিত চিত্র দেখুন)।

MLOps অ্যাকাউন্ট কাঠামোর প্রাথমিক পর্যায়

পুনরাবৃত্তিযোগ্য পর্যায়

ডেটা বিজ্ঞানীরা প্রমাণ করার পরে যে এমএল ব্যবসায়িক সমস্যার সমাধান করতে পারে এবং সেজমেকার পরীক্ষা, প্রশিক্ষণ এবং মডেল স্থাপনের সাথে পরিচিত হয়, পরবর্তী পদক্ষেপটি হল এমএল সমাধান উত্পাদন শুরু করা। নিচের চিত্রটি এই স্থাপত্যকে তুলে ধরে।

পুনরাবৃত্তিযোগ্য ফেজ অ্যাকাউন্ট গঠন

এই পর্যায়ে, উদ্বেগ পৃথক করা প্রয়োজন। আমরা পরিবেশকে একাধিক AWS অ্যাকাউন্টে বিভক্ত করেছি:

ডাটা লেক - প্রাঙ্গনে (বা অন্যান্য সিস্টেম) থেকে ক্লাউডে সমস্ত ইনজেস্ট করা ডেটা সঞ্চয় করে। ডেটা ইঞ্জিনিয়াররা এক্সট্র্যাক্ট, ট্রান্সফর্ম এবং লোড (ETL) পাইপলাইন তৈরি করতে সক্ষম হয় যাতে একাধিক ডেটা উত্স একত্রিত হয় এবং এমএল ব্যবহারের ক্ষেত্রে প্রয়োজনীয় ডেটাসেট প্রস্তুত করে। ডেটা AWS গ্লু ডেটা ক্যাটালগের মাধ্যমে ক্যাটালগ করা হয়েছে এবং এর মাধ্যমে অন্যান্য ব্যবহারকারী এবং অ্যাকাউন্টগুলির সাথে ভাগ করা হয়েছে AWS লেক গঠন (ডেটা গভর্নেন্স লেয়ার)। একই খাতায়, আমাজন সেজমেকার ফিচার স্টোর হোস্ট করা যেতে পারে, কিন্তু আমরা এই পোস্ট এটি কভার না. আরো তথ্যের জন্য, পড়ুন Amazon SageMaker ফিচার স্টোর ব্যবহার করে অ্যাকাউন্ট এবং দল জুড়ে বৈশিষ্ট্য পুনঃব্যবহার সক্ষম করুন.
পরীক্ষা - ডেটা বিজ্ঞানীদের তাদের গবেষণা পরিচালনা করতে সক্ষম করে। শুধুমাত্র পার্থক্য হল যে ডেটা স্ন্যাপশটগুলির উত্স হল ডেটা লেক। ডেটা সায়েন্টিস্টদের শুধুমাত্র নির্দিষ্ট ডেটাসেটেই অ্যাক্সেস থাকে, যা GDPR বা অন্যান্য ডেটা গোপনীয়তার সীমাবদ্ধতার ক্ষেত্রে বেনামী করা যেতে পারে। অধিকন্তু, ডেটা বিজ্ঞানীদের নতুন ডেটা সায়েন্স ফ্রেমওয়ার্ক বা থার্ড-পার্টি ওপেন-সোর্স লাইব্রেরি ব্যবহার করতে সক্ষম করার জন্য পরীক্ষামূলক অ্যাকাউন্টের ইন্টারনেট অ্যাক্সেস থাকতে পারে। অতএব, পরীক্ষার খাতা অ-উৎপাদন পরিবেশের অংশ হিসাবে বিবেচিত হয়।
উন্নয়ন (দেব) - উত্পাদন পরিবেশের প্রথম পর্যায়। তথ্য বিজ্ঞানীরা নোটবুক থেকে স্বয়ংক্রিয় ওয়ার্কফ্লো এবং সেজমেকার পাইপলাইনের জগতে চলে যান। তাদের কোড বিমূর্ত করতে এবং পরীক্ষার কভারেজ, ত্রুটি পরিচালনা এবং কোডের গুণমান নিশ্চিত করতে তাদের এমএল ইঞ্জিনিয়ারদের সাথে সহযোগিতা করতে হবে। লক্ষ্য হল এমএল পাইপলাইনগুলি বিকাশ করা, যা স্বয়ংক্রিয় কর্মপ্রবাহ যা সেজমেকার মডেল রেজিস্ট্রিতে মডেলগুলিকে প্রিপ্রসেস, প্রশিক্ষণ, মূল্যায়ন এবং নিবন্ধন করে। এমএল পাইপলাইনের স্থাপনা শুধুমাত্র সিআই/সিডি পাইপলাইনের মাধ্যমে চালিত হয় এবং এডাব্লুএস ম্যানেজমেন্ট কনসোল সীমাবদ্ধ। ইন্টারনেট সংযোগ অনুমোদিত নয় কারণ ML পাইপলাইনের ডেটা লেকে উৎপাদন ডেটার অ্যাক্সেস রয়েছে (শুধুমাত্র পঠনযোগ্য)৷
টুলিং (বা অটোমেশন) - কোডকমিট রিপোজিটরি হোস্ট করে, AWS কোড পাইপলাইন CI/CD পাইপলাইন, SageMaker মডেল রেজিস্ট্রি, এবং Amazon ECR কাস্টম কন্টেইনার হোস্ট করতে। যেহেতু ডেটা লেক ডেটার জন্য সত্যের একক বিন্দু, টুলিং অ্যাকাউন্ট কোড, কন্টেইনার এবং উত্পাদিত শিল্পকর্মের জন্য।

মনে রাখবেন যে এই অ্যাকাউন্টের নামকরণের নিয়ম এবং মাল্টি-অ্যাকাউন্ট কৌশলটি আপনার ব্যবসার প্রয়োজনের উপর নির্ভর করে পরিবর্তিত হতে পারে, কিন্তু এই কাঠামোটি প্রস্তাবিত বিচ্ছিন্নতার মাত্রা দেখানোর জন্য। উদাহরণস্বরূপ, আপনি মডেল প্রশিক্ষণ বা বিল্ড অ্যাকাউন্টে ডেভেলপমেন্ট অ্যাকাউন্টের নাম পরিবর্তন করতে পারেন।

স্বয়ংক্রিয় স্থাপনা অর্জনের জন্য, নোটবুক থেকে ML পাইপলাইনে কীভাবে সরানো যায় এবং কোড সংগ্রহস্থল এবং ডেটা কাঠামোকে মানক করা যায় তা বোঝা গুরুত্বপূর্ণ, যা আমরা নিম্নলিখিত বিভাগে আলোচনা করব।

নোটবুক থেকে এমএল পাইপলাইন পর্যন্ত

উন্নয়ন পরিবেশের লক্ষ্য হল নোটবুকের কোডকে পুনর্গঠন করা, বৃদ্ধি করা, উন্নতি করা এবং স্কেল করা এবং এটিকে এমএল পাইপলাইনে স্থানান্তর করা। একটি ML পাইপলাইন হল ধাপগুলির একটি সেট যা ডেটা প্রিপ্রসেসিং, ট্রেনিং বা মডেল ব্যবহার করে এবং ফলাফল পোস্টপ্রসেস করার জন্য দায়ী৷ প্রতিটি ধাপে একটি সঠিক কাজ (একটি নির্দিষ্ট রূপান্তর) করা উচিত এবং পুনরায় ব্যবহারযোগ্যতা সক্ষম করতে যথেষ্ট বিমূর্ত হওয়া উচিত (উদাহরণস্বরূপ, ইনপুট পরামিতি হিসাবে কলামের নামগুলি পাস করুন)। নিম্নলিখিত চিত্রটি একটি উদাহরণ পাইপলাইন চিত্রিত করে।

নমুনা সেজমেকার পাইপলাইন

এমএল পাইপলাইন বাস্তবায়ন করতে, ডেটা বিজ্ঞানী (বা এমএল ইঞ্জিনিয়ার) সেজমেকার পাইপলাইন ব্যবহার করেন। একটি সেজমেকার পাইপলাইন হল আন্তঃসংযুক্ত পদক্ষেপগুলির একটি সিরিজ (সেজমেকার প্রক্রিয়াকরণ কাজ, প্রশিক্ষণ, এইচপিও) যা পাইথন SDK ব্যবহার করে একটি JSON পাইপলাইন সংজ্ঞা দ্বারা সংজ্ঞায়িত করা হয়। এই পাইপলাইন সংজ্ঞা একটি নির্দেশিত অ্যাসাইক্লিক গ্রাফ (DAG) ব্যবহার করে একটি পাইপলাইনকে এনকোড করে। এই DAG আপনার ML পাইপলাইনের প্রতিটি ধাপের জন্য প্রয়োজনীয়তা এবং সম্পর্ক সম্পর্কে তথ্য দেয়।

ব্যবহারের ক্ষেত্রের উপর নির্ভর করে, আপনি ML পাইপলাইনটিকে দুটি প্রধান প্রকারে আলাদা করতে পারেন: প্রশিক্ষণ এবং ব্যাচ অনুমান।

নিম্নলিখিত চিত্রটি প্রশিক্ষণ এমএল পাইপলাইন প্রবাহকে চিত্রিত করে।

ML বিল্ড পাইপলাইন

প্রিপ্রসেসিং ফেজ একাধিক ধাপ নিয়ে গঠিত হতে পারে। সাধারণ ডেটা সায়েন্স ট্রান্সফরমেশন হল ডেটা স্প্লিটিং এবং স্যাম্পলিং (ট্রেন, ভ্যালিডেশন, টেস্ট সেট), ওয়ান-হট এনকোডিং বা ভেক্টরাইজেশন, বিনিং এবং স্কেলিং। মডেল প্রশিক্ষণের ধাপটি হয় একটি প্রশিক্ষণের কাজ হতে পারে, যদি ডেটা বিজ্ঞানী সর্বোত্তম মডেল কনফিগারেশন সম্পর্কে সচেতন হন, অথবা একটি হাইপারপ্যারামিটার অপ্টিমাইজেশান (HPO) কাজ, যেখানে AWS মডেলের জন্য সর্বোত্তম হাইপারপ্যারামিটার সংজ্ঞায়িত করে (বায়েসিয়ান পদ্ধতি) এবং সংশ্লিষ্ট তৈরি করে। মডেল আর্টিফ্যাক্ট। মূল্যায়ন ধাপে, উত্পাদিত মডেল আর্টিফ্যাক্টটি বৈধতা ডেটাসেটের অনুমান করতে ব্যবহৃত হয়। তারপরে ML পাইপলাইন পরীক্ষা করে যে উত্পাদিত নির্ভুলতা মেট্রিক্স (যেমন F1, নির্ভুলতা এবং লাভ ডেসিল) প্রয়োজনীয় থ্রেশহোল্ডগুলি অতিক্রম করে কিনা। এই ধাপটি সফল হলে, মডেল আর্টিফ্যাক্ট এবং মেটাডেটা উৎপাদনের জন্য মডেল রেজিস্ট্রিতে সরানো হয়। উল্লেখ্য যে রপ্তানি বেসলাইন পদক্ষেপ শোষণ করে অ্যামাজন সেজমেকার মডেল মনিটর কার্যকারিতা, পরিসংখ্যান সহ একটি JSON অবজেক্ট তৈরি করে যা মডেল ড্রিফটিং সনাক্তকরণের জন্য পরে ব্যবহৃত হয় এবং মডেল মেটাডেটা হিসাবে সেজমেকার মডেল রেজিস্ট্রিতে হোস্ট করা যেতে পারে।

ব্যাচ ইনফারেন্সের ক্ষেত্রে, ডেটা বিজ্ঞানীরা অনুরূপ পাইপলাইন তৈরি করতে সক্ষম, যেমনটি নিম্নলিখিত চিত্রে চিত্রিত হয়েছে।

এমএল ইনফারেন্স পাইপলাইন

ব্যাচ ইনফারেন্সের প্রি-প্রসেসিং ধাপটি প্রায়শই ডেটা স্যাম্পলিং এবং গ্রাউন্ড ট্রুথের কলাম বাদ দিয়ে প্রশিক্ষণের মতোই। ব্যাচ ইনফারেন্স হল এমন একটি ধাপ যা সংশ্লিষ্ট এন্ডপয়েন্টের অনুমানের জন্য ব্যাচগুলিতে ডেটা পাঠায় এবং এটি ব্যবহার করে প্রয়োগ করা যেতে পারে ব্যাচ রূপান্তর. পোস্টপ্রসেসিং ধাপ অতিরিক্ত পরিসংখ্যান তৈরি করে, যেমন ফলাফল বিতরণ, বা বহিরাগত আইডিগুলির সাথে ফলাফলের সাথে যোগ দেয়। তারপর, একটি মডেল মনিটর ধাপ প্রশিক্ষণের জন্য ব্যবহৃত ডেটার বেসলাইন পরিসংখ্যান (মডেল রেজিস্ট্রিতে JSON মেটাডেটা) অনুমানের জন্য নতুন আগত ডেটার সাথে তুলনা করতে সক্ষম।

যদি ডেটা বিজ্ঞানীরা সেজমেকার মডেল রেজিস্ট্রিতে সংরক্ষণ করা যেতে পারে এমন পাইপলাইন মডেল তৈরি করে তবে আপনি প্রিপ্রসেসিং পদক্ষেপগুলি এড়িয়ে যেতে পারেন। আরো বিস্তারিত জানার জন্য, পড়ুন একটি শেষ পয়েন্টের পিছনে সিরিয়াল ইনফারেন্স পাইপলাইন হিসাবে প্রাক-প্রসেসিং লজিক সহ হোস্ট মডেলগুলি.

স্ট্যান্ডার্ডাইজিং ভান্ডার

ডেটা সায়েন্টিস্ট এবং এমএল ইঞ্জিনিয়ারদের মধ্যে সহযোগিতা সক্ষম করার জন্য, কোড রিপোজিটরি কাঠামোর প্রমিতকরণ প্রয়োজন। এছাড়াও, CI/CD পাইপলাইন কাঠামোর জন্য মানককরণ উপকারী, স্বয়ংক্রিয় বৈধতা, বিল্ডিং (যেমন কাস্টম কন্টেইনার বিল্ডিং) এবং পরীক্ষার পদক্ষেপগুলি অন্তর্ভুক্ত করতে সক্ষম করে।

নিম্নলিখিত উদাহরণ দুটি সংগ্রহস্থলে ML সমাধানগুলির বিভাজনকে চিত্রিত করে: প্রশিক্ষণের জন্য একটি বিল্ডিং এবং প্রশিক্ষণ সংগ্রহস্থল (এবং ঐচ্ছিকভাবে পাইপলাইন মডেল), এবং ব্যাচ ইনফারেন্স পাইপলাইন মডেলগুলিকে প্রচার করতে বা রিয়েল-টাইম এন্ডপয়েন্টগুলিকে ইনস্ট্যান্টিয়েট করার জন্য স্থাপনা:

বিল্ডিং/ট্রেনিং রিপোজিটরি

# Building/Training Repository
algorithms/
    shared_libraries/
        test/
            input/ # (optional)
            output/ # (optional)
            test_<step>.py
        <help_functions1>.py
        <help_functions2>.py
        README.md
    preprocessing/ # 1 folder per pre-processing job, order is defined in the ml pipeline logic
        <preprocessing_job_name1> # e.g classic ml: one hot encoding
            test/
                input/ # (optional)
                output/ # (optional)
                test_<step>.py
            __main__.py
            dockerfile # (optional) define dockerfile in case of custom containers
            README.md
       <preprocessing_job_name2> # e.g classic ml: one hot encoding
        ...
    training/ # (optional) each one is a training job in SageMaker
        <training_job_name>/
            test/
                input/ # (optional)
                output/ # (optional)
                test_<step>.py
            __main__.py
            README.md
    inference/ # (optional) for batch inference
        <batch_inference_job_name>/ # one job per training job name if we're building multiple models
            __main__.py
            README.md
    postprocessing/ # each one is a processing job in SageMaker
        <postprocessing_job_name1>/
            test/
                input/ # (optional)
                output/ # (optional)
                test_<step>.py
           __main__.py
            README.md
        <postprocessing_job_name2>/
        ...
ml_pipelines/
    training/ # (note) Multiple training ML pipelines can be defined
        ml-pipeline-training.py # Define training ML pipelines using SageMaker Pipeline SDK
        input.json # (optinal - json or yaml) ML pipeline configuration to enable reusability
    README.md
notebooks/
    *.ipynb # the original notebooks as has been created by the data scientists
    README.md
build_spec.yml
README.md

স্থাপনা সংগ্রহস্থল

# Deployment Repository
inference_config/
    staging/
        inference_config.json # Batch inference ML pipeline or real-time model endpoint configuration to enable reusability
    prod/
        inference_config.json # Batch inference ML pipeline or real-time model endpoint configuration to enable reusability
    README.md
app_infra/
    api_gateway/...
    lambda/...
    event_bridge/...
    batch_inference/ml-pipeline-inference.py # Define batch inference SageMaker Pipeline
tests/
    integration_test/
        test_<description>.py
        test_<description>.py
        # …
    stress_test/
        test_<description>.py
    other_test/
        test_<description>.py
    README.md
README.md

বিল্ডিং এবং ট্রেনিং রিপোজিটরি তিনটি প্রধান ফোল্ডারে বিভক্ত:

আলগোরিদিম - ডেটা বিজ্ঞানীরা অ্যালগরিদম রুট ফোল্ডারে এমএল পাইপলাইনের প্রতিটি ধাপের জন্য কোড তৈরি করে। পদক্ষেপগুলি প্রিপ্রসেসিং, প্রশিক্ষণ, ব্যাচ ইনফারেন্স এবং পোস্টপ্রসেসিং (মূল্যায়ন) এ গোষ্ঠীভুক্ত করা যেতে পারে। প্রতিটি গ্রুপে, একাধিক ধাপ সংশ্লিষ্ট সাবফোল্ডারে সংজ্ঞায়িত করা যেতে পারে, যেটিতে ইউনিট পরীক্ষার জন্য একটি ফোল্ডার থাকে (ঐচ্ছিক ইনপুট এবং আউটপুট সহ), প্রধান ফাংশন, রিডমি এবং একটি কাস্টম ধারক প্রয়োজনের ক্ষেত্রে একটি ডকার ফাইল। প্রধান ছাড়াও, একাধিক কোড ফাইল একই ফোল্ডারে হোস্ট করা যেতে পারে। সমস্ত পদক্ষেপের জন্য সাধারণ সাহায্যকারী লাইব্রেরিগুলি একটি ভাগ করা লাইব্রেরি ফোল্ডারে হোস্ট করা যেতে পারে। ডেটা বিজ্ঞানীরা ইউনিট পরীক্ষার বিকাশের জন্য দায়ী কারণ তারা পদক্ষেপগুলির যুক্তির মালিক, এবং এমএল ইঞ্জিনিয়াররা ত্রুটি পরিচালনার উন্নতি এবং পরীক্ষার কভারেজ সুপারিশের জন্য দায়ী। সিআই/সিডি পাইপলাইন পরীক্ষা চালানোর জন্য, স্বয়ংক্রিয়ভাবে কন্টেইনার তৈরি করার জন্য (যদি প্রয়োজন হয়), এবং একাধিক সোর্স কোড ফাইল প্যাকেজ করার জন্য দায়ী।
এমএল পাইপলাইন - আপনি প্রতিটি ধাপের সোর্স কোড এবং পরীক্ষাগুলি বিকাশ করার পরে, পরবর্তী ধাপটি হল অন্য রুট ফোল্ডারে সেজমেকার পাইপলাইনগুলি সংজ্ঞায়িত করা। প্রতিটি ML পাইপলাইন সংজ্ঞা সাবফোল্ডারে স্থাপন করা হয় যাতে .py ফাইল এবং ইনপুট প্যারামিটারের জন্য একটি JSON বা .yaml ফাইল থাকে, যেমন হাইপারপ্যারামিটার রেঞ্জ। এমএল পাইপলাইন বর্ণনা করার জন্য একটি রিডমি ফাইল প্রয়োজন।
নোটবুক - এই ফোল্ডারটি মূল নোটবুকগুলি হোস্ট করে যা ডেটা বিজ্ঞানী পরীক্ষার সময় ব্যবহার করেছিলেন।

স্থাপনার সংগ্রহস্থল তিনটি প্রধান অংশ নিয়ে গঠিত:

অনুমান কনফিগারেশন - রিয়েল-টাইম এন্ডপয়েন্টের কনফিগারেশন বা বিকাশ পরিবেশ প্রতি ব্যাচ ইনফারেন্স, যেমন উদাহরণের ধরন রয়েছে।
অ্যাপ্লিকেশন পরিকাঠামো - প্রয়োজনে অনুমান চালানোর জন্য প্রয়োজনীয় অবকাঠামোর সোর্স কোড হোস্ট করে। এই মাধ্যমে একটি ট্রিগার প্রক্রিয়া হতে পারে অ্যামাজন ইভেন্টব্রিজ, অ্যামাজন এপিআই গেটওয়ে, এডাব্লুএস ল্যাম্বদা ফাংশন, বা সেজমেকার পাইপলাইন।
টেস্ট - গ্রাহক পরীক্ষার পদ্ধতির উপর নির্ভর করে একাধিক সাবফোল্ডার নিয়ে গঠিত। পরীক্ষার ন্যূনতম সেট হিসাবে, আমরা একটি ইন্টিগ্রেশন টেস্ট (অ্যাপ্লিকেশন পরিকাঠামো সহ অনুমানের শেষ থেকে শেষ রান), স্ট্রেস টেস্ট (এজ কেস পরীক্ষা করা) এবং ML পরীক্ষা (যেমন আত্মবিশ্বাসের স্কোর বা সম্ভাবনার বিতরণ) পরামর্শ দিই।

বিল্ডিং এবং ট্রেনিং রিপোজিটরিতে পরিবর্তন করার মাধ্যমে, একটি CI/CD পাইপলাইন রিপোজিটরি স্ট্রাকচার যাচাইকরণ, পরীক্ষাগুলি সম্পাদন এবং ML পাইপলাইন স্থাপন ও চালানোর জন্য দায়ী। একটি ভিন্ন CI/CD পাইপলাইন মডেলগুলির প্রচারের জন্য দায়ী, যা আমরা নিম্নলিখিত বিভাগে পরীক্ষা করব।

স্ট্যান্ডার্ডাইজিং রিপোজিটরি ব্রাঞ্চিং এবং সিআই/সিডি

ডেভ অ্যাকাউন্টে ML পাইপলাইনগুলির দৃঢ়তা নিশ্চিত করার জন্য, একটি বহু-শাখার সংগ্রহস্থলের কৌশল প্রস্তাবিত হয়, যখন স্থাপনাটি শুধুমাত্র CI/CD পাইপলাইনের মাধ্যমে সঞ্চালিত হয়। ডেটা বিজ্ঞানীদের তাদের নতুন কার্যকারিতা (সোর্স কোড) বিকাশের জন্য একটি বৈশিষ্ট্য শাখা ব্যবহার করা উচিত। যখন তারা সংশ্লিষ্ট ML পাইপলাইন স্থাপন করতে প্রস্তুত হয়, তখন তারা এটিকে বিকাশ শাখায় ঠেলে দিতে পারে। এই পদ্ধতির একটি বিকল্প হল বৈশিষ্ট্য শাখা প্রতি ML পাইপলাইন স্থাপনের অনুমতি দেওয়া। আরো তথ্যের জন্য, পড়ুন AWS ব্যবহার করে একটি বহু-শাখা প্রশিক্ষণ MLOps পাইপলাইনের মাধ্যমে আপনার ডেটা বিজ্ঞানের কর্মপ্রবাহ উন্নত করুন.

নিম্নলিখিত চিত্রটি শাখার কৌশল এবং প্রয়োজনীয় CI/CD পাইপলাইন পদক্ষেপগুলিকে চিত্রিত করে যা আমরা ML পাইপলাইন এবং মডেল বিল্ডিংয়ের জন্য ডেভ পরিবেশে চালাই।

সংস্করণ শাখা মডেল

বহু-শাখা পদ্ধতির কোড উদাহরণ পাওয়া যায় মাল্টি-শাখা MLOps প্রশিক্ষণ পাইপলাইন. আমরা একটি বৈশিষ্ট্য শাখা-ভিত্তিক ML পাইপলাইন দ্বারা উত্পাদিত মডেলগুলিকে একটি পৃথক বৈশিষ্ট্য মডেল গ্রুপে সংরক্ষণ করতে পারি এবং মূল শাখার সাথে একীভূত করার অনুরোধের সময় সেগুলিকে বাতিল করতে পারি। প্রধান মডেল গ্রুপের মডেলগুলিই উৎপাদনে উন্নীত হয়।

স্ট্যান্ডার্ডাইজিং ডেটা স্ট্রাকচার

সোর্স কোড স্ট্যান্ডার্ডাইজেশনের জন্য সমানভাবে গুরুত্বপূর্ণ হল ডেটার স্ট্রাকচার স্ট্যান্ডার্ডাইজেশন, যা ডেটা বিজ্ঞানী এবং এমএল ইঞ্জিনিয়ারদের ডিবাগ, অডিট এবং মডেল এবং এমএল পাইপলাইনের উৎপত্তি ও ইতিহাস পর্যবেক্ষণ করতে দেয়। নিম্নলিখিত চিত্রটি এমন একটি উদাহরণ তুলে ধরে।

একটি s3 বালতির উদাহরণ ফাইল গঠন

সরলতার জন্য, অনুমান করা যাক যে ইনপুট ঐতিহাসিক ডেটা ইনপুট সাব-কি (সাধারণত এটি ডেটা লেকে অবস্থিত) এর অধীনে বিকাশ অ্যাকাউন্টের একটি বালতিতে ল্যান্ড করে। প্রতিটি ML ব্যবহারের ক্ষেত্রে, একটি পৃথক উপ-কী তৈরি করা প্রয়োজন। চালানোর জন্য একটি নতুন ML পাইপলাইন ট্রিগার করতে, ডেটা বিজ্ঞানীকে একটি গিট কমিট এবং পুশ করতে হবে, যা CI/CD পাইপলাইনকে ট্রিগার করে। তারপরে CI/CD পাইপলাইন কোড আর্টিফ্যাক্টগুলি অনুলিপি করে একটি সাব-কি তৈরি করে ( code উপ-কী) এবং ইনপুট ডেটা (দি input সাব-কী) বিল্ড আইডির একটি সাব-পার্টিশনের অধীনে. উদাহরণ হিসেবে বিল্ড আইডি cতারিখ-সময় এবং গিট হ্যাশের সংমিশ্রণ, অথবা একটি SageMaker পাইপলাইন রান আইডি। এই কাঠামো ডেটা সায়েন্টিস্টকে অতীতের স্থাপনা এবং রানের অডিট এবং অনুসন্ধান করতে সক্ষম করে। এর পরে, CI/CD পাইপলাইন এমএল পাইপলাইন স্থাপন করে এবং ট্রিগার করে। যখন ML পাইপলাইন চলছে, প্রতিটি ধাপ মধ্যবর্তী ফলাফল রপ্তানি করে ml-pipeline-outputs. এটি মনে রাখা গুরুত্বপূর্ণ যে বিভিন্ন বৈশিষ্ট্য শাখাগুলি ML পাইপলাইনের একটি নতুন উদাহরণ স্থাপন এবং চালায় এবং প্রতিটিকে একটি নতুন সাব-কি এবং/অথবা একটি প্রমিত উপসর্গ বা প্রত্যয় সহ বিভিন্ন সাব-ফোল্ডারে মধ্যবর্তী ফলাফল রপ্তানি করতে হবে বৈশিষ্ট্য শাখা আইডি।

এই পদ্ধতিটি প্রতিটি পরীক্ষার সম্পূর্ণ নিরীক্ষাযোগ্যতা সমর্থন করে। যাইহোক, উন্নয়ন কৌশলের বহু-শাখা পদ্ধতি প্রচুর পরিমাণে ডেটা তৈরি করে। অতএব, একটি ডেটা জীবনচক্র কৌশল প্রয়োজন। আমরা প্রতিটি সফল টান/একত্রীকরণ অনুরোধে প্রতিটি বৈশিষ্ট্য শাখা ML পাইপলাইনের অন্তত ডেটা মুছে ফেলার পরামর্শ দিই। কিন্তু এটি নির্ভর করে অপারেটিং মডেল এবং অডিট গ্রানুলারিটির উপর আপনার ব্যবসাকে সমর্থন করতে হবে। আপনি ব্যাচ ইনফারেন্স এমএল পাইপলাইনে অনুরূপ পদ্ধতি ব্যবহার করতে পারেন

নির্ভরযোগ্য পর্যায়

একাধিক অ্যাকাউন্ট ব্যবহার করে ডেটা সায়েন্টিস্ট, এমএল ইঞ্জিনিয়ার এবং ডেটা ইঞ্জিনিয়ারদের মধ্যে উদ্বেগের প্রাথমিক বিভাজন করার পর, পরবর্তী ধাপ হল মডেল রেজিস্ট্রি থেকে উৎপাদিত মডেলগুলিকে অনুমান করার জন্য একটি বিচ্ছিন্ন পরিবেশে উন্নীত করা। যাইহোক, আমাদের স্থাপন করা মডেলগুলির দৃঢ়তা নিশ্চিত করতে হবে। অতএব, উৎপাদনের মিরর পরিবেশে স্থাপন করা মডেলের একটি সিমুলেশন বাধ্যতামূলক, যথা প্রাক-উৎপাদন (বা স্টেজিং)।

নিচের চিত্রটি এই স্থাপত্যকে তুলে ধরে।

নির্ভরযোগ্য ফেজ অ্যাকাউন্ট গঠন

প্রি-প্রোডাকশন এনভায়রনমেন্টে মডেল এবং এন্ডপয়েন্ট ডিপ্লয়মেন্টের প্রচার মডেল রেজিস্ট্রি স্ট্যাটাস আপডেট ইভেন্ট (বা ডিপ্লয়মেন্ট রিপোজিটরিতে গিট পুশ) ব্যবহার করে সম্পাদিত হয়, যা ইভেন্টব্রিজ ইভেন্ট ব্যবহার করে একটি আলাদা CI/CD পাইপলাইন ট্রিগার করে। CI/CD পাইপলাইনের প্রথম ধাপে লিড ডেটা সায়েন্টিস্ট (এবং ঐচ্ছিকভাবে পণ্যের মালিক, ব্যবসায়িক বিশ্লেষক বা অন্যান্য লিড ডেটা বিজ্ঞানী) দ্বারা একটি ম্যানুয়াল অনুমোদনের অনুরোধ করা হয়। অনুমোদনকারীকে মডেলের পারফরম্যান্স কেপিআই এবং ডিপ্লয়মেন্ট রিপোজিটরিতে কোডের QA যাচাই করতে হবে। অনুমোদনের পরে, CI/CD পাইপলাইন পরীক্ষার কোডটি স্থাপনার সংগ্রহস্থলে চালায় (একীকরণ পরীক্ষা, স্ট্রেস পরীক্ষা, ML পরীক্ষা)। মডেল এন্ডপয়েন্ট ছাড়াও, CI/CD ট্রিগারিং অবকাঠামো যেমন ইভেন্টব্রিজ, ল্যাম্বডা ফাংশন, বা API গেটওয়ে পরীক্ষা করে। নিম্নলিখিত চিত্রটি এই আপডেট করা আর্কিটেকচার দেখায়।

আলাদা প্রিপ্রড এবং প্রোড অ্যাকাউন্ট সহ নির্ভরযোগ্য ফেজ অ্যাকাউন্ট সেটআপ

পরীক্ষাগুলি সফলভাবে চালানোর পরে, CI/CD পাইপলাইন নতুন (বা একই) অনুমোদনকারীদের সূচিত করে যে একটি মডেল উৎপাদনে উন্নীত হওয়ার জন্য প্রস্তুত। এই পর্যায়ে, ব্যবসা বিশ্লেষক মডেলের ফলাফলের উপর কিছু অতিরিক্ত পরিসংখ্যানগত হাইপোথিসিস পরীক্ষা করতে চাইতে পারেন। অনুমোদনের পরে, মডেল এবং ট্রিগারিং অবকাঠামো উৎপাদনে স্থাপন করা হয়। একাধিক স্থাপনার পদ্ধতি SageMaker দ্বারা সমর্থিত, যেমন নীল/সবুজ, ক্যানারি, এবং A/B পরীক্ষা (এতে আরও দেখুন স্থাপনার গার্ডেল) যদি CI/CD পাইপলাইন ব্যর্থ হয়, একটি রোলব্যাক মেকানিজম সিস্টেমটিকে সর্বশেষ শক্তিশালী অবস্থায় ফিরিয়ে দেয়।

নিম্নলিখিত চিত্রটি একটি মডেলকে উন্নীত করার জন্য CI/CD পাইপলাইনের প্রধান পদক্ষেপ এবং মডেল এন্ডপয়েন্ট, যেমন API গেটওয়ে, ল্যাম্বডা ফাংশন এবং ইভেন্টব্রিজকে ট্রিগার করার জন্য পরিকাঠামোকে চিত্রিত করে।

CICD স্থাপনের জন্য ট্রিগারিং প্রক্রিয়ার উদাহরণ

ডেটা লেক এবং MLOps ইন্টিগ্রেশন

এই মুহুর্তে, বিকাশের পর্যায় বা অ্যাকাউন্টের প্রতি ডেটা প্রয়োজনীয়তা এবং কেন্দ্রীভূত ডেটা লেকের সাথে MLOpsকে অন্তর্ভুক্ত করার উপায় বোঝা গুরুত্বপূর্ণ। নিম্নলিখিত চিত্রটি MLOps এবং ডেটা লেক স্তরগুলিকে চিত্রিত করে৷

ডেটা লেকের সাথে মিলি পরিবেশের উদাহরণ ইন্টারফেস

ডেটা লেকে, ডেটা ইঞ্জিনিয়াররা ETL তৈরি করে এমএল ব্যবহারের ক্ষেত্রে একাধিক ডেটা উত্সে যোগদান এবং সংশ্লিষ্ট ডেটাসেটগুলি (উদাহরণস্বরূপ, কাঠামো ডেটার একটি একক টেবিল, বা পিডিএফ ফাইল বা চিত্র সহ একটি একক ফোল্ডার) তৈরি করার জন্য দায়ী। ডেটা বিজ্ঞানীদের দ্বারা সংজ্ঞায়িত পাইপলাইনগুলি (অন্বেষণ ডেটা বিশ্লেষণের পর্যায়ে)। এই ডেটাসেটগুলিকে ঐতিহাসিক তথ্য এবং উপাত্তে বিভক্ত করা যেতে পারে অনুমান এবং পরীক্ষার জন্য। সমস্ত ডেটা ক্যাটালগ করা হয়েছে (উদাহরণস্বরূপ, AWS গ্লু ডেটা ক্যাটালগের সাথে), এবং লেক ফরমেশনকে ডেটা গভর্নেন্স লেয়ার হিসাবে ব্যবহার করে (স্ট্রাকচার্ড ডেটার জন্য) অন্যান্য অ্যাকাউন্ট এবং ব্যবহারকারীদের সাথে ভাগ করা যেতে পারে। এই লেখার মতো, লেক ফর্মেশন শুধুমাত্র অ্যাথেনা প্রশ্ন, AWS গ্লু জবস এবং অ্যামাজন EMR এর সাথে সামঞ্জস্যপূর্ণ।

অন্যদিকে, MLOps এনভায়রনমেন্টের জন্য ML পাইপলাইনগুলিকে dev, pre-prod এবং prod-এ স্থানীয় বালতিতে অবস্থিত নির্দিষ্ট ডেটাসেট দিয়ে সেচ করতে হবে। ডেভ এনভায়রনমেন্ট ডেটা লেক থেকে ডেটা টেনে SageMaker পাইপলাইন ব্যবহার করে চাহিদা অনুযায়ী মডেল তৈরি ও প্রশিক্ষণের জন্য দায়ী। তাই, পাইপলাইনের প্রথম ধাপ হিসেবে আমরা পরামর্শ দিই যে হয় একটি অ্যাথেনা ধাপ, যেখানে শুধুমাত্র ডেটা স্যাম্পলিং এবং অনুসন্ধানের প্রয়োজন হয়, অথবা আরও জটিল রূপান্তরের প্রয়োজন হলে একটি Amazon EMR ধাপ। বিকল্পভাবে, আপনি একটি কলব্যাক পদক্ষেপের মাধ্যমে একটি AWS আঠালো কাজ ব্যবহার করতে পারেন, কিন্তু সেজমেকার পাইপলাইনগুলির সাথে এখনও একটি নেটিভ পদক্ষেপ হিসাবে নয়।

প্রি-প্রোড এবং প্রোড হয় রিয়েল-টাইম এবং ব্যাচ ইনফারেন্স পরীক্ষা বা পরিচালনার জন্য দায়ী। রিয়েল-টাইম ইনফারেন্সের ক্ষেত্রে, MLOps প্রাক-প্রোড এবং প্রোড অ্যাকাউন্টগুলিতে ডেটা পাঠানোর প্রয়োজন নেই কারণ অনুমানের জন্য ইনপুট API গেটওয়ে অনুরোধের পেলোডে পিগি-ব্যাক করতে পারে। ব্যাচ ইনফারেন্সের (বা বড় আকারের ইনপুট ডেটা) ক্ষেত্রে, প্রয়োজনীয় ডেটাসেটগুলি, হয় পরীক্ষার ডেটা বা অনুমানের জন্য ডেটা, স্থানীয় ML ডেটা বাকেটগুলিতে (প্রি-প্রোড বা প্রোড) অবতরণ করতে হবে। প্রি-প্রোড এবং প্রোড-এ ডেটা সরানোর জন্য আপনার কাছে দুটি বিকল্প রয়েছে: হয় অ্যাথেনা বা অ্যামাজন EMR ট্রিগার করে এবং ডেটা লেক থেকে ডেটা টেনে, অথবা ডেটা লেক থেকে সেই MLOps অ্যাকাউন্টগুলিতে ডেটা পুশ করে৷ প্রথম বিকল্পটির জন্য MLOps অ্যাকাউন্টগুলিতে অতিরিক্ত প্রক্রিয়ার বিকাশ প্রয়োজন, উদাহরণস্বরূপ, নির্ধারিত ইভেন্টব্রিজ ইভেন্ট তৈরি করা (ডেটা লেকের ডেটা আপডেট করা থাকলে জ্ঞান ছাড়াই) বা ডেটা লেকের S3 ইভেন্টব্রিজ ইভেন্টগুলিতে অন-ডেটা আগমন (এর জন্য আরো বিস্তারিত, দেখুন অ্যামাজন ইভেন্টব্রিজ রিসোর্স নীতির সাথে ক্রস-অ্যাকাউন্ট অ্যাক্সেস সহজ করা) MLOps সাইডে ইভেন্টটি ধরার পরে, একটি Athena ক্যোয়ারী বা Amazon EMR স্থানীয়ভাবে ডেটা আনতে পারে এবং ট্রিগার করতে পারে অ্যাসিঙ্ক্রোনাস অনুমান or ব্যাচ রূপান্তর. এটি সরলতার জন্য একটি সেজমেকার পাইপলাইনে মোড়ানো যেতে পারে। দ্বিতীয় বিকল্পটি হল ETL পাইপলাইনের শেষ ধাপে MLOps বালতিতে ডেটা পুশ করার কার্যকারিতা যোগ করা। যাইহোক, এই পদ্ধতিটি দায়িত্বগুলিকে মিশ্রিত করে (ডেটা লেক অনুমানকে ট্রিগার করে) এবং MLOps বালতিতে লেখার জন্য ডেটা লেকে অ্যাক্সেস দেওয়ার জন্য লেক ফর্মেশনের প্রয়োজন।

শেষ ধাপ হল ইনফারেন্সের ফলাফলগুলিকে ডেটা লেকে ফিরিয়ে আনা। ডেটা ক্যাটালগ করতে এবং এটি অন্যান্য ব্যবহারকারীদের কাছে উপলব্ধ করতে, ডেটা ল্যান্ডিং বাকেটে একটি নতুন ডেটা উত্স হিসাবে ফিরে আসা উচিত৷

স্কেলেবল ফেজ

MLOps ফাউন্ডেশনের বিকাশ এবং প্রথম ML ব্যবহারের ক্ষেত্রে এন্ড-টু-এন্ড প্রোডাকশনাইজেশনের পরে, dev, pre-prod, prod এবং রিপোজিটরি, CI/CD পাইপলাইন এবং ডেটা স্ট্রাকচারের পরিকাঠামো পরীক্ষা ও চূড়ান্ত করা হয়েছে। . পরবর্তী পদক্ষেপটি হল প্ল্যাটফর্মে নতুন এমএল ব্যবহারের কেস এবং দলগুলিকে অনবোর্ড করা। গতি-থেকে-মান নিশ্চিত করতে, সেজমেকার আপনাকে কাস্টম সেজমেকার প্রকল্প টেমপ্লেট তৈরি করতে দেয়, যা আপনি স্বয়ংক্রিয়ভাবে টেমপ্লেট সংগ্রহস্থল এবং সিআই/সিডি পাইপলাইনগুলিকে ইনস্ট্যান্টিয়েট করতে ব্যবহার করতে পারেন। এই ধরনের SageMaker প্রকল্পের টেমপ্লেটগুলির সাথে, প্রধান ডেটা বিজ্ঞানীরা নতুন প্রকল্পগুলিকে সূচনা করার জন্য এবং নতুন এমএল ব্যবহারের ক্ষেত্রে একটি ডেডিকেটেড টিম বরাদ্দ করার জন্য দায়ী৷

নিচের চিত্রটি এই প্রক্রিয়াটিকে ব্যাখ্যা করে।

পরিমাপযোগ্য ফেজ অ্যাকাউন্ট সেটআপ

সমস্যাটি আরও জটিল হয়ে ওঠে যদি বিভিন্ন ডেটা সায়েন্টিস্ট টিম (অথবা একাধিক ব্যবসায়িক ইউনিট যেগুলিকে ML উত্পাদন করতে হয়) বিভিন্ন গোপনীয় ডেটাতে অ্যাক্সেস থাকে এবং একাধিক পণ্য মালিকরা মডেলগুলির প্রশিক্ষণ, স্থাপনা এবং চালানোর জন্য একটি পৃথক বিল পরিশোধের জন্য দায়ী। . তাই, দল প্রতি MLOps অ্যাকাউন্টের একটি পৃথক সেট (পরীক্ষা, ডেভ, প্রি-প্রোড এবং প্রোড) প্রয়োজন। নতুন MLOps অ্যাকাউন্টগুলি সহজে তৈরি করতে সক্ষম করার জন্য, আমরা আরেকটি অ্যাকাউন্ট প্রবর্তন করি, অ্যাডভান্স অ্যানালিটিক্স গভর্নেন্স অ্যাকাউন্ট, যা আইটি সদস্যদের দ্বারা অ্যাক্সেসযোগ্য এবং তাদের চাহিদা অনুযায়ী MLOps অ্যাকাউন্টগুলিকে ক্যাটালগ, তাত্ক্ষণিক বা ডিকমিশন করার অনুমতি দেয়। বিশেষ করে, এই অ্যাকাউন্টে MLOps অ্যাকাউন্টের (VPC, সাবনেট, এন্ডপয়েন্ট, বালতি, এডাব্লুএস আইডেন্টিটি এবং অ্যাক্সেস ম্যানেজমেন্ট (আইএএম) ভূমিকা এবং নীতি, এডাব্লুএস ক্লাউডফর্মেশন স্ট্যাকস), একটি AWS পরিষেবা ক্যাটালগ পণ্য স্বয়ংক্রিয়ভাবে পরিকাঠামোর ক্লাউডফরমেশন স্ট্যাকগুলিকে একাধিক অ্যাকাউন্টে এক ক্লিকে স্থাপন করতে, এবং একটি আমাজন ডায়নামোডিবি মেটাডেটা ক্যাটালগ করার টেবিল, যেমন কোন দল অ্যাকাউন্টের প্রতিটি সেটের জন্য দায়ী। এই ক্ষমতার সাথে, আইটি টিম চাহিদা অনুযায়ী MLOps অ্যাকাউন্টগুলিকে তাত্ক্ষণিক করে এবং প্রয়োজনীয় ব্যবহারকারী, অ্যাকাউন্ট প্রতি ডেটা অ্যাক্সেস এবং ধারাবাহিক নিরাপত্তা সীমাবদ্ধতা বরাদ্দ করে।

এই দৃশ্যের উপর ভিত্তি করে, আমরা অ্যাকাউন্টগুলিকে ক্ষণস্থায়ী এবং টেকসই হিসাবে আলাদা করি। ডেটা লেক এবং টুলিং হল টেকসই অ্যাকাউন্ট এবং যথাক্রমে ডেটা এবং সোর্স কোডের জন্য সত্যের একক পয়েন্টের ভূমিকা পালন করে। MLOps অ্যাকাউন্টগুলি বেশিরভাগই রাষ্ট্রবিহীন এবং চাহিদা অনুযায়ী তাৎক্ষণিক বা ডিকমিশন করা হয়, সেগুলিকে ক্ষণস্থায়ী করে তোলে। এমনকি MLOps অ্যাকাউন্টগুলির একটি সেট বাতিল করা হলেও, ব্যবহারকারী বা নিরীক্ষকরা অতীতের পরীক্ষাগুলি এবং ফলাফলগুলি পরীক্ষা করতে সক্ষম হয় কারণ সেগুলি টেকসই পরিবেশে সংরক্ষণ করা হয়।

আপনি যদি MLOps-এর জন্য Studio UI ব্যবহার করতে চান, তাহলে নিচের চিত্র অনুযায়ী টুলিং অ্যাকাউন্টটি dev অ্যাকাউন্টের অংশ।

ডেভ অ্যাকাউন্টের মধ্যে টুলিং অ্যাকাউন্ট সহ স্কেলেবল ফেজ অ্যাকাউন্ট সেটআপ

ব্যবহারকারী যদি MLOps-এর জন্য Sagemaker Studio UI ব্যবহার করতে চান, তাহলে টুলিং অ্যাকাউন্টটি dev-এর অংশ
উপরের চিত্র অনুযায়ী অ্যাকাউন্ট। এই MLOPs ফাউন্ডেশনের উদাহরণ সোর্স কোড পাওয়া যাবে
সিডিকে-এর উপর ভিত্তি করে মাল্টি-অ্যাকাউন্ট MLOps ফাউন্ডেশন সুরক্ষিত করুন.

উল্লেখ্য যে সেজমেকার কোডকমিট এবং কোডপাইপলাইনকে অন্য তৃতীয় পক্ষের উন্নয়ন সরঞ্জাম যেমন গিটহাব এবং জেনকিন্স দ্বারা প্রতিস্থাপন করার ক্ষমতা প্রদান করে (আরো বিশদ বিবরণ এখানে পাওয়া যাবে Amazon SageMaker প্রকল্প তৈরি করুন তৃতীয় পক্ষের উৎস নিয়ন্ত্রণ এবং জেনকিন্স ব্যবহার করে এবং Amazon SageMaker প্রকল্প MLOps GitLab এবং GitLab পাইপলাইন সহ টেমপ্লেট).

ব্যক্তিত্ব, অপারেশন এবং প্রযুক্তির সারাংশ

MLOps পরিপক্কতা মডেলের সাথে, আমরা একটি পরিষ্কার আর্কিটেকচার ডিজাইন এবং ডেলিভারি রোডম্যাপ সংজ্ঞায়িত করতে পারি। যাইহোক, প্রতিটি ব্যক্তিত্বের সাথে ইন্টারঅ্যাক্ট করার জন্য মূল AWS অ্যাকাউন্ট এবং পরিষেবাগুলি এবং পরিচালনা করার জন্য ক্রিয়াকলাপগুলির একটি পরিষ্কার দৃষ্টিভঙ্গি থাকা দরকার। নিম্নলিখিত চিত্রটি সেই বিভাগগুলির সংক্ষিপ্ত বিবরণ দেয়৷

Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ উদ্যোগগুলির জন্য MLOps ফাউন্ডেশন রোডম্যাপ। উল্লম্ব অনুসন্ধান. আ.

উপসংহার

একটি শক্তিশালী MLOps ফাউন্ডেশন, যা একাধিক ব্যক্তি এবং প্রযুক্তির মধ্যে মিথস্ক্রিয়াকে স্পষ্টভাবে সংজ্ঞায়িত করে, গতি-থেকে-মান বাড়াতে এবং খরচ কমাতে পারে এবং ডেটা বিজ্ঞানীদের উদ্ভাবনের উপর ফোকাস করতে সক্ষম করে। এই পোস্টে, আমরা দেখিয়েছি কিভাবে পর্যায়ক্রমে এই ধরনের একটি ভিত্তি তৈরি করা যায়, যার ফলে ব্যবসার জন্য একটি মসৃণ MLOps পরিপক্কতা মডেল এবং একাধিক ডেটা সায়েন্স টিম এবং উৎপাদনে এমএল ব্যবহারের ক্ষেত্রে সমর্থন করার ক্ষমতা। আমরা একাধিক দক্ষতা এবং দায়িত্ব সহ একাধিক ব্যক্তি সমন্বিত একটি অপারেটিং মডেল সংজ্ঞায়িত করেছি। অবশেষে, আমরা কোড ডেভেলপমেন্ট (রিপোজিটরি এবং সিআই/সিডি পাইপলাইন), ডেটা স্টোরেজ এবং শেয়ারিং এবং এমএলওপি এন্টারপ্রাইজ এনভায়রনমেন্টের জন্য সুরক্ষিত পরিকাঠামোর ব্যবস্থা কীভাবে মানসম্মত করা যায় তার উদাহরণ শেয়ার করেছি। অনেক এন্টারপ্রাইজ গ্রাহকরা এই পদ্ধতি গ্রহণ করেছেন এবং মাসের পরিবর্তে দিনের মধ্যে তাদের এমএল সমাধান উত্পাদন করতে সক্ষম হয়েছেন।

আপনার যদি কোনও মন্তব্য বা প্রশ্ন থাকে তবে দয়া করে মন্তব্য বিভাগে রেখে দিন।

লেখক সম্পর্কে

Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ উদ্যোগগুলির জন্য MLOps ফাউন্ডেশন রোডম্যাপ। উল্লম্ব অনুসন্ধান. আ. ডঃ সোক্রতিস কার্তকিস অ্যামাজন ওয়েব পরিষেবাগুলির জন্য একজন সিনিয়র মেশিন লার্নিং স্পেশালিস্ট সলিউশন আর্কিটেক্ট৷ Sokratis এন্টারপ্রাইজ গ্রাহকদের AWS পরিষেবাগুলিকে কাজে লাগিয়ে এবং তাদের অপারেটিং মডেলকে, যেমন MLOps ফাউন্ডেশন, এবং সর্বোত্তম উন্নয়ন অনুশীলনগুলিকে কাজে লাগিয়ে রূপান্তর রোডম্যাপ গঠনের মাধ্যমে তাদের মেশিন লার্নিং (ML) সমাধানগুলিকে শিল্পায়ন করতে সক্ষম করার উপর দৃষ্টি নিবদ্ধ করে৷ তিনি জ্বালানি, খুচরা, স্বাস্থ্য, ফিনান্স/ব্যাংকিং, মোটরস্পোর্টস ইত্যাদি ক্ষেত্রে উদ্ভাবনী এন্ড-টু-এন্ড প্রোডাকশন-লেভেল এমএল এবং ইন্টারনেট অফ থিংস (IoT) সমাধান উদ্ভাবন, ডিজাইন, নেতৃত্ব এবং বাস্তবায়নে 15+ বছর অতিবাহিত করেছেন। সোক্রটিস তার অবসর সময় পরিবার এবং বন্ধুদের সাথে কাটাতে বা মোটরবাইক চালাতে পছন্দ করে।

Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্স সহ উদ্যোগগুলির জন্য MLOps ফাউন্ডেশন রোডম্যাপ। উল্লম্ব অনুসন্ধান. আ. জর্জিওস শিনাস EMEA অঞ্চলে AI/ML-এর জন্য একজন বিশেষজ্ঞ সমাধান স্থপতি৷ তিনি লন্ডনে অবস্থিত এবং যুক্তরাজ্য এবং আয়ারল্যান্ডের গ্রাহকদের সাথে ঘনিষ্ঠভাবে কাজ করেন। Georgios গ্রাহকদের MLOps অনুশীলনে বিশেষ আগ্রহের সাথে AWS-এ উৎপাদনে মেশিন লার্নিং অ্যাপ্লিকেশন ডিজাইন ও স্থাপন করতে সাহায্য করে এবং গ্রাহকদের স্কেলে মেশিন লার্নিং করতে সক্ষম করে। তার অবসর সময়ে, তিনি ভ্রমণ, রান্না এবং বন্ধু এবং পরিবারের সাথে সময় কাটাতে উপভোগ করেন।

জিউসেপ অ্যাঞ্জেলো পোরসেলি অ্যামাজন ওয়েব পরিষেবাগুলির জন্য একজন প্রধান মেশিন লার্নিং বিশেষজ্ঞ সমাধান স্থপতি৷ বেশ কয়েক বছর সফ্টওয়্যার ইঞ্জিনিয়ারিং একটি ML ব্যাকগ্রাউন্ডের সাথে, তিনি যেকোন আকারের গ্রাহকদের সাথে তাদের ব্যবসা এবং প্রযুক্তিগত চাহিদাগুলি গভীরভাবে বুঝতে এবং AI এবং মেশিন লার্নিং সমাধানগুলি ডিজাইন করেন যা AWS ক্লাউড এবং Amazon মেশিন লার্নিং স্ট্যাকের সর্বোত্তম ব্যবহার করে৷ তিনি MLOps, Computer Vision, NLP সহ বিভিন্ন ডোমেনে প্রকল্পে কাজ করেছেন এবং AWS পরিষেবার বিস্তৃত সেট জড়িত। তার অবসর সময়ে, জিউসেপ ফুটবল খেলা উপভোগ করেন।

শেলবি আইজেনব্রোড Amazon Web Services (AWS)-এর একজন প্রিন্সিপাল এআই এবং মেশিন লার্নিং স্পেশালিস্ট সলিউশন আর্কিটেক্ট। তিনি 24 বছর ধরে একাধিক শিল্প, প্রযুক্তি এবং ভূমিকা নিয়ে প্রযুক্তিতে রয়েছেন। গ্রাহকদের স্কেলে এমএল ওয়ার্কলোড সরবরাহ এবং পরিচালনা করতে সহায়তা করার জন্য তিনি বর্তমানে তার DevOps এবং ML ব্যাকগ্রাউন্ডকে MLOps-এর ডোমেনে একত্রিত করার উপর মনোযোগ নিবদ্ধ করছেন। বিভিন্ন প্রযুক্তি ডোমেন জুড়ে 35টিরও বেশি পেটেন্ট মঞ্জুর করার সাথে, ব্যবসায়িক ফলাফল চালনা করার জন্য ক্রমাগত উদ্ভাবন এবং ডেটা ব্যবহার করার জন্য তার একটি আবেগ রয়েছে। Shelbee Coursera-এর ব্যবহারিক ডেটা সায়েন্স স্পেশালাইজেশনের একজন সহ-নির্মাতা এবং প্রশিক্ষক। তিনি ডেনভার চ্যাপ্টারের উইমেন ইন বিগ ডেটা (WiBD) এর সহ-পরিচালক। তার অবসর সময়ে, সে তার পরিবার, বন্ধুবান্ধব এবং অতি সক্রিয় কুকুরের সাথে সময় কাটাতে পছন্দ করে।

সময় স্ট্যাম্প: জুন 24, 2022

সময় স্ট্যাম্প: নভেম্বর 7, 2022

প্লেটো দ্বারা প্রকাশিত

DJLSserving এবং DeepSpeed মডেল সমান্তরাল অনুমান ব্যবহার করে Amazon SageMaker-এ বড় মডেল স্থাপন করুন

SageMaker স্বয়ংক্রিয় মডেল টিউনিংয়ের সাথে ন্যায়সঙ্গততার মতো অতিরিক্ত উদ্দেশ্যগুলির জন্য ML মডেলগুলি টিউন করুন৷

গভীর নিউরাল নেটওয়ার্ক ব্যবহার করে ক্লাউড-ভিত্তিক মেডিকেল ইমেজিং পুনর্গঠন

মেট্রিক্সের জন্য Amazon Lookout ব্যবহার করে একটি বায়ু মানের অসঙ্গতি সনাক্তকারী তৈরি করুন

Amazon SageMaker JumpStart এ মাল্টিমোডাল ডেটা ব্যবহার করে ফুসফুসের ক্যান্সারের বেঁচে থাকার অবস্থার ভবিষ্যদ্বাণী করুন

Amazon SageMaker | ব্যবহার করে মাল্টিক্লাউড পরিবেশে ML মডেলগুলিকে প্রশিক্ষণ দিন এবং স্থাপন করুন আমাজন ওয়েব সার্ভিসেস

Amazon SageMaker JumpStart-এ স্থিতিশীল ডিফিউশন মডেলের সাথে পাঠ্য থেকে ছবি তৈরি করুন

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব