Amazon SageMaker ক্যানভাস ব্যবহার করে ডেটা উৎপাদনে অসঙ্গতি সনাক্ত করুন | আমাজন ওয়েব সার্ভিসেস

Amazon SageMaker ক্যানভাস ব্যবহার করে ডেটা উৎপাদনে অসঙ্গতি সনাক্ত করুন | আমাজন ওয়েব সার্ভিসেস

ক্লাউড কম্পিউটিং, বিগ ডাটা এবং মেশিন লার্নিং (এমএল) টুল ব্যবহার করে অ্যামাজন অ্যাথেনা or আমাজন সেজমেকার সৃষ্টি এবং রক্ষণাবেক্ষণের অনেক প্রচেষ্টা ছাড়াই যে কেউ উপলব্ধ এবং ব্যবহারযোগ্য হয়ে উঠেছে। শিল্প সংস্থাগুলি ক্রমবর্ধমানভাবে ডেটা বিশ্লেষণ এবং ডেটা-চালিত সিদ্ধান্ত গ্রহণের দিকে নজর দেয় যাতে তাদের সমগ্র পোর্টফোলিও জুড়ে সম্পদের দক্ষতা বৃদ্ধি করে, অপারেশন থেকে ভবিষ্যদ্বাণীমূলক রক্ষণাবেক্ষণ বা পরিকল্পনা করা পর্যন্ত।

আইটি পরিবর্তনের গতির কারণে, ঐতিহ্যগত শিল্পের গ্রাহকরা দক্ষতার একটি দ্বিধাদ্বন্দ্বের সম্মুখীন হচ্ছেন। একদিকে, বিশ্লেষক এবং ডোমেন বিশেষজ্ঞদের প্রশ্নে থাকা ডেটা এবং এর ব্যাখ্যা সম্পর্কে খুব গভীর জ্ঞান রয়েছে, তবুও প্রায়শই ডেটা সায়েন্স টুলিং এবং পাইথনের মতো উচ্চ-স্তরের প্রোগ্রামিং ভাষার এক্সপোজারের অভাব হয়। অন্যদিকে, ডেটা সায়েন্স বিশেষজ্ঞদের প্রায়ই মেশিনের ডেটা বিষয়বস্তু ব্যাখ্যা করার এবং প্রাসঙ্গিক বিষয়গুলির জন্য এটি ফিল্টার করার অভিজ্ঞতার অভাব থাকে। এই দ্বিধা দক্ষ মডেল তৈরিতে বাধা দেয় যা ব্যবসা-প্রাসঙ্গিক অন্তর্দৃষ্টি তৈরি করতে ডেটা ব্যবহার করে।

আমাজন সেজমেকার ক্যানভাস শক্তিশালী অ্যানালিটিক্স এবং এমএল মডেল, যেমন পূর্বাভাস, শ্রেণীবিভাগ বা রিগ্রেশন মডেল তৈরি করতে ডোমেন বিশেষজ্ঞদের একটি নো-কোড ইন্টারফেস প্রদান করে এই দ্বিধাকে মোকাবেলা করে। এটি আপনাকে তৈরি করার পরে ML এবং MLOps বিশেষজ্ঞদের সাথে এই মডেলগুলি স্থাপন এবং ভাগ করার অনুমতি দেয়৷

এই পোস্টে, আমরা আপনাকে দেখাই কিভাবে সেজমেকার ক্যানভাস ব্যবহার করে আপনার ডেটাতে সঠিক বৈশিষ্ট্যগুলিকে কিউরেট করতে এবং নির্বাচন করতে হয় এবং তারপরে মডেল টিউনিংয়ের জন্য সেজমেকার ক্যানভাসের নো-কোড কার্যকারিতা ব্যবহার করে অসামঞ্জস্যতা সনাক্তকরণের জন্য একটি ভবিষ্যদ্বাণী মডেল প্রশিক্ষণ দিই।

উত্পাদন শিল্পের জন্য অসঙ্গতি সনাক্তকরণ

লেখার সময়, সেজমেকার ক্যানভাস সাধারণ ব্যবসায়িক ব্যবহারের ক্ষেত্রে ফোকাস করে, যেমন পূর্বাভাস, রিগ্রেশন এবং শ্রেণীবিভাগ। এই পোস্টের জন্য, আমরা দেখাই যে কীভাবে এই ক্ষমতাগুলি জটিল অস্বাভাবিক ডেটা পয়েন্ট সনাক্ত করতে সাহায্য করতে পারে। এই ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক, উদাহরণস্বরূপ, শিল্প মেশিনের ত্রুটি বা অস্বাভাবিক ক্রিয়াকলাপ চিহ্নিত করার জন্য।

শিল্প ডোমেনে অসামঞ্জস্যতা সনাক্তকরণ গুরুত্বপূর্ণ, কারণ মেশিনগুলি (ট্রেন থেকে টারবাইন) সাধারণত অনেক নির্ভরযোগ্য, ব্যর্থতার মধ্যে কয়েক বছর ধরে। এই মেশিনগুলির বেশিরভাগ ডেটা, যেমন তাপমাত্রা সেনার রিডিং বা স্ট্যাটাস মেসেজ, স্বাভাবিক ক্রিয়াকলাপের বর্ণনা দেয় এবং সিদ্ধান্ত নেওয়ার জন্য সীমিত মান রয়েছে। কোনো ত্রুটির মূল কারণ অনুসন্ধান করার সময় বা ভবিষ্যতের ত্রুটির জন্য সতর্কতা সূচক হিসেবে ইঞ্জিনিয়াররা অস্বাভাবিক ডেটা খোঁজেন এবং পারফরম্যান্স ম্যানেজাররা সম্ভাব্য উন্নতি চিহ্নিত করতে অস্বাভাবিক ডেটা পরীক্ষা করে। অতএব, ডেটা-চালিত সিদ্ধান্ত গ্রহণের দিকে অগ্রসর হওয়ার সাধারণ প্রথম পদক্ষেপটি সেই প্রাসঙ্গিক (অস্বাভাবিক) ডেটা খোঁজার উপর নির্ভর করে।

এই পোস্টে, আমরা ডেটাতে সঠিক বৈশিষ্ট্যগুলি কিউরেট করতে এবং নির্বাচন করতে সেজমেকার ক্যানভাস ব্যবহার করি এবং তারপরে মডেল টিউনিংয়ের জন্য সেজমেকার ক্যানভাস নো-কোড কার্যকারিতা ব্যবহার করে অসামঞ্জস্য সনাক্তকরণের জন্য একটি ভবিষ্যদ্বাণী মডেলকে প্রশিক্ষণ দিই। তারপরে আমরা মডেলটিকে সেজমেকার এন্ডপয়েন্ট হিসাবে স্থাপন করি।

সমাধান ওভারভিউ

আমাদের অসঙ্গতি সনাক্তকরণ ব্যবহারের ক্ষেত্রে, আমরা একটি ভবিষ্যদ্বাণী মডেলকে প্রশিক্ষণ দিই একটি মেশিনের স্বাভাবিক ক্রিয়াকলাপের জন্য একটি বৈশিষ্ট্যগত বৈশিষ্ট্যের পূর্বাভাস দেওয়ার জন্য, যেমন একটি গাড়িতে নির্দেশিত মোটর তাপমাত্রা, গাড়িতে প্রয়োগ করা গতি এবং সাম্প্রতিক টর্কের মতো বৈশিষ্ট্যগুলিকে প্রভাবিত করে৷ . পরিমাপের একটি নতুন নমুনায় অসঙ্গতি সনাক্তকরণের জন্য, আমরা প্রদত্ত পর্যবেক্ষণের সাথে বৈশিষ্ট্যগত বৈশিষ্ট্যের মডেলের পূর্বাভাস তুলনা করি।

গাড়ির মোটরের উদাহরণের জন্য, একজন ডোমেন বিশেষজ্ঞ স্বাভাবিক মোটর তাপমাত্রা, সাম্প্রতিক মোটর টর্ক, পরিবেষ্টিত তাপমাত্রা এবং অন্যান্য সম্ভাব্য প্রভাবক কারণগুলির পরিমাপ পান। এগুলি আপনাকে অন্যান্য বৈশিষ্ট্যগুলি থেকে তাপমাত্রার পূর্বাভাস দেওয়ার জন্য একটি মডেলকে প্রশিক্ষণ দেওয়ার অনুমতি দেয়। তারপরে আমরা নিয়মিতভাবে মোটর তাপমাত্রার পূর্বাভাস দিতে মডেলটি ব্যবহার করতে পারি। যখন সেই ডেটার পূর্বাভাসিত তাপমাত্রা সেই ডেটাতে পর্যবেক্ষণ করা তাপমাত্রার অনুরূপ হয়, তখন মোটরটি স্বাভাবিকভাবে কাজ করে; একটি অসঙ্গতি একটি অসঙ্গতির দিকে নির্দেশ করবে, যেমন কুলিং সিস্টেমের ব্যর্থতা বা মোটরের ত্রুটি।

নিম্নলিখিত চিত্রটি সমাধানের স্থাপত্যকে চিত্রিত করে।

প্রক্রিয়াটির সংক্ষিপ্ত বিবরণ: সেজমেকার ক্যানভাসে একটি মডেল তৈরি করা হয়, স্থাপন করা হয় এবং তারপর একটি AWS Lambda Funcino থেকে অ্যাক্সেস করা হয়।

সমাধান চারটি মূল পদক্ষেপ নিয়ে গঠিত:

  1. ডোমেন বিশেষজ্ঞ সেজমেকার ক্যানভাস ব্যবহার করে ডেটা বিশ্লেষণ এবং বৈশিষ্ট্য কিউরেশন সহ প্রাথমিক মডেল তৈরি করেন।
  2. ডোমেন বিশেষজ্ঞ এর মাধ্যমে মডেল শেয়ার করেন আমাজন সেজমেকার মডেল রেজিস্ট্রি অথবা এটি সরাসরি একটি রিয়েল-টাইম এন্ডপয়েন্ট হিসাবে স্থাপন করে।
  3. একজন MLOps বিশেষজ্ঞ অনুমান পরিকাঠামো এবং কোড তৈরি করে যা একটি ভবিষ্যদ্বাণী থেকে মডেল আউটপুটকে একটি অসঙ্গতি সূচকে অনুবাদ করে। এই কোড সাধারণত একটি ভিতরে সঞ্চালিত হয় এডাব্লুএস ল্যাম্বদা ফাংশন.
  4. যখন একটি অ্যাপ্লিকেশনের জন্য একটি অসঙ্গতি সনাক্তকরণের প্রয়োজন হয়, তখন এটি ল্যাম্বডা ফাংশনকে কল করে, যা অনুমানের জন্য মডেল ব্যবহার করে এবং প্রতিক্রিয়া প্রদান করে (এটি একটি অসঙ্গতি হোক বা না হোক)।

পূর্বশর্ত

এই পোস্টটি অনুসরণ করতে, আপনাকে অবশ্যই নিম্নলিখিত পূর্বশর্তগুলি পূরণ করতে হবে:

SageMaker ব্যবহার করে মডেল তৈরি করুন

মডেল তৈরির প্রক্রিয়াটি সেজমেকার ক্যানভাসে একটি রিগ্রেশন মডেল তৈরি করার জন্য আদর্শ পদক্ষেপগুলি অনুসরণ করে। আরো তথ্যের জন্য, পড়ুন Amazon SageMaker ক্যানভাস ব্যবহার করে শুরু করা.

প্রথমত, ডোমেন বিশেষজ্ঞ সেজমেকার ক্যানভাসে প্রাসঙ্গিক ডেটা লোড করে, যেমন পরিমাপের একটি টাইম সিরিজ। এই পোস্টের জন্য, আমরা একটি CSV ফাইল ব্যবহার করি যাতে একটি বৈদ্যুতিক মোটরের (কৃত্রিমভাবে তৈরি) পরিমাপ থাকে। বিস্তারিত জানার জন্য, পড়ুন ক্যানভাসে ডেটা আমদানি করুন. ব্যবহৃত নমুনা ডেটা একটি হিসাবে ডাউনলোডের জন্য উপলব্ধ CSV তে.

CSV-এর প্রথম লাইন দেখানো একটি ছবি। এছাড়াও, একটি দ্রুত-প্রিভিউ মডেলের জন্য একটি হিস্টোগ্রাম এবং বেঞ্চমার্ক মেট্রিক্স দেখানো হয়।

সেজমেকার ক্যানভাস দিয়ে ডেটা কিউরেট করুন

ডেটা লোড হওয়ার পরে, ডোমেন বিশেষজ্ঞ চূড়ান্ত মডেলে ব্যবহৃত ডেটা কিউরেট করতে সেজমেকার ক্যানভাস ব্যবহার করতে পারেন। এর জন্য, বিশেষজ্ঞ সেই কলামগুলি নির্বাচন করেন যেগুলিতে প্রশ্নে সমস্যাটির জন্য বৈশিষ্ট্যগত পরিমাপ রয়েছে। আরও সুনির্দিষ্টভাবে, বিশেষজ্ঞ কলামগুলি নির্বাচন করেন যা একে অপরের সাথে সম্পর্কিত, উদাহরণস্বরূপ, একটি শারীরিক সম্পর্কের দ্বারা যেমন চাপ-তাপমাত্রার বক্ররেখা, এবং যেখানে সেই সম্পর্কের পরিবর্তন তাদের ব্যবহারের ক্ষেত্রে একটি প্রাসঙ্গিক অসঙ্গতি। অসঙ্গতি সনাক্তকরণ মডেলটি নির্বাচিত কলামগুলির মধ্যে স্বাভাবিক সম্পর্ক শিখবে এবং নির্দেশ করবে যখন ডেটা এটির সাথে সামঞ্জস্যপূর্ণ নয়, যেমন মোটরের বর্তমান লোডের কারণে একটি অস্বাভাবিক উচ্চ মোটর তাপমাত্রা।

অনুশীলনে, ডোমেন বিশেষজ্ঞকে উপযুক্ত ইনপুট কলামের একটি সেট এবং একটি লক্ষ্য কলাম নির্বাচন করতে হবে। ইনপুটগুলি সাধারণত পরিমাণের সংগ্রহ (সাংখ্যিক বা স্পষ্ট) যা একটি মেশিনের আচরণ নির্ধারণ করে, চাহিদা সেটিংস থেকে, লোড, গতি বা পরিবেষ্টিত তাপমাত্রা পর্যন্ত। আউটপুট হল একটি সাংখ্যিক পরিমাণ যা মেশিনের ক্রিয়াকলাপের কার্যকারিতা নির্দেশ করে, যেমন তাপমাত্রা পরিমাপক শক্তির অপচয় বা অন্য কর্মক্ষমতা মেট্রিক পরিবর্তন যখন মেশিনটি সাবঅপ্টিমাল অবস্থায় চলে।

ইনপুট এবং আউটপুটের জন্য কী পরিমাণ নির্বাচন করতে হবে তার ধারণাটি ব্যাখ্যা করতে, আসুন কয়েকটি উদাহরণ বিবেচনা করি:

  • ঘূর্ণায়মান সরঞ্জামগুলির জন্য, যেমন আমরা এই পোস্টে যে মডেলটি তৈরি করি, সাধারণ ইনপুটগুলি হল ঘূর্ণন গতি, টর্ক (বর্তমান এবং ইতিহাস), এবং পরিবেষ্টিত তাপমাত্রা এবং লক্ষ্যগুলি হল ফলস্বরূপ বিয়ারিং বা মোটর তাপমাত্রা যা ঘূর্ণনের ভাল অপারেশনাল অবস্থা নির্দেশ করে।
  • একটি বায়ু টারবাইনের জন্য, সাধারণ ইনপুটগুলি হল বাতাসের গতি এবং রটার ব্লেড সেটিংসের বর্তমান এবং সাম্প্রতিক ইতিহাস এবং লক্ষ্য পরিমাণ হল উত্পাদিত শক্তি বা ঘূর্ণন গতি।
  • একটি রাসায়নিক প্রক্রিয়ার জন্য, সাধারণ ইনপুটগুলি হল বিভিন্ন উপাদানের শতাংশ এবং পরিবেষ্টিত তাপমাত্রা, এবং লক্ষ্যগুলি হল উত্পাদিত তাপ বা শেষ পণ্যের সান্দ্রতা।
  • স্লাইডিং দরজার মতো চলমান সরঞ্জামগুলির জন্য, সাধারণ ইনপুটগুলি হল মোটরগুলির পাওয়ার ইনপুট এবং লক্ষ্য মান হল গতি বা চলার জন্য সমাপ্তির সময়।
  • একটি HVAC সিস্টেমের জন্য, সাধারণ ইনপুটগুলি হল অর্জিত তাপমাত্রার পার্থক্য এবং লোড সেটিংস এবং লক্ষ্য পরিমাণ হল শক্তি খরচ পরিমাপ করা

শেষ পর্যন্ত, একটি প্রদত্ত সরঞ্জামের জন্য সঠিক ইনপুট এবং লক্ষ্যগুলি নির্ভর করবে ব্যবহারের ক্ষেত্রে এবং শনাক্ত করার জন্য অস্বাভাবিক আচরণের উপর, এবং নির্দিষ্ট ডেটাসেটের জটিলতার সাথে পরিচিত একজন ডোমেন বিশেষজ্ঞের কাছে সবচেয়ে বেশি পরিচিত।

বেশিরভাগ ক্ষেত্রে, উপযুক্ত ইনপুট এবং লক্ষ্য পরিমাণ নির্বাচন করার অর্থ শুধুমাত্র সঠিক কলাম নির্বাচন করা এবং লক্ষ্য কলাম চিহ্নিত করা (এই উদাহরণের জন্য, bearing_temperature) যাইহোক, একজন ডোমেন বিশেষজ্ঞ কলাম রূপান্তর করতে এবং ডেটা পরিমার্জন বা একত্রিত করতে সেজমেকার ক্যানভাসের নো-কোড বৈশিষ্ট্যগুলিও ব্যবহার করতে পারেন। উদাহরণস্বরূপ, আপনি প্রাসঙ্গিক নয় এমন ডেটা থেকে নির্দিষ্ট তারিখ বা টাইমস্ট্যাম্প বের করতে বা ফিল্টার করতে পারেন। সেজমেকার ক্যানভাস এই প্রক্রিয়াটিকে সমর্থন করে, নির্বাচিত পরিমাণের পরিসংখ্যান দেখায়, আপনাকে বুঝতে অনুমতি দেয় যে কোনও পরিমাণের আউটলার এবং স্প্রেড আছে কিনা যা মডেলের ফলাফলকে প্রভাবিত করতে পারে।

ট্রেন, সুর, এবং মডেল মূল্যায়ন

ডোমেন বিশেষজ্ঞ ডেটাসেটে উপযুক্ত কলাম নির্বাচন করার পরে, তারা ইনপুট এবং আউটপুটগুলির মধ্যে সম্পর্ক শিখতে মডেলটিকে প্রশিক্ষণ দিতে পারে। আরও সুনির্দিষ্টভাবে, মডেল ইনপুট থেকে নির্বাচিত লক্ষ্য মান ভবিষ্যদ্বাণী করতে শিখবে।

সাধারণত, আপনি SageMaker ক্যানভাস ব্যবহার করতে পারেন মডেল প্রিভিউ বিকল্প এটি প্রত্যাশিত মডেলের গুণমানের একটি দ্রুত ইঙ্গিত প্রদান করে এবং আউটপুট মেট্রিকে বিভিন্ন ইনপুট যে প্রভাব ফেলে তা আপনাকে তদন্ত করতে দেয়। উদাহরণস্বরূপ, নিম্নলিখিত স্ক্রিনশটে, মডেলটি দ্বারা সবচেয়ে বেশি প্রভাবিত হয় motor_speed এবং ambient_temperature ভবিষ্যদ্বাণী করার সময় মেট্রিক্স bearing_temperature. এটি যুক্তিযুক্ত, কারণ এই তাপমাত্রাগুলি ঘনিষ্ঠভাবে সম্পর্কিত। একই সময়ে, অতিরিক্ত ঘর্ষণ বা শক্তির ক্ষতির অন্যান্য উপায় এটিকে প্রভাবিত করতে পারে।

মডেলের মানের জন্য, মডেলের RMSE হল একটি সূচক যে মডেলটি প্রশিক্ষণের ডেটাতে স্বাভাবিক আচরণ শিখতে এবং ইনপুট এবং আউটপুট পরিমাপের মধ্যে সম্পর্কগুলিকে পুনরুত্পাদন করতে কতটা ভালো ছিল। উদাহরণস্বরূপ, নিম্নলিখিত মডেলটিতে, মডেলটি সঠিক ভবিষ্যদ্বাণী করতে সক্ষম হওয়া উচিত motor_bearing তাপমাত্রা 3.67 ডিগ্রী সেলসিয়াসের মধ্যে, তাই আমরা একটি মডেল ভবিষ্যদ্বাণী থেকে প্রকৃত তাপমাত্রার বিচ্যুতি বিবেচনা করতে পারি যা এর চেয়ে বড়, উদাহরণস্বরূপ, 7.4 ডিগ্রী একটি অসঙ্গতি হিসাবে। আপনি যে বাস্তব থ্রেশহোল্ডটি ব্যবহার করবেন, তা নির্ভর করবে স্থাপনার দৃশ্যে প্রয়োজনীয় সংবেদনশীলতার উপর।

প্রকৃত এবং পূর্বাভাসিত মোটর গতি দেখানো একটি গ্রাফ। সম্পর্ক কিছু গোলমাল সঙ্গে রৈখিক হয়.

অবশেষে, মডেল মূল্যায়ন এবং টিউনিং শেষ হওয়ার পরে, আপনি সম্পূর্ণ মডেল প্রশিক্ষণ শুরু করতে পারেন যা অনুমানের জন্য ব্যবহার করার জন্য মডেল তৈরি করবে।

মডেল মোতায়েন করুন

যদিও সেজমেকার ক্যানভাস অনুমানের জন্য একটি মডেল ব্যবহার করতে পারে, তবে অসঙ্গতি সনাক্তকরণের জন্য উত্পাদনশীল স্থাপনার জন্য আপনাকে সেজমেকার ক্যানভাসের বাইরে মডেল স্থাপন করতে হবে। আরও স্পষ্টভাবে, আমাদের মডেলটিকে শেষ পয়েন্ট হিসাবে স্থাপন করতে হবে।

এই পোস্টে এবং সরলতার জন্য, আমরা মডেলটিকে সেজমেকার ক্যানভাস থেকে সরাসরি একটি শেষ পয়েন্ট হিসাবে স্থাপন করি। নির্দেশাবলীর জন্য, পড়ুন একটি শেষ পয়েন্টে আপনার মডেল স্থাপন করুন. স্থাপনার নামটি নোট করা নিশ্চিত করুন এবং আপনি যে ইন্সট্যান্স টাইপ স্থাপন করবেন তার মূল্য বিবেচনা করুন (এই পোস্টের জন্য, আমরা ml.m5.large ব্যবহার করি)। SageMaker ক্যানভাস তারপর একটি মডেল শেষ পয়েন্ট তৈরি করবে যা ভবিষ্যদ্বাণী পেতে কল করা যেতে পারে।

একটি অ্যাপ্লিকেশন উইন্ডো একটি মডেল স্থাপনার কনফিগারেশন দেখাচ্ছে৷ দেখানো সেটিংস হল একটি মেশিনের আকার ml.m5.large এবং নমুনা-অসংগতি-মডেলের একটি স্থাপনার নাম।

শিল্প সেটিংসে, একটি মডেল স্থাপন করার আগে পুঙ্খানুপুঙ্খ পরীক্ষার মধ্য দিয়ে যেতে হবে। এর জন্য, ডোমেন বিশেষজ্ঞ এটি স্থাপন করবেন না, বরং মডেলটি সেজমেকার মডেল রেজিস্ট্রিতে ভাগ করবেন। এখানে, একজন MLOps অপারেশন বিশেষজ্ঞ দায়িত্ব নিতে পারেন। সাধারণত, সেই বিশেষজ্ঞ মডেল এন্ডপয়েন্ট পরীক্ষা করবে, টার্গেট অ্যাপ্লিকেশনের জন্য প্রয়োজনীয় কম্পিউটিং সরঞ্জামের আকার মূল্যায়ন করবে এবং সর্বাধিক ব্যয়-দক্ষ স্থাপনা নির্ধারণ করবে, যেমন সার্ভারহীন অনুমান বা ব্যাচ অনুমানের জন্য স্থাপনা। এই পদক্ষেপগুলি সাধারণত স্বয়ংক্রিয় হয় (উদাহরণস্বরূপ, ব্যবহার করে আমাজন সেজমেকার পাইপলাইন অথবা আমাজন SDK).

Amazon Sgemaker থেকে একটি মডেল রেজিস্ট্রিতে একটি মডেল ভাগ করার বোতাম দেখানো একটি চিত্র৷

অসঙ্গতি সনাক্তকরণের জন্য মডেলটি ব্যবহার করুন

আগের ধাপে, আমরা সেজমেকার ক্যানভাসে একটি মডেল স্থাপনা তৈরি করেছি, যাকে বলা হয় canvas-sample-anomaly-model. আমরা একটি এর পূর্বাভাস পেতে এটি ব্যবহার করতে পারি bearing_temperature ডেটাসেটের অন্যান্য কলামের উপর ভিত্তি করে মান। এখন, আমরা অসঙ্গতি সনাক্ত করতে এই শেষ পয়েন্ট ব্যবহার করতে চাই।

অস্বাভাবিক ডেটা সনাক্ত করতে, আমাদের মডেল লক্ষ্য মেট্রিকের প্রত্যাশিত মান পেতে ভবিষ্যদ্বাণী মডেল শেষ পয়েন্ট ব্যবহার করবে এবং তারপরে ডেটার প্রকৃত মানের সাথে পূর্বাভাসিত মান তুলনা করবে। পূর্বাভাসিত মান প্রশিক্ষণ ডেটার উপর ভিত্তি করে আমাদের লক্ষ্য মেট্রিকের জন্য প্রত্যাশিত মান নির্দেশ করে। এই মানের পার্থক্য তাই পরিলক্ষিত প্রকৃত তথ্যের অস্বাভাবিকতার জন্য একটি মেট্রিক। আমরা নিম্নলিখিত কোড ব্যবহার করতে পারেন:

# We are using pandas dataframes for data handling
import pandas as pd import boto3,json
sm_runtime_client = boto3.client('sagemaker-runtime') # Configuration of the actual model invocation
endpoint_name="canvas-sample-anomaly-model"
# Name of the column in the input data to compare with predictions
TARGET_COL='bearing_temperature' def do_inference(data, endpoint_name): # Example Code provided by Sagemaker Canvas body = data.to_csv(header=False, index=True).encode("utf-8") response = sm_runtime_client.invoke_endpoint(Body = body, EndpointName = endpoint_name, ContentType = "text/csv", Accept = "application/json", ) return json.loads(response["Body"].read()) def input_transformer(input_data, drop_cols = [ TARGET_COL ] ): # Transform the input: Drop the Target column return input_data.drop(drop_cols,axis =1 ) def output_transformer(input_data,response): # Take the initial input data and compare it to the response of the prediction model scored = input_data.copy() scored.loc[ input_data.index,'prediction_'+TARGET_COL ] = pd.DataFrame(
response[ 'predictions' ],
index = input_data.index )['score'] scored.loc[ input_data.index,'error' ] = (
scored[ TARGET_COL ]-scored[ 'prediction_'+TARGET_COL ]
).abs() return scored # Run the inference
raw_input = pd.read_csv(MYFILE) # Read my data for inference
to_score = input_transformer(raw_input) # Prepare the data
predictions = do_inference(to_score, endpoint_name) # create predictions
results = output_transformer(to_score,predictions) # compare predictions & actuals

পূর্ববর্তী কোড নিম্নলিখিত ক্রিয়া সম্পাদন করে:

  1. ইনপুট ডেটা সঠিক বৈশিষ্ট্যগুলিতে ফিল্টার করা হয় (ফাংশন “input_transformer")।
  2. সেজমেকার মডেল এন্ডপয়েন্ট ফিল্টার করা ডেটার সাথে আহ্বান করা হয়েছে (ফাংশন “do_inference“), যেখানে আমরা সেজমেকার ক্যানভাসে আমাদের স্থাপনার বিশদ পৃষ্ঠা খোলার সময় প্রদত্ত নমুনা কোড অনুসারে ইনপুট এবং আউটপুট বিন্যাস পরিচালনা করি।
  3. আমন্ত্রণের ফলাফলটি মূল ইনপুট ডেটাতে যুক্ত হয় এবং পার্থক্যটি ত্রুটি কলামে সংরক্ষণ করা হয় (ফাংশন “output_transform")।

অসঙ্গতি খুঁজুন এবং অস্বাভাবিক ঘটনা মূল্যায়ন

একটি সাধারণ সেটআপে, অসঙ্গতিগুলি পাওয়ার জন্য কোডটি ল্যাম্বডা ফাংশনে চালিত হয়। Lambda ফাংশন একটি অ্যাপ্লিকেশন থেকে কল করা যেতে পারে বা অ্যামাজন এপিআই গেটওয়ে. প্রধান ফাংশন ইনপুট ডেটার প্রতিটি সারির জন্য একটি অসঙ্গতি স্কোর প্রদান করে—এই ক্ষেত্রে, একটি অসঙ্গতি স্কোরের একটি টাইম সিরিজ।

পরীক্ষার জন্য, আমরা একটি সেজমেকার নোটবুকে কোডটি চালাতে পারি। নমুনা ডেটা ব্যবহার করার সময় নিম্নলিখিত গ্রাফগুলি আমাদের মডেলের ইনপুট এবং আউটপুট দেখায়। পূর্বাভাসিত এবং প্রকৃত মানগুলির মধ্যে বিচ্যুতির শিখরগুলি (অসংগতি স্কোর, নিম্ন গ্রাফে দেখানো হয়েছে) অসঙ্গতিগুলি নির্দেশ করে৷ উদাহরণস্বরূপ, গ্রাফে, আমরা তিনটি স্বতন্ত্র শিখর দেখতে পাচ্ছি যেখানে অসঙ্গতি স্কোর (প্রত্যাশিত এবং বাস্তব তাপমাত্রার মধ্যে পার্থক্য) 7 ডিগ্রি সেলসিয়াস অতিক্রম করেছে: প্রথমটি দীর্ঘ অলস সময়ের পরে, দ্বিতীয়টি একটি খাড়া ড্রপ bearing_temperature, এবং শেষ যেখানে bearing_temperature তুলনায় উচ্চ motor_speed.

টাইমসিরিজের জন্য দুটি গ্রাফ। উপরেরটি মোটর তাপমাত্রা এবং মোটরের গতির জন্য টাইমসিরিজ দেখায়। নিম্ন গ্রাফটি সময়ের সাথে অসঙ্গতি স্কোর দেখায় যা তিনটি চূড়ার সাথে অসঙ্গতি নির্দেশ করে।

অনেক ক্ষেত্রে, অসংগতি স্কোরের টাইম সিরিজ জানা ইতিমধ্যেই যথেষ্ট; মডেল সংবেদনশীলতার প্রয়োজনের উপর ভিত্তি করে একটি উল্লেখযোগ্য অসঙ্গতি সম্পর্কে সতর্ক করার জন্য আপনি একটি থ্রেশহোল্ড সেট আপ করতে পারেন৷ বর্তমান স্কোর তখন নির্দেশ করে যে একটি মেশিনের একটি অস্বাভাবিক অবস্থা রয়েছে যা তদন্তের প্রয়োজন। উদাহরণস্বরূপ, আমাদের মডেলের জন্য, অসঙ্গতি স্কোরের পরম মান নিম্নলিখিত গ্রাফে দেখানো হিসাবে বিতরণ করা হয়। এটি নিশ্চিত করে যে বেশিরভাগ অসঙ্গতি স্কোরগুলি আদর্শ ত্রুটি হিসাবে মডেলটির প্রশিক্ষণের সময় পাওয়া (2xRMS=)8 ডিগ্রির নীচে। গ্রাফটি আপনাকে ম্যানুয়ালি একটি থ্রেশহোল্ড চয়ন করতে সাহায্য করতে পারে, যেমন মূল্যায়ন করা নমুনার সঠিক শতাংশ অসঙ্গতি হিসাবে চিহ্নিত করা হয়।

অসঙ্গতি স্কোরের জন্য মানগুলির সংঘটনের একটি হিস্টোগ্রাম। বক্ররেখা x=0 থেকে x=15 এ হ্রাস পায়।

যদি পছন্দসই আউটপুট অসঙ্গতির ঘটনা হয়, তাহলে মডেল দ্বারা প্রদত্ত অসঙ্গতি স্কোরগুলি ব্যবসায়িক ব্যবহারের জন্য প্রাসঙ্গিক হতে পরিমার্জন প্রয়োজন৷ এর জন্য, এমএল বিশেষজ্ঞ সাধারণত গোলমাল অপসারণের জন্য পোস্টপ্রসেসিং যোগ করবেন বা অস্বাভাবিক স্কোরের বড় শিখরগুলিকে সরিয়ে দেবেন, যেমন একটি ঘূর্ণায়মান গড় যোগ করা। উপরন্তু, বিশেষজ্ঞ সাধারণত একটি উত্থাপন অনুরূপ যুক্তি দ্বারা অসঙ্গতি স্কোর মূল্যায়ন করবে অ্যামাজন ক্লাউডওয়াচ অ্যালার্ম, যেমন একটি নির্দিষ্ট সময়কাল ধরে থ্রেশহোল্ড লঙ্ঘনের জন্য পর্যবেক্ষণ। অ্যালার্ম সেট আপ সম্পর্কে আরও তথ্যের জন্য, পড়ুন Amazon CloudWatch অ্যালার্ম ব্যবহার করে. ল্যাম্বডা ফাংশনে এই মূল্যায়নগুলি চালানো আপনাকে সতর্কতা পাঠাতে দেয়, উদাহরণস্বরূপ, একটি সতর্কতা প্রকাশ করে অ্যামাজন সাধারণ বিজ্ঞপ্তি পরিষেবা (Amazon SNS) বিষয়।

পরিষ্কার কর

আপনি এই সমাধানটি ব্যবহার করা শেষ করার পরে, অপ্রয়োজনীয় খরচ এড়াতে আপনার পরিষ্কার করা উচিত:

  1. সেজমেকার ক্যানভাসে, আপনার মডেল এন্ডপয়েন্ট স্থাপনা খুঁজুন এবং এটি মুছুন।
  2. অলসভাবে চলার জন্য চার্জ এড়াতে SageMaker ক্যানভাস থেকে লগ আউট করুন।

সারাংশ

এই পোস্টে, আমরা দেখিয়েছি যে কীভাবে একজন ডোমেন বিশেষজ্ঞ ইনপুট ডেটা মূল্যায়ন করতে পারেন এবং কোড লেখার প্রয়োজন ছাড়াই সেজমেকার ক্যানভাস ব্যবহার করে একটি এমএল মডেল তৈরি করতে পারেন। তারপরে আমরা দেখিয়েছি কিভাবে এই মডেলটি একটি সাধারণ ওয়ার্কফ্লো মাধ্যমে SageMaker এবং Lambda ব্যবহার করে রিয়েল-টাইম অসঙ্গতি সনাক্তকরণ করতে ব্যবহার করতে হয়। এই সংমিশ্রণটি ডোমেন বিশেষজ্ঞদের তাদের জ্ঞানকে ডেটা সায়েন্সে অতিরিক্ত প্রশিক্ষণ ছাড়াই শক্তিশালী এমএল মডেল তৈরি করতে ব্যবহার করার ক্ষমতা দেয় এবং MLOps বিশেষজ্ঞদের এই মডেলগুলি ব্যবহার করতে এবং নমনীয় এবং দক্ষতার সাথে অনুমানের জন্য উপলব্ধ করতে সক্ষম করে।

সেজমেকার ক্যানভাসের জন্য একটি 2-মাসের বিনামূল্যের স্তর উপলব্ধ, এবং তারপরে আপনি যা ব্যবহার করেন তার জন্যই অর্থ প্রদান করুন৷ আজই পরীক্ষা শুরু করুন এবং আপনার ডেটার সর্বোচ্চ ব্যবহার করতে ML যোগ করুন।


লেখক সম্পর্কে

Detect anomalies in manufacturing data using Amazon SageMaker Canvas | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. হেলগে অফডারহাইড ম্যানুফ্যাকচারিং এবং গতিশীলতার মতো শিল্প অ্যাপ্লিকেশনগুলিতে অটোমেশন, অ্যানালিটিক্স এবং মেশিন লার্নিং এর উপর দৃঢ় ফোকাস সহ বাস্তব জগতে ডেটা ব্যবহারযোগ্য করে তোলার একজন উত্সাহী৷

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং