কিভাবে Amazon সার্চ Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে বড় আকারের, স্থিতিস্থাপক মেশিন লার্নিং প্রকল্প চালায়। উল্লম্ব অনুসন্ধান. আ.

অ্যামাজন সার্চ কীভাবে অ্যামাজন সেজমেকারের সাথে বড় আকারের, স্থিতিস্থাপক মেশিন লার্নিং প্রকল্প চালায়

আপনি যদি amazon.com-এ কেনার জন্য একটি আইটেম অনুসন্ধান করেন তবে আপনি Amazon অনুসন্ধান পরিষেবাগুলি ব্যবহার করেছেন৷ Amazon অনুসন্ধানে, আমরা বিশ্বব্যাপী আমাদের গ্রাহকদের জন্য অনুসন্ধান এবং আবিষ্কারের অভিজ্ঞতার জন্য দায়ী। ব্যাকগ্রাউন্ডে, আমরা আমাদের বিশ্বব্যাপী পণ্যের ক্যাটালগ সূচী করি, অত্যন্ত মাপযোগ্য AWS ফ্লিট স্থাপন করি এবং প্রতিটি গ্রাহকের প্রশ্নের সাথে প্রাসঙ্গিক এবং আকর্ষণীয় পণ্যগুলি মেলানোর জন্য উন্নত মেশিন লার্নিং (ML) ব্যবহার করি।

সার্চ ফলাফলের গুণমান উন্নত করতে আমাদের বিজ্ঞানীরা নিয়মিত হাজার হাজার ML মডেলকে প্রশিক্ষণ দিয়ে থাকেন। বৃহৎ মাপের পরীক্ষা-নিরীক্ষাকে সমর্থন করা তার নিজস্ব চ্যালেঞ্জ উপস্থাপন করে, বিশেষ করে যখন এই এমএল মডেলগুলিকে প্রশিক্ষণ দেওয়া বিজ্ঞানীদের উত্পাদনশীলতা উন্নত করার কথা আসে।

এই পোস্টে, আমরা কীভাবে চারপাশে একটি ম্যানেজমেন্ট সিস্টেম তৈরি করেছি তা শেয়ার করি আমাজন সেজমেকার প্রশিক্ষণের কাজ, যা আমাদের বিজ্ঞানীদের হাজার হাজার পরীক্ষা-নিরীক্ষা করতে এবং প্রয়োজনে অবহিত করার অনুমতি দেয়। তারা এখন উচ্চ-মূল্যের কাজগুলিতে ফোকাস করতে পারে এবং অ্যালগরিদমিক ত্রুটিগুলি সমাধান করতে পারে, তাদের সময়ের 60% সাশ্রয় করে৷

চ্যালেঞ্জ

অ্যামাজন অনুসন্ধানে, আমাদের বিজ্ঞানীরা সেজমেকারে অসংখ্য এমএল মডেল প্রশিক্ষণের কাজ পরীক্ষা করে এবং চালানোর মাধ্যমে তথ্য পুনরুদ্ধার সমস্যা সমাধান করেন। আমাদের দলের উদ্ভাবনের সাথে তাল মিলিয়ে চলার জন্য, সময়ের সাথে সাথে আমাদের মডেলের জটিলতা এবং প্রশিক্ষণ কাজের সংখ্যা বৃদ্ধি পেয়েছে। সেজমেকার প্রশিক্ষণের কাজগুলি আমাদেরকে পরিকাঠামো পরিচালনার প্রয়োজন ছাড়াই সেই মডেলগুলিকে প্রশিক্ষন এবং টিউন করার জন্য সময় এবং খরচ কমাতে দেয়।

এই ধরনের বৃহৎ-স্কেল এমএল প্রকল্পের সবকিছুর মতো, প্রশিক্ষণের কাজগুলি বিভিন্ন কারণের কারণে ব্যর্থ হতে পারে। এই পোস্টটি অ্যালগরিদম ত্রুটির কারণে ক্ষমতার ঘাটতি এবং ব্যর্থতার উপর দৃষ্টি নিবদ্ধ করে।

ক্ষমতার অনুপলব্ধতা বা অ্যালগরিদম ত্রুটির কারণে চাকরি ব্যর্থ হওয়ার সম্ভাবনা সহ্য করতে এবং কমানোর জন্য আমরা একটি জব ম্যানেজমেন্ট সিস্টেম সহ একটি আর্কিটেকচার ডিজাইন করেছি। এটি বিজ্ঞানীদের হাজার হাজার প্রশিক্ষণের কাজকে ফায়ার-এন্ড-ভুলে যেতে, ক্ষণস্থায়ী ব্যর্থতার জন্য স্বয়ংক্রিয়ভাবে পুনরায় চেষ্টা করতে এবং প্রয়োজনে সাফল্য বা ব্যর্থতার বিজ্ঞপ্তি পেতে দেয়।

সমাধান ওভারভিউ

নিম্নলিখিত সমাধান চিত্রে, আমরা আমাদের সমাধানের মৌলিক একক হিসাবে সেজমেকার প্রশিক্ষণের কাজগুলি ব্যবহার করি। অর্থাৎ, একটি চাকরি একটি এমএল মডেলের শেষ থেকে শেষ প্রশিক্ষণের প্রতিনিধিত্ব করে।

এই সমাধানের উচ্চ-স্তরের কর্মপ্রবাহ নিম্নরূপ:

  1. বিজ্ঞানীরা সিস্টেমে একটি নতুন কাজ জমা দেওয়ার জন্য একটি API আহ্বান করেন।
  2. চাকরির সাথে নিবন্ধিত New একটি মেটাডেটা দোকানে স্থিতি।
  3. একটি কাজের সময়সূচী অ্যাসিঙ্ক্রোনাসভাবে পুনরুদ্ধার করে New মেটাডেটা স্টোর থেকে চাকরি, তাদের ইনপুট পার্স করে এবং প্রত্যেকের জন্য সেজমেকার প্রশিক্ষণের কাজ চালু করার চেষ্টা করে। তাদের অবস্থা পরিবর্তিত হয় Launched or Failed সাফল্যের উপর নির্ভর করে।
  4. একটি মনিটর নিয়মিত বিরতিতে কাজের অগ্রগতি পরীক্ষা করে এবং তাদের রিপোর্ট করে Completed, Failed, বা InProgress মেটাডেটা স্টোরে অবস্থা।
  5. রিপোর্ট করার জন্য একটি নোটিফায়ার ট্রিগার করা হয়েছে Completed এবং Failed বিজ্ঞানীদের চাকরি।

মেটাডেটা স্টোরে চাকরির ইতিহাস ধরে রাখা আমাদের দলকে প্রবণতা বিশ্লেষণ এবং প্রকল্পের অগ্রগতি নিরীক্ষণ করার অনুমতি দেয়।

এই কাজের সময়সূচী সমাধানের উপর ভিত্তি করে ঢিলেঢালাভাবে সংযুক্ত সার্ভারহীন উপাদান ব্যবহার করে এডাব্লুএস ল্যাম্বদা, আমাজন ডায়নামোডিবি, অ্যামাজন সাধারণ বিজ্ঞপ্তি পরিষেবা (Amazon SNS), এবং অ্যামাজন ইভেন্টব্রিজ. এটি অনুভূমিক মাপযোগ্যতা নিশ্চিত করে, আমাদের বিজ্ঞানীদের ন্যূনতম অপারেশন প্রচেষ্টার সাথে হাজার হাজার চাকরি চালু করতে দেয়। নিম্নলিখিত চিত্রটি সার্ভারহীন আর্কিটেকচারকে চিত্রিত করে।

আমাদের সমাধানের আর্কিটেকচার ওভারভিউ

নিম্নলিখিত বিভাগগুলিতে, আমরা প্রতিটি পরিষেবা এবং এর উপাদানগুলি সম্পর্কে আরও বিশদে যাই।

কাজের জন্য মেটাডেটা স্টোর হিসাবে DynamoDB চালায়

DynamoDB-এর সহজে ব্যবহার এবং স্কেলেবিলিটি এটিকে একটি DynamoDB টেবিলে কাজের মেটাডেটা বজায় রাখা একটি স্বাভাবিক পছন্দ করে তুলেছে। এই সমাধানটি বিজ্ঞানীদের দ্বারা জমা দেওয়া কাজের বিভিন্ন বৈশিষ্ট্য সংরক্ষণ করে, যার ফলে অগ্রগতি ট্র্যাকিং এবং কর্মপ্রবাহ অর্কেস্ট্রেশনে সহায়তা করে। সবচেয়ে গুরুত্বপূর্ণ গুণাবলী নিম্নরূপ:

  • জব আইডি - একটি অনন্য কাজের আইডি। এটি স্বয়ংক্রিয়ভাবে তৈরি বা বিজ্ঞানী দ্বারা সরবরাহ করা যেতে পারে।
  • চাকরির অবস্থা - চাকরির অবস্থা।
  • JobArgs – প্রশিক্ষণের কাজ তৈরির জন্য প্রয়োজনীয় অন্যান্য যুক্তি, যেমন Amazon S3-এ ইনপুট পাথ, প্রশিক্ষণের ছবি URI এবং আরও অনেক কিছু। একটি প্রশিক্ষণ কাজ তৈরি করতে প্রয়োজনীয় পরামিতিগুলির একটি সম্পূর্ণ তালিকার জন্য, পড়ুন তৈরি করুন প্রশিক্ষণজব.

মূল যুক্তির জন্য Lambda

আমরা তিনটি ব্যবহার করি ধারক-ভিত্তিক কাজের ওয়ার্কফ্লো অর্কেস্ট্রেট করার জন্য ল্যাম্বডা ফাংশন:

  • কাজ জমা দিন - এই ফাংশনটি বিজ্ঞানীদের দ্বারা আহ্বান করা হয় যখন তাদের নতুন চাকরি চালু করার প্রয়োজন হয়। এটি সরলতার জন্য একটি API হিসাবে কাজ করে। আপনি এটি দিয়ে সামনেও করতে পারেন অ্যামাজন এপিআই গেটওয়ে, প্রয়োজন হলে. এই ফাংশনটি DynamoDB টেবিলে কাজ নিবন্ধন করে।
  • চাকরি চালু করুন - এই ফাংশনটি পর্যায়ক্রমে পুনরুদ্ধার করে New DynamoDB টেবিল থেকে কাজ করে এবং সেজমেকার ব্যবহার করে সেগুলি চালু করে তৈরি করুন প্রশিক্ষণজব আদেশ এটি ক্ষণস্থায়ী ব্যর্থতার উপর পুনরায় চেষ্টা করে, যেমন ResourceLimitExceeded এবং CapacityError, সিস্টেমের মধ্যে স্থিতিস্থাপকতা উপকরণ. এটি তারপর হিসাবে কাজের স্থিতি আপডেট করে Launched or Failed সাফল্যের উপর নির্ভর করে।
  • কাজ মনিটর - এই ফাংশনটি পর্যায়ক্রমে ব্যবহার করে কাজের অগ্রগতির ট্র্যাক রাখে প্রশিক্ষণের কাজ বর্ণনা করুন কমান্ড, এবং সেই অনুযায়ী DynamoDB টেবিল আপডেট করে। এটা ভোট Failed মেটাডেটা থেকে কাজগুলি এবং মূল্যায়ন করে যে সেগুলি পুনরায় জমা দেওয়া উচিত বা টার্মিনাল ব্যর্থ হিসাবে চিহ্নিত করা উচিত। এটি বিজ্ঞানীদের কাছে বিজ্ঞপ্তি বার্তা প্রকাশ করে যখন তাদের কাজ একটি টার্মিনাল অবস্থায় পৌঁছে যায়।

সময়সূচীর জন্য ইভেন্টব্রিজ

আমরা একটি সময়সূচীতে লঞ্চ জবস এবং জবস ল্যাম্বডা ফাংশনগুলি চালানোর জন্য ইভেন্টব্রিজ ব্যবহার করি। আরো তথ্যের জন্য, পড়ুন টিউটোরিয়াল: EventBridge ব্যবহার করে AWS Lambda ফাংশন সময়সূচী করুন.

বিকল্পভাবে, আপনি ব্যবহার করতে পারেন অ্যামাজন ডায়নামোডিবি স্ট্রিম ট্রিগার জন্য. আরও তথ্যের জন্য, দেখুন DynamoDB স্ট্রীম এবং AWS Lambda ট্রিগার.

Amazon SNS এর সাথে বিজ্ঞপ্তি

আমাদের বিজ্ঞানীরা Amazon SNS ব্যবহার করে ইমেলের মাধ্যমে অবহিত করা হয়েছে যখন তাদের কাজ একটি টার্মিনাল অবস্থায় পৌঁছায় (Failed সর্বোচ্চ সংখ্যক পুনরায় চেষ্টা করার পরে), Completed, বা Stopped.

উপসংহার

এই পোস্টে, আমরা শেয়ার করেছি কিভাবে অ্যামাজন সার্চ এমএল মডেল প্রশিক্ষণ কাজের লোডগুলিকে সময়সূচী করে স্থিতিস্থাপকতা যোগ করে এবং সক্ষমতার ঘাটতি বা অ্যালগরিদম ত্রুটির জন্য পুনরায় চেষ্টা করে৷ আমরা পুরো ওয়ার্কফ্লো অর্কেস্ট্রেট করার জন্য একটি কেন্দ্রীয় মেটাডেটা স্টোর হিসাবে একটি DynamoDB টেবিলের সাথে একযোগে Lambda ফাংশন ব্যবহার করেছি।

এই ধরনের একটি শিডিউলিং সিস্টেম বিজ্ঞানীদের তাদের কাজ জমা দিতে এবং তাদের সম্পর্কে ভুলে যেতে দেয়। এটি সময় বাঁচায় এবং তাদের আরও ভাল মডেল লেখার উপর ফোকাস করতে দেয়।

আপনার শেখার আরও এগিয়ে যেতে, আপনি দেখতে পারেন দুর্দান্ত সেজমেকার এবং SageMaker-এর সাথে কাজ করার জন্য প্রয়োজনীয় সমস্ত প্রাসঙ্গিক এবং আপ-টু-ডেট সংস্থানগুলি একটি একক জায়গায় খুঁজুন।


লেখক সম্পর্কে

কিভাবে Amazon সার্চ Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে বড় আকারের, স্থিতিস্থাপক মেশিন লার্নিং প্রকল্প চালায়। উল্লম্ব অনুসন্ধান. আ.লুওচাও ওয়াং অ্যামাজন অনুসন্ধানের একজন সফটওয়্যার ইঞ্জিনিয়ার। তিনি মেশিন লার্নিং অ্যাপ্লিকেশনের জন্য বৈজ্ঞানিক উদ্ভাবনের গতিকে ত্বরান্বিত করতে ক্লাউডে স্কেলেবল ডিস্ট্রিবিউটেড সিস্টেম এবং অটোমেশন টুলিংয়ের উপর ফোকাস করেন।

কিভাবে Amazon সার্চ Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে বড় আকারের, স্থিতিস্থাপক মেশিন লার্নিং প্রকল্প চালায়। উল্লম্ব অনুসন্ধান. আ.ইশান ভাট অ্যামাজন প্রাইম ভিডিও টিমের একজন সফটওয়্যার ইঞ্জিনিয়ার। তিনি প্রাথমিকভাবে MLOps স্পেসে কাজ করেন এবং Amazon SageMaker ব্যবহার করে গত 4 বছর ধরে MLOps পণ্য তৈরির অভিজ্ঞতা রয়েছে৷

কিভাবে Amazon সার্চ Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে বড় আকারের, স্থিতিস্থাপক মেশিন লার্নিং প্রকল্প চালায়। উল্লম্ব অনুসন্ধান. আ.অভিনন্দন পাটনি অ্যামাজন অনুসন্ধানের একজন সিনিয়র সফটওয়্যার ইঞ্জিনিয়ার। তিনি স্কেলেবল ডিস্ট্রিবিউটেড ডিপ লার্নিং ট্রেনিং এবং রিয়েল টাইম ইনফারেন্সের জন্য বিল্ডিং সিস্টেম এবং টুলিংয়ের উপর ফোকাস করেন।

কিভাবে Amazon সার্চ Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে বড় আকারের, স্থিতিস্থাপক মেশিন লার্নিং প্রকল্প চালায়। উল্লম্ব অনুসন্ধান. আ.ইমান এলনাহরাউয়ী অ্যামাজন অনুসন্ধানের একজন প্রধান সফ্টওয়্যার ইঞ্জিনিয়ার হলেন মেশিন লার্নিং ত্বরণ, স্কেলিং এবং অটোমেশনের প্রচেষ্টার নেতৃত্ব দিচ্ছেন৷ তার দক্ষতা মেশিন লার্নিং, ডিস্ট্রিবিউটেড সিস্টেম এবং ব্যক্তিগতকরণ সহ একাধিক ক্ষেত্রে বিস্তৃত।

কিভাবে Amazon সার্চ Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে বড় আকারের, স্থিতিস্থাপক মেশিন লার্নিং প্রকল্প চালায়। উল্লম্ব অনুসন্ধান. আ.সোফিয়ান হামিতি AWS-এর একজন AI/ML বিশেষজ্ঞ সলিউশন আর্কিটেক্ট। তিনি ইন্ডাস্ট্রি জুড়ে গ্রাহকদের এন্ড-টু-এন্ড মেশিন লার্নিং সলিউশন তৈরি এবং কার্যকর করতে সাহায্য করে তাদের AI/ML যাত্রাকে ত্বরান্বিত করতে সাহায্য করেন।

রোমি দত্তডাঃ রোমি দত্ত  প্রশিক্ষণ, প্রক্রিয়াকরণ এবং বৈশিষ্ট্য স্টোরের জন্য দায়ী Amazon SageMaker টিমের পণ্য ব্যবস্থাপনার একজন সিনিয়র ম্যানেজার। তিনি 4 বছরেরও বেশি সময় ধরে AWS-এ রয়েছেন, SageMaker, S3 এবং IoT-তে একাধিক পণ্য পরিচালনার নেতৃত্বের ভূমিকা পালন করেছেন। AWS-এর আগে তিনি IBM, Texas Instruments এবং Nvidia-এ বিভিন্ন পণ্য ব্যবস্থাপনা, প্রকৌশল এবং অপারেশনাল নেতৃত্বের ভূমিকায় কাজ করেছেন। তিনি একটি MS এবং Ph.D আছে. অস্টিনের ইউনিভার্সিটি অফ টেক্সাস থেকে ইলেকট্রিক্যাল এবং কম্পিউটার ইঞ্জিনিয়ারিং এবং ইউনিভার্সিটি অফ শিকাগো বুথ স্কুল অফ বিজনেস থেকে এমবিএ।

কিভাবে Amazon সার্চ Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে বড় আকারের, স্থিতিস্থাপক মেশিন লার্নিং প্রকল্প চালায়। উল্লম্ব অনুসন্ধান. আ.RJ অনুসন্ধান M5 টিমের একজন প্রকৌশলী যিনি প্রশিক্ষণ এবং অনুমানের জন্য বৃহৎ আকারের গভীর শিক্ষা ব্যবস্থা তৈরির প্রচেষ্টার নেতৃত্ব দিচ্ছেন। কাজের বাইরে সে খাবারের বিভিন্ন খাবার অন্বেষণ করে এবং র্যাকেট খেলা খেলে।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

QuickSight-এ Amazon Q Business এবং Amazon Q কর্মীদের আরও ডেটা-চালিত হতে এবং কোম্পানির জ্ঞান ব্যবহার করে আরও ভাল, দ্রুত সিদ্ধান্ত নেওয়ার ক্ষমতা দেয়। আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1969885
সময় স্ট্যাম্প: এপ্রিল 30, 2024