অ্যামাজন সার্চ কীভাবে অ্যামাজন সেজমেকারের সাথে বড় আকারের, স্থিতিস্থাপক মেশিন লার্নিং প্রকল্প চালায়

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

আপনি যদি amazon.com-এ কেনার জন্য একটি আইটেম অনুসন্ধান করেন তবে আপনি Amazon অনুসন্ধান পরিষেবাগুলি ব্যবহার করেছেন৷ Amazon অনুসন্ধানে, আমরা বিশ্বব্যাপী আমাদের গ্রাহকদের জন্য অনুসন্ধান এবং আবিষ্কারের অভিজ্ঞতার জন্য দায়ী। ব্যাকগ্রাউন্ডে, আমরা আমাদের বিশ্বব্যাপী পণ্যের ক্যাটালগ সূচী করি, অত্যন্ত মাপযোগ্য AWS ফ্লিট স্থাপন করি এবং প্রতিটি গ্রাহকের প্রশ্নের সাথে প্রাসঙ্গিক এবং আকর্ষণীয় পণ্যগুলি মেলানোর জন্য উন্নত মেশিন লার্নিং (ML) ব্যবহার করি।

সার্চ ফলাফলের গুণমান উন্নত করতে আমাদের বিজ্ঞানীরা নিয়মিত হাজার হাজার ML মডেলকে প্রশিক্ষণ দিয়ে থাকেন। বৃহৎ মাপের পরীক্ষা-নিরীক্ষাকে সমর্থন করা তার নিজস্ব চ্যালেঞ্জ উপস্থাপন করে, বিশেষ করে যখন এই এমএল মডেলগুলিকে প্রশিক্ষণ দেওয়া বিজ্ঞানীদের উত্পাদনশীলতা উন্নত করার কথা আসে।

এই পোস্টে, আমরা কীভাবে চারপাশে একটি ম্যানেজমেন্ট সিস্টেম তৈরি করেছি তা শেয়ার করি আমাজন সেজমেকার প্রশিক্ষণের কাজ, যা আমাদের বিজ্ঞানীদের হাজার হাজার পরীক্ষা-নিরীক্ষা করতে এবং প্রয়োজনে অবহিত করার অনুমতি দেয়। তারা এখন উচ্চ-মূল্যের কাজগুলিতে ফোকাস করতে পারে এবং অ্যালগরিদমিক ত্রুটিগুলি সমাধান করতে পারে, তাদের সময়ের 60% সাশ্রয় করে৷

চ্যালেঞ্জ

অ্যামাজন অনুসন্ধানে, আমাদের বিজ্ঞানীরা সেজমেকারে অসংখ্য এমএল মডেল প্রশিক্ষণের কাজ পরীক্ষা করে এবং চালানোর মাধ্যমে তথ্য পুনরুদ্ধার সমস্যা সমাধান করেন। আমাদের দলের উদ্ভাবনের সাথে তাল মিলিয়ে চলার জন্য, সময়ের সাথে সাথে আমাদের মডেলের জটিলতা এবং প্রশিক্ষণ কাজের সংখ্যা বৃদ্ধি পেয়েছে। সেজমেকার প্রশিক্ষণের কাজগুলি আমাদেরকে পরিকাঠামো পরিচালনার প্রয়োজন ছাড়াই সেই মডেলগুলিকে প্রশিক্ষন এবং টিউন করার জন্য সময় এবং খরচ কমাতে দেয়।

এই ধরনের বৃহৎ-স্কেল এমএল প্রকল্পের সবকিছুর মতো, প্রশিক্ষণের কাজগুলি বিভিন্ন কারণের কারণে ব্যর্থ হতে পারে। এই পোস্টটি অ্যালগরিদম ত্রুটির কারণে ক্ষমতার ঘাটতি এবং ব্যর্থতার উপর দৃষ্টি নিবদ্ধ করে।

ক্ষমতার অনুপলব্ধতা বা অ্যালগরিদম ত্রুটির কারণে চাকরি ব্যর্থ হওয়ার সম্ভাবনা সহ্য করতে এবং কমানোর জন্য আমরা একটি জব ম্যানেজমেন্ট সিস্টেম সহ একটি আর্কিটেকচার ডিজাইন করেছি। এটি বিজ্ঞানীদের হাজার হাজার প্রশিক্ষণের কাজকে ফায়ার-এন্ড-ভুলে যেতে, ক্ষণস্থায়ী ব্যর্থতার জন্য স্বয়ংক্রিয়ভাবে পুনরায় চেষ্টা করতে এবং প্রয়োজনে সাফল্য বা ব্যর্থতার বিজ্ঞপ্তি পেতে দেয়।

সমাধান ওভারভিউ

নিম্নলিখিত সমাধান চিত্রে, আমরা আমাদের সমাধানের মৌলিক একক হিসাবে সেজমেকার প্রশিক্ষণের কাজগুলি ব্যবহার করি। অর্থাৎ, একটি চাকরি একটি এমএল মডেলের শেষ থেকে শেষ প্রশিক্ষণের প্রতিনিধিত্ব করে।

এই সমাধানের উচ্চ-স্তরের কর্মপ্রবাহ নিম্নরূপ:

বিজ্ঞানীরা সিস্টেমে একটি নতুন কাজ জমা দেওয়ার জন্য একটি API আহ্বান করেন।
চাকরির সাথে নিবন্ধিত New একটি মেটাডেটা দোকানে স্থিতি।
একটি কাজের সময়সূচী অ্যাসিঙ্ক্রোনাসভাবে পুনরুদ্ধার করে New মেটাডেটা স্টোর থেকে চাকরি, তাদের ইনপুট পার্স করে এবং প্রত্যেকের জন্য সেজমেকার প্রশিক্ষণের কাজ চালু করার চেষ্টা করে। তাদের অবস্থা পরিবর্তিত হয় Launched or Failed সাফল্যের উপর নির্ভর করে।
একটি মনিটর নিয়মিত বিরতিতে কাজের অগ্রগতি পরীক্ষা করে এবং তাদের রিপোর্ট করে Completed, Failed, বা InProgress মেটাডেটা স্টোরে অবস্থা।
রিপোর্ট করার জন্য একটি নোটিফায়ার ট্রিগার করা হয়েছে Completed এবং Failed বিজ্ঞানীদের চাকরি।

মেটাডেটা স্টোরে চাকরির ইতিহাস ধরে রাখা আমাদের দলকে প্রবণতা বিশ্লেষণ এবং প্রকল্পের অগ্রগতি নিরীক্ষণ করার অনুমতি দেয়।

এই কাজের সময়সূচী সমাধানের উপর ভিত্তি করে ঢিলেঢালাভাবে সংযুক্ত সার্ভারহীন উপাদান ব্যবহার করে এডাব্লুএস ল্যাম্বদা, আমাজন ডায়নামোডিবি, অ্যামাজন সাধারণ বিজ্ঞপ্তি পরিষেবা (Amazon SNS), এবং অ্যামাজন ইভেন্টব্রিজ. এটি অনুভূমিক মাপযোগ্যতা নিশ্চিত করে, আমাদের বিজ্ঞানীদের ন্যূনতম অপারেশন প্রচেষ্টার সাথে হাজার হাজার চাকরি চালু করতে দেয়। নিম্নলিখিত চিত্রটি সার্ভারহীন আর্কিটেকচারকে চিত্রিত করে।

আমাদের সমাধানের আর্কিটেকচার ওভারভিউ

নিম্নলিখিত বিভাগগুলিতে, আমরা প্রতিটি পরিষেবা এবং এর উপাদানগুলি সম্পর্কে আরও বিশদে যাই।

কাজের জন্য মেটাডেটা স্টোর হিসাবে DynamoDB চালায়

DynamoDB-এর সহজে ব্যবহার এবং স্কেলেবিলিটি এটিকে একটি DynamoDB টেবিলে কাজের মেটাডেটা বজায় রাখা একটি স্বাভাবিক পছন্দ করে তুলেছে। এই সমাধানটি বিজ্ঞানীদের দ্বারা জমা দেওয়া কাজের বিভিন্ন বৈশিষ্ট্য সংরক্ষণ করে, যার ফলে অগ্রগতি ট্র্যাকিং এবং কর্মপ্রবাহ অর্কেস্ট্রেশনে সহায়তা করে। সবচেয়ে গুরুত্বপূর্ণ গুণাবলী নিম্নরূপ:

জব আইডি - একটি অনন্য কাজের আইডি। এটি স্বয়ংক্রিয়ভাবে তৈরি বা বিজ্ঞানী দ্বারা সরবরাহ করা যেতে পারে।
চাকরির অবস্থা - চাকরির অবস্থা।
JobArgs – প্রশিক্ষণের কাজ তৈরির জন্য প্রয়োজনীয় অন্যান্য যুক্তি, যেমন Amazon S3-এ ইনপুট পাথ, প্রশিক্ষণের ছবি URI এবং আরও অনেক কিছু। একটি প্রশিক্ষণ কাজ তৈরি করতে প্রয়োজনীয় পরামিতিগুলির একটি সম্পূর্ণ তালিকার জন্য, পড়ুন তৈরি করুন প্রশিক্ষণজব.

মূল যুক্তির জন্য Lambda

আমরা তিনটি ব্যবহার করি ধারক-ভিত্তিক কাজের ওয়ার্কফ্লো অর্কেস্ট্রেট করার জন্য ল্যাম্বডা ফাংশন:

কাজ জমা দিন - এই ফাংশনটি বিজ্ঞানীদের দ্বারা আহ্বান করা হয় যখন তাদের নতুন চাকরি চালু করার প্রয়োজন হয়। এটি সরলতার জন্য একটি API হিসাবে কাজ করে। আপনি এটি দিয়ে সামনেও করতে পারেন অ্যামাজন এপিআই গেটওয়ে, প্রয়োজন হলে. এই ফাংশনটি DynamoDB টেবিলে কাজ নিবন্ধন করে।
চাকরি চালু করুন - এই ফাংশনটি পর্যায়ক্রমে পুনরুদ্ধার করে New DynamoDB টেবিল থেকে কাজ করে এবং সেজমেকার ব্যবহার করে সেগুলি চালু করে তৈরি করুন প্রশিক্ষণজব আদেশ এটি ক্ষণস্থায়ী ব্যর্থতার উপর পুনরায় চেষ্টা করে, যেমন ResourceLimitExceeded এবং CapacityError, সিস্টেমের মধ্যে স্থিতিস্থাপকতা উপকরণ. এটি তারপর হিসাবে কাজের স্থিতি আপডেট করে Launched or Failed সাফল্যের উপর নির্ভর করে।
কাজ মনিটর - এই ফাংশনটি পর্যায়ক্রমে ব্যবহার করে কাজের অগ্রগতির ট্র্যাক রাখে প্রশিক্ষণের কাজ বর্ণনা করুন কমান্ড, এবং সেই অনুযায়ী DynamoDB টেবিল আপডেট করে। এটা ভোট Failed মেটাডেটা থেকে কাজগুলি এবং মূল্যায়ন করে যে সেগুলি পুনরায় জমা দেওয়া উচিত বা টার্মিনাল ব্যর্থ হিসাবে চিহ্নিত করা উচিত। এটি বিজ্ঞানীদের কাছে বিজ্ঞপ্তি বার্তা প্রকাশ করে যখন তাদের কাজ একটি টার্মিনাল অবস্থায় পৌঁছে যায়।

সময়সূচীর জন্য ইভেন্টব্রিজ

আমরা একটি সময়সূচীতে লঞ্চ জবস এবং জবস ল্যাম্বডা ফাংশনগুলি চালানোর জন্য ইভেন্টব্রিজ ব্যবহার করি। আরো তথ্যের জন্য, পড়ুন টিউটোরিয়াল: EventBridge ব্যবহার করে AWS Lambda ফাংশন সময়সূচী করুন.

বিকল্পভাবে, আপনি ব্যবহার করতে পারেন অ্যামাজন ডায়নামোডিবি স্ট্রিম ট্রিগার জন্য. আরও তথ্যের জন্য, দেখুন DynamoDB স্ট্রীম এবং AWS Lambda ট্রিগার.

Amazon SNS এর সাথে বিজ্ঞপ্তি

আমাদের বিজ্ঞানীরা Amazon SNS ব্যবহার করে ইমেলের মাধ্যমে অবহিত করা হয়েছে যখন তাদের কাজ একটি টার্মিনাল অবস্থায় পৌঁছায় (Failed সর্বোচ্চ সংখ্যক পুনরায় চেষ্টা করার পরে), Completed, বা Stopped.

উপসংহার

এই পোস্টে, আমরা শেয়ার করেছি কিভাবে অ্যামাজন সার্চ এমএল মডেল প্রশিক্ষণ কাজের লোডগুলিকে সময়সূচী করে স্থিতিস্থাপকতা যোগ করে এবং সক্ষমতার ঘাটতি বা অ্যালগরিদম ত্রুটির জন্য পুনরায় চেষ্টা করে৷ আমরা পুরো ওয়ার্কফ্লো অর্কেস্ট্রেট করার জন্য একটি কেন্দ্রীয় মেটাডেটা স্টোর হিসাবে একটি DynamoDB টেবিলের সাথে একযোগে Lambda ফাংশন ব্যবহার করেছি।

এই ধরনের একটি শিডিউলিং সিস্টেম বিজ্ঞানীদের তাদের কাজ জমা দিতে এবং তাদের সম্পর্কে ভুলে যেতে দেয়। এটি সময় বাঁচায় এবং তাদের আরও ভাল মডেল লেখার উপর ফোকাস করতে দেয়।

আপনার শেখার আরও এগিয়ে যেতে, আপনি দেখতে পারেন দুর্দান্ত সেজমেকার এবং SageMaker-এর সাথে কাজ করার জন্য প্রয়োজনীয় সমস্ত প্রাসঙ্গিক এবং আপ-টু-ডেট সংস্থানগুলি একটি একক জায়গায় খুঁজুন।

লেখক সম্পর্কে

লুওচাও ওয়াং অ্যামাজন অনুসন্ধানের একজন সফটওয়্যার ইঞ্জিনিয়ার। তিনি মেশিন লার্নিং অ্যাপ্লিকেশনের জন্য বৈজ্ঞানিক উদ্ভাবনের গতিকে ত্বরান্বিত করতে ক্লাউডে স্কেলেবল ডিস্ট্রিবিউটেড সিস্টেম এবং অটোমেশন টুলিংয়ের উপর ফোকাস করেন।

ইশান ভাট অ্যামাজন প্রাইম ভিডিও টিমের একজন সফটওয়্যার ইঞ্জিনিয়ার। তিনি প্রাথমিকভাবে MLOps স্পেসে কাজ করেন এবং Amazon SageMaker ব্যবহার করে গত 4 বছর ধরে MLOps পণ্য তৈরির অভিজ্ঞতা রয়েছে৷

অভিনন্দন পাটনি অ্যামাজন অনুসন্ধানের একজন সিনিয়র সফটওয়্যার ইঞ্জিনিয়ার। তিনি স্কেলেবল ডিস্ট্রিবিউটেড ডিপ লার্নিং ট্রেনিং এবং রিয়েল টাইম ইনফারেন্সের জন্য বিল্ডিং সিস্টেম এবং টুলিংয়ের উপর ফোকাস করেন।

ইমান এলনাহরাউয়ী অ্যামাজন অনুসন্ধানের একজন প্রধান সফ্টওয়্যার ইঞ্জিনিয়ার হলেন মেশিন লার্নিং ত্বরণ, স্কেলিং এবং অটোমেশনের প্রচেষ্টার নেতৃত্ব দিচ্ছেন৷ তার দক্ষতা মেশিন লার্নিং, ডিস্ট্রিবিউটেড সিস্টেম এবং ব্যক্তিগতকরণ সহ একাধিক ক্ষেত্রে বিস্তৃত।

কিভাবে Amazon সার্চ Amazon SageMaker PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে বড় আকারের, স্থিতিস্থাপক মেশিন লার্নিং প্রকল্প চালায়। উল্লম্ব অনুসন্ধান. আ. সোফিয়ান হামিতি AWS-এর একজন AI/ML বিশেষজ্ঞ সলিউশন আর্কিটেক্ট। তিনি ইন্ডাস্ট্রি জুড়ে গ্রাহকদের এন্ড-টু-এন্ড মেশিন লার্নিং সলিউশন তৈরি এবং কার্যকর করতে সাহায্য করে তাদের AI/ML যাত্রাকে ত্বরান্বিত করতে সাহায্য করেন।

ডাঃ রোমি দত্ত প্রশিক্ষণ, প্রক্রিয়াকরণ এবং বৈশিষ্ট্য স্টোরের জন্য দায়ী Amazon SageMaker টিমের পণ্য ব্যবস্থাপনার একজন সিনিয়র ম্যানেজার। তিনি 4 বছরেরও বেশি সময় ধরে AWS-এ রয়েছেন, SageMaker, S3 এবং IoT-তে একাধিক পণ্য পরিচালনার নেতৃত্বের ভূমিকা পালন করেছেন। AWS-এর আগে তিনি IBM, Texas Instruments এবং Nvidia-এ বিভিন্ন পণ্য ব্যবস্থাপনা, প্রকৌশল এবং অপারেশনাল নেতৃত্বের ভূমিকায় কাজ করেছেন। তিনি একটি MS এবং Ph.D আছে. অস্টিনের ইউনিভার্সিটি অফ টেক্সাস থেকে ইলেকট্রিক্যাল এবং কম্পিউটার ইঞ্জিনিয়ারিং এবং ইউনিভার্সিটি অফ শিকাগো বুথ স্কুল অফ বিজনেস থেকে এমবিএ।

RJ অনুসন্ধান M5 টিমের একজন প্রকৌশলী যিনি প্রশিক্ষণ এবং অনুমানের জন্য বৃহৎ আকারের গভীর শিক্ষা ব্যবস্থা তৈরির প্রচেষ্টার নেতৃত্ব দিচ্ছেন। কাজের বাইরে সে খাবারের বিভিন্ন খাবার অন্বেষণ করে এবং র্যাকেট খেলা খেলে।

সময় স্ট্যাম্প: অক্টোবর 13, 2022অক্টোবর 14, 2022

সময় স্ট্যাম্প: নভেম্বর 6, 2023

অ্যামাজন সার্চ কীভাবে অ্যামাজন সেজমেকারের সাথে বড় আকারের, স্থিতিস্থাপক মেশিন লার্নিং প্রকল্প চালায়

প্লেটো দ্বারা প্রকাশিত

চ্যালেঞ্জ

সমাধান ওভারভিউ

কাজের জন্য মেটাডেটা স্টোর হিসাবে DynamoDB চালায়

মূল যুক্তির জন্য Lambda

সময়সূচীর জন্য ইভেন্টব্রিজ

Amazon SNS এর সাথে বিজ্ঞপ্তি

উপসংহার

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

আমাজন সেজমেকার সার্ভারলেস ইনফারেন্স ব্যবহার করে আলিঙ্গন ফেস ট্রান্সফরমার মডেল হোস্ট করুন

অ্যামাজন সেজমেকার ডেটা সমান্তরাল লাইব্রেরির সাথে দ্রুত প্রশিক্ষণ সক্ষম করুন আমাজন ওয়েব সার্ভিসেস

Amazon SageMaker অটোপাইলট ML মডেলগুলিকে Amazon SageMaker Pipelines ব্যবহার করে পরীক্ষা থেকে উৎপাদনে নিয়ে যান

ব্যক্তিগতকৃত মেশিন লার্নিং এবং Amazon SageMaker ব্যবহার করে যানবাহনে আরাম অর্জন করুন

নিরাপদ, রিয়েল-টাইম ইনফারেন্সিংয়ের জন্য Amazon SageMaker এন্ডপয়েন্টের সাথে সম্পূর্ণরূপে সমজাতীয় এনক্রিপশন সক্ষম করুন

DJLSserving এবং DeepSpeed মডেল সমান্তরাল অনুমান ব্যবহার করে Amazon SageMaker-এ বড় মডেল স্থাপন করুন

Amazon SageMaker JumpStart-এ দৃষ্টান্তমূলক নোটবুক

অ্যামাজন কেন্দ্রের জন্য আপডেট করা Microsoft OneDrive সংযোগকারী (V2) ঘোষণা করা হচ্ছে

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব