অ্যামাজন সেজমেকার মাল্টি-মডেল এন্ডপয়েন্টের সাথে মাল্টি-মডেল ইনফারেন্স চালান এবং অপ্টিমাইজ করুন

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

আমাজন সেজমেকার মাল্টি-মডেল এন্ডপয়েন্ট (MME) আপনাকে সাশ্রয়ীভাবে একটি একক এন্ডপয়েন্টে একাধিক মডেল স্থাপন এবং হোস্ট করতে সক্ষম করে এবং তারপর স্কেল অর্জনের জন্য সমাপ্তি পয়েন্টকে অনুভূমিকভাবে স্কেল করে। নিচের চিত্রে যেমন দেখানো হয়েছে, এটি আপনার মেশিন লার্নিং (ML) অবকাঠামোর মধ্যে মডেলের মাল্টি-টেনেন্সি বাস্তবায়নের একটি কার্যকর কৌশল। আমরা সফ্টওয়্যারকে একটি পরিষেবা হিসাবে দেখেছি (SaaS) ব্যবসাগুলি তাদের ML মডেলগুলিতে হাইপার-পার্সোনালাইজেশন প্রয়োগ করতে এই বৈশিষ্ট্যটি ব্যবহার করে এবং কম খরচে অর্জন করে।

MME কীভাবে কাজ করে তার একটি উচ্চ-স্তরের ওভারভিউয়ের জন্য, AWS সামিট ভিডিওটি দেখুন MLকে পরবর্তী স্তরে নিয়ে যাওয়া: SageMaker-এ হাজার হাজার মডেল হোস্ট করা. হাইপার-পার্সোনালাইজড, মাল্টি-টেন্যান্ট ব্যবহারের ক্ষেত্রে যে MME সক্ষম করে সে সম্পর্কে আরও জানতে, পড়ুন মাল্টি-টেন্যান্ট SaaS ব্যবহারের ক্ষেত্রে কীভাবে মেশিন লার্নিং ইনফারেন্স স্কেল করবেন.

এই পোস্টের বাকি অংশে, আমরা SageMaker MME-এর প্রযুক্তিগত আর্কিটেকচারে গভীরভাবে ডুব দিয়েছি এবং আপনার মাল্টি-মডেল এন্ডপয়েন্টগুলিকে অপ্টিমাইজ করার জন্য সর্বোত্তম অনুশীলনগুলি শেয়ার করব৷

MME এর জন্য সবচেয়ে উপযুক্ত কেস ব্যবহার করুন

সেজমেকার মাল্টি-মডেল এন্ডপয়েন্টগুলি বিপুল সংখ্যক মডেল হোস্ট করার জন্য উপযুক্ত যা আপনি একটি শেয়ার্ড সার্ভিং কন্টেইনারের মাধ্যমে পরিবেশন করতে পারেন এবং আপনাকে একই সময়ে সমস্ত মডেল অ্যাক্সেস করতে হবে না। এন্ডপয়েন্ট ইনস্ট্যান্স মেমরির আকারের উপর নির্ভর করে, মেমরির দক্ষ ব্যবহার সর্বাধিক করার জন্য একটি নতুন মডেল লোড করার পক্ষে একটি মডেল মাঝে মাঝে মেমরি থেকে আনলোড করা যেতে পারে, তাই আপনার অ্যাপ্লিকেশনটিকে আনলোড করা মডেলগুলিতে মাঝে মাঝে লেটেন্সি স্পাইক সহনশীল হতে হবে।

MME সহ-হোস্টিং মডেলগুলির জন্যও ডিজাইন করা হয়েছে যেগুলি একই ML ফ্রেমওয়ার্ক ব্যবহার করে কারণ তারা একাধিক মডেল লোড করতে শেয়ার্ড কন্টেইনার ব্যবহার করে। অতএব, যদি আপনার মডেল ফ্লিটে ML ফ্রেমওয়ার্কের মিশ্রণ থাকে (যেমন PyTorch এবং TensorFlow), SageMaker ডেডিকেটেড এন্ডপয়েন্ট বা মাল্টি-কন্টেইনার হোস্টিং একটি ভাল পছন্দ।

অবশেষে, এমএমই এমন অ্যাপ্লিকেশনগুলির জন্য উপযুক্ত যেগুলি মাঝে মাঝে ঠান্ডা সূচনা লেটেন্সি পেনাল্টি সহ্য করতে পারে, কারণ মডেলগুলি প্রথম আহ্বানে লোড করা হয় এবং কদাচিৎ ব্যবহৃত মডেলগুলি নতুন মডেল লোড করার পক্ষে মেমরি থেকে অফলোড করা যেতে পারে। অতএব, যদি আপনার কাছে ঘন ঘন এবং কদাচিৎ অ্যাক্সেস করা মডেলগুলির মিশ্রণ থাকে, তাহলে একটি মাল্টি-মডেল এন্ডপয়েন্ট দক্ষতার সাথে এই ট্র্যাফিকটি কম সংস্থান এবং উচ্চ খরচ সাশ্রয়ের সাথে পরিবেশন করতে পারে।

আমরা এমন কিছু পরিস্থিতিও দেখেছি যেখানে গ্রাহকরা তাদের সমস্ত মডেলের সাথে মানানসই করার জন্য যথেষ্ট সামগ্রিক মেমরি ক্ষমতা সহ একটি MME ক্লাস্টার স্থাপন করে, যার ফলে মডেল অফলোডগুলি সম্পূর্ণভাবে এড়িয়ে যায় তবুও ভাগ করা অনুমান পরিকাঠামোর কারণে এখনও খরচ সাশ্রয় হয়।

মডেল পরিবেশন পাত্রে

আপনি যখন সেজমেকার ইনফারেন্স টুলকিট বা এমএমই-এর সাথে সামঞ্জস্যপূর্ণ একটি পূর্ব-নির্মিত সেজমেকার মডেল পরিবেশনকারী কন্টেইনার ব্যবহার করেন, তখন আপনার কন্টেইনারে মাল্টি মডেল সার্ভার (JVM প্রক্রিয়া) চলছে। আপনার মডেল পরিবেশন পাত্রে মাল্টি মডেল সার্ভার (MMS) অন্তর্ভুক্ত করার সবচেয়ে সহজ উপায় হল ব্যবহার করা SageMaker মডেল পরিবেশন পাত্রে MME-এর সাথে সামঞ্জস্যপূর্ণ (চাকরীর ধরন = অনুমান এবং CPU/GPU=CPU আছে তাদের জন্য দেখুন)। MMS হল একটি ওপেন সোর্স, ডিপ লার্নিং মডেল পরিবেশনের জন্য সহজে ব্যবহারযোগ্য টুল। এটি একটি একক হোস্টে একাধিক মডেল পরিবেশন এবং পরিচালনা করার জন্য একটি ওয়েব সার্ভার সহ একটি REST API প্রদান করে৷ যাইহোক, MMS ব্যবহার করা বাধ্যতামূলক নয়; আপনি আপনার নিজস্ব মডেল সার্ভার বাস্তবায়ন করতে পারেন যতক্ষণ না এটি প্রয়োগ করে MME এর জন্য প্রয়োজনীয় API.

MME প্ল্যাটফর্মের অংশ হিসাবে ব্যবহার করা হলে, MMS বা আপনার নিজস্ব মডেল সার্ভারে সমস্ত পূর্বাভাস, লোড এবং আনলোড API কলগুলি MME ডেটা প্লেন কন্ট্রোলারের মাধ্যমে চ্যানেল করা হয়। ডেটা প্লেন কন্ট্রোলার থেকে API কলগুলি স্থানীয় হোস্টের মাধ্যমে করা হয় শুধুমাত্র উদাহরণের বাইরে থেকে অননুমোদিত অ্যাক্সেস রোধ করতে। MMS-এর অন্যতম প্রধান সুবিধা হল যে এটি গভীর শিক্ষার কাঠামোর বিস্তৃত পরিসর জুড়ে সামঞ্জস্যপূর্ণ মডেলগুলি লোড, আনলোড এবং আহ্বান করার জন্য একটি প্রমিত ইন্টারফেস সক্ষম করে।

MMS এর উন্নত কনফিগারেশন

আপনি যদি মডেল পরিবেশনের জন্য MMS ব্যবহার করতে চান, তাহলে আপনার MME দৃষ্টান্তগুলির স্কেলেবিলিটি এবং থ্রুপুট অপ্টিমাইজ করতে নিম্নলিখিত উন্নত কনফিগারেশনগুলি বিবেচনা করুন৷

মডেল প্রতি অনুমান সমান্তরাল বৃদ্ধি

MMS প্রতি মডেলের মানের উপর ভিত্তি করে এক বা একাধিক পাইথন কর্মী প্রক্রিয়া তৈরি করে default_workers_per_model কনফিগারেশন পরামিতি। এই পাইথন কর্মীরা আপনার প্রদত্ত যেকোন প্রিপ্রসেসিং, ভবিষ্যদ্বাণী এবং পোস্ট প্রসেসিং ফাংশনগুলি চালিয়ে প্রতিটি পৃথক অনুমান অনুরোধ পরিচালনা করে। আরো তথ্যের জন্য, দেখুন কাস্টম সার্ভিস হ্যান্ডলার GitHub রেপো।

একাধিক মডেল কর্মী থাকা ভবিষ্যদ্বাণীগুলির সমান্তরালতা বাড়ায় যা একটি প্রদত্ত মডেল দ্বারা পরিবেশিত হতে পারে। যাইহোক, যখন একটি বড় সংখ্যক সিপিইউ সহ একটি দৃষ্টান্তে প্রচুর সংখ্যক মডেল হোস্ট করা হয়, তখন আপনাকে সর্বোত্তম মান খুঁজে পেতে আপনার MME এর একটি লোড পরীক্ষা করা উচিত default_workers_per_model কোনো মেমরি বা সিপিইউ রিসোর্স ক্লান্তি প্রতিরোধ করতে।

ট্রাফিক স্পাইক জন্য ডিজাইন

একটি এন্ডপয়েন্ট ইনস্ট্যান্সের মধ্যে প্রতিটি MMS প্রক্রিয়ার একটি অনুরোধ সারি থাকে যা এর সাথে কনফিগার করা যেতে পারে কাজের_সারি_আকার প্যারামিটার (ডিফল্ট হল 100)। এটি স্থির করে যে সমস্ত কর্মী প্রক্রিয়াগুলি ব্যস্ত থাকাকালীন MMS-এর সারিতে থাকা অনুরোধের সংখ্যা। আপনি মডেল প্রতি সর্বোত্তম সংখ্যক শ্রমিকের বিষয়ে সিদ্ধান্ত নেওয়ার পরে আপনার এন্ডপয়েন্ট দৃষ্টান্তগুলির প্রতিক্রিয়াশীলতা ঠিক করতে এই প্যারামিটারটি ব্যবহার করুন।

মডেল অনুপাত প্রতি একটি সর্বোত্তম কর্মীর মধ্যে, 100 এর ডিফল্ট বেশিরভাগ ক্ষেত্রেই যথেষ্ট। যাইহোক, যে সকল ক্ষেত্রে এন্ডপয়েন্টে ট্রাফিকের অনুরোধ অস্বাভাবিকভাবে বেড়ে যায়, আপনি যদি চান যে এন্ডপয়েন্টটি দ্রুত ব্যর্থ হতে চান তাহলে এন্ডপয়েন্টটি এপ্লিকেশনে নিয়ন্ত্রণ করতে পারে অথবা যদি আপনি চান যে এন্ডপয়েন্টটি স্পাইকটি শোষণ করতে চান তাহলে সারির আকার বাড়াতে পারেন। .

প্রতি উদাহরণে মেমরি সংস্থান সর্বাধিক করুন

মডেল প্রতি একাধিক কর্মী প্রক্রিয়া ব্যবহার করার সময়, ডিফল্টরূপে প্রতিটি কর্মী প্রক্রিয়া মডেলের নিজস্ব অনুলিপি লোড করে। এটি অন্যান্য মডেলের জন্য উপলব্ধ ইনস্ট্যান্স মেমরি কমাতে পারে। আপনি কনফিগারেশন প্যারামিটার সেট করে কর্মী প্রক্রিয়াগুলির মধ্যে একটি একক মডেল ভাগ করে মেমরির ব্যবহার অপ্টিমাইজ করতে পারেন preload_model=সত্য. এখানে আপনি আরও মেমরি দক্ষতার সাথে হ্রাসকৃত অনুমান সমান্তরালতা (একটি মডেলের উদাহরণের কারণে) ট্রেড করছেন। একাধিক কর্মী প্রক্রিয়া সহ এই সেটিংটি এমন ক্ষেত্রে ব্যবহার করার জন্য একটি ভাল পছন্দ হতে পারে যেখানে মডেল লেটেন্সি কম কিন্তু আপনার কাছে অনুমান অনুরোধ অনুযায়ী ভারী প্রিপ্রসেসিং এবং পোস্টপ্রসেসিং (কর্মী প্রক্রিয়া দ্বারা সম্পন্ন) রয়েছে।

MMS উন্নত কনফিগারেশনের জন্য মান সেট করুন

MMS কনফিগারেশন সঞ্চয় করার জন্য একটি config.properties ফাইল ব্যবহার করে। MMS এই config.properties ফাইলটি সনাক্ত করতে নিম্নলিখিত ক্রম ব্যবহার করে:

যদি MMS_CONFIG_FILE এনভায়রনমেন্ট ভেরিয়েবল সেট করা আছে, এমএমএস এনভায়রনমেন্ট ভেরিয়েবল থেকে কনফিগারেশন লোড করে।
যদি --mms-config প্যারামিটারটি MMS-এ পাস করা হয়, এটি প্যারামিটার থেকে কনফিগারেশন লোড করে।
যদি থাকে একটি config.properties বর্তমান ফোল্ডারে যেখানে ব্যবহারকারী এমএমএস শুরু করে, এটি লোড করে config.properties বর্তমান কাজের ডিরেক্টরি থেকে ফাইল।

উপরের কোনটি নির্দিষ্ট না থাকলে, MMS বিল্ট-ইন কনফিগারেশনকে ডিফল্ট মান সহ লোড করে।

নিম্নলিখিতটি একটি স্পষ্ট কনফিগারেশন ফাইলের সাথে MMS শুরু করার একটি কমান্ড লাইন উদাহরণ:

multi-model-server --start --mms-config /home/mms/config.properties

আপনার এন্ডপয়েন্ট পারফরম্যান্স নিরীক্ষণ করার জন্য মূল মেট্রিক

আপনার MME অপ্টিমাইজ করতে সাহায্য করতে পারে এমন মূল মেট্রিকগুলি সাধারণত CPU এবং মেমরি ব্যবহার এবং অনুমান লেটেন্সির সাথে সম্পর্কিত। দৃষ্টান্ত-স্তরের মেট্রিকগুলি MMS দ্বারা নির্গত হয়, যেখানে লেটেন্সি মেট্রিকগুলি MME থেকে আসে৷ এই বিভাগে, আমরা সাধারণ মেট্রিক্স নিয়ে আলোচনা করি যা আপনি আপনার MME বুঝতে এবং অপ্টিমাইজ করতে ব্যবহার করতে পারেন।

এন্ডপয়েন্ট ইনস্ট্যান্স-লেভেল মেট্রিক্স (MMS মেট্রিক্স)

থেকে MMS মেট্রিক্সের তালিকা, CPUUtilization এবং MemoryUtilization আপনাকে আপনার উদাহরণ বা MME ক্লাস্টারটি সঠিক আকারের কিনা তা মূল্যায়ন করতে সাহায্য করতে পারে। যদি উভয় মেট্রিকের শতাংশ 50-80% এর মধ্যে থাকে, তাহলে আপনার MME সঠিক আকারের।

সাধারণত, কম সিপিইউইটিলাইজেশন এবং উচ্চ মেমরি ইউটিলাইজেশন একটি অতিরিক্ত ব্যবস্থা করা MME ক্লাস্টারের একটি ইঙ্গিত কারণ এটি ইঙ্গিত করে যে কদাচিৎ আহ্বান করা মডেলগুলি আনলোড করা হচ্ছে না। এটি MME-এর জন্য প্রবিধানকৃত এন্ডপয়েন্ট ইন্সট্যান্সের একটি উচ্চতর-অনুকূল্যের কারণে হতে পারে এবং সেইজন্য মেমরিতে থাকার জন্য কদাচিৎ অ্যাক্সেস করা মডেলগুলির জন্য সর্বোত্তম-এর চেয়ে বেশি-অনুকূল মেমরি উপলব্ধ। বিপরীতভাবে, এই মেট্রিকগুলির প্রায় 100% ব্যবহার করার অর্থ হল আপনার ক্লাস্টারটি আন্ডার-প্রভিশনেড, তাই আপনাকে আপনার ক্লাস্টার অটো স্কেলিং নীতি সামঞ্জস্য করতে হবে।

প্ল্যাটফর্ম-স্তরের মেট্রিক্স (MME মেট্রিক্স)

থেকে MME মেট্রিক্সের সম্পূর্ণ তালিকা, একটি মূল মেট্রিক যা আপনাকে আপনার অনুমান অনুরোধের বিলম্বিতা বুঝতে সাহায্য করতে পারে তা হল ModelCacheHit৷ এই মেট্রিকটি অনুরোধের গড় অনুপাত দেখায় যার জন্য মডেলটি ইতিমধ্যেই মেমরিতে লোড করা হয়েছিল৷ যদি এই অনুপাতটি কম হয়, তাহলে এটি নির্দেশ করে যে আপনার MME ক্লাস্টার-এর অধীনে রয়েছে কারণ MME ক্লাস্টারে অনন্য মডেল আহ্বানের সংখ্যার জন্য পর্যাপ্ত সামগ্রিক মেমরি ক্ষমতা নেই, তাই মডেলগুলি ঘন ঘন মেমরি থেকে আনলোড করা হয়।

ক্ষেত্র থেকে পাঠ এবং MME অপ্টিমাইজ করার কৌশল

আমরা অনেক গ্রাহকদের মধ্যে MME-এর উচ্চ-স্কেল ব্যবহারের কিছু থেকে নিম্নলিখিত সুপারিশগুলি দেখেছি।

ছোট উদাহরণ সহ অনুভূমিক স্কেলিং বড় উদাহরণগুলির সাথে উল্লম্ব স্কেলিং থেকে ভাল

কম এন্ডপয়েন্ট দৃষ্টান্তে প্রতি সেকেন্ডে উচ্চ অনুরোধ (RPS) চালানোর সময় আপনি মডেল আহ্বানে থ্রোটলিং অনুভব করতে পারেন। প্রতি সেকেন্ডে আমন্ত্রণের সংখ্যার অভ্যন্তরীণ সীমা রয়েছে (লোড এবং আনলোড যা একযোগে ঘটতে পারে), এবং তাই আরও বেশি সংখ্যক ছোট উদাহরণ থাকা সর্বদা ভাল। একটি উচ্চ সংখ্যক ছোট দৃষ্টান্ত চালানো মানে শেষ পয়েন্টের জন্য এই সীমাগুলির একটি উচ্চ মোট সামগ্রিক ক্ষমতা।

ছোট উদাহরণগুলির সাথে অনুভূমিকভাবে স্কেলিং করার আরেকটি সুবিধা হল যে আপনি উচ্চ স্তরের সমান্তরালতার সাথে MMS চালানোর সময় মেমরিতে উচ্চ সংখ্যক মডেলের সাথে (যেমন এই পোস্টে আগে বর্ণনা করা হয়েছে) ইনস্ট্যান্স সিপিইউ এবং মেমরি রিসোর্স ক্লান্ত হওয়ার ঝুঁকি হ্রাস করেন।

মারধর এড়ানো একটি ভাগ করা দায়িত্ব

মারধর এমএমই-তে যখন মডেলগুলি প্রায়শই মেমরি থেকে আনলোড করা হয় এবং অপর্যাপ্ত মেমরির কারণে পুনরায় লোড করা হয়, হয় একটি পৃথক উদাহরণে বা ক্লাস্টারে সামগ্রিকভাবে।

ব্যবহারের দৃষ্টিকোণ থেকে, প্রতিটি দৃষ্টান্তের জন্য পর্যাপ্ত মেমরির ক্ষমতা উপলব্ধ রয়েছে এবং আপনার ব্যবহারের ক্ষেত্রে ক্লাস্টারের জন্য সামগ্রিকভাবে নিশ্চিত করতে আপনার স্বতন্ত্র এন্ডপয়েন্ট দৃষ্টান্তের ডান-আকার এবং MME ক্লাস্টারের সামগ্রিক আকারের ডান-আকার করা উচিত। MME প্ল্যাটফর্মের রাউটার ফ্লিটও ক্যাশে হিটকে সর্বাধিক করে তুলবে।

কম, বড় মেমরির দৃষ্টান্তে অনেক বেশি মডেল বিন প্যাক করার সাথে আক্রমনাত্মক হবেন না

মেমরিই একমাত্র সম্পদ নয় যার বিষয়ে সচেতন হতে হবে। CPU-এর মতো অন্যান্য সংস্থানগুলি একটি সীমাবদ্ধ ফ্যাক্টর হতে পারে, যা নিম্নলিখিত লোড পরীক্ষার ফলাফলগুলিতে দেখা যায়। অন্যান্য কিছু ক্ষেত্রে, আমরা অন্যান্য কার্নেল রিসোর্স যেমন প্রসেস আইডিগুলি একটি উদাহরণে নিঃশেষ হয়ে যাওয়া দেখেছি, অনেকগুলি মডেল লোড হওয়ার কারণে এবং অন্তর্নিহিত ML ফ্রেমওয়ার্ক (যেমন টেনসরফ্লো) প্রতি মডেলের স্পোনিং থ্রেডগুলি উপলব্ধ ছিল vCPUs

নিম্নলিখিত কর্মক্ষমতা পরীক্ষা CPU সীমাবদ্ধতা প্রভাবিত মডেল লেটেন্সি একটি উদাহরণ প্রদর্শন করে. এই পরীক্ষায়, একটি বড় উদাহরণ সহ একটি একক ইনস্ট্যান্স এন্ডপয়েন্ট, চারটি মডেলকে মেমরিতে রাখার জন্য যথেষ্ট মেমরি থাকার সময়, চারটি ছোট উদাহরণের সাথে একটি এন্ডপয়েন্টের সাথে তুলনা করলে তুলনামূলকভাবে খারাপ মডেল লেটেন্সিগুলি লোডের অধীনে তৈরি হয়।

Amazon SageMaker মাল্টি-মডেল এন্ডপয়েন্ট PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে মাল্টি-মডেল অনুমান চালান এবং অপ্টিমাইজ করুন। উল্লম্ব অনুসন্ধান. আ.

একক ইনস্ট্যান্স এন্ডপয়েন্ট মডেল লেটেন্সি

সিঙ্গেল ইনস্ট্যান্স এন্ডপয়েন্ট সিপিইউ এবং মেমরি ব্যবহার

চার দৃষ্টান্ত এন্ডপয়েন্ট মডেল লেটেন্সি

চার দৃষ্টান্ত এন্ডপয়েন্ট CPU এবং মেমরি ব্যবহার

পারফরম্যান্স এবং খরচ-দক্ষতা উভয়ই অর্জন করতে, আপনার MME ক্লাস্টারটিকে উচ্চ সংখ্যক ছোট দৃষ্টান্ত সহ ডান-আকার করুন যা সামগ্রিকভাবে আপনাকে সর্বোত্তম মেমরি এবং CPU ক্ষমতা দেয় যদিও তুলনামূলকভাবে কম কিন্তু বড় মেমরির দৃষ্টান্তগুলির সাথে তুলনামূলকভাবে সমান।

MME অপ্টিমাইজ করার জন্য মানসিক মডেল

আপনার MME রাইট-সাইজ করার সময় আপনার সর্বদা বিবেচনা করা উচিত এমন চারটি মূল মেট্রিক রয়েছে:

মডেলের সংখ্যা এবং আকার
একটি নির্দিষ্ট সময়ে আহ্বান করা অনন্য মডেলের সংখ্যা
উদাহরণ টাইপ এবং আকার
শেষ পয়েন্টের পিছনে উদাহরণ গণনা

প্রথম দুটি পয়েন্ট দিয়ে শুরু করুন, কারণ তারা তৃতীয় এবং চতুর্থটি জানায়। উদাহরণস্বরূপ, যদি আপনার কাছে থাকা অনন্য মডেলগুলির সংখ্যা বা আকারের জন্য পর্যাপ্ত দৃষ্টান্তগুলি এন্ডপয়েন্টের পিছনে না থাকে, তাহলে এন্ডপয়েন্টের সামগ্রিক মেমরি কম হবে এবং আপনি একটি কম ক্যাশ হিট অনুপাত দেখতে পাবেন এবং এন্ডপয়েন্ট স্তরে থ্র্যাশিং দেখতে পাবেন কারণ MME ঘন ঘন মেমরির ভিতরে এবং বাইরে মডেলগুলি লোড এবং আনলোড করবে।

একইভাবে, যদি অনন্য মডেলের জন্য আহ্বানগুলি এন্ডপয়েন্টের পিছনে সমস্ত উদাহরণের সামগ্রিক মেমরির চেয়ে বেশি হয়, আপনি একটি কম ক্যাশে হিট দেখতে পাবেন। দৃষ্টান্তের আকার (বিশেষত মেমরির ক্ষমতা) খুব ছোট হলে এটিও ঘটতে পারে।

সত্যিই বড় মেমরির দৃষ্টান্তগুলির সাথে উল্লম্বভাবে স্কেল করার ফলে সমস্যা হতে পারে কারণ যদিও মডেলগুলি মেমরিতে ফিট হতে পারে, অন্যান্য সংস্থান যেমন CPU এবং কার্নেল প্রক্রিয়া এবং থ্রেড সীমা শেষ হয়ে যেতে পারে। আপনার MME-এর জন্য সর্বোত্তম সংখ্যা এবং দৃষ্টান্তের আকার পেতে প্রাক-প্রোডাকশনে অনুভূমিক স্কেলিং লোড করুন।

সারাংশ

এই পোস্টে, আপনি MME প্ল্যাটফর্ম সম্পর্কে গভীরভাবে উপলব্ধি করেছেন। আপনি শিখেছেন কোন প্রযুক্তিগত ব্যবহারের ক্ষেত্রে MME উপযুক্ত এবং MME প্ল্যাটফর্মের আর্কিটেকচার পর্যালোচনা করেছেন। আপনি এমএমই আর্কিটেকচারের মধ্যে প্রতিটি উপাদানের ভূমিকা এবং আপনি কোন উপাদানগুলির কার্যকারিতাকে সরাসরি প্রভাবিত করতে পারেন সে সম্পর্কে গভীর ধারণা অর্জন করেছেন। পরিশেষে, আপনি কনফিগারেশন প্যারামিটারগুলিকে গভীরভাবে দেখেছেন যেগুলি আপনি আপনার ব্যবহারের ক্ষেত্রে MME অপ্টিমাইজ করতে সামঞ্জস্য করতে পারেন এবং সর্বোত্তম কর্মক্ষমতা বজায় রাখার জন্য আপনাকে যে মেট্রিকগুলি পর্যবেক্ষণ করা উচিত।

MME এর সাথে শুরু করতে, পর্যালোচনা করুন XGBoost ব্যবহার করে Amazon SageMaker মাল্টি-মডেল এন্ডপয়েন্ট এবং একটি শেষ পয়েন্টের পিছনে একটি পাত্রে একাধিক মডেল হোস্ট করুন.

লেখক সম্পর্কে

Amazon SageMaker মাল্টি-মডেল এন্ডপয়েন্ট PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাথে মাল্টি-মডেল অনুমান চালান এবং অপ্টিমাইজ করুন। উল্লম্ব অনুসন্ধান. আ. সৈয়দ জাফরি AWS সহ একজন প্রধান সমাধান স্থপতি। তিনি ক্লাউডে সাশ্রয়ী এবং স্কেলযোগ্য AI/ML অ্যাপ্লিকেশনগুলি তৈরি এবং পরিচালনা করতে তাদের সাহায্য করার জন্য মধ্য-আকারের সংস্থা, বড় উদ্যোগ, আর্থিক পরিষেবা এবং ISV-এর বিভিন্ন সংস্থার সাথে কাজ করেন।

সৌরভ ত্রিকন্দে অ্যামাজন সেজমেকার ইনফারেন্সের একজন সিনিয়র প্রোডাক্ট ম্যানেজার। তিনি গ্রাহকদের সাথে কাজ করার জন্য উত্সাহী এবং মেশিন লার্নিংকে গণতান্ত্রিক করার লক্ষ্য দ্বারা অনুপ্রাণিত৷ তিনি জটিল এমএল অ্যাপ্লিকেশন স্থাপন, মাল্টি-টেন্যান্ট এমএল মডেল, খরচ অপ্টিমাইজেশান, এবং গভীর শিক্ষার মডেলগুলিকে আরও অ্যাক্সেসযোগ্য করে তোলার সাথে সম্পর্কিত মূল চ্যালেঞ্জগুলিতে মনোনিবেশ করেন। অবসর সময়ে, সৌরভ হাইকিং উপভোগ করেন, উদ্ভাবনী প্রযুক্তি সম্পর্কে শেখেন, টেকক্রাঞ্চ অনুসরণ করেন এবং তার পরিবারের সাথে সময় কাটান।

সময় স্ট্যাম্প: অক্টোবর 14, 2022অক্টোবর 14, 2022

সময় স্ট্যাম্প: নভেম্বর 20, 2023

কিভাবে JPMorgan Chase & Co. গ্লোবাল ক্লাউড গ্রহণের জন্য AWS DeepRacer ইভেন্ট ব্যবহার করে

উত্স ক্লাস্টার:

এডাব্লুএস মেশিন লার্নিং

উত্স নোড: 1761091

সময় স্ট্যাম্প: নভেম্বর 23, 2022

Amazon QuickSight PlatoBlockchain ডেটা ইন্টেলিজেন্সের সাহায্যে মেট্রিক্সের অসঙ্গতি ফলাফলের জন্য আপনার Amazon Lookout কল্পনা করুন। উল্লম্ব অনুসন্ধান. আ.

Amazon QuickSight এর সাথে মেট্রিক্সের অসঙ্গতি ফলাফলের জন্য আপনার Amazon Lookout কল্পনা করুন

উত্স ক্লাস্টার:

এডাব্লুএস মেশিন লার্নিং

উত্স নোড: 1629124

সময় স্ট্যাম্প: আগস্ট 18, 2022

Amazon Recognition কাস্টম লেবেল এবং AWS স্টেপ ফাংশন ব্যবহার করে Purina এর Petfinder অ্যাপ্লিকেশনের জন্য পোষা প্রাণীর প্রোফাইল অপ্টিমাইজ করুন | আমাজন ওয়েব সার্ভিসেস

উত্স ক্লাস্টার:

এডাব্লুএস মেশিন লার্নিং

উত্স নোড: 1903180

সময় স্ট্যাম্প: অক্টোবর 18, 2023

Amazon SageMaker মাল্টি-মডেল এন্ডপয়েন্টের সাথে মাল্টি-মডেল ইনফারেন্স চালান এবং অপ্টিমাইজ করুন

প্লেটো দ্বারা প্রকাশিত

MME এর জন্য সবচেয়ে উপযুক্ত কেস ব্যবহার করুন

মডেল পরিবেশন পাত্রে

MMS এর উন্নত কনফিগারেশন

মডেল প্রতি অনুমান সমান্তরাল বৃদ্ধি

ট্রাফিক স্পাইক জন্য ডিজাইন

প্রতি উদাহরণে মেমরি সংস্থান সর্বাধিক করুন

MMS উন্নত কনফিগারেশনের জন্য মান সেট করুন

আপনার এন্ডপয়েন্ট পারফরম্যান্স নিরীক্ষণ করার জন্য মূল মেট্রিক

এন্ডপয়েন্ট ইনস্ট্যান্স-লেভেল মেট্রিক্স (MMS মেট্রিক্স)

প্ল্যাটফর্ম-স্তরের মেট্রিক্স (MME মেট্রিক্স)

ক্ষেত্র থেকে পাঠ এবং MME অপ্টিমাইজ করার কৌশল

ছোট উদাহরণ সহ অনুভূমিক স্কেলিং বড় উদাহরণগুলির সাথে উল্লম্ব স্কেলিং থেকে ভাল

মারধর এড়ানো একটি ভাগ করা দায়িত্ব

কম, বড় মেমরির দৃষ্টান্তে অনেক বেশি মডেল বিন প্যাক করার সাথে আক্রমনাত্মক হবেন না

MME অপ্টিমাইজ করার জন্য মানসিক মডেল

সারাংশ

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

অ্যামাজন সেজমেকার স্টুডিও ল্যাবে ব্যাচের চাকরি হিসেবে নোটবুক চালান

ডিজাইন অফ এক্সপেরিমেন্ট এবং মেশিন লার্নিং এর মাধ্যমে F1 এরোডাইনামিক জ্যামিতি অপ্টিমাইজ করুন

কিভাবে JPMorgan Chase & Co. গ্লোবাল ক্লাউড গ্রহণের জন্য AWS DeepRacer ইভেন্ট ব্যবহার করে

Amazon QuickSight এর সাথে মেট্রিক্সের অসঙ্গতি ফলাফলের জন্য আপনার Amazon Lookout কল্পনা করুন

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব