কীভাবে অ্যামাজন অনুসন্ধান AWS-এ NVIDIA Triton-এর সাথে নিম্ন-বিলম্বিত, উচ্চ-থ্রুপুট T5 অনুমান অর্জন করে

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

আমাজন অনুসন্ধানের দৃষ্টিভঙ্গি হল গ্রাহকদের অনায়াসে অনুসন্ধান করতে সক্ষম করা। আমাদের বানান সংশোধন আপনাকে আপনি যা চান তা খুঁজে পেতে সাহায্য করে এমনকি আপনি যদি উদ্দিষ্ট শব্দের সঠিক বানান না জানেন। অতীতে, আমরা বানান সংশোধনের জন্য ম্যানুয়াল ফিচার ইঞ্জিনিয়ারিং সহ ক্লাসিক্যাল মেশিন লার্নিং (ML) অ্যালগরিদম ব্যবহার করতাম। বানান সংশোধন কর্মক্ষমতায় পরবর্তী প্রজন্মের লাফ দেওয়ার জন্য, আমরা সিকোয়েন্স-টু-সিকোয়েন্স মডেল সহ অনেকগুলি গভীর-শিক্ষা পদ্ধতি গ্রহণ করছি। ডিপ লার্নিং (ডিএল) মডেলগুলি প্রশিক্ষণ এবং অনুমান উভয় ক্ষেত্রেই গণনা-নিবিড়, এবং এই খরচগুলি ঐতিহাসিকভাবে অ্যামাজনের স্কেলে উৎপাদন সেটিংয়ে ডিএল মডেলগুলিকে অব্যবহারিক করে তুলেছে। এই পোস্টে, আমরা একটি অনুমান অপ্টিমাইজেশান পরীক্ষার ফলাফল উপস্থাপন করি যেখানে আমরা সেই বাধাগুলি অতিক্রম করি এবং জনপ্রিয় Hugging Face T534 ট্রান্সফরমারের জন্য 5% অনুমান গতি-আপ অর্জন করি।

চ্যালেঞ্জ

টেক্সট-টু-টেক্সট ট্রান্সফার ট্রান্সফরমার (T5, ইউনিফাইড পাঠ্য-থেকে-পাঠ্য ট্রান্সফর্মার সহ স্থানান্তর শিক্ষার সীমা সন্ধান করে, Reffel et al) হল অত্যাধুনিক প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) মডেল আর্কিটেকচার। T5 হল বানান সংশোধনের জন্য একটি প্রতিশ্রুতিশীল আর্কিটেকচার, যা আমরা আমাদের পরীক্ষায় ভাল পারফর্ম করতে পেয়েছি। ওপেন সোর্স ডিপ লার্নিং ফ্রেমওয়ার্ক এবং চলমান একাডেমিক এবং এন্টারপ্রাইজ গবেষণার জন্য T5 মডেলগুলি গবেষণা, বিকাশ এবং প্রশিক্ষণের জন্য সহজ।

যাইহোক, একটি T5 দিয়ে প্রোডাকশন-গ্রেড, কম লেটেন্সি ইনফারেন্স অর্জন করা কঠিন। উদাহরণস্বরূপ, একটি PyTorch T5 এর সাথে একটি একক অনুমান একটি Amazon ইলাস্টিক কম্পিউট ক্লাউড (EC45) p100x বড় উদাহরণে সজ্জিত চারটি NVIDIA V2 Tensor Core GPU-এর একটিতে 3.8 মিলিসেকেন্ড সময় নেয়। (প্রতিবেদিত সমস্ত অনুমান সংখ্যা 9 টোকেনের একটি ইনপুট এবং 11 টোকেনের আউটপুটের জন্য। T5 আর্কিটেকচারের লেটেন্সি ইনপুট এবং আউটপুট উভয় দৈর্ঘ্যের জন্য সংবেদনশীল।)

স্বল্প-বিলম্বিততা, স্কেলে ব্যয়-দক্ষ T5 অনুমান একটি পরিচিত অসুবিধা যা Amazon অনুসন্ধানের বাইরে বেশ কয়েকটি AWS গ্রাহকদের দ্বারা রিপোর্ট করা হয়েছে, যা এই পোস্টে অবদান রাখার জন্য আমাদের প্রেরণাকে বাড়িয়ে তোলে। একটি অফলাইন, বৈজ্ঞানিক কৃতিত্ব থেকে একটি গ্রাহক-মুখী উত্পাদন পরিষেবাতে যেতে, Amazon অনুসন্ধান নিম্নলিখিত চ্যালেঞ্জগুলির মুখোমুখি হয়:

অদৃশ্যতা - কিভাবে 5-মিলিসেকেন্ডের কম P50 লেটেন্সিতে T99 অনুমান উপলব্ধি করা যায়
থ্রুপুট - কিভাবে বৃহৎ-স্কেল সমবর্তী অনুমানের অনুরোধগুলি পরিচালনা করবেন
ব্যয় দক্ষতা - কিভাবে খরচ নিয়ন্ত্রণে রাখা যায়

এই পোস্টের বাকি অংশে, আমরা ব্যাখ্যা করব কীভাবে NVIDIA ইনফারেন্স অপ্টিমাইজেশান স্ট্যাক—যেমন NVIDIA TensorRT কম্পাইলার এবং ওপেন সোর্স এনভিআইডিএ ট্রাইটন ইনফারেন্স সার্ভার- সেই চ্যালেঞ্জগুলি সমাধান করে। পড়ুন NVIDIA এর প্রেস রিলিজ আপডেট সম্পর্কে জানতে।

NVIDIA TensorRT: অনুমান অপ্টিমাইজেশানের সাথে খরচ এবং বিলম্ব কমানো

ডিপ লার্নিং ফ্রেমওয়ার্কগুলি বিজ্ঞানের উপর দ্রুত পুনরাবৃত্তি করতে সুবিধাজনক, এবং বৈজ্ঞানিক মডেলিং, ডেটা লোডিং এবং প্রশিক্ষণ অপ্টিমাইজেশনের জন্য অসংখ্য কার্যকারিতা নিয়ে আসে। যাইহোক, এই টুলগুলির বেশিরভাগই অনুমানের জন্য সাবঅপ্টিমাল, যেগুলির জন্য শুধুমাত্র ম্যাট্রিক্স গুণন এবং সক্রিয়করণ ফাংশনের জন্য অপারেটরের একটি ন্যূনতম সেট প্রয়োজন। অতএব, গভীর শিক্ষার উন্নয়ন কাঠামোতে অনুমান চালানোর পরিবর্তে একটি বিশেষ, ভবিষ্যদ্বাণী-শুধু অ্যাপ্লিকেশন ব্যবহার করে উল্লেখযোগ্য লাভগুলি উপলব্ধি করা যেতে পারে।

NVIDIA TensorRT হল একটি SDK উচ্চ-কর্মক্ষমতা গভীর শিক্ষার অনুমানের জন্য। TensorRT NVIDIA GPU-তে উপলব্ধ নিম্ন-স্তরের অপ্টিমাইজ করা কার্নেল ব্যবহার করে এবং একটি অনুমান-শুধু মডেল গ্রাফ ব্যবহার করে একটি অপ্টিমাইজ করা রানটাইম উভয়ই সরবরাহ করে, যা একটি অপ্টিমাইজ করা ক্রমে অনুমান গণনাকে পুনর্বিন্যাস করে।

নিম্নলিখিত বিভাগে, আমরা TensorRT এর পিছনে ঘটতে থাকা বিশদ বিবরণ এবং এটি কীভাবে কর্মক্ষমতা বাড়ায় সে সম্পর্কে কথা বলব।

হ্রাস যথার্থতা সঠিকতা বজায় রেখে মডেলের পরিমাণ নির্ধারণ করে FP16 বা INT8 দিয়ে থ্রুপুট সর্বাধিক করে।
লেয়ার এবং টেনসর ফিউশন কার্নেল লঞ্চ লেটেন্সি এড়াতে কার্নেলে নোড ফিউজ করে GPU মেমরি এবং ব্যান্ডউইথের ব্যবহার অপ্টিমাইজ করে।
কার্নেল অটো-টিউনিং লক্ষ্য GPU প্ল্যাটফর্ম এবং ডেটা কার্নেল আকারের উপর ভিত্তি করে সেরা ডেটা স্তর এবং অ্যালগরিদম নির্বাচন করে।
ডায়নামিক টেনসর মেমরি মধ্যবর্তী ফলাফলের অপ্রয়োজনীয় মেমরি খরচ মুক্ত করে মেমরির পদচিহ্ন কমিয়ে দেয় এবং দক্ষতার সাথে টেনসরের জন্য মেমরি পুনরায় ব্যবহার করে।
মাল্টি-স্ট্রীম এক্সিকিউশন ডেডিকেটেড CUDA স্ট্রীমগুলির সাথে সমান্তরালে একাধিক ইনপুট স্ট্রীম প্রক্রিয়া করার জন্য একটি মাপযোগ্য নকশা ব্যবহার করে।
টাইম ফিউশন গতিশীলভাবে জেনারেট করা কার্নেলগুলির সাথে সময়ের ধাপে পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলিকে অপ্টিমাইজ করে।

T5 তার আর্কিটেকচারের জন্য বিল্ডিং ব্লক হিসাবে ট্রান্সফরমার স্তর ব্যবহার করে। NVIDIA TensorRT 8.2-এর সর্বশেষ রিলিজ রিয়েল-টাইম ইনফারেন্সের জন্য T5 এবং GPT-2 মডেলগুলির জন্য নতুন অপ্টিমাইজেশান প্রবর্তন করেছে। নিম্নলিখিত সারণীতে, আমরা Amazon EC5G2dn ইন্সট্যান্সে NVIDIA T4 GPUs এবং EC4 G2 ইন্সট্যান্স দ্বারা চালিত, NVIDIA A5G GPUs দ্বারা চালিত কিছু পাবলিক T10 মডেলে TensorRT-এর সাথে স্পিডআপ দেখতে পাচ্ছি।

মডেল	দৃষ্টান্ত	বেসলাইন পাইটর্চ লেটেন্সি (এমএস)			TensorRT 8.2 লেটেন্সি (ms)						স্পিডআপ বনাম এইচএফ বেসলাইন
		FP32			FP32			FP16			FP32	FP16
		এনকোডার	সঙ্কেতমোচক	সর্বশেষ সীমা	এনকোডার	সঙ্কেতমোচক	সর্বশেষ সীমা	এনকোডার	সঙ্কেতমোচক	সর্বশেষ সীমা	সর্বশেষ সীমা	সর্বশেষ সীমা
t5-ছোট	g4dn.xlarge	5.98	9.74	30.71	1.28	2.25	7.54	0.93	1.59	5.91	407.40%	519.34%
	g5.xlarge	4.63	7.56	24.22	0.61	1.05	3.99	0.47	0.80	3.19	606.66%	760.01%
t5-বেস	g4dn.xlarge	11.61	19.05	78.44	3.18	5.45	19.59	3.15	2.96	13.76	400.48%	569.97%
	g5.xlarge	8.59	14.23	59.98	1.55	2.47	11.32	1.54	1.65	8.46	530.05%	709.20%

অপ্টিমাইজেশন এবং সংযুক্ত কর্মক্ষমতা প্রতিলিপি সম্পর্কে আরও তথ্যের জন্য, পড়ুন NVIDIA TensorRT এর সাথে রিয়েল-টাইম ইনফারেন্সের জন্য T5 এবং GPT-2 অপ্টিমাইজ করা.

এটি লক্ষ করা গুরুত্বপূর্ণ যে সংকলন মডেলের যথার্থতা রক্ষা করে, কারণ এটি অনুমান পরিবেশ এবং গণনার সময়সূচীর উপর কাজ করে, মডেল বিজ্ঞানকে অপরিবর্তিত রেখে – পাতন বা ছাঁটাইয়ের মতো ওজন অপসারণ কম্প্রেশনের বিপরীতে। NVIDIA TensorRT আরও লাভের জন্য কোয়ান্টাইজেশনের সাথে সংকলন একত্রিত করার অনুমতি দেয়। সাম্প্রতিক NVIDIA হার্ডওয়্যারে কোয়ান্টাইজেশনের দ্বিগুণ সুবিধা রয়েছে: এটি মেমরির ব্যবহার হ্রাস করে, এবং NVIDIA টেনসর কোর, DL-নির্দিষ্ট কোষ ব্যবহার করতে সক্ষম করে যা মিশ্র নির্ভুলতায় একটি ফিউজড ম্যাট্রিক্স-মাল্টিপ্লাই-অ্যাড চালায়।

Hugging Face T5 মডেলের সাথে Amazon অনুসন্ধান পরীক্ষার ক্ষেত্রে, মডেল অনুমানের জন্য PyTorch-কে TensorRT দিয়ে প্রতিস্থাপন করলে গতি 534% বৃদ্ধি পায়।

NVIDIA Triton: কম-বিলম্ব, উচ্চ-থ্রুপুট অনুমান পরিবেশন

আধুনিক মডেল পরিবেশন সমাধানগুলি অফলাইন প্রশিক্ষিত মডেলগুলিকে গ্রাহক-মুখী এমএল-চালিত পণ্যগুলিতে রূপান্তর করতে পারে। এই ধরনের স্কেলে যুক্তিসঙ্গত খরচ বজায় রাখার জন্য, ওভারহেড কম পরিবেশন করা গুরুত্বপূর্ণ (HTTP হ্যান্ডলিং, প্রিপ্রসেসিং এবং পোস্টপ্রসেসিং, CPU-GPU কমিউনিকেশন) এবং GPU-এর সমান্তরাল প্রক্রিয়াকরণ ক্ষমতার সম্পূর্ণ সুবিধা গ্রহণ করা।

NVIDIA Triton হল একটি অনুমান পরিবেশনকারী সফ্টওয়্যার যা মডেল রানটাইম (NVIDIA TensorRT, ONNX, PyTorch, XGBoost অন্যদের মধ্যে) এবং GPU, CPU এবং অবকাঠামো ব্যাকএন্ডের ব্যাপক সমর্থন প্রস্তাব করে। AWS ইনফরেন্টিয়া।

এমএল অনুশীলনকারীরা একাধিক কারণে ট্রাইটনকে ভালবাসে। এর গতিশীল ব্যাচিং ক্ষমতা ব্যবহারকারী-সংজ্ঞায়িত বিলম্বের সময় এবং সর্বাধিক ব্যবহারকারী-সংজ্ঞায়িত ব্যাচ আকারের মধ্যে অনুমান অনুরোধগুলি জমা করতে দেয়, যাতে GPU অনুমান ব্যাচ করা হয়, CPU-GPU যোগাযোগের ওভারহেডকে পরিবর্ধন করে। লক্ষ্য করুন যে গতিশীল ব্যাচিং সার্ভার-সাইড এবং খুব অল্প সময়ের মধ্যে ঘটে, যাতে অনুরোধকারী ক্লায়েন্টের এখনও একটি সিঙ্ক্রোনাস, কাছাকাছি-রিয়েল-টাইম আহ্বানের অভিজ্ঞতা থাকে। ট্রাইটন ব্যবহারকারীরাও এর সমসাময়িক মডেল এক্সিকিউশন ক্ষমতা উপভোগ করে। জিপিইউ হল শক্তিশালী মাল্টিটাস্কার যা সমান্তরালভাবে কম্পিউট-ইনটেনসিভ ওয়ার্কলোড কার্যকর করতে পারদর্শী। ট্রাইটন একসাথে একাধিক মডেল ইন্সট্যান্স চালানোর জন্য CUDA স্ট্রীম ব্যবহার করে GPU ব্যবহার এবং থ্রুপুট সর্বাধিক করে। এই মডেল দৃষ্টান্তগুলি বিভিন্ন ব্যবহারের ক্ষেত্রে বিভিন্ন ফ্রেমওয়ার্ক থেকে ভিন্ন মডেল হতে পারে, অথবা একই মডেলের সরাসরি অনুলিপি হতে পারে। আপনার পর্যাপ্ত নিষ্ক্রিয় GPU মেমরি থাকলে এটি সরাসরি থ্রুপুট উন্নতিতে অনুবাদ করে। এছাড়াও, যেহেতু ট্রাইটন একটি নির্দিষ্ট ডিএল ডেভেলপমেন্ট ফ্রেমওয়ার্কের সাথে আবদ্ধ নয়, এটি বিজ্ঞানীদের তাদের পছন্দের টুলে সম্পূর্ণরূপে নিজেদের প্রকাশ করতে দেয়।

AWS-এ Triton এর সাথে, Amazon সার্চ আরও ভালো পরিবেশনের আশা করে Amazon.com গ্রাহকদের এবং কম খরচে লেটেন্সি প্রয়োজনীয়তা পূরণ. TensorRT রানটাইম এবং ট্রাইটন সার্ভারের মধ্যে আঁটসাঁট ইন্টিগ্রেশন উন্নয়ন অভিজ্ঞতা সহজতর করে। AWS ক্লাউড অবকাঠামো ব্যবহার করে থ্রুপুট প্রয়োজনীয়তার উপর ভিত্তি করে মিনিটের মধ্যে স্কেল আপ বা ডাউন করার অনুমতি দেয়, বার উচ্চ বা নির্ভরযোগ্যতা এবং নিরাপত্তা বজায় রেখে।

কিভাবে AWS প্রবেশের বাধা কমায়

আমাজন অনুসন্ধান যখন Amazon EC2 পরিকাঠামোতে এই পরীক্ষাটি পরিচালনা করেছে, তখন অন্যান্য AWS পরিষেবাগুলি অত্যাধুনিক গভীর শিক্ষার সমাধানগুলির বিকাশ, প্রশিক্ষণ এবং হোস্টিংকে সহজতর করার জন্য বিদ্যমান।

উদাহরণস্বরূপ, AWS এবং NVIDIA ট্রাইটন ইনফারেন্স সার্ভারের একটি পরিচালিত বাস্তবায়ন প্রকাশ করতে সহযোগিতা করেছে আমাজন সেজমেকার ; আরও তথ্যের জন্য, দেখুন Amazon SageMaker-এ NVIDIA Triton Inference সার্ভারের সাথে দ্রুত এবং স্কেলযোগ্য AI স্থাপন করুন. AWS আমাজন সেজমেকার এবং হাগিং ফেস ট্রান্সফরমারগুলির মধ্যে একটি পরিচালিত, অপ্টিমাইজড ইন্টিগ্রেশন তৈরি করতে Hugging Face-এর সাথে সহযোগিতা করেছে, ওপেন-সোর্স ফ্রেমওয়ার্ক যেখান থেকে Amazon Search T5 মডেলটি উদ্ভূত হয়েছে; এ আরও পড়ুন https://aws.amazon.com/machine-learning/hugging-face/.

আমরা লেটেন্সি-সংবেদনশীল CPU এবং GPU ডিপ লার্নিং সার্ভিং অ্যাপ্লিকেশন সহ গ্রাহকদের AWS-এ NVIDIA TensorRT এবং Triton বিবেচনা করতে উত্সাহিত করি। আপনি কি নির্মাণ আমাদের জানান!

গভীর শিক্ষা এবং Amazon অনুসন্ধানের জন্য গভীর শিক্ষা-ভিত্তিক সমাধান তৈরি করার বিষয়ে উত্সাহী? আমাদের চেক আউট কেরিয়ার পৃষ্ঠা

লেখক সম্পর্কে

RJ অনুসন্ধান M5 টিমের একজন প্রকৌশলী যিনি প্রশিক্ষণ এবং অনুমানের জন্য বৃহৎ আকারের গভীর শিক্ষা ব্যবস্থা তৈরির প্রচেষ্টার নেতৃত্ব দিচ্ছেন। কাজের বাইরে সে খাবারের বিভিন্ন খাবার অন্বেষণ করে এবং র্যাকেট খেলা খেলে।

হেমন্ত পুগালিয়া অনুসন্ধান M5 এ একজন ফলিত বিজ্ঞানী। তিনি বিশ্বব্যাপী Amazon কেনাকাটার গ্রাহকদের অভিজ্ঞতা উন্নত করার জন্য সর্বশেষ প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং গভীর শিক্ষার গবেষণা প্রয়োগের উপর কাজ করেন। তার গবেষণার আগ্রহের মধ্যে রয়েছে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং বড় আকারের মেশিন লার্নিং সিস্টেম। কাজের বাইরে, তিনি হাইকিং, রান্না এবং পড়া উপভোগ করেন।

অ্যান্ডি সান একজন সফ্টওয়্যার প্রকৌশলী এবং অনুসন্ধান বানান সংশোধনের জন্য প্রযুক্তিগত নেতৃত্ব। তার গবেষণার আগ্রহের মধ্যে রয়েছে গভীর শিক্ষার অনুমান লেটেন্সি অপ্টিমাইজ করা এবং দ্রুত পরীক্ষামূলক প্ল্যাটফর্ম তৈরি করা। কাজের বাইরে, তিনি চলচ্চিত্র নির্মাণ এবং অ্যাক্রোব্যাটিক্স উপভোগ করেন।

লে ক্যা অ্যামাজন অনুসন্ধানের একজন সফটওয়্যার ইঞ্জিনিয়ার। তিনি গ্রাহকদের তাদের কেনাকাটার অভিজ্ঞতার সাথে সাহায্য করার জন্য অনুসন্ধান বানান সংশোধন কর্মক্ষমতা উন্নত করার জন্য কাজ করেন। তিনি গভীর শিক্ষার মডেলের জন্য উচ্চ-পারফরম্যান্স অনলাইন অনুমান এবং বিতরণ প্রশিক্ষণ অপ্টিমাইজেশনের উপর ফোকাস করছেন। কাজের বাইরে, তিনি স্কিইং, হাইকিং এবং সাইক্লিং উপভোগ করেন।

অ্যান্টনি কো বর্তমানে সার্চ M5 Palo Alto, CA এ একজন সফটওয়্যার ইঞ্জিনিয়ার হিসেবে কাজ করছেন। তিনি মডেল স্থাপন এবং অনুমান অপ্টিমাইজেশানের জন্য সরঞ্জাম এবং পণ্য তৈরিতে কাজ করেন। কাজের বাইরে, তিনি রান্না এবং র্যাকেট খেলা উপভোগ করেন।

অলিভিয়ার ক্রুচ্যান্ট ফ্রান্সে অবস্থিত AWS-এর একজন মেশিন লার্নিং স্পেশালিস্ট সলিউশন আর্কিটেক্ট। অলিভিয়ার AWS গ্রাহকদের সাহায্য করে - ছোট স্টার্টআপ থেকে শুরু করে বড় এন্টারপ্রাইজে - প্রোডাকশন-গ্রেড মেশিন লার্নিং অ্যাপ্লিকেশনগুলি বিকাশ এবং স্থাপন করতে। তার অবসর সময়ে, তিনি গবেষণাপত্র পড়তে এবং বন্ধু এবং পরিবারের সাথে মরুভূমি অন্বেষণ উপভোগ করেন।

অনীশ মোহন NVIDIA-এর একজন মেশিন লার্নিং আর্কিটেক্ট এবং বৃহত্তর সিয়াটেল অঞ্চলে তার গ্রাহকদের সাথে ML এবং DL ব্যস্ততার জন্য প্রযুক্তিগত নেতৃত্ব।

জিয়াহং লিউ NVIDIA-এর ক্লাউড পরিষেবা প্রদানকারী দলের একজন সমাধান স্থপতি। তিনি ক্লায়েন্টদের মেশিন লার্নিং এবং এআই সমাধান গ্রহণে সহায়তা করেন যা তাদের প্রশিক্ষণ এবং অনুমান চ্যালেঞ্জ মোকাবেলায় NVIDIA ত্বরিত কম্পিউটিংকে সুবিধা দেয়। অবসর সময়ে, তিনি অরিগামি, DIY প্রকল্প এবং বাস্কেটবল খেলা উপভোগ করেন।

এলিউথ ট্রায়ানা NVIDIA-এর একজন বিকাশকারী সম্পর্ক ব্যবস্থাপক। তিনি Amazon ML/DL কাজের চাপ, EC2 পণ্য এবং AWS AI পরিষেবাগুলিকে ত্বরান্বিত করতে এনভিআইডিআইএ প্রযুক্তিবিদ এবং পণ্য নেতাদের সাথে অ্যামাজন এবং এডব্লিউএস পণ্যের নেতা, বিকাশকারী এবং বিজ্ঞানীদের সংযোগ করেন। এছাড়াও, এলিউথ একজন উত্সাহী পর্বত বাইকার, স্কিয়ার এবং জুজু খেলোয়াড়।

সময় স্ট্যাম্প: মার্চ 22, 2022

সুরক্ষিত Amazon SageMaker স্টুডিও নির্ধারিত URLs পার্ট 3: স্টুডিওতে মাল্টি-অ্যাকাউন্ট প্রাইভেট API অ্যাক্সেস

উত্স ক্লাস্টার:

এডাব্লুএস মেশিন লার্নিং

উত্স নোড: 1825525

সময় স্ট্যাম্প: এপ্রিল 11, 2023

কীভাবে অ্যামাজন অনুসন্ধান AWS-এ NVIDIA Triton-এর সাথে কম-বিলম্বিত, উচ্চ-থ্রুপুট T5 অনুমান অর্জন করে

প্লেটো দ্বারা প্রকাশিত

চ্যালেঞ্জ

NVIDIA TensorRT: অনুমান অপ্টিমাইজেশানের সাথে খরচ এবং বিলম্ব কমানো

NVIDIA Triton: কম-বিলম্ব, উচ্চ-থ্রুপুট অনুমান পরিবেশন

কিভাবে AWS প্রবেশের বাধা কমায়

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

Amazon SageMaker JumpStart ব্যবহার করে উচ্চ পারফর্মিং ইমেজ ক্লাসিফিকেশন মডেল তৈরি করুন

স্ন্যাপার পিক্সেল-নিখুঁত ইমেজ অবজেক্ট সনাক্তকরণের জন্য মেশিন লার্নিং-সহায়তা লেবেলিং প্রদান করে

কিভাবে Earth.com এবং Provectus Amazon SageMaker এর সাথে তাদের MLOps পরিকাঠামো বাস্তবায়ন করেছে | আমাজন ওয়েব সার্ভিসেস

Amazon SageMaker শ্যাডো টেস্টিং এর মাধ্যমে ML মডেল আপডেটের উৎপাদন প্রভাব কমিয়ে দিন

খুচরা শিল্পে অ্যামাজন পূর্বাভাস বাস্তবায়ন করা: POC থেকে উৎপাদন পর্যন্ত একটি যাত্রা

সুরক্ষিত Amazon SageMaker স্টুডিও নির্ধারিত URLs পার্ট 3: স্টুডিওতে মাল্টি-অ্যাকাউন্ট প্রাইভেট API অ্যাক্সেস

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব