NLP এবং CV PyTorch মডেলের জন্য Amazon EC2 G5 ইন্সট্যান্সের সাহায্যে প্রতি অনুমান প্রতি তিন গুণ কম খরচে চার গুণ উচ্চতর এমএল ইনফারেন্স থ্রুপুট অর্জন করুন

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড (আমাজন ইসি 2) G5 উদাহরণ ক্লাউডে NVIDIA A10G টেনসর কোর জিপিইউ বৈশিষ্ট্যের প্রথম এবং একমাত্র দৃষ্টান্ত যা আপনি গ্রাফিক্স-ইনটেনসিভ এবং মেশিন লার্নিং (ML) ব্যবহারের ক্ষেত্রে বিস্তৃত পরিসরের জন্য ব্যবহার করতে পারেন। G5 দৃষ্টান্তের সাথে, ML গ্রাহকরা প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP), কম্পিউটার ভিশন (CV) এবং সুপারিশকারী ইঞ্জিন ব্যবহারের ক্ষেত্রে প্রশিক্ষিত এবং আরও বৃহত্তর এবং আরও পরিশীলিত মডেলগুলিকে প্রশিক্ষিত করার জন্য উচ্চ কার্যক্ষমতা এবং একটি ব্যয়-দক্ষ অবকাঠামো পান।

এই পোস্টের উদ্দেশ্য হল বড় আকারের এমএল ইনফারেন্স ওয়ার্কলোডের জন্য G5 দৃষ্টান্তগুলির কার্যকারিতা সুবিধাগুলি প্রদর্শন করা। আমরা G4dn দৃষ্টান্তগুলির সাথে NLP এবং CV মডেলগুলির জন্য মূল্য-কর্মক্ষমতা ($ প্রতি মিলিয়ন অনুমান হিসাবে পরিমাপ করা) তুলনা করে এটি করি। আমরা আমাদের বেঞ্চমার্কিং পদ্ধতির বর্ণনা দিয়ে শুরু করি এবং তারপর ব্যাচের আকার এবং ডেটা টাইপ নির্ভুলতা জুড়ে থ্রুপুট বনাম লেটেন্সি কার্ভ উপস্থাপন করি। G4dn দৃষ্টান্তের তুলনায়, আমরা দেখতে পাই যে G5 দৃষ্টান্তগুলি উচ্চতর থ্রুপুট এবং কম লেটেন্সি অর্জন করার সময় এনএলপি এবং সিভি মডেলগুলির জন্য সম্পূর্ণ নির্ভুলতা এবং মিশ্র নির্ভুলতা মোড উভয়ের জন্য প্রতি মিলিয়ন অনুমানের জন্য ধারাবাহিকভাবে কম খরচ প্রদান করে।

বেঞ্চমার্কিং পদ্ধতি

G5 এবং G4dn-এর মধ্যে একটি মূল্য-পারফরম্যান্স স্টাডি বিকাশ করতে, ব্যাচ আকারের একটি ফাংশন হিসাবে আমাদের থ্রুপুট, লেটেন্সি এবং প্রতি মিলিয়ন ইনফারেন্সের খরচ পরিমাপ করতে হবে। আমরা সম্পূর্ণ নির্ভুলতা বনাম মিশ্র নির্ভুলতার প্রভাবও অধ্যয়ন করি। মডেল গ্রাফ এবং ইনপুট উভয়ই অনুমান করার আগে CUDA-তে লোড করা হয়।

নিম্নলিখিত আর্কিটেকচার ডায়াগ্রামে দেখানো হয়েছে, আমরা প্রথমে অন্তর্নিহিত EC2 দৃষ্টান্তের (G4dn, G5) জন্য CUDA-এর সাথে সংশ্লিষ্ট বেস কন্টেইনার ইমেজ তৈরি করি। বেস কন্টেইনার ইমেজ তৈরি করতে, আমরা শুরু করি AWS ডিপ লার্নিং কন্টেইনার, যা মিনিটের মধ্যে গভীর শিক্ষার পরিবেশ স্থাপন করতে পূর্ব-প্যাকেজড ডকার চিত্রগুলি ব্যবহার করে। ছবিতে প্রয়োজনীয় ডিপ লার্নিং পাইটর্চ লাইব্রেরি এবং টুল রয়েছে। মনিটরিং, কমপ্লায়েন্স এবং ডেটা প্রসেসিং এর উপর উচ্চ মাত্রার নিয়ন্ত্রণের জন্য আপনি এই চিত্রগুলির উপরে আপনার নিজস্ব লাইব্রেরি এবং সরঞ্জামগুলি যোগ করতে পারেন।

তারপরে আমরা একটি মডেল-নির্দিষ্ট কন্টেইনার ইমেজ তৈরি করি যা মডেল কনফিগারেশন, মডেল ট্রেসিং এবং ফরওয়ার্ড পাস চালানোর জন্য সম্পর্কিত কোডগুলিকে এনক্যাপসুলেট করে। সমস্ত ধারক ইমেজ মধ্যে লোড করা হয় আমাজন ইসিআর বিভিন্ন মডেল কনফিগারেশনের জন্য এই মডেলগুলির অনুভূমিক স্কেলিং করার অনুমতি দিতে। আমরা ব্যাবহার করি আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) কনফিগারেশন ডাউনলোড করতে এবং সারসংক্ষেপের জন্য বেঞ্চমার্ক ফলাফল আপলোড করার জন্য একটি সাধারণ ডেটা স্টোর হিসাবে। আপনি এই আর্কিটেকচারটি বেঞ্চমার্ক ফলাফলগুলি পুনরায় তৈরি এবং পুনরুত্পাদন করতে ব্যবহার করতে পারেন এবং EC2 দৃষ্টান্তের ধরন (CPU, GPU, Inf1) জুড়ে বিভিন্ন মডেল প্রকারের (যেমন Hugging Face মডেল, PyTorch মডেল, অন্যান্য কাস্টম মডেল) বেঞ্চমার্কের জন্য পুনরায় উদ্দেশ্য করতে পারেন।

এই পরীক্ষাটি সেট আপ করার সাথে সাথে, আমাদের লক্ষ্য হল থ্রুপুটের একটি ফাংশন হিসাবে লেটেন্সি অধ্যয়ন করা। লক্ষ্য অ্যাপ্লিকেশনের জন্য একটি ব্যয়-অনুকূল পরিকাঠামোতে পৌঁছানোর জন্য অ্যাপ্লিকেশন ডিজাইনের জন্য এই বক্ররেখা গুরুত্বপূর্ণ। এটি অর্জন করতে, আমরা একাধিক থ্রেড থেকে প্রশ্ন সারিবদ্ধ করে এবং তারপর প্রতিটি সম্পূর্ণ অনুরোধের জন্য রাউন্ড-ট্রিপ সময় পরিমাপ করে বিভিন্ন লোড অনুকরণ করি। থ্রুপুট পরিমাপ করা হয় প্রতি ইউনিট ঘড়ির সময় সম্পন্ন করা অনুরোধের সংখ্যার উপর ভিত্তি করে। অধিকন্তু, আপনি ব্যাচের আকার এবং অন্যান্য ভেরিয়েবল যেমন সিকোয়েন্স দৈর্ঘ্য এবং সম্পূর্ণ নির্ভুলতা বনাম অর্ধ নির্ভুলতা পরিবর্তিত করতে পারেন নির্দেশক কর্মক্ষমতা মেট্রিক্সে পৌঁছানোর জন্য ডিজাইনের স্থানটি ব্যাপকভাবে সুইপ করতে। আমাদের গবেষণায়, ব্যাচের আকারের প্যারামেট্রিক সুইপ এবং মাল্টি-থ্রেডেড ক্লায়েন্টদের প্রশ্নের মাধ্যমে, থ্রুপুট বনাম লেটেন্সি বক্ররেখা নির্ধারণ করা হয়। এক্সিলারেটরের সম্পূর্ণ ব্যবহার নিশ্চিত করার জন্য প্রতিটি অনুরোধ ব্যাচ করা যেতে পারে, বিশেষ করে ছোট অনুরোধের জন্য যা সম্পূর্ণরূপে গণনা নোড ব্যবহার করতে পারে না। আপনি সর্বোত্তম কর্মক্ষমতা জন্য ক্লায়েন্ট-সাইড ব্যাচ আকার সনাক্ত করতে এই সেটআপ গ্রহণ করতে পারেন।

সংক্ষেপে, আমরা এই সমস্যাটিকে গাণিতিকভাবে উপস্থাপন করতে পারি: (থ্রুপুট, লেটেন্সি) = ফাংশন এর (ব্যাচের আকার, থ্রেডের সংখ্যা, যথার্থতা)।

এর মানে, সম্পূর্ণ স্থান দেওয়া, পরীক্ষার সংখ্যা বড় হতে পারে। ভাগ্যক্রমে, প্রতিটি পরীক্ষা স্বাধীনভাবে চালানো যেতে পারে। আমরা ব্যবহার করার পরামর্শ দিই AWS ব্যাচ পরীক্ষার জন্য একটি রৈখিক পদ্ধতির তুলনায় বেঞ্চমার্কিং খরচ বৃদ্ধি না করে সংকুচিত সময়ে এই অনুভূমিকভাবে স্কেল করা বেঞ্চমার্কিং সম্পাদন করতে। ফলাফল প্রতিলিপি জন্য কোড উপস্থিত আছে GitHub সংগ্রহস্থল AWS Re:Invent 2021-এর জন্য প্রস্তুত। বিভিন্ন এক্সিলারেটরের বেঞ্চমার্কিং করার জন্য ভান্ডারটি ব্যাপক। আপনি কন্টেইনার তৈরি করতে কোডের GPU দিকটি উল্লেখ করতে পারেন (Dockerfile-gpu) এবং তারপর ভিতরে কোড পড়ুন Container-Root BERT এবং ResNet50 এর জন্য নির্দিষ্ট উদাহরণের জন্য।

আমরা দুটি মডেলের ধরন জুড়ে কর্মক্ষমতা অধ্যয়ন বিকাশের জন্য পূর্ববর্তী পদ্ধতি ব্যবহার করেছি: বার্ট-বেস-আনকেসড (110 মিলিয়ন প্যারামিটার, NLP) এবং ResNet50 (25.6 মিলিয়ন প্যারামিটার, CV)। নিম্নলিখিত সারণী মডেলের বিবরণ সংক্ষিপ্ত করে।

মডেল প্রকার	মডেল	বিস্তারিত
NLP	twmkn9/bert-base-uncased-squad2	110 মিলিয়ন প্যারামিটার ক্রম দৈর্ঘ্য = 128
CV	ResNet50	25.6 মিলিয়ন প্যারামিটার

উপরন্তু, ডেটা টাইপ জুড়ে বেঞ্চমার্ক করতে (পূর্ণ, অর্ধেক নির্ভুলতা), আমরা ব্যবহার করি torch.cuda.amp, যা মিশ্র নির্ভুলতা পরিচালনা করার জন্য সুবিধাজনক পদ্ধতি প্রদান করে যেখানে কিছু অপারেশন ব্যবহার করে torch.float32 (ফ্লোট) ডেটা টাইপ এবং অন্যান্য অপারেশন ব্যবহার torch.float16 (অর্ধেক)। উদাহরণস্বরূপ, রৈখিক স্তর এবং কনভোলিউশনের মতো অপারেটরগুলি ফ্লোট16 এর সাথে অনেক দ্রুত হয়, যেখানে অন্যান্য হ্রাসের মতো প্রায়শই ফ্লোট32 এর গতিশীল পরিসরের প্রয়োজন হয়। স্বয়ংক্রিয় মিশ্র নির্ভুলতা নেটওয়ার্কের রানটাইম এবং মেমরি ফুটপ্রিন্ট অপ্টিমাইজ করার জন্য প্রতিটি অপারেটরকে তার উপযুক্ত ডেটা টাইপের সাথে মেলানোর চেষ্টা করে।

বেঞ্চমার্কিং ফলাফল

একটি ন্যায্য তুলনা জন্য, আমরা নির্বাচন G4dn.4x বড় এবং G5.4x বড় নিম্নলিখিত সারণীতে তালিকাভুক্ত অনুরূপ বৈশিষ্ট্য সহ দৃষ্টান্ত।

দৃষ্টান্ত	জিপিইউ	GPU মেমরি (GiB)	vCPUs	মেমরি (GiB)	ইনস্ট্যান্স স্টোরেজ (GB)	নেটওয়ার্ক কর্মক্ষমতা (Gbps)	EBS ব্যান্ডউইথ (Gbps)	লিনাক্স অন-ডিমান্ড প্রাইসিং (ইউএস-ইস্ট-1)
G5.4x বড়	1	24	16	64	1x 600 NVMe SSD	25 পর্যন্ত	8	$ 1.204 / ঘন্টা
G4dn.4x বড়	1	16	16	64	1x 225 NVMe SSD	25 পর্যন্ত	4.75	$ 1.624 / ঘন্টা

নিম্নলিখিত বিভাগগুলিতে, আমরা BERT এবং RESNET50 মডেলগুলির ML অনুমান কর্মক্ষমতা তুলনা করি একটি গ্রিড সুইপ পদ্ধতির সাথে নির্দিষ্ট ব্যাচের আকার (32, 16, 8, 4, 1) এবং থ্রুপুটে পৌঁছানোর জন্য ডেটা টাইপ নির্ভুলতা (পূর্ণ এবং অর্ধেক নির্ভুলতা)। বনাম লেটেন্সি কার্ভ। উপরন্তু, আমরা সম্পূর্ণ এবং অর্ধেক নির্ভুলতার জন্য থ্রুপুট বনাম ব্যাচ আকারের প্রভাব তদন্ত করি। পরিশেষে, ব্যাচ আকারের একটি ফাংশন হিসাবে আমরা প্রতি মিলিয়ন অনুমানের খরচ পরিমাপ করি। এই পরীক্ষাগুলি জুড়ে একত্রিত ফলাফল এই পোস্টে পরে সংক্ষিপ্ত করা হয়েছে।

থ্রুপুট বনাম লেটেন্সি

নিম্নলিখিত পরিসংখ্যানগুলি সম্পূর্ণ এবং অর্ধেক নির্ভুলতায় NLP এবং CV কাজের চাপের জন্য G4dn এবং G5 উদাহরণগুলির তুলনা করে। G4dn দৃষ্টান্তের তুলনায়, G5 দৃষ্টান্ত একটি BERT বেস মডেলের জন্য প্রায় পাঁচ গুণ বেশি (সম্পূর্ণ নির্ভুলতা) এবং প্রায় 2.5 গুণ বেশি (অর্ধ নির্ভুলতা) এবং ResNet2 মডেলের জন্য প্রায় 2.5-50 গুণ বেশি থ্রুপুট প্রদান করে। সামগ্রিকভাবে, G5 হল একটি পছন্দের পছন্দ, পারফরম্যান্সের দৃষ্টিকোণ থেকে সম্পূর্ণ এবং মিশ্র নির্ভুলতার জন্য উভয় মডেলের জন্য ব্যাচের আকার বৃদ্ধি করা।

নিম্নলিখিত গ্রাফগুলি BERT-এর জন্য সম্পূর্ণ এবং অর্ধেক নির্ভুলতায় থ্রুপুট এবং P95 লেটেন্সি তুলনা করে।

এনএলপি এবং সিভি পাইটর্চ মডেলের প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্সের জন্য অ্যামাজন EC2 G5 দৃষ্টান্তগুলির সাহায্যে প্রতি অনুমানের তিন গুণ কম খরচে চারগুণ বেশি এমএল ইনফারেন্স থ্রুপুট অর্জন করুন। উল্লম্ব অনুসন্ধান. আ.

নিম্নলিখিত গ্রাফগুলি ResNet95 এর জন্য সম্পূর্ণ এবং অর্ধেক নির্ভুলতায় থ্রুপুট এবং P50 লেটেন্সি তুলনা করে।

থ্রুপুট এবং লেটেন্সি বনাম ব্যাচ সাইজ

নিম্নলিখিত গ্রাফগুলি ব্যাচ আকারের একটি ফাংশন হিসাবে থ্রুপুট দেখায়। কম ব্যাচের আকারে, অ্যাক্সিলারেটর তার পূর্ণ ক্ষমতায় কাজ করছে না এবং ব্যাচের আকার বাড়ার সাথে সাথে লেটেন্সি খরচে থ্রুপুট বাড়ানো হয়। থ্রুপুট বক্ররেখা একটি সর্বাধিক মান যা অ্যাক্সিলারেটরের কার্যকারিতার একটি ফাংশন অ্যাসিম্পটোট করে। বক্ররেখার দুটি স্বতন্ত্র বৈশিষ্ট্য রয়েছে: একটি ক্রমবর্ধমান অংশ এবং একটি সমতল অ্যাসিম্পটোটিক বিভাগ। একটি প্রদত্ত মডেলের জন্য, একটি পারফরম্যান্ট অ্যাক্সিলারেটর (G5) উচ্চতর থ্রুপুটে G4dn এবং অ্যাসিম্পটোট থেকে উচ্চতর ব্যাচের আকারে ক্রমবর্ধমান অংশকে প্রসারিত করতে সক্ষম। এছাড়াও, লেটেন্সি এবং ব্যাচের আকারের মধ্যে একটি লিনিয়ার ট্রেড-অফ রয়েছে। অতএব, যদি অ্যাপ্লিকেশনটি লেটেন্সি বাউন্ড হয়, তাহলে আমরা সর্বোত্তম ব্যাচের আকার নির্ধারণ করতে P95 লেটেন্সি বনাম ব্যাচের আকার ব্যবহার করতে পারি। যাইহোক, যদি উদ্দেশ্যটি হয় সর্বনিম্ন লেটেন্সিতে থ্রুপুট সর্বাধিক করা, তাহলে রাইজিং এবং অ্যাসিম্পোটিক বিভাগগুলির মধ্যে "হাঁটু" এর সাথে সঙ্গতিপূর্ণ ব্যাচের আকার নির্বাচন করা ভাল, কারণ ব্যাচের আকারে আরও বৃদ্ধির ফলে একই থ্রুপুট হবে খারাপ বিলম্ব সর্বোত্তম মূল্য-কর্মক্ষমতা অনুপাত অর্জন করতে, সর্বনিম্ন বিলম্বে উচ্চতর থ্রুপুট লক্ষ্য করে, আপনি কেবল ব্যাচের আকার বাড়ানোর পরিবর্তে একাধিক অনুমান সার্ভারের মাধ্যমে এই সর্বোত্তমটি অনুভূমিকভাবে স্কেল করা ভাল।

খরচ বনাম ব্যাচ আকার

এই বিভাগে, আমরা ব্যাচের আকার বনাম অনুমান খরচের ($ প্রতি মিলিয়ন অনুমান) তুলনামূলক ফলাফল উপস্থাপন করি। নিম্নলিখিত চিত্র থেকে, আমরা স্পষ্টভাবে লক্ষ্য করতে পারি যে খরচ ($ প্রতি মিলিয়ন অনুমানের হিসাবে পরিমাপ করা) ধারাবাহিকভাবে G5 বনাম G4dn উভয়ের সাথে কম (পূর্ণ এবং অর্ধেক নির্ভুলতা)।

নিম্নলিখিত সারণীটি নির্দিষ্ট ব্যাচের আকারের জন্য উভয় নির্ভুলতা মোড জুড়ে BERT এবং RESNET50 মডেলগুলির জন্য থ্রুপুট, লেটেন্সি, এবং খরচ ($ প্রতি মিলিয়ন অনুমান) তুলনা সংক্ষিপ্ত করে। দৃষ্টান্ত প্রতি উচ্চ খরচ হওয়া সত্ত্বেও, সমস্ত ব্যাচের আকারের জন্য অনুমানের লেটেন্সি, থ্রুপুট এবং খরচ ($ প্রতি মিলিয়ন অনুমান) এর সমস্ত দিক জুড়ে G5 ধারাবাহিকভাবে G4dn-কে ছাড়িয়ে যায়। বিভিন্ন মেট্রিক্সকে একটি খরচে ($ প্রতি মিলিয়ন অনুমান), BERT মডেল (32 ব্যাচের আকার, সম্পূর্ণ নির্ভুলতা) G5 এর সাথে মিলিয়ে G3.7dn এর চেয়ে 4 গুণ বেশি অনুকূল, এবং ResNet50 মডেলের সাথে (32 ব্যাচের আকার, সম্পূর্ণ নির্ভুলতা), এটি 1.6। G4dn এর চেয়ে গুণ বেশি অনুকূল।

মডেল	ব্যাচ আকার	স্পষ্টতা	থ্রুপুট (ব্যাচ আকার X অনুরোধ/সেকেন্ড)		Latency (ms)		$/ মিলিয়ন অনুমান (অন-ডিমান্ড)		খরচের সুবিধা (G5 ওভার G4dn)
.	.	.	G5	G4dn	G5	G4dn	G5	G4dn
বার্ট-বেস-আনকেসড	32	পূর্ণ	723	154	44	208	$0.6	$2.2	3.7X
	32	মিশ্র	870	410	37	79	$0.5	$0.8	1.6X
	16	পূর্ণ	651	158	25	102	$0.7	$2.1	3.0X
	16	মিশ্র	762	376	21	43	$0.6	$0.9	1.5X
	8	পূর্ণ	642	142	13	57	$0.7	$2.3	3.3X
	8	মিশ্র	681	350	12	23	$0.7	$1.0	1.4X
.	1	পূর্ণ	160	116	6	9	$2.8	$2.9	1.0X
.	1	মিশ্র	137	102	7	10	$3.3	$3.3	1.0X
ResNet50	32	পূর্ণ	941	397	34	82	$0.5	$0.8	1.6X
	32	মিশ্র	1533	851	21	38	$0.3	$0.4	1.3X
	16	পূর্ণ	888	384	18	42	$0.5	$0.9	1.8X
	16	মিশ্র	1474	819	11	20	$0.3	$0.4	1.3X
	8	পূর্ণ	805	340	10	24	$0.6	$1.0	1.7X
	8	মিশ্র	1419	772	6	10	$0.3	$0.4	1.3X
.	1	পূর্ণ	202	164	5	6	$2.2	$2	0.9X
.	1	মিশ্র	196	180	5	6	$2.3	$1.9	0.8X

অতিরিক্ত অনুমান বেঞ্চমার্ক

পূর্ববর্তী বিভাগে BERT বেস এবং ResNet50 ফলাফল ছাড়াও, আমরা PyTorch-এ অন্যান্য সাধারণভাবে ব্যবহৃত বড় NLP এবং CV মডেলগুলির জন্য অতিরিক্ত বেঞ্চমার্কিং ফলাফল উপস্থাপন করি। G5dn-এর উপর G4-এর পারফরম্যান্স বেনিফিট বিভিন্ন নির্ভুলতায় BERT বড় মডেলের জন্য এবং বিভিন্ন আকারের জন্য Yolo-v5 মডেলের জন্য উপস্থাপন করা হয়েছে। বেঞ্চমার্কের প্রতিলিপি করার জন্য কোডের জন্য, পড়ুন টেনসর কোরের জন্য NVIDIA গভীর শিক্ষার উদাহরণ. এই ফলাফলগুলি বিভিন্ন ধরণের মডেলের বিস্তৃত অনুমান কার্যগুলির জন্য G5dn এর উপর G4 ব্যবহার করার সুবিধা দেখায়।

মডেল	স্পষ্টতা	ব্যাচ আকার	ক্রম দৈর্ঘ্য	থ্রুপুট (প্রেরিত/সেকেন্ড)	থ্রুপুট: G4dn	G4dn-এর উপরে স্পিডআপ
BERT- বড়	FP16	1	128	93.5	40.31	2.3
BERT- বড়	FP16	4	128	264.2	87.4	3.0
BERT- বড়	FP16	8	128	392.1	107.5	3.6
BERT- বড়	FP32	1	128	68.4	22.67	3.0
BERT- বড়		4	128	118.5	32.21	3.7
BERT- বড়		8	128	132.4	34.67	3.8

মডেল	GFLOPS	প্যারামিটারের সংখ্যা	প্রিপ্রসেসিং (ms)	অনুমান (ms)	অনুমান (অ-সর্বোচ্চ-দমন) (NMS/ছবি)
YOLOv5s	16.5	7.2M	0.2	3.6	4.5
YOLOv5 মি	49.1	21M	0.2	6.5	4.5
YOLOv5l	109.3	46M	0.2	9.1	3.5
YOLOv5x	205.9	86M	0.2	14.4	1.3

উপসংহার

এই পোস্টে, আমরা দেখিয়েছি যে বড় NLP এবং CV PyTorch মডেলগুলির অনুমানের জন্য, EC2 G5 দৃষ্টান্তগুলি G4dn দৃষ্টান্তগুলির তুলনায় একটি ভাল পছন্দ৷ যদিও G5 দৃষ্টান্তগুলির জন্য অন-ডিমান্ড প্রতি ঘন্টা খরচ G4dn দৃষ্টান্তগুলির চেয়ে বেশি, তবে এর উচ্চ কার্যক্ষমতা NLP এবং CV মডেলগুলির জন্য যে কোনও নির্ভুলতায় 2-5 গুণ থ্রুপুট অর্জন করতে পারে, যা প্রতি মিলিয়ন অনুমানের চেয়ে 1.5-3.5 গুণ বেশি অনুকূল করে তোলে G4dn উদাহরণ। এমনকি লেটেন্সি বাউন্ড অ্যাপ্লিকেশানগুলির জন্য, G5 NLP এবং CV মডেলগুলির জন্য G2.5dn থেকে 5-4 গুণ ভাল৷

সংক্ষেপে, AWS G5 দৃষ্টান্তগুলি পারফরম্যান্স এবং মূল্য প্রতি অনুমান দৃষ্টিকোণ থেকে আপনার অনুমানের প্রয়োজনের জন্য একটি চমৎকার পছন্দ। CUDA ফ্রেমওয়ার্কের সার্বজনীনতা এবং AWS-এ G5 ইন্সট্যান্স পুলের স্কেল এবং গভীরতা আপনাকে স্কেলে অনুমান করার অনন্য ক্ষমতা প্রদান করে।

লেখক সম্পর্কে

অঙ্কুর শ্রীবাস্তব এমএল ফ্রেমওয়ার্কস টিমের একজন সিনিয়র সলিউশন আর্কিটেক্ট। তিনি AWS-এ স্ব-পরিচালিত বিতরণ প্রশিক্ষণ এবং অনুমান সহ গ্রাহকদের সাহায্য করার দিকে মনোনিবেশ করেন। তার অভিজ্ঞতার মধ্যে রয়েছে শিল্প ভবিষ্যদ্বাণীমূলক রক্ষণাবেক্ষণ, ডিজিটাল যমজ, সম্ভাব্য নকশা অপ্টিমাইজেশন এবং রাইস ইউনিভার্সিটির মেকানিক্যাল ইঞ্জিনিয়ারিং থেকে তার ডক্টরেট অধ্যয়ন এবং ম্যাসাচুসেটস ইনস্টিটিউট অফ টেকনোলজি থেকে পোস্ট-ডক্টরাল গবেষণা সম্পন্ন করেছেন।

সুন্দর রঙ্গনাথন Amazon EC2 টিমের এমএল ফ্রেমওয়ার্কস বিজনেস ডেভেলপমেন্টের প্রধান। তিনি Amazon EKS, Amazon ECS, ইলাস্টিক ফ্যাব্রিক অ্যাডাপ্টার, AWS ব্যাচ এবং Amazon SageMaker এর মত AWS পরিষেবা জুড়ে বৃহৎ-স্কেল এমএল ওয়ার্কলোডের উপর ফোকাস করেন। তার অভিজ্ঞতার মধ্যে রয়েছে NetApp, মাইক্রোন টেকনোলজি, কোয়ালকম এবং মেন্টর গ্রাফিক্সে পণ্য ব্যবস্থাপনা এবং পণ্য উন্নয়নে নেতৃত্বের ভূমিকা।

মহাদেবন বালাসুব্রমানিয়াম স্বায়ত্তশাসিত কম্পিউটিং-এর জন্য একজন প্রধান সলিউশন আর্কিটেক্ট, যার প্রায় 20 বছরের অভিজ্ঞতার সাথে পদার্থবিদ্যার গভীর শিক্ষা, বিল্ডিং, এবং স্কেলে শিল্প ব্যবস্থার জন্য ডিজিটাল টুইন স্থাপনের ক্ষেত্রে। মহাদেবন ম্যাসাচুসেটস ইনস্টিটিউট অফ টেকনোলজি থেকে মেকানিকাল ইঞ্জিনিয়ারিংয়ে পিএইচডি করেছেন এবং তার কৃতিত্বের জন্য 25টিরও বেশি পেটেন্ট এবং প্রকাশনা রয়েছে।

এনএলপি এবং সিভি পাইটর্চ মডেলের প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্সের জন্য অ্যামাজন EC2 G5 দৃষ্টান্তগুলির সাহায্যে প্রতি অনুমানের তিন গুণ কম খরচে চারগুণ বেশি এমএল ইনফারেন্স থ্রুপুট অর্জন করুন। উল্লম্ব অনুসন্ধান. আ. আমর রাগব AWS-এর জন্য EC2 অ্যাক্সিলারেটেড প্ল্যাটফর্মের একজন প্রধান সমাধান স্থপতি, গ্রাহকদের স্কেলে কম্পিউটেশনাল ওয়ার্কলোড চালাতে সাহায্য করার জন্য নিবেদিত৷ তার অবসর সময়ে তিনি ভ্রমণ করতে পছন্দ করেন এবং দৈনন্দিন জীবনে প্রযুক্তিকে সংহত করার নতুন উপায় খুঁজে পান।