এনএলপি এবং সিভি পাইটর্চ মডেলের প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্সের জন্য অ্যামাজন EC2 G5 দৃষ্টান্তগুলির সাহায্যে প্রতি অনুমানের তিন গুণ কম খরচে চারগুণ বেশি এমএল ইনফারেন্স থ্রুপুট অর্জন করুন। উল্লম্ব অনুসন্ধান. আ.

NLP এবং CV PyTorch মডেলগুলির জন্য Amazon EC2 G5 দৃষ্টান্তগুলির সাথে প্রতি অনুমানের তিনগুণ কম খরচে চারগুণ বেশি এমএল ইনফারেন্স থ্রুপুট অর্জন করুন

অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড (আমাজন ইসি 2) G5 উদাহরণ ক্লাউডে NVIDIA A10G টেনসর কোর জিপিইউ বৈশিষ্ট্যের প্রথম এবং একমাত্র দৃষ্টান্ত যা আপনি গ্রাফিক্স-ইনটেনসিভ এবং মেশিন লার্নিং (ML) ব্যবহারের ক্ষেত্রে বিস্তৃত পরিসরের জন্য ব্যবহার করতে পারেন। G5 দৃষ্টান্তের সাথে, ML গ্রাহকরা প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP), কম্পিউটার ভিশন (CV) এবং সুপারিশকারী ইঞ্জিন ব্যবহারের ক্ষেত্রে প্রশিক্ষিত এবং আরও বৃহত্তর এবং আরও পরিশীলিত মডেলগুলিকে প্রশিক্ষিত করার জন্য উচ্চ কার্যক্ষমতা এবং একটি ব্যয়-দক্ষ অবকাঠামো পান।

এই পোস্টের উদ্দেশ্য হল বড় আকারের এমএল ইনফারেন্স ওয়ার্কলোডের জন্য G5 দৃষ্টান্তগুলির কার্যকারিতা সুবিধাগুলি প্রদর্শন করা। আমরা G4dn দৃষ্টান্তগুলির সাথে NLP এবং CV মডেলগুলির জন্য মূল্য-কর্মক্ষমতা ($ প্রতি মিলিয়ন অনুমান হিসাবে পরিমাপ করা) তুলনা করে এটি করি। আমরা আমাদের বেঞ্চমার্কিং পদ্ধতির বর্ণনা দিয়ে শুরু করি এবং তারপর ব্যাচের আকার এবং ডেটা টাইপ নির্ভুলতা জুড়ে থ্রুপুট বনাম লেটেন্সি কার্ভ উপস্থাপন করি। G4dn দৃষ্টান্তের তুলনায়, আমরা দেখতে পাই যে G5 দৃষ্টান্তগুলি উচ্চতর থ্রুপুট এবং কম লেটেন্সি অর্জন করার সময় এনএলপি এবং সিভি মডেলগুলির জন্য সম্পূর্ণ নির্ভুলতা এবং মিশ্র নির্ভুলতা মোড উভয়ের জন্য প্রতি মিলিয়ন অনুমানের জন্য ধারাবাহিকভাবে কম খরচ প্রদান করে।

বেঞ্চমার্কিং পদ্ধতি

G5 এবং G4dn-এর মধ্যে একটি মূল্য-পারফরম্যান্স স্টাডি বিকাশ করতে, ব্যাচ আকারের একটি ফাংশন হিসাবে আমাদের থ্রুপুট, লেটেন্সি এবং প্রতি মিলিয়ন ইনফারেন্সের খরচ পরিমাপ করতে হবে। আমরা সম্পূর্ণ নির্ভুলতা বনাম মিশ্র নির্ভুলতার প্রভাবও অধ্যয়ন করি। মডেল গ্রাফ এবং ইনপুট উভয়ই অনুমান করার আগে CUDA-তে লোড করা হয়।

নিম্নলিখিত আর্কিটেকচার ডায়াগ্রামে দেখানো হয়েছে, আমরা প্রথমে অন্তর্নিহিত EC2 দৃষ্টান্তের (G4dn, G5) জন্য CUDA-এর সাথে সংশ্লিষ্ট বেস কন্টেইনার ইমেজ তৈরি করি। বেস কন্টেইনার ইমেজ তৈরি করতে, আমরা শুরু করি AWS ডিপ লার্নিং কন্টেইনার, যা মিনিটের মধ্যে গভীর শিক্ষার পরিবেশ স্থাপন করতে পূর্ব-প্যাকেজড ডকার চিত্রগুলি ব্যবহার করে। ছবিতে প্রয়োজনীয় ডিপ লার্নিং পাইটর্চ লাইব্রেরি এবং টুল রয়েছে। মনিটরিং, কমপ্লায়েন্স এবং ডেটা প্রসেসিং এর উপর উচ্চ মাত্রার নিয়ন্ত্রণের জন্য আপনি এই চিত্রগুলির উপরে আপনার নিজস্ব লাইব্রেরি এবং সরঞ্জামগুলি যোগ করতে পারেন।

তারপরে আমরা একটি মডেল-নির্দিষ্ট কন্টেইনার ইমেজ তৈরি করি যা মডেল কনফিগারেশন, মডেল ট্রেসিং এবং ফরওয়ার্ড পাস চালানোর জন্য সম্পর্কিত কোডগুলিকে এনক্যাপসুলেট করে। সমস্ত ধারক ইমেজ মধ্যে লোড করা হয় আমাজন ইসিআর বিভিন্ন মডেল কনফিগারেশনের জন্য এই মডেলগুলির অনুভূমিক স্কেলিং করার অনুমতি দিতে। আমরা ব্যাবহার করি আমাজন সিম্পল স্টোরেজ সার্ভিস (Amazon S3) কনফিগারেশন ডাউনলোড করতে এবং সারসংক্ষেপের জন্য বেঞ্চমার্ক ফলাফল আপলোড করার জন্য একটি সাধারণ ডেটা স্টোর হিসাবে। আপনি এই আর্কিটেকচারটি বেঞ্চমার্ক ফলাফলগুলি পুনরায় তৈরি এবং পুনরুত্পাদন করতে ব্যবহার করতে পারেন এবং EC2 দৃষ্টান্তের ধরন (CPU, GPU, Inf1) জুড়ে বিভিন্ন মডেল প্রকারের (যেমন Hugging Face মডেল, PyTorch মডেল, অন্যান্য কাস্টম মডেল) বেঞ্চমার্কের জন্য পুনরায় উদ্দেশ্য করতে পারেন।

এই পরীক্ষাটি সেট আপ করার সাথে সাথে, আমাদের লক্ষ্য হল থ্রুপুটের একটি ফাংশন হিসাবে লেটেন্সি অধ্যয়ন করা। লক্ষ্য অ্যাপ্লিকেশনের জন্য একটি ব্যয়-অনুকূল পরিকাঠামোতে পৌঁছানোর জন্য অ্যাপ্লিকেশন ডিজাইনের জন্য এই বক্ররেখা গুরুত্বপূর্ণ। এটি অর্জন করতে, আমরা একাধিক থ্রেড থেকে প্রশ্ন সারিবদ্ধ করে এবং তারপর প্রতিটি সম্পূর্ণ অনুরোধের জন্য রাউন্ড-ট্রিপ সময় পরিমাপ করে বিভিন্ন লোড অনুকরণ করি। থ্রুপুট পরিমাপ করা হয় প্রতি ইউনিট ঘড়ির সময় সম্পন্ন করা অনুরোধের সংখ্যার উপর ভিত্তি করে। অধিকন্তু, আপনি ব্যাচের আকার এবং অন্যান্য ভেরিয়েবল যেমন সিকোয়েন্স দৈর্ঘ্য এবং সম্পূর্ণ নির্ভুলতা বনাম অর্ধ নির্ভুলতা পরিবর্তিত করতে পারেন নির্দেশক কর্মক্ষমতা মেট্রিক্সে পৌঁছানোর জন্য ডিজাইনের স্থানটি ব্যাপকভাবে সুইপ করতে। আমাদের গবেষণায়, ব্যাচের আকারের প্যারামেট্রিক সুইপ এবং মাল্টি-থ্রেডেড ক্লায়েন্টদের প্রশ্নের মাধ্যমে, থ্রুপুট বনাম লেটেন্সি বক্ররেখা নির্ধারণ করা হয়। এক্সিলারেটরের সম্পূর্ণ ব্যবহার নিশ্চিত করার জন্য প্রতিটি অনুরোধ ব্যাচ করা যেতে পারে, বিশেষ করে ছোট অনুরোধের জন্য যা সম্পূর্ণরূপে গণনা নোড ব্যবহার করতে পারে না। আপনি সর্বোত্তম কর্মক্ষমতা জন্য ক্লায়েন্ট-সাইড ব্যাচ আকার সনাক্ত করতে এই সেটআপ গ্রহণ করতে পারেন।

সংক্ষেপে, আমরা এই সমস্যাটিকে গাণিতিকভাবে উপস্থাপন করতে পারি: (থ্রুপুট, লেটেন্সি) = ফাংশন এর (ব্যাচের আকার, থ্রেডের সংখ্যা, যথার্থতা)।

এর মানে, সম্পূর্ণ স্থান দেওয়া, পরীক্ষার সংখ্যা বড় হতে পারে। ভাগ্যক্রমে, প্রতিটি পরীক্ষা স্বাধীনভাবে চালানো যেতে পারে। আমরা ব্যবহার করার পরামর্শ দিই AWS ব্যাচ পরীক্ষার জন্য একটি রৈখিক পদ্ধতির তুলনায় বেঞ্চমার্কিং খরচ বৃদ্ধি না করে সংকুচিত সময়ে এই অনুভূমিকভাবে স্কেল করা বেঞ্চমার্কিং সম্পাদন করতে। ফলাফল প্রতিলিপি জন্য কোড উপস্থিত আছে GitHub সংগ্রহস্থল AWS Re:Invent 2021-এর জন্য প্রস্তুত। বিভিন্ন এক্সিলারেটরের বেঞ্চমার্কিং করার জন্য ভান্ডারটি ব্যাপক। আপনি কন্টেইনার তৈরি করতে কোডের GPU দিকটি উল্লেখ করতে পারেন (Dockerfile-gpu) এবং তারপর ভিতরে কোড পড়ুন Container-Root BERT এবং ResNet50 এর জন্য নির্দিষ্ট উদাহরণের জন্য।

আমরা দুটি মডেলের ধরন জুড়ে কর্মক্ষমতা অধ্যয়ন বিকাশের জন্য পূর্ববর্তী পদ্ধতি ব্যবহার করেছি: বার্ট-বেস-আনকেসড (110 মিলিয়ন প্যারামিটার, NLP) এবং ResNet50 (25.6 মিলিয়ন প্যারামিটার, CV)। নিম্নলিখিত সারণী মডেলের বিবরণ সংক্ষিপ্ত করে।

মডেল প্রকার মডেল বিস্তারিত
NLP twmkn9/bert-base-uncased-squad2 110 মিলিয়ন প্যারামিটার ক্রম দৈর্ঘ্য = 128
CV ResNet50 25.6 মিলিয়ন প্যারামিটার

উপরন্তু, ডেটা টাইপ জুড়ে বেঞ্চমার্ক করতে (পূর্ণ, অর্ধেক নির্ভুলতা), আমরা ব্যবহার করি torch.cuda.amp, যা মিশ্র নির্ভুলতা পরিচালনা করার জন্য সুবিধাজনক পদ্ধতি প্রদান করে যেখানে কিছু অপারেশন ব্যবহার করে torch.float32 (ফ্লোট) ডেটা টাইপ এবং অন্যান্য অপারেশন ব্যবহার torch.float16 (অর্ধেক)। উদাহরণস্বরূপ, রৈখিক স্তর এবং কনভোলিউশনের মতো অপারেটরগুলি ফ্লোট16 এর সাথে অনেক দ্রুত হয়, যেখানে অন্যান্য হ্রাসের মতো প্রায়শই ফ্লোট32 এর গতিশীল পরিসরের প্রয়োজন হয়। স্বয়ংক্রিয় মিশ্র নির্ভুলতা নেটওয়ার্কের রানটাইম এবং মেমরি ফুটপ্রিন্ট অপ্টিমাইজ করার জন্য প্রতিটি অপারেটরকে তার উপযুক্ত ডেটা টাইপের সাথে মেলানোর চেষ্টা করে।

বেঞ্চমার্কিং ফলাফল

একটি ন্যায্য তুলনা জন্য, আমরা নির্বাচন G4dn.4x বড় এবং G5.4x বড় নিম্নলিখিত সারণীতে তালিকাভুক্ত অনুরূপ বৈশিষ্ট্য সহ দৃষ্টান্ত।

দৃষ্টান্ত জিপিইউ GPU মেমরি (GiB) vCPUs মেমরি (GiB) ইনস্ট্যান্স স্টোরেজ (GB) নেটওয়ার্ক কর্মক্ষমতা (Gbps) EBS ব্যান্ডউইথ (Gbps) লিনাক্স অন-ডিমান্ড প্রাইসিং (ইউএস-ইস্ট-1)
G5.4x বড় 1 24 16 64 1x 600 NVMe SSD 25 পর্যন্ত 8 $ 1.204 / ঘন্টা
G4dn.4x বড় 1 16 16 64 1x 225 NVMe SSD 25 পর্যন্ত 4.75 $ 1.624 / ঘন্টা

নিম্নলিখিত বিভাগগুলিতে, আমরা BERT এবং RESNET50 মডেলগুলির ML অনুমান কর্মক্ষমতা তুলনা করি একটি গ্রিড সুইপ পদ্ধতির সাথে নির্দিষ্ট ব্যাচের আকার (32, 16, 8, 4, 1) এবং থ্রুপুটে পৌঁছানোর জন্য ডেটা টাইপ নির্ভুলতা (পূর্ণ এবং অর্ধেক নির্ভুলতা)। বনাম লেটেন্সি কার্ভ। উপরন্তু, আমরা সম্পূর্ণ এবং অর্ধেক নির্ভুলতার জন্য থ্রুপুট বনাম ব্যাচ আকারের প্রভাব তদন্ত করি। পরিশেষে, ব্যাচ আকারের একটি ফাংশন হিসাবে আমরা প্রতি মিলিয়ন অনুমানের খরচ পরিমাপ করি। এই পরীক্ষাগুলি জুড়ে একত্রিত ফলাফল এই পোস্টে পরে সংক্ষিপ্ত করা হয়েছে।

থ্রুপুট বনাম লেটেন্সি

নিম্নলিখিত পরিসংখ্যানগুলি সম্পূর্ণ এবং অর্ধেক নির্ভুলতায় NLP এবং CV কাজের চাপের জন্য G4dn এবং G5 উদাহরণগুলির তুলনা করে। G4dn দৃষ্টান্তের তুলনায়, G5 দৃষ্টান্ত একটি BERT বেস মডেলের জন্য প্রায় পাঁচ গুণ বেশি (সম্পূর্ণ নির্ভুলতা) এবং প্রায় 2.5 গুণ বেশি (অর্ধ নির্ভুলতা) এবং ResNet2 মডেলের জন্য প্রায় 2.5-50 গুণ বেশি থ্রুপুট প্রদান করে। সামগ্রিকভাবে, G5 হল একটি পছন্দের পছন্দ, পারফরম্যান্সের দৃষ্টিকোণ থেকে সম্পূর্ণ এবং মিশ্র নির্ভুলতার জন্য উভয় মডেলের জন্য ব্যাচের আকার বৃদ্ধি করা।

নিম্নলিখিত গ্রাফগুলি BERT-এর জন্য সম্পূর্ণ এবং অর্ধেক নির্ভুলতায় থ্রুপুট এবং P95 লেটেন্সি তুলনা করে।

এনএলপি এবং সিভি পাইটর্চ মডেলের প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্সের জন্য অ্যামাজন EC2 G5 দৃষ্টান্তগুলির সাহায্যে প্রতি অনুমানের তিন গুণ কম খরচে চারগুণ বেশি এমএল ইনফারেন্স থ্রুপুট অর্জন করুন। উল্লম্ব অনুসন্ধান. আ. এনএলপি এবং সিভি পাইটর্চ মডেলের প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্সের জন্য অ্যামাজন EC2 G5 দৃষ্টান্তগুলির সাহায্যে প্রতি অনুমানের তিন গুণ কম খরচে চারগুণ বেশি এমএল ইনফারেন্স থ্রুপুট অর্জন করুন। উল্লম্ব অনুসন্ধান. আ.

নিম্নলিখিত গ্রাফগুলি ResNet95 এর জন্য সম্পূর্ণ এবং অর্ধেক নির্ভুলতায় থ্রুপুট এবং P50 লেটেন্সি তুলনা করে।

এনএলপি এবং সিভি পাইটর্চ মডেলের প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্সের জন্য অ্যামাজন EC2 G5 দৃষ্টান্তগুলির সাহায্যে প্রতি অনুমানের তিন গুণ কম খরচে চারগুণ বেশি এমএল ইনফারেন্স থ্রুপুট অর্জন করুন। উল্লম্ব অনুসন্ধান. আ. এনএলপি এবং সিভি পাইটর্চ মডেলের প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্সের জন্য অ্যামাজন EC2 G5 দৃষ্টান্তগুলির সাহায্যে প্রতি অনুমানের তিন গুণ কম খরচে চারগুণ বেশি এমএল ইনফারেন্স থ্রুপুট অর্জন করুন। উল্লম্ব অনুসন্ধান. আ.

থ্রুপুট এবং লেটেন্সি বনাম ব্যাচ সাইজ

নিম্নলিখিত গ্রাফগুলি ব্যাচ আকারের একটি ফাংশন হিসাবে থ্রুপুট দেখায়। কম ব্যাচের আকারে, অ্যাক্সিলারেটর তার পূর্ণ ক্ষমতায় কাজ করছে না এবং ব্যাচের আকার বাড়ার সাথে সাথে লেটেন্সি খরচে থ্রুপুট বাড়ানো হয়। থ্রুপুট বক্ররেখা একটি সর্বাধিক মান যা অ্যাক্সিলারেটরের কার্যকারিতার একটি ফাংশন অ্যাসিম্পটোট করে। বক্ররেখার দুটি স্বতন্ত্র বৈশিষ্ট্য রয়েছে: একটি ক্রমবর্ধমান অংশ এবং একটি সমতল অ্যাসিম্পটোটিক বিভাগ। একটি প্রদত্ত মডেলের জন্য, একটি পারফরম্যান্ট অ্যাক্সিলারেটর (G5) উচ্চতর থ্রুপুটে G4dn এবং অ্যাসিম্পটোট থেকে উচ্চতর ব্যাচের আকারে ক্রমবর্ধমান অংশকে প্রসারিত করতে সক্ষম। এছাড়াও, লেটেন্সি এবং ব্যাচের আকারের মধ্যে একটি লিনিয়ার ট্রেড-অফ রয়েছে। অতএব, যদি অ্যাপ্লিকেশনটি লেটেন্সি বাউন্ড হয়, তাহলে আমরা সর্বোত্তম ব্যাচের আকার নির্ধারণ করতে P95 লেটেন্সি বনাম ব্যাচের আকার ব্যবহার করতে পারি। যাইহোক, যদি উদ্দেশ্যটি হয় সর্বনিম্ন লেটেন্সিতে থ্রুপুট সর্বাধিক করা, তাহলে রাইজিং এবং অ্যাসিম্পোটিক বিভাগগুলির মধ্যে "হাঁটু" এর সাথে সঙ্গতিপূর্ণ ব্যাচের আকার নির্বাচন করা ভাল, কারণ ব্যাচের আকারে আরও বৃদ্ধির ফলে একই থ্রুপুট হবে খারাপ বিলম্ব সর্বোত্তম মূল্য-কর্মক্ষমতা অনুপাত অর্জন করতে, সর্বনিম্ন বিলম্বে উচ্চতর থ্রুপুট লক্ষ্য করে, আপনি কেবল ব্যাচের আকার বাড়ানোর পরিবর্তে একাধিক অনুমান সার্ভারের মাধ্যমে এই সর্বোত্তমটি অনুভূমিকভাবে স্কেল করা ভাল।

এনএলপি এবং সিভি পাইটর্চ মডেলের প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্সের জন্য অ্যামাজন EC2 G5 দৃষ্টান্তগুলির সাহায্যে প্রতি অনুমানের তিন গুণ কম খরচে চারগুণ বেশি এমএল ইনফারেন্স থ্রুপুট অর্জন করুন। উল্লম্ব অনুসন্ধান. আ.

খরচ বনাম ব্যাচ আকার

এই বিভাগে, আমরা ব্যাচের আকার বনাম অনুমান খরচের ($ প্রতি মিলিয়ন অনুমান) তুলনামূলক ফলাফল উপস্থাপন করি। নিম্নলিখিত চিত্র থেকে, আমরা স্পষ্টভাবে লক্ষ্য করতে পারি যে খরচ ($ প্রতি মিলিয়ন অনুমানের হিসাবে পরিমাপ করা) ধারাবাহিকভাবে G5 বনাম G4dn উভয়ের সাথে কম (পূর্ণ এবং অর্ধেক নির্ভুলতা)।

এনএলপি এবং সিভি পাইটর্চ মডেলের প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্সের জন্য অ্যামাজন EC2 G5 দৃষ্টান্তগুলির সাহায্যে প্রতি অনুমানের তিন গুণ কম খরচে চারগুণ বেশি এমএল ইনফারেন্স থ্রুপুট অর্জন করুন। উল্লম্ব অনুসন্ধান. আ. এনএলপি এবং সিভি পাইটর্চ মডেলের প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্সের জন্য অ্যামাজন EC2 G5 দৃষ্টান্তগুলির সাহায্যে প্রতি অনুমানের তিন গুণ কম খরচে চারগুণ বেশি এমএল ইনফারেন্স থ্রুপুট অর্জন করুন। উল্লম্ব অনুসন্ধান. আ.

নিম্নলিখিত সারণীটি নির্দিষ্ট ব্যাচের আকারের জন্য উভয় নির্ভুলতা মোড জুড়ে BERT এবং RESNET50 মডেলগুলির জন্য থ্রুপুট, লেটেন্সি, এবং খরচ ($ প্রতি মিলিয়ন অনুমান) তুলনা সংক্ষিপ্ত করে। দৃষ্টান্ত প্রতি উচ্চ খরচ হওয়া সত্ত্বেও, সমস্ত ব্যাচের আকারের জন্য অনুমানের লেটেন্সি, থ্রুপুট এবং খরচ ($ প্রতি মিলিয়ন অনুমান) এর সমস্ত দিক জুড়ে G5 ধারাবাহিকভাবে G4dn-কে ছাড়িয়ে যায়। বিভিন্ন মেট্রিক্সকে একটি খরচে ($ প্রতি মিলিয়ন অনুমান), BERT মডেল (32 ব্যাচের আকার, সম্পূর্ণ নির্ভুলতা) G5 এর সাথে মিলিয়ে G3.7dn এর চেয়ে 4 গুণ বেশি অনুকূল, এবং ResNet50 মডেলের সাথে (32 ব্যাচের আকার, সম্পূর্ণ নির্ভুলতা), এটি 1.6। G4dn এর চেয়ে গুণ বেশি অনুকূল।

মডেল ব্যাচ আকার স্পষ্টতা

থ্রুপুট

(ব্যাচ আকার X অনুরোধ/সেকেন্ড)

Latency (ms)

$/ মিলিয়ন

অনুমান (অন-ডিমান্ড)

খরচের সুবিধা

(G5 ওভার G4dn)

. . . G5 G4dn G5 G4dn G5 G4dn
বার্ট-বেস-আনকেসড 32 পূর্ণ 723 154 44 208 $0.6 $2.2 3.7X
মিশ্র 870 410 37 79 $0.5 $0.8 1.6X
16 পূর্ণ 651 158 25 102 $0.7 $2.1 3.0X
মিশ্র 762 376 21 43 $0.6 $0.9 1.5X
8 পূর্ণ 642 142 13 57 $0.7 $2.3 3.3X
মিশ্র 681 350 12 23 $0.7 $1.0 1.4X
. 1 পূর্ণ 160 116 6 9 $2.8 $2.9 1.0X
মিশ্র 137 102 7 10 $3.3 $3.3 1.0X
ResNet50 32 পূর্ণ 941 397 34 82 $0.5 $0.8 1.6X
মিশ্র 1533 851 21 38 $0.3 $0.4 1.3X
16 পূর্ণ 888 384 18 42 $0.5 $0.9 1.8X
মিশ্র 1474 819 11 20 $0.3 $0.4 1.3X
8 পূর্ণ 805 340 10 24 $0.6 $1.0 1.7X
মিশ্র 1419 772 6 10 $0.3 $0.4 1.3X
. 1 পূর্ণ 202 164 5 6 $2.2 $2 0.9X
মিশ্র 196 180 5 6 $2.3 $1.9 0.8X

অতিরিক্ত অনুমান বেঞ্চমার্ক

পূর্ববর্তী বিভাগে BERT বেস এবং ResNet50 ফলাফল ছাড়াও, আমরা PyTorch-এ অন্যান্য সাধারণভাবে ব্যবহৃত বড় NLP এবং CV মডেলগুলির জন্য অতিরিক্ত বেঞ্চমার্কিং ফলাফল উপস্থাপন করি। G5dn-এর উপর G4-এর পারফরম্যান্স বেনিফিট বিভিন্ন নির্ভুলতায় BERT বড় মডেলের জন্য এবং বিভিন্ন আকারের জন্য Yolo-v5 মডেলের জন্য উপস্থাপন করা হয়েছে। বেঞ্চমার্কের প্রতিলিপি করার জন্য কোডের জন্য, পড়ুন টেনসর কোরের জন্য NVIDIA গভীর শিক্ষার উদাহরণ. এই ফলাফলগুলি বিভিন্ন ধরণের মডেলের বিস্তৃত অনুমান কার্যগুলির জন্য G5dn এর উপর G4 ব্যবহার করার সুবিধা দেখায়।

মডেল স্পষ্টতা ব্যাচ আকার ক্রম দৈর্ঘ্য থ্রুপুট (প্রেরিত/সেকেন্ড) থ্রুপুট: G4dn G4dn-এর উপরে স্পিডআপ
BERT- বড় FP16 1 128 93.5 40.31 2.3
BERT- বড় FP16 4 128 264.2 87.4 3.0
BERT- বড় FP16 8 128 392.1 107.5 3.6
BERT- বড় FP32 1 128 68.4 22.67 3.0
BERT- বড় 4 128 118.5 32.21 3.7
BERT- বড় 8 128 132.4 34.67 3.8
মডেল GFLOPS প্যারামিটারের সংখ্যা প্রিপ্রসেসিং (ms) অনুমান (ms) অনুমান (অ-সর্বোচ্চ-দমন) (NMS/ছবি)
YOLOv5s 16.5 7.2M 0.2 3.6 4.5
YOLOv5 মি 49.1 21M 0.2 6.5 4.5
YOLOv5l 109.3 46M 0.2 9.1 3.5
YOLOv5x 205.9 86M 0.2 14.4 1.3

উপসংহার

এই পোস্টে, আমরা দেখিয়েছি যে বড় NLP এবং CV PyTorch মডেলগুলির অনুমানের জন্য, EC2 G5 দৃষ্টান্তগুলি G4dn দৃষ্টান্তগুলির তুলনায় একটি ভাল পছন্দ৷ যদিও G5 দৃষ্টান্তগুলির জন্য অন-ডিমান্ড প্রতি ঘন্টা খরচ G4dn দৃষ্টান্তগুলির চেয়ে বেশি, তবে এর উচ্চ কার্যক্ষমতা NLP এবং CV মডেলগুলির জন্য যে কোনও নির্ভুলতায় 2-5 গুণ থ্রুপুট অর্জন করতে পারে, যা প্রতি মিলিয়ন অনুমানের চেয়ে 1.5-3.5 গুণ বেশি অনুকূল করে তোলে G4dn উদাহরণ। এমনকি লেটেন্সি বাউন্ড অ্যাপ্লিকেশানগুলির জন্য, G5 NLP এবং CV মডেলগুলির জন্য G2.5dn থেকে 5-4 গুণ ভাল৷

সংক্ষেপে, AWS G5 দৃষ্টান্তগুলি পারফরম্যান্স এবং মূল্য প্রতি অনুমান দৃষ্টিকোণ থেকে আপনার অনুমানের প্রয়োজনের জন্য একটি চমৎকার পছন্দ। CUDA ফ্রেমওয়ার্কের সার্বজনীনতা এবং AWS-এ G5 ইন্সট্যান্স পুলের স্কেল এবং গভীরতা আপনাকে স্কেলে অনুমান করার অনন্য ক্ষমতা প্রদান করে।


লেখক সম্পর্কে

এনএলপি এবং সিভি পাইটর্চ মডেলের প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্সের জন্য অ্যামাজন EC2 G5 দৃষ্টান্তগুলির সাহায্যে প্রতি অনুমানের তিন গুণ কম খরচে চারগুণ বেশি এমএল ইনফারেন্স থ্রুপুট অর্জন করুন। উল্লম্ব অনুসন্ধান. আ.অঙ্কুর শ্রীবাস্তব এমএল ফ্রেমওয়ার্কস টিমের একজন সিনিয়র সলিউশন আর্কিটেক্ট। তিনি AWS-এ স্ব-পরিচালিত বিতরণ প্রশিক্ষণ এবং অনুমান সহ গ্রাহকদের সাহায্য করার দিকে মনোনিবেশ করেন। তার অভিজ্ঞতার মধ্যে রয়েছে শিল্প ভবিষ্যদ্বাণীমূলক রক্ষণাবেক্ষণ, ডিজিটাল যমজ, সম্ভাব্য নকশা অপ্টিমাইজেশন এবং রাইস ইউনিভার্সিটির মেকানিক্যাল ইঞ্জিনিয়ারিং থেকে তার ডক্টরেট অধ্যয়ন এবং ম্যাসাচুসেটস ইনস্টিটিউট অফ টেকনোলজি থেকে পোস্ট-ডক্টরাল গবেষণা সম্পন্ন করেছেন।

এনএলপি এবং সিভি পাইটর্চ মডেলের প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্সের জন্য অ্যামাজন EC2 G5 দৃষ্টান্তগুলির সাহায্যে প্রতি অনুমানের তিন গুণ কম খরচে চারগুণ বেশি এমএল ইনফারেন্স থ্রুপুট অর্জন করুন। উল্লম্ব অনুসন্ধান. আ.সুন্দর রঙ্গনাথন Amazon EC2 টিমের এমএল ফ্রেমওয়ার্কস বিজনেস ডেভেলপমেন্টের প্রধান। তিনি Amazon EKS, Amazon ECS, ইলাস্টিক ফ্যাব্রিক অ্যাডাপ্টার, AWS ব্যাচ এবং Amazon SageMaker এর মত AWS পরিষেবা জুড়ে বৃহৎ-স্কেল এমএল ওয়ার্কলোডের উপর ফোকাস করেন। তার অভিজ্ঞতার মধ্যে রয়েছে NetApp, মাইক্রোন টেকনোলজি, কোয়ালকম এবং মেন্টর গ্রাফিক্সে পণ্য ব্যবস্থাপনা এবং পণ্য উন্নয়নে নেতৃত্বের ভূমিকা।

এনএলপি এবং সিভি পাইটর্চ মডেলের প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্সের জন্য অ্যামাজন EC2 G5 দৃষ্টান্তগুলির সাহায্যে প্রতি অনুমানের তিন গুণ কম খরচে চারগুণ বেশি এমএল ইনফারেন্স থ্রুপুট অর্জন করুন। উল্লম্ব অনুসন্ধান. আ.মহাদেবন বালাসুব্রমানিয়াম স্বায়ত্তশাসিত কম্পিউটিং-এর জন্য একজন প্রধান সলিউশন আর্কিটেক্ট, যার প্রায় 20 বছরের অভিজ্ঞতার সাথে পদার্থবিদ্যার গভীর শিক্ষা, বিল্ডিং, এবং স্কেলে শিল্প ব্যবস্থার জন্য ডিজিটাল টুইন স্থাপনের ক্ষেত্রে। মহাদেবন ম্যাসাচুসেটস ইনস্টিটিউট অফ টেকনোলজি থেকে মেকানিকাল ইঞ্জিনিয়ারিংয়ে পিএইচডি করেছেন এবং তার কৃতিত্বের জন্য 25টিরও বেশি পেটেন্ট এবং প্রকাশনা রয়েছে।

এনএলপি এবং সিভি পাইটর্চ মডেলের প্লাটোব্লকচেন ডেটা ইন্টেলিজেন্সের জন্য অ্যামাজন EC2 G5 দৃষ্টান্তগুলির সাহায্যে প্রতি অনুমানের তিন গুণ কম খরচে চারগুণ বেশি এমএল ইনফারেন্স থ্রুপুট অর্জন করুন। উল্লম্ব অনুসন্ধান. আ. আমর রাগব AWS-এর জন্য EC2 অ্যাক্সিলারেটেড প্ল্যাটফর্মের একজন প্রধান সমাধান স্থপতি, গ্রাহকদের স্কেলে কম্পিউটেশনাল ওয়ার্কলোড চালাতে সাহায্য করার জন্য নিবেদিত৷ তার অবসর সময়ে তিনি ভ্রমণ করতে পছন্দ করেন এবং দৈনন্দিন জীবনে প্রযুক্তিকে সংহত করার নতুন উপায় খুঁজে পান।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

স্বয়ংক্রিয় বক্তৃতা স্বীকৃতির জন্য হুইস্পার মডেলগুলি এখন অ্যামাজন সেজমেকার জাম্পস্টার্টে উপলব্ধ | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1900352
সময় স্ট্যাম্প: অক্টোবর 10, 2023

প্রান্তে ভিজ্যুয়াল গুণমান পরিদর্শনের জন্য এন্ড-টু-এন্ড MLOps পাইপলাইন তৈরি করুন – পার্ট 1 | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1897422
সময় স্ট্যাম্প: অক্টোবর 2, 2023