AWS PlatoBlockchain ডেটা ইন্টেলিজেন্সে NVIDIA Triton-এর সাথে Amazon Search কীভাবে কম-বিলম্বিত, উচ্চ-থ্রুপুট T5 অনুমান অর্জন করে। উল্লম্ব অনুসন্ধান. আ.

কীভাবে অ্যামাজন অনুসন্ধান AWS-এ NVIDIA Triton-এর সাথে কম-বিলম্বিত, উচ্চ-থ্রুপুট T5 অনুমান অর্জন করে

আমাজন অনুসন্ধানের দৃষ্টিভঙ্গি হল গ্রাহকদের অনায়াসে অনুসন্ধান করতে সক্ষম করা। আমাদের বানান সংশোধন আপনাকে আপনি যা চান তা খুঁজে পেতে সাহায্য করে এমনকি আপনি যদি উদ্দিষ্ট শব্দের সঠিক বানান না জানেন। অতীতে, আমরা বানান সংশোধনের জন্য ম্যানুয়াল ফিচার ইঞ্জিনিয়ারিং সহ ক্লাসিক্যাল মেশিন লার্নিং (ML) অ্যালগরিদম ব্যবহার করতাম। বানান সংশোধন কর্মক্ষমতায় পরবর্তী প্রজন্মের লাফ দেওয়ার জন্য, আমরা সিকোয়েন্স-টু-সিকোয়েন্স মডেল সহ অনেকগুলি গভীর-শিক্ষা পদ্ধতি গ্রহণ করছি। ডিপ লার্নিং (ডিএল) মডেলগুলি প্রশিক্ষণ এবং অনুমান উভয় ক্ষেত্রেই গণনা-নিবিড়, এবং এই খরচগুলি ঐতিহাসিকভাবে অ্যামাজনের স্কেলে উৎপাদন সেটিংয়ে ডিএল মডেলগুলিকে অব্যবহারিক করে তুলেছে। এই পোস্টে, আমরা একটি অনুমান অপ্টিমাইজেশান পরীক্ষার ফলাফল উপস্থাপন করি যেখানে আমরা সেই বাধাগুলি অতিক্রম করি এবং জনপ্রিয় Hugging Face T534 ট্রান্সফরমারের জন্য 5% অনুমান গতি-আপ অর্জন করি।

চ্যালেঞ্জ

টেক্সট-টু-টেক্সট ট্রান্সফার ট্রান্সফরমার (T5, ইউনিফাইড পাঠ্য-থেকে-পাঠ্য ট্রান্সফর্মার সহ স্থানান্তর শিক্ষার সীমা সন্ধান করে, Reffel et al) হল অত্যাধুনিক প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) মডেল আর্কিটেকচার। T5 হল বানান সংশোধনের জন্য একটি প্রতিশ্রুতিশীল আর্কিটেকচার, যা আমরা আমাদের পরীক্ষায় ভাল পারফর্ম করতে পেয়েছি। ওপেন সোর্স ডিপ লার্নিং ফ্রেমওয়ার্ক এবং চলমান একাডেমিক এবং এন্টারপ্রাইজ গবেষণার জন্য T5 মডেলগুলি গবেষণা, বিকাশ এবং প্রশিক্ষণের জন্য সহজ।

যাইহোক, একটি T5 দিয়ে প্রোডাকশন-গ্রেড, কম লেটেন্সি ইনফারেন্স অর্জন করা কঠিন। উদাহরণস্বরূপ, একটি PyTorch T5 এর সাথে একটি একক অনুমান একটি Amazon ইলাস্টিক কম্পিউট ক্লাউড (EC45) p100x বড় উদাহরণে সজ্জিত চারটি NVIDIA V2 Tensor Core GPU-এর একটিতে 3.8 ​​মিলিসেকেন্ড সময় নেয়। (প্রতিবেদিত সমস্ত অনুমান সংখ্যা 9 টোকেনের একটি ইনপুট এবং 11 টোকেনের আউটপুটের জন্য। T5 আর্কিটেকচারের লেটেন্সি ইনপুট এবং আউটপুট উভয় দৈর্ঘ্যের জন্য সংবেদনশীল।)

স্বল্প-বিলম্বিততা, স্কেলে ব্যয়-দক্ষ T5 অনুমান একটি পরিচিত অসুবিধা যা Amazon অনুসন্ধানের বাইরে বেশ কয়েকটি AWS গ্রাহকদের দ্বারা রিপোর্ট করা হয়েছে, যা এই পোস্টে অবদান রাখার জন্য আমাদের প্রেরণাকে বাড়িয়ে তোলে। একটি অফলাইন, বৈজ্ঞানিক কৃতিত্ব থেকে একটি গ্রাহক-মুখী উত্পাদন পরিষেবাতে যেতে, Amazon অনুসন্ধান নিম্নলিখিত চ্যালেঞ্জগুলির মুখোমুখি হয়:

  • অদৃশ্যতা - কিভাবে 5-মিলিসেকেন্ডের কম P50 লেটেন্সিতে T99 অনুমান উপলব্ধি করা যায়
  • থ্রুপুট - কিভাবে বৃহৎ-স্কেল সমবর্তী অনুমানের অনুরোধগুলি পরিচালনা করবেন
  • ব্যয় দক্ষতা - কিভাবে খরচ নিয়ন্ত্রণে রাখা যায়

এই পোস্টের বাকি অংশে, আমরা ব্যাখ্যা করব কীভাবে NVIDIA ইনফারেন্স অপ্টিমাইজেশান স্ট্যাক—যেমন NVIDIA TensorRT কম্পাইলার এবং ওপেন সোর্স এনভিআইডিএ ট্রাইটন ইনফারেন্স সার্ভার- সেই চ্যালেঞ্জগুলি সমাধান করে। পড়ুন NVIDIA এর প্রেস রিলিজ আপডেট সম্পর্কে জানতে।

NVIDIA TensorRT: অনুমান অপ্টিমাইজেশানের সাথে খরচ এবং বিলম্ব কমানো

ডিপ লার্নিং ফ্রেমওয়ার্কগুলি বিজ্ঞানের উপর দ্রুত পুনরাবৃত্তি করতে সুবিধাজনক, এবং বৈজ্ঞানিক মডেলিং, ডেটা লোডিং এবং প্রশিক্ষণ অপ্টিমাইজেশনের জন্য অসংখ্য কার্যকারিতা নিয়ে আসে। যাইহোক, এই টুলগুলির বেশিরভাগই অনুমানের জন্য সাবঅপ্টিমাল, যেগুলির জন্য শুধুমাত্র ম্যাট্রিক্স গুণন এবং সক্রিয়করণ ফাংশনের জন্য অপারেটরের একটি ন্যূনতম সেট প্রয়োজন। অতএব, গভীর শিক্ষার উন্নয়ন কাঠামোতে অনুমান চালানোর পরিবর্তে একটি বিশেষ, ভবিষ্যদ্বাণী-শুধু অ্যাপ্লিকেশন ব্যবহার করে উল্লেখযোগ্য লাভগুলি উপলব্ধি করা যেতে পারে।

NVIDIA TensorRT হল একটি SDK উচ্চ-কর্মক্ষমতা গভীর শিক্ষার অনুমানের জন্য। TensorRT NVIDIA GPU-তে উপলব্ধ নিম্ন-স্তরের অপ্টিমাইজ করা কার্নেল ব্যবহার করে এবং একটি অনুমান-শুধু মডেল গ্রাফ ব্যবহার করে একটি অপ্টিমাইজ করা রানটাইম উভয়ই সরবরাহ করে, যা একটি অপ্টিমাইজ করা ক্রমে অনুমান গণনাকে পুনর্বিন্যাস করে।

নিম্নলিখিত বিভাগে, আমরা TensorRT এর পিছনে ঘটতে থাকা বিশদ বিবরণ এবং এটি কীভাবে কর্মক্ষমতা বাড়ায় সে সম্পর্কে কথা বলব।

AWS PlatoBlockchain ডেটা ইন্টেলিজেন্সে NVIDIA Triton-এর সাথে Amazon Search কীভাবে কম-বিলম্বিত, উচ্চ-থ্রুপুট T5 অনুমান অর্জন করে। উল্লম্ব অনুসন্ধান. আ.

  1. হ্রাস যথার্থতা সঠিকতা বজায় রেখে মডেলের পরিমাণ নির্ধারণ করে FP16 বা INT8 দিয়ে থ্রুপুট সর্বাধিক করে।
  2. লেয়ার এবং টেনসর ফিউশন কার্নেল লঞ্চ লেটেন্সি এড়াতে কার্নেলে নোড ফিউজ করে GPU মেমরি এবং ব্যান্ডউইথের ব্যবহার অপ্টিমাইজ করে।
  3. কার্নেল অটো-টিউনিং লক্ষ্য GPU প্ল্যাটফর্ম এবং ডেটা কার্নেল আকারের উপর ভিত্তি করে সেরা ডেটা স্তর এবং অ্যালগরিদম নির্বাচন করে।
  4. ডায়নামিক টেনসর মেমরি মধ্যবর্তী ফলাফলের অপ্রয়োজনীয় মেমরি খরচ মুক্ত করে মেমরির পদচিহ্ন কমিয়ে দেয় এবং দক্ষতার সাথে টেনসরের জন্য মেমরি পুনরায় ব্যবহার করে।
  5. মাল্টি-স্ট্রীম এক্সিকিউশন ডেডিকেটেড CUDA স্ট্রীমগুলির সাথে সমান্তরালে একাধিক ইনপুট স্ট্রীম প্রক্রিয়া করার জন্য একটি মাপযোগ্য নকশা ব্যবহার করে।
  6. টাইম ফিউশন গতিশীলভাবে জেনারেট করা কার্নেলগুলির সাথে সময়ের ধাপে পুনরাবৃত্ত নিউরাল নেটওয়ার্কগুলিকে অপ্টিমাইজ করে।

T5 তার আর্কিটেকচারের জন্য বিল্ডিং ব্লক হিসাবে ট্রান্সফরমার স্তর ব্যবহার করে। NVIDIA TensorRT 8.2-এর সর্বশেষ রিলিজ রিয়েল-টাইম ইনফারেন্সের জন্য T5 এবং GPT-2 মডেলগুলির জন্য নতুন অপ্টিমাইজেশান প্রবর্তন করেছে। নিম্নলিখিত সারণীতে, আমরা Amazon EC5G2dn ইন্সট্যান্সে NVIDIA T4 GPUs এবং EC4 G2 ইন্সট্যান্স দ্বারা চালিত, NVIDIA A5G GPUs দ্বারা চালিত কিছু পাবলিক T10 মডেলে TensorRT-এর সাথে স্পিডআপ দেখতে পাচ্ছি।

 

মডেল দৃষ্টান্ত বেসলাইন পাইটর্চ লেটেন্সি (এমএস) TensorRT 8.2 লেটেন্সি (ms) স্পিডআপ বনাম এইচএফ বেসলাইন
FP32 FP32 FP16 FP32 FP16
এনকোডার সঙ্কেতমোচক সর্বশেষ সীমা এনকোডার সঙ্কেতমোচক সর্বশেষ সীমা এনকোডার সঙ্কেতমোচক সর্বশেষ সীমা সর্বশেষ সীমা সর্বশেষ সীমা
t5-ছোট g4dn.xlarge 5.98 9.74 30.71 1.28 2.25 7.54 0.93 1.59 5.91 407.40% 519.34%
g5.xlarge 4.63 7.56 24.22 0.61 1.05 3.99 0.47 0.80 3.19 606.66% 760.01%
t5-বেস g4dn.xlarge 11.61 19.05 78.44 3.18 5.45 19.59 3.15 2.96 13.76 400.48% 569.97%
g5.xlarge 8.59 14.23 59.98 1.55 2.47 11.32 1.54 1.65 8.46 530.05% 709.20%

অপ্টিমাইজেশন এবং সংযুক্ত কর্মক্ষমতা প্রতিলিপি সম্পর্কে আরও তথ্যের জন্য, পড়ুন NVIDIA TensorRT এর সাথে রিয়েল-টাইম ইনফারেন্সের জন্য T5 এবং GPT-2 অপ্টিমাইজ করা.

এটি লক্ষ করা গুরুত্বপূর্ণ যে সংকলন মডেলের যথার্থতা রক্ষা করে, কারণ এটি অনুমান পরিবেশ এবং গণনার সময়সূচীর উপর কাজ করে, মডেল বিজ্ঞানকে অপরিবর্তিত রেখে – পাতন বা ছাঁটাইয়ের মতো ওজন অপসারণ কম্প্রেশনের বিপরীতে। NVIDIA TensorRT আরও লাভের জন্য কোয়ান্টাইজেশনের সাথে সংকলন একত্রিত করার অনুমতি দেয়। সাম্প্রতিক NVIDIA হার্ডওয়্যারে কোয়ান্টাইজেশনের দ্বিগুণ সুবিধা রয়েছে: এটি মেমরির ব্যবহার হ্রাস করে, এবং NVIDIA টেনসর কোর, DL-নির্দিষ্ট কোষ ব্যবহার করতে সক্ষম করে যা মিশ্র নির্ভুলতায় একটি ফিউজড ম্যাট্রিক্স-মাল্টিপ্লাই-অ্যাড চালায়।

Hugging Face T5 মডেলের সাথে Amazon অনুসন্ধান পরীক্ষার ক্ষেত্রে, মডেল অনুমানের জন্য PyTorch-কে TensorRT দিয়ে প্রতিস্থাপন করলে গতি 534% বৃদ্ধি পায়।

NVIDIA Triton: কম-বিলম্ব, উচ্চ-থ্রুপুট অনুমান পরিবেশন

আধুনিক মডেল পরিবেশন সমাধানগুলি অফলাইন প্রশিক্ষিত মডেলগুলিকে গ্রাহক-মুখী এমএল-চালিত পণ্যগুলিতে রূপান্তর করতে পারে। এই ধরনের স্কেলে যুক্তিসঙ্গত খরচ বজায় রাখার জন্য, ওভারহেড কম পরিবেশন করা গুরুত্বপূর্ণ (HTTP হ্যান্ডলিং, প্রিপ্রসেসিং এবং পোস্টপ্রসেসিং, CPU-GPU কমিউনিকেশন) এবং GPU-এর সমান্তরাল প্রক্রিয়াকরণ ক্ষমতার সম্পূর্ণ সুবিধা গ্রহণ করা।

NVIDIA Triton হল একটি অনুমান পরিবেশনকারী সফ্টওয়্যার যা মডেল রানটাইম (NVIDIA TensorRT, ONNX, PyTorch, XGBoost অন্যদের মধ্যে) এবং GPU, CPU এবং অবকাঠামো ব্যাকএন্ডের ব্যাপক সমর্থন প্রস্তাব করে। AWS ইনফরেন্টিয়া।

এমএল অনুশীলনকারীরা একাধিক কারণে ট্রাইটনকে ভালবাসে। এর গতিশীল ব্যাচিং ক্ষমতা ব্যবহারকারী-সংজ্ঞায়িত বিলম্বের সময় এবং সর্বাধিক ব্যবহারকারী-সংজ্ঞায়িত ব্যাচ আকারের মধ্যে অনুমান অনুরোধগুলি জমা করতে দেয়, যাতে GPU অনুমান ব্যাচ করা হয়, CPU-GPU যোগাযোগের ওভারহেডকে পরিবর্ধন করে। লক্ষ্য করুন যে গতিশীল ব্যাচিং সার্ভার-সাইড এবং খুব অল্প সময়ের মধ্যে ঘটে, যাতে অনুরোধকারী ক্লায়েন্টের এখনও একটি সিঙ্ক্রোনাস, কাছাকাছি-রিয়েল-টাইম আহ্বানের অভিজ্ঞতা থাকে। ট্রাইটন ব্যবহারকারীরাও এর সমসাময়িক মডেল এক্সিকিউশন ক্ষমতা উপভোগ করে। জিপিইউ হল শক্তিশালী মাল্টিটাস্কার যা সমান্তরালভাবে কম্পিউট-ইনটেনসিভ ওয়ার্কলোড কার্যকর করতে পারদর্শী। ট্রাইটন একসাথে একাধিক মডেল ইন্সট্যান্স চালানোর জন্য CUDA স্ট্রীম ব্যবহার করে GPU ব্যবহার এবং থ্রুপুট সর্বাধিক করে। এই মডেল দৃষ্টান্তগুলি বিভিন্ন ব্যবহারের ক্ষেত্রে বিভিন্ন ফ্রেমওয়ার্ক থেকে ভিন্ন মডেল হতে পারে, অথবা একই মডেলের সরাসরি অনুলিপি হতে পারে। আপনার পর্যাপ্ত নিষ্ক্রিয় GPU মেমরি থাকলে এটি সরাসরি থ্রুপুট উন্নতিতে অনুবাদ করে। এছাড়াও, যেহেতু ট্রাইটন একটি নির্দিষ্ট ডিএল ডেভেলপমেন্ট ফ্রেমওয়ার্কের সাথে আবদ্ধ নয়, এটি বিজ্ঞানীদের তাদের পছন্দের টুলে সম্পূর্ণরূপে নিজেদের প্রকাশ করতে দেয়।

AWS-এ Triton এর সাথে, Amazon সার্চ আরও ভালো পরিবেশনের আশা করে Amazon.com গ্রাহকদের এবং কম খরচে লেটেন্সি প্রয়োজনীয়তা পূরণ. TensorRT রানটাইম এবং ট্রাইটন সার্ভারের মধ্যে আঁটসাঁট ইন্টিগ্রেশন উন্নয়ন অভিজ্ঞতা সহজতর করে। AWS ক্লাউড অবকাঠামো ব্যবহার করে থ্রুপুট প্রয়োজনীয়তার উপর ভিত্তি করে মিনিটের মধ্যে স্কেল আপ বা ডাউন করার অনুমতি দেয়, বার উচ্চ বা নির্ভরযোগ্যতা এবং নিরাপত্তা বজায় রেখে।

কিভাবে AWS প্রবেশের বাধা কমায়

আমাজন অনুসন্ধান যখন Amazon EC2 পরিকাঠামোতে এই পরীক্ষাটি পরিচালনা করেছে, তখন অন্যান্য AWS পরিষেবাগুলি অত্যাধুনিক গভীর শিক্ষার সমাধানগুলির বিকাশ, প্রশিক্ষণ এবং হোস্টিংকে সহজতর করার জন্য বিদ্যমান।

উদাহরণস্বরূপ, AWS এবং NVIDIA ট্রাইটন ইনফারেন্স সার্ভারের একটি পরিচালিত বাস্তবায়ন প্রকাশ করতে সহযোগিতা করেছে আমাজন সেজমেকার ; আরও তথ্যের জন্য, দেখুন Amazon SageMaker-এ NVIDIA Triton Inference সার্ভারের সাথে দ্রুত এবং স্কেলযোগ্য AI স্থাপন করুন. AWS আমাজন সেজমেকার এবং হাগিং ফেস ট্রান্সফরমারগুলির মধ্যে একটি পরিচালিত, অপ্টিমাইজড ইন্টিগ্রেশন তৈরি করতে Hugging Face-এর সাথে সহযোগিতা করেছে, ওপেন-সোর্স ফ্রেমওয়ার্ক যেখান থেকে Amazon Search T5 মডেলটি উদ্ভূত হয়েছে; এ আরও পড়ুন https://aws.amazon.com/machine-learning/hugging-face/.

আমরা লেটেন্সি-সংবেদনশীল CPU এবং GPU ডিপ লার্নিং সার্ভিং অ্যাপ্লিকেশন সহ গ্রাহকদের AWS-এ NVIDIA TensorRT এবং Triton বিবেচনা করতে উত্সাহিত করি। আপনি কি নির্মাণ আমাদের জানান!

গভীর শিক্ষা এবং Amazon অনুসন্ধানের জন্য গভীর শিক্ষা-ভিত্তিক সমাধান তৈরি করার বিষয়ে উত্সাহী? আমাদের চেক আউট কেরিয়ার পৃষ্ঠা


লেখক সম্পর্কে

AWS PlatoBlockchain ডেটা ইন্টেলিজেন্সে NVIDIA Triton-এর সাথে Amazon Search কীভাবে কম-বিলম্বিত, উচ্চ-থ্রুপুট T5 অনুমান অর্জন করে। উল্লম্ব অনুসন্ধান. আ.RJ অনুসন্ধান M5 টিমের একজন প্রকৌশলী যিনি প্রশিক্ষণ এবং অনুমানের জন্য বৃহৎ আকারের গভীর শিক্ষা ব্যবস্থা তৈরির প্রচেষ্টার নেতৃত্ব দিচ্ছেন। কাজের বাইরে সে খাবারের বিভিন্ন খাবার অন্বেষণ করে এবং র্যাকেট খেলা খেলে।

AWS PlatoBlockchain ডেটা ইন্টেলিজেন্সে NVIDIA Triton-এর সাথে Amazon Search কীভাবে কম-বিলম্বিত, উচ্চ-থ্রুপুট T5 অনুমান অর্জন করে। উল্লম্ব অনুসন্ধান. আ.হেমন্ত পুগালিয়া অনুসন্ধান M5 এ একজন ফলিত বিজ্ঞানী। তিনি বিশ্বব্যাপী Amazon কেনাকাটার গ্রাহকদের অভিজ্ঞতা উন্নত করার জন্য সর্বশেষ প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং গভীর শিক্ষার গবেষণা প্রয়োগের উপর কাজ করেন। তার গবেষণার আগ্রহের মধ্যে রয়েছে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং বড় আকারের মেশিন লার্নিং সিস্টেম। কাজের বাইরে, তিনি হাইকিং, রান্না এবং পড়া উপভোগ করেন।

AWS PlatoBlockchain ডেটা ইন্টেলিজেন্সে NVIDIA Triton-এর সাথে Amazon Search কীভাবে কম-বিলম্বিত, উচ্চ-থ্রুপুট T5 অনুমান অর্জন করে। উল্লম্ব অনুসন্ধান. আ.অ্যান্ডি সান একজন সফ্টওয়্যার প্রকৌশলী এবং অনুসন্ধান বানান সংশোধনের জন্য প্রযুক্তিগত নেতৃত্ব। তার গবেষণার আগ্রহের মধ্যে রয়েছে গভীর শিক্ষার অনুমান লেটেন্সি অপ্টিমাইজ করা এবং দ্রুত পরীক্ষামূলক প্ল্যাটফর্ম তৈরি করা। কাজের বাইরে, তিনি চলচ্চিত্র নির্মাণ এবং অ্যাক্রোব্যাটিক্স উপভোগ করেন।

AWS PlatoBlockchain ডেটা ইন্টেলিজেন্সে NVIDIA Triton-এর সাথে Amazon Search কীভাবে কম-বিলম্বিত, উচ্চ-থ্রুপুট T5 অনুমান অর্জন করে। উল্লম্ব অনুসন্ধান. আ.লে ক্যা অ্যামাজন অনুসন্ধানের একজন সফটওয়্যার ইঞ্জিনিয়ার। তিনি গ্রাহকদের তাদের কেনাকাটার অভিজ্ঞতার সাথে সাহায্য করার জন্য অনুসন্ধান বানান সংশোধন কর্মক্ষমতা উন্নত করার জন্য কাজ করেন। তিনি গভীর শিক্ষার মডেলের জন্য উচ্চ-পারফরম্যান্স অনলাইন অনুমান এবং বিতরণ প্রশিক্ষণ অপ্টিমাইজেশনের উপর ফোকাস করছেন। কাজের বাইরে, তিনি স্কিইং, হাইকিং এবং সাইক্লিং উপভোগ করেন।

AWS PlatoBlockchain ডেটা ইন্টেলিজেন্সে NVIDIA Triton-এর সাথে Amazon Search কীভাবে কম-বিলম্বিত, উচ্চ-থ্রুপুট T5 অনুমান অর্জন করে। উল্লম্ব অনুসন্ধান. আ.অ্যান্টনি কো বর্তমানে সার্চ M5 Palo Alto, CA এ একজন সফটওয়্যার ইঞ্জিনিয়ার হিসেবে কাজ করছেন। তিনি মডেল স্থাপন এবং অনুমান অপ্টিমাইজেশানের জন্য সরঞ্জাম এবং পণ্য তৈরিতে কাজ করেন। কাজের বাইরে, তিনি রান্না এবং র্যাকেট খেলা উপভোগ করেন।

AWS PlatoBlockchain ডেটা ইন্টেলিজেন্সে NVIDIA Triton-এর সাথে Amazon Search কীভাবে কম-বিলম্বিত, উচ্চ-থ্রুপুট T5 অনুমান অর্জন করে। উল্লম্ব অনুসন্ধান. আ.অলিভিয়ার ক্রুচ্যান্ট ফ্রান্সে অবস্থিত AWS-এর একজন মেশিন লার্নিং স্পেশালিস্ট সলিউশন আর্কিটেক্ট। অলিভিয়ার AWS গ্রাহকদের সাহায্য করে - ছোট স্টার্টআপ থেকে শুরু করে বড় এন্টারপ্রাইজে - প্রোডাকশন-গ্রেড মেশিন লার্নিং অ্যাপ্লিকেশনগুলি বিকাশ এবং স্থাপন করতে। তার অবসর সময়ে, তিনি গবেষণাপত্র পড়তে এবং বন্ধু এবং পরিবারের সাথে মরুভূমি অন্বেষণ উপভোগ করেন।

AWS PlatoBlockchain ডেটা ইন্টেলিজেন্সে NVIDIA Triton-এর সাথে Amazon Search কীভাবে কম-বিলম্বিত, উচ্চ-থ্রুপুট T5 অনুমান অর্জন করে। উল্লম্ব অনুসন্ধান. আ.অনীশ মোহন NVIDIA-এর একজন মেশিন লার্নিং আর্কিটেক্ট এবং বৃহত্তর সিয়াটেল অঞ্চলে তার গ্রাহকদের সাথে ML এবং DL ব্যস্ততার জন্য প্রযুক্তিগত নেতৃত্ব।

AWS PlatoBlockchain ডেটা ইন্টেলিজেন্সে NVIDIA Triton-এর সাথে Amazon Search কীভাবে কম-বিলম্বিত, উচ্চ-থ্রুপুট T5 অনুমান অর্জন করে। উল্লম্ব অনুসন্ধান. আ.জিয়াহং লিউ NVIDIA-এর ক্লাউড পরিষেবা প্রদানকারী দলের একজন সমাধান স্থপতি। তিনি ক্লায়েন্টদের মেশিন লার্নিং এবং এআই সমাধান গ্রহণে সহায়তা করেন যা তাদের প্রশিক্ষণ এবং অনুমান চ্যালেঞ্জ মোকাবেলায় NVIDIA ত্বরিত কম্পিউটিংকে সুবিধা দেয়। অবসর সময়ে, তিনি অরিগামি, DIY প্রকল্প এবং বাস্কেটবল খেলা উপভোগ করেন।

AWS PlatoBlockchain ডেটা ইন্টেলিজেন্সে NVIDIA Triton-এর সাথে Amazon Search কীভাবে কম-বিলম্বিত, উচ্চ-থ্রুপুট T5 অনুমান অর্জন করে। উল্লম্ব অনুসন্ধান. আ.এলিউথ ট্রায়ানা NVIDIA-এর একজন বিকাশকারী সম্পর্ক ব্যবস্থাপক। তিনি Amazon ML/DL কাজের চাপ, EC2 পণ্য এবং AWS AI পরিষেবাগুলিকে ত্বরান্বিত করতে এনভিআইডিআইএ প্রযুক্তিবিদ এবং পণ্য নেতাদের সাথে অ্যামাজন এবং এডব্লিউএস পণ্যের নেতা, বিকাশকারী এবং বিজ্ঞানীদের সংযোগ করেন। এছাড়াও, এলিউথ একজন উত্সাহী পর্বত বাইকার, স্কিয়ার এবং জুজু খেলোয়াড়।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং