Amazon-এর পণ্য সার্চ ইঞ্জিন কোটি কোটি পণ্যের সূচী করে, বিশ্বব্যাপী কয়েক মিলিয়ন গ্রাহককে পরিবেশন করে এবং বিশ্বের সবচেয়ে বেশি ব্যবহৃত পরিষেবাগুলির মধ্যে একটি। আমাজন অনুসন্ধান দল মেশিন লার্নিং (এমএল) প্রযুক্তি বিকাশ করে যা শক্তি দেয় Amazon.com অনুসন্ধান ইঞ্জিন এবং গ্রাহকদের অনায়াসে অনুসন্ধান করতে সহায়তা করে। একটি দুর্দান্ত গ্রাহকের অভিজ্ঞতা প্রদান করতে এবং এর দ্বারা প্রয়োজনীয় বিশাল স্কেলে কাজ করতে Amazon.com অনুসন্ধান ইঞ্জিন, এই দলটি সর্বদা রিয়েল-টাইম লেটেন্সি এবং থ্রুপুট প্রয়োজনীয়তা সহ আরও ব্যয়-কার্যকর সিস্টেম তৈরি করার উপায় খুঁজছে। দলটি ক্রমাগত হার্ডওয়্যার এবং কম্পাইলার অন্বেষণ করে যা গভীর শিক্ষার জন্য অপ্টিমাইজ করা মডেল প্রশিক্ষণ এবং অনুমানকে ত্বরান্বিত করার জন্য, বোর্ড জুড়ে অপারেশনাল খরচ কমিয়ে দেয়।
এই পোস্টে, আমরা বর্ণনা করি কিভাবে আমাজন অনুসন্ধান ব্যবহার করে এডাব্লুএস ইনফেরেন্টিয়াডিপ লার্নিং ইনফারেন্স ওয়ার্কলোড ত্বরান্বিত করার জন্য AWS দ্বারা নির্মিত একটি উচ্চ-পারফরম্যান্স অ্যাক্সিলারেটর উদ্দেশ্য। দলটি AWS Inferentia-ভিত্তিক ট্রান্সফরমার-ভিত্তিক NLP মডেলের সাথে কম-বিলম্বিত ML অনুমান চালায় অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড (Amazon EC2) Inf1 দৃষ্টান্ত, এবং শক্তিশালী থ্রুপুট এবং লেটেন্সি পারফরম্যান্স বজায় রেখে অবকাঠামো খরচ 85% পর্যন্ত সাশ্রয় করে।
ডুপ্লিকেট এবং কোয়েরির অভিপ্রায় পূর্বাভাসের জন্য গভীর শিক্ষা
অ্যামাজন মার্কেটপ্লেস অনুসন্ধান করা একটি মাল্টি-টাস্ক, মাল্টি-মডেল সমস্যা, যা বেশ কিছু ইনপুট যেমন ASINs (আমাজন স্ট্যান্ডার্ড আইডেন্টিফিকেশন নম্বর, একটি 10-সংখ্যার আলফানিউমেরিক নম্বর যা পণ্যগুলিকে স্বতন্ত্রভাবে সনাক্ত করে), পণ্যের ছবি, পাঠ্য বিবরণ এবং প্রশ্নগুলির সাথে কাজ করে৷ একটি উপযোগী ব্যবহারকারীর অভিজ্ঞতা তৈরি করতে, অনুসন্ধানের বিভিন্ন দিকগুলির জন্য অনেক মডেলের পূর্বাভাস ব্যবহার করা হয়৷ এটি একটি চ্যালেঞ্জ কারণ সার্চ সিস্টেমে হাজার হাজার মডেল রয়েছে যেখানে পিক লোডে প্রতি সেকেন্ডে হাজার হাজার লেনদেন (TPS) হয়। আমরা সেই অভিজ্ঞতার দুটি উপাদানের উপর ফোকাস করি:
- গ্রাহক-অনুভূত ডুপ্লিকেট ভবিষ্যদ্বাণী – ব্যবহারকারীর প্রশ্নের সাথে মেলে এমন পণ্যগুলির সর্বাধিক প্রাসঙ্গিক তালিকা দেখানোর জন্য, গ্রাহকদের মধ্যে পার্থক্য করতে অসুবিধাজনক পণ্যগুলি সনাক্ত করা গুরুত্বপূর্ণ
- কোয়েরি উদ্দেশ্য ভবিষ্যদ্বাণী – গ্রাহক যা খুঁজছেন তার সাথে আরও ভালভাবে মানানসই অনুসন্ধান পৃষ্ঠা এবং পণ্যের বিন্যাসকে মানিয়ে নিতে, ব্যবহারকারীর কোয়েরির অভিপ্রায় এবং প্রকারের পূর্বাভাস দেওয়া গুরুত্বপূর্ণ (উদাহরণস্বরূপ, একটি মিডিয়া-সম্পর্কিত ক্যোয়ারী, সহায়তা ক্যোয়ারী এবং অন্যান্য কোয়েরির ধরন)
এই উভয় ভবিষ্যদ্বাণী ট্রান্সফরমার মডেল আর্কিটেকচার ব্যবহার করে করা হয়, যথা BERT-ভিত্তিক মডেল। প্রকৃতপক্ষে, উভয়ই একটি ভিত্তি হিসাবে একই BERT-ভিত্তিক মডেল ভাগ করে, এবং প্রতিটি এই মেরুদণ্ডের উপরে একটি শ্রেণীবিভাগ/রিগ্রেশন হেড স্ট্যাক করে।
ডুপ্লিকেট ভবিষ্যদ্বাণী ইনপুট (যেমন পণ্যের ধরন, শিরোনাম, বিবরণ, এবং তাই) হিসাবে মূল্যায়ন করা পণ্যগুলির একটি জোড়ার জন্য বিভিন্ন পাঠ্য বৈশিষ্ট্য গ্রহণ করে এবং বড় ডেটাসেটের জন্য পর্যায়ক্রমে গণনা করা হয়। এই মডেলটি একটি মাল্টি-টাস্ক ফ্যাশনে শেষ থেকে শেষ পর্যন্ত প্রশিক্ষিত। Amazon SageMaker প্রসেসিং কাজ এই ব্যাচ ওয়ার্কলোডগুলিকে পর্যায়ক্রমে তাদের লঞ্চ স্বয়ংক্রিয়ভাবে চালানোর জন্য ব্যবহৃত হয় এবং শুধুমাত্র ব্যবহৃত প্রক্রিয়াকরণ সময়ের জন্য অর্থ প্রদান করা হয়। এই ব্যাচের কাজের চাপ ব্যবহারের ক্ষেত্রে, অনুমান থ্রুপুটের জন্য প্রয়োজন ছিল 8,800 মোট TPS।
অভিপ্রায় ভবিষ্যদ্বাণী ব্যবহারকারীর পাঠ্য ক্যোয়ারীকে ইনপুট হিসাবে নেয় এবং দৈনন্দিন ট্রাফিককে গতিশীলভাবে পরিবেশন করতে এবং অ্যামাজন মার্কেটপ্লেসে ব্যবহারকারীর অভিজ্ঞতা উন্নত করতে রিয়েল টাইমে প্রয়োজন। মডেলটি একটি বহু-শ্রেণীর শ্রেণীবিভাগের লক্ষ্যে প্রশিক্ষিত। এই মডেল তারপর স্থাপন করা হয় অ্যামাজন ইলাস্টিক কনটেইনার পরিষেবা (Amazon ECS), যা দ্রুত স্বয়ংক্রিয় স্কেলিং সক্ষম করে এবং সহজ স্থাপনার সংজ্ঞা এবং ব্যবস্থাপনা. যেহেতু এটি একটি রিয়েল-টাইম ব্যবহারের ক্ষেত্রে, এটি একটি আনন্দদায়ক ব্যবহারকারীর অভিজ্ঞতা নিশ্চিত করতে P99 লেটেন্সি 10 মিলিসেকেন্ডের কম হওয়া প্রয়োজন৷
AWS Inferentia এবং AWS নিউরন SDK
EC2 Inf1 উদাহরণ AWS Inferentia দ্বারা চালিত, ডিপ লার্নিং ইনফারেন্স ওয়ার্কলোড ত্বরান্বিত করার জন্য AWS দ্বারা নির্মিত প্রথম ML এক্সিলারেটর উদ্দেশ্য। Inf1 দৃষ্টান্তগুলি তুলনীয় GPU-ভিত্তিক EC2.3 দৃষ্টান্তগুলির তুলনায় 70 গুণ বেশি থ্রুপুট এবং অনুমান প্রতি 2% পর্যন্ত কম খরচ প্রদান করে৷ আপনি আপনার পছন্দের ফ্রেমওয়ার্ক (PyTorch, TensorFlow, MXNet) ব্যবহার করে আপনার মডেলগুলিকে প্রশিক্ষণ দেওয়া চালিয়ে যেতে পারেন এবং তারপরে বিল্ট-ইন পারফরম্যান্স অপ্টিমাইজেশান থেকে উপকৃত হওয়ার জন্য AWS Inferentia-এ সহজেই তাদের স্থাপন করতে পারেন। আপনি Inf1 দৃষ্টান্ত ব্যবহার করে ইমেজ রিকগনিশন, অবজেক্ট ডিটেকশন, ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP) এবং আধুনিক সুপারিশকারী মডেল থেকে বিস্তৃত মডেলের ধরন স্থাপন করতে পারেন।
AWS নিউরন একটি সফ্টওয়্যার ডেভেলপমেন্ট কিট (SDK) যা একটি কম্পাইলার, রানটাইম এবং প্রোফাইলিং টুল নিয়ে গঠিত যা EC2 Inf1 দৃষ্টান্তগুলির ML অনুমান কার্যকারিতা অপ্টিমাইজ করে। নিউরন স্থানীয়ভাবে জনপ্রিয় ML ফ্রেমওয়ার্ক যেমন TensorFlow এবং PyTorch এর সাথে একত্রিত। অতএব, আপনি আপনার পছন্দের ফ্রেমওয়ার্ক দ্বারা প্রদত্ত একই পরিচিত APIগুলির সাথে AWS Inferentia-এ গভীর শিক্ষার মডেল স্থাপন করতে পারেন এবং ক্লাউডে কর্মক্ষমতা বৃদ্ধি এবং সর্বনিম্ন মূল্য-প্রতি-অনুমান থেকে উপকৃত হতে পারেন।
চালু হওয়ার পর থেকে, নিউরন SDK কার্যক্ষমতা উন্নত করতে এবং অনুমান খরচ কমানোর সাথে সাথে এটি সমর্থন করে এমন মডেলগুলির প্রস্থ বৃদ্ধি অব্যাহত রেখেছে। এর মধ্যে রয়েছে এনএলপি মডেল (বিইআরটি), ইমেজ ক্লাসিফিকেশন মডেল (রেসনেট, ভিজিজি), এবং অবজেক্ট ডিটেকশন মডেল (ওপেনপোজ এবং এসএসডি)।
কম লেটেন্সি, উচ্চ থ্রুপুট এবং খরচ সাশ্রয়ের জন্য Inf1 দৃষ্টান্তগুলিতে স্থাপন করুন
অ্যামাজন অনুসন্ধান দল ডুপ্লিকেশন পূর্বাভাসের উপর তাদের উচ্চ থ্রুপুট প্রয়োজনীয়তা এবং কোয়েরির অভিপ্রায় পূর্বাভাসের জন্য কম লেটেন্সি প্রয়োজনীয়তা পূরণ করার সময় খরচ বাঁচাতে চেয়েছিল। তারা AWS Inferentia-ভিত্তিক Inf1 দৃষ্টান্তগুলিতে স্থাপন করা বেছে নিয়েছে এবং শুধুমাত্র উচ্চ কর্মক্ষমতা প্রয়োজনীয়তা পূরণ করেনি, তবে অনুমান খরচেও 85% পর্যন্ত সঞ্চয় করেছে।
গ্রাহক-অনুভূত ডুপ্লিকেট ভবিষ্যদ্বাণী
Inf1 ব্যবহার করার আগে, একটি উত্সর্গীকৃত আমাজন ইএমআর CPU-ভিত্তিক দৃষ্টান্ত ব্যবহার করে ক্লাস্টার চলছিল। হার্ডওয়্যার ত্বরণের উপর নির্ভর না করে, প্রতি সেকেন্ডে 8,800টি মোট লেনদেনের উচ্চ থ্রুপুট প্রয়োজনীয়তা পূরণের জন্য প্রচুর সংখ্যক দৃষ্টান্ত প্রয়োজন ছিল। দলটি inf1.6x বৃহৎ দৃষ্টান্তে স্যুইচ করেছে, প্রতিটিতে 4টি AWS Inferentia accelerators এবং 16 NeuronCores (প্রতি AWS Inferentia চিপে 4 কোর)। তারা একটি একক নিউরনকোরের জন্য ট্রান্সফরমার-ভিত্তিক মডেলটি সনাক্ত করেছে এবং থ্রুপুট সর্বাধিক করার জন্য প্রতি নিউরনকোরে একটি মোড লোড করেছে। 16টি উপলব্ধ নিউরনকোরগুলির সুবিধা গ্রহণ করে, তারা অনুমান খরচ 85% কমিয়েছে (বর্তমান পাবলিক অ্যামাজন EC2 অন-ডিমান্ড মূল্যের উপর ভিত্তি করে)।
কোয়েরি উদ্দেশ্য ভবিষ্যদ্বাণী
99 মিলিসেকেন্ড বা তার কম সময়ের P10 লেটেন্সি প্রয়োজনের প্রেক্ষিতে, টিম inf1.6x বড় দৃষ্টান্তে প্রতিটি উপলব্ধ NeuronCore-এ মডেলটি লোড করেছে। আপনি সহজেই PyTorch নিউরন ব্যবহার করে এটি করতে পারেন torch.neuron.DataParallel API Inf1 স্থাপনের সাথে, মডেল লেটেন্সি ছিল 3 মিলিসেকেন্ড, এন্ড-টু-এন্ড লেটেন্সি ছিল আনুমানিক 10 মিলিসেকেন্ড, এবং সর্বোচ্চ থ্রুপুট সর্বোচ্চ লোড 16,000 TPS এ পৌঁছেছে।
নমুনা সংকলন এবং স্থাপনার কোড দিয়ে শুরু করুন
নিম্নলিখিত কিছু নমুনা কোড আপনাকে Inf1 দৃষ্টান্তে শুরু করতে এবং অ্যামাজন অনুসন্ধান দলের মতো কর্মক্ষমতা এবং খরচের সুবিধা উপলব্ধি করতে সহায়তা করে। আমরা দেখাই কিভাবে একটি PyTorch মডেল ব্যবহার করে অনুমান কম্পাইল এবং সম্পাদন করতে হয় পাইটর্চ নিউরন.
প্রথমত, মডেল সঙ্গে কম্পাইল করা হয় torch.neuron.trace()
:
সম্ভাব্য আর্গুমেন্টের সম্পূর্ণ তালিকার জন্য trace
পদ্ধতি, পড়ুন PyTorch-নিউরন ট্রেস পাইথন API। আপনি দেখতে পারেন, কম্পাইলার আর্গুমেন্ট পাস করা যেতে পারে torch.neuron
API সরাসরি। সমস্ত FP32 অপারেটরদের কাস্ট করা হয় BF16 with --fp32-cast=all
, গতিশীল পরিসীমা সংরক্ষণ করার সময় সর্বোচ্চ কর্মক্ষমতা প্রদান করে। আপনাকে মডেল নির্ভুল ট্রেড-অফ করতে পারফরম্যান্স নিয়ন্ত্রণ করতে দিতে আরও কাস্টিং বিকল্প উপলব্ধ। উভয় ব্যবহারের ক্ষেত্রে ব্যবহৃত মডেলগুলি একটি একক নিউরনকোরের জন্য সংকলিত হয়েছিল (নং পাইপলাইন).
তারপরে আমরা Inferentia এর সাথে মডেলটি লোড করি torch.jit.load
, এবং ভবিষ্যদ্বাণীর জন্য এটি ব্যবহার করুন। দ্য নিউরন রানটাইম স্বয়ংক্রিয়ভাবে মডেলটিকে নিউরনকোরেসে লোড করে।
উপসংহার
Amazon সার্চ টিম AWS Inferentia-ভিত্তিক Inf85 দৃষ্টান্ত ব্যবহার করে তাদের অনুমান খরচ 1% কমাতে সক্ষম হয়েছে, ভারী ট্র্যাফিকের অধীনে এবং কর্মক্ষমতার প্রয়োজনীয়তার দাবিদার। AWS Inferentia এবং Neuron SDK টিমকে প্রশিক্ষণ থেকে আলাদাভাবে স্থাপনার প্রক্রিয়াটিকে অপ্টিমাইজ করার জন্য নমনীয়তা প্রদান করেছে এবং সু-বৃত্তাকার সরঞ্জাম এবং পরিচিত ফ্রেমওয়ার্ক API-এর মাধ্যমে একটি অগভীর শেখার বক্ররেখা তুলে ধরেছে।
আপনি এই পোস্টে দেওয়া নমুনা কোড দিয়ে শুরু করে কর্মক্ষমতা এবং খরচের সুবিধা আনলক করতে পারেন। এছাড়াও, শেষ থেকে শেষ চেক আউট টিউটোরিয়াল ইনফেরেনশিয়াতে এমএল মডেল চালানোর জন্য পাইটর্চ এবং TensorFlow.
লেখক সম্পর্কে
জোয়াও মৌরা অ্যামাজন ওয়েব সার্ভিসেসের একজন এআই/এমএল বিশেষজ্ঞ সলিউশন আর্কিটেক্ট। তিনি বেশিরভাগ ক্ষেত্রে এনএলপি ব্যবহারের ক্ষেত্রে এবং গ্রাহকদের গভীর শিক্ষার মডেল প্রশিক্ষণ এবং স্থাপনাকে অপ্টিমাইজ করতে সহায়তা করে। এছাড়াও তিনি ML-বিশেষ হার্ডওয়্যার এবং লো-কোড ML সলিউশনের সক্রিয় প্রবক্তা।
ওয়েইকি ঝাং সার্চ M5-এর একজন সফ্টওয়্যার ইঞ্জিনিয়ারিং ম্যানেজার, যেখানে তিনি Amazon মেশিন লার্নিং অ্যাপ্লিকেশনের জন্য বৃহৎ মাপের মডেল তৈরির কাজ করেন। তার আগ্রহের মধ্যে তথ্য পুনরুদ্ধার এবং মেশিন লার্নিং অবকাঠামো অন্তর্ভুক্ত।
জেসন কার্লসন গ্রাহক-অনুভূত ডুপ্লিকেটের কারণে চুরি হওয়া অনুসন্ধান ইম্প্রেশনের সংখ্যা কমাতে সাহায্য করার জন্য মেশিন লার্নিং পাইপলাইন তৈরির জন্য একজন সফ্টওয়্যার ইঞ্জিনিয়ার। এমএল মডেলের জন্য ডেটা স্থাপন এবং ফিড/প্রসেস করতে সাহায্য করার জন্য তিনি বেশিরভাগ Apache Spark, AWS এবং PyTorch-এর সাথে কাজ করেন। তার অবসর সময়ে, তিনি পড়তে এবং রান করতে পছন্দ করেন।
শাওহুই শি সার্চ কোয়েরি বোঝার ইনফ্রা টিমের একজন SDE। তিনি কম লেটেন্সি এবং উচ্চ প্রাপ্যতা সহ বৃহৎ-স্কেল গভীর শিক্ষার অনলাইন অনুমান পরিষেবাগুলি তৈরির প্রচেষ্টায় নেতৃত্ব দেন। কাজের বাইরে, তিনি স্কিইং এবং ভাল খাবার অন্বেষণ উপভোগ করেন।
ঝুওকি ঝাং সার্চ কোয়েরি আন্ডারস্ট্যান্ডিং ইনফ্রা টিমের একজন সফটওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার। তিনি গভীর শিক্ষার অনলাইন অনুমান পরিষেবাগুলির জন্য বিলম্বিতা এবং থ্রুপুট উন্নত করতে মডেল পরিবেশন কাঠামো তৈরিতে কাজ করেন। কাজের বাইরে, তিনি বাস্কেটবল, স্নোবোর্ডিং এবং গাড়ি চালানো পছন্দ করেন।
হাওওয়ে সান সার্চ কোয়েরি বোঝার ইনফ্রা দলের একজন সফটওয়্যার ইঞ্জিনিয়ার। তিনি এপিআই ডিজাইনিং এবং ডিপ লার্নিং অনলাইন ইনফারেন্স পরিষেবাগুলিকে সমর্থন করে পরিকাঠামো তৈরিতে কাজ করেন৷ তার আগ্রহের মধ্যে রয়েছে পরিষেবা API ডিজাইন, অবকাঠামো সেটআপ এবং রক্ষণাবেক্ষণ। কাজের বাইরে, তিনি দৌড়ানো, হাইকিং এবং ভ্রমণ উপভোগ করেন।
জসপিৎ সিং তিনি M5 টিমের একজন ফলিত বিজ্ঞানী, যেখানে তিনি গ্রাহক কেনাকাটার অভিজ্ঞতা উন্নত করতে বড় আকারের ফাউন্ডেশন মডেলগুলিতে কাজ করেন৷ তার গবেষণার আগ্রহের মধ্যে মাল্টি-টাস্ক লার্নিং, তথ্য পুনরুদ্ধার এবং প্রতিনিধিত্ব শেখার অন্তর্ভুক্ত।
শ্রুতি কোপারকার AWS-এর একজন সিনিয়র প্রোডাক্ট মার্কেটিং ম্যানেজার। তিনি গ্রাহকদের তাদের মেশিন লার্নিং প্রয়োজনের জন্য EC2 ত্বরিত কম্পিউটিং পরিকাঠামো অন্বেষণ, মূল্যায়ন এবং গ্রহণ করতে সহায়তা করেন।
- উন্নত (300)
- AI
- ai শিল্প
- এআই আর্ট জেনারেটর
- আইআই রোবট
- আমাজন EC2
- অ্যামাজন মেশিন লার্নিং
- কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তা সার্টিফিকেশন
- ব্যাংকিং এ কৃত্রিম বুদ্ধিমত্তা
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তার রোবট
- কৃত্রিম বুদ্ধিমত্তা সফ্টওয়্যার
- এডাব্লুএস ইনফেরেন্টিয়া
- এডাব্লুএস মেশিন লার্নিং
- blockchain
- ব্লকচেইন সম্মেলন এআই
- coingenius
- গনা
- কথোপকথন কৃত্রিম বুদ্ধিমত্তা
- ক্রিপ্টো সম্মেলন এআই
- ডাল-ই
- গভীর জ্ঞানার্জন
- গুগল আই
- মেশিন লার্নিং
- Plato
- প্লেটো এআই
- প্লেটো ডেটা ইন্টেলিজেন্স
- প্লেটো গেম
- প্লেটোডাটা
- প্লেটোগেমিং
- স্কেল ai
- বাক্য গঠন
- zephyrnet