Exafunction AWS Inferentia সমর্থন করে মেশিন লার্নিং ইনফারেন্স PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য সেরা মূল্যের পারফরম্যান্স আনলক করতে। উল্লম্ব অনুসন্ধান. আ.

Exafunction AWS Inferentia সমর্থন করে মেশিন লার্নিং ইনফারেন্সের জন্য সেরা দামের পারফরম্যান্স আনলক করতে

সমস্ত শিল্প জুড়ে, মেশিন লার্নিং (ML) মডেলগুলি গভীরতর হচ্ছে, কর্মপ্রবাহগুলি আরও জটিল হচ্ছে এবং কাজের চাপগুলি আরও বড় আকারে কাজ করছে৷ এই মডেলগুলিকে আরও নির্ভুল করার জন্য উল্লেখযোগ্য প্রচেষ্টা এবং সংস্থান করা হয় কারণ এই বিনিয়োগের ফলে সরাসরি ভাল পণ্য এবং অভিজ্ঞতা পাওয়া যায়। অন্যদিকে, এই মডেলগুলিকে উত্পাদনে দক্ষতার সাথে চালিত করা একটি অ-তুচ্ছ উদ্যোগ যা কার্যক্ষমতা এবং বাজেট লক্ষ্য অর্জনের মূল চাবিকাঠি হওয়া সত্ত্বেও প্রায়শই উপেক্ষা করা হয়। এই পোস্টে আমরা কভার কিভাবে Exafunction এবং এডাব্লুএস ইনফেরেন্টিয়া উৎপাদনে এমএল মডেলের জন্য সহজ এবং সাশ্রয়ী ডিপ্লয়মেন্ট আনলক করতে একসঙ্গে কাজ করুন।

নিষ্কাশন একটি স্টার্ট-আপ কোম্পানিগুলিকে যতটা সম্ভব দক্ষতার সাথে স্কেলে ML সম্পাদন করতে সক্ষম করার উপর দৃষ্টি নিবদ্ধ করে৷ তাদের একটি পণ্য হল ExaDeploy, স্কেলে এমএল ওয়ার্কলোড পরিবেশন করার জন্য একটি সহজে ব্যবহারযোগ্য SaaS সমাধান। ExaDeploy মিশ্র সম্পদ (সিপিইউ এবং হার্ডওয়্যার এক্সিলারেটর) জুড়ে আপনার এমএল ওয়ার্কলোডগুলিকে দক্ষতার সাথে অর্কেস্ট্রেট করে যাতে সম্পদের সর্বোচ্চ ব্যবহার করা যায়। দক্ষ এবং নির্ভরযোগ্য স্থাপনা নিশ্চিত করতে এটি স্বয়ংক্রিয় স্কেলিং, গণনা কোলোকেশন, নেটওয়ার্ক সমস্যা, ত্রুটি সহনশীলতা এবং আরও অনেক কিছুর যত্ন নেয়। AWS Inferentia-ভিত্তিক Amazon EC2 Inf1 দৃষ্টান্ত ক্লাউডে সর্বনিম্ন মূল্য-প্রতি-অনুমান প্রদানের উদ্দেশ্যে নির্মিত। ExaDeploy এখন Inf1 দৃষ্টান্ত সমর্থন করে, যা ব্যবহারকারীদেরকে এক্সিলারেটরের হার্ডওয়্যার-ভিত্তিক সঞ্চয় এবং অপ্টিমাইজ করা রিসোর্স ভার্চুয়ালাইজেশন এবং অর্কেস্ট্রেশনের সফ্টওয়্যার-ভিত্তিক সঞ্চয় উভয়ই পেতে দেয়।

সমাধান ওভারভিউ

কিভাবে ExaDeploy স্থাপনার দক্ষতার জন্য সমাধান করে

গণনা সংস্থানগুলির দক্ষ ব্যবহার নিশ্চিত করার জন্য, আপনাকে যথাযথ সম্পদ বরাদ্দ, স্বয়ংক্রিয় স্কেলিং, কম্পিউট কো-অবস্থান, নেটওয়ার্ক খরচ এবং লেটেন্সি ম্যানেজমেন্ট, ত্রুটি সহনশীলতা, সংস্করণ এবং পুনরুত্পাদনযোগ্যতা এবং আরও অনেক কিছু বিবেচনা করতে হবে। স্কেলে, যে কোনো অদক্ষতা বস্তুগতভাবে খরচ এবং বিলম্বকে প্রভাবিত করে এবং অনেক বড় কোম্পানি অভ্যন্তরীণ দল এবং দক্ষতা তৈরি করে এই অদক্ষতাগুলোকে সমাধান করেছে। যাইহোক, বেশিরভাগ কোম্পানির জন্য সাধারণীকরণযোগ্য সফ্টওয়্যার তৈরির এই আর্থিক এবং সাংগঠনিক ওভারহেডটি অনুমান করা ব্যবহারিক নয় যা কোম্পানির পছন্দসই মূল দক্ষতা নয়।

ExaDeploy এই স্থাপনার দক্ষতার ব্যথার পয়েন্টগুলি সমাধান করার জন্য ডিজাইন করা হয়েছে, যার মধ্যে কিছু জটিল কাজের চাপ যেমন স্বয়ংক্রিয় যানবাহন এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) অ্যাপ্লিকেশনগুলিতে দেখা যায়। কিছু বড় ব্যাচের ML কাজের চাপে, ExaDeploy 85% এর বেশি খরচ কমিয়েছে বিলম্বিততা বা নির্ভুলতার উপর ত্যাগ না করে, ইন্টিগ্রেশন সময় এক ইঞ্জিনিয়ার-দিনের মতো কম। ExaDeploy অটো স্কেল এবং হাজার হাজার যুগপত হার্ডওয়্যার এক্সিলারেটর রিসোর্স ইনস্ট্যান্স কোনো সিস্টেমের অবনতি ছাড়াই পরিচালনা করতে প্রমাণিত হয়েছে।

ExaDeploy এর মূল বৈশিষ্ট্যগুলির মধ্যে রয়েছে:

  • তোমার মেঘে চলে: আপনার কোনো মডেল, ইনপুট বা আউটপুট কখনোই আপনার ব্যক্তিগত নেটওয়ার্ক ছেড়ে যায় না। আপনার ক্লাউড প্রদানকারীর ডিসকাউন্ট ব্যবহার করা চালিয়ে যান।
  • ভাগ করা এক্সিলারেটর সংস্থান: ExaDeploy অ্যাক্সিলারেটর সংস্থানগুলি ভাগ করতে একাধিক মডেল বা কাজের চাপ সক্রিয় করে ব্যবহৃত এক্সিলারেটরগুলিকে অপ্টিমাইজ করে৷ এটি একাধিক ওয়ার্কলোড একই মডেল স্থাপন করছে কিনা তা শনাক্ত করতে পারে এবং তারপরে সেই ওয়ার্কলোড জুড়ে মডেলটি ভাগ করে নিতে পারে, যার ফলে ব্যবহৃত অ্যাক্সিলারেটর অপ্টিমাইজ করে। এর স্বয়ংক্রিয় ভারসাম্য এবং নোড নিষ্কাশন ক্ষমতা সর্বোচ্চ ব্যবহার এবং খরচ কমিয়ে দেয়।

Exafunction AWS Inferentia সমর্থন করে মেশিন লার্নিং ইনফারেন্স PlatoBlockchain ডেটা ইন্টেলিজেন্সের জন্য সেরা মূল্যের পারফরম্যান্স আনলক করতে। উল্লম্ব অনুসন্ধান. আ.

  • পরিমাপযোগ্য সার্ভারহীন স্থাপনার মডেল: এক্সালারেটর রিসোর্স স্যাচুরেশনের উপর ভিত্তি করে অটো স্কেল ExaDeploy. ডায়নামিকভাবে 0 পর্যন্ত স্কেল করুন বা হাজার হাজার রিসোর্স পর্যন্ত।
  • বিভিন্ন ধরনের গণনার জন্য সমর্থন: আপনি সমস্ত প্রধান ML ফ্রেমওয়ার্কের পাশাপাশি নির্বিচারে C++ কোড, CUDA কার্নেল, কাস্টম অপস এবং পাইথন ফাংশন থেকে গভীর শিক্ষার মডেলগুলি অফলোড করতে পারেন।
  • গতিশীল মডেল নিবন্ধন এবং সংস্করণ: নতুন মডেল বা মডেল সংস্করণগুলি সিস্টেমটিকে পুনর্নির্মাণ বা পুনঃনিয়োগ না করেই নিবন্ধিত এবং চালানো যেতে পারে৷
  • পয়েন্ট টু পয়েন্ট মৃত্যুদন্ড: ক্লায়েন্টরা দূরবর্তী অ্যাক্সিলারেটর সংস্থানগুলির সাথে সরাসরি সংযোগ করে, যা কম লেটেন্সি এবং উচ্চ থ্রুপুট সক্ষম করে৷ এমনকি তারা দূরবর্তীভাবে রাষ্ট্র সংরক্ষণ করতে পারেন.
  • অ্যাসিঙ্ক্রোনাস এক্সিকিউশন: ExaDeploy মডেলের অ্যাসিঙ্ক্রোনাস এক্সিকিউশন সমর্থন করে, যা ক্লায়েন্টদের রিমোট অ্যাক্সিলারেটর রিসোর্স ওয়ার্কের সাথে স্থানীয় গণনার সমান্তরাল করতে দেয়।
  • ত্রুটি-সহনশীল দূরবর্তী পাইপলাইন: ExaDeploy ক্লায়েন্টদের ত্রুটি সহনশীলতার গ্যারান্টি সহ পাইপলাইনে গতিশীলভাবে দূরবর্তী গণনা (মডেল, প্রিপ্রসেসিং, ইত্যাদি) রচনা করতে দেয়। ExaDeploy সিস্টেম স্বয়ংক্রিয় পুনরুদ্ধার এবং রিপ্লে সহ পড বা নোড ব্যর্থতাগুলি পরিচালনা করে, যাতে বিকাশকারীদের কখনই ত্রুটি সহনশীলতা নিশ্চিত করার বিষয়ে চিন্তা করতে না হয়।
  • আউট অফ দ্য বক্স মনিটরিং: ExaDeploy অ্যাক্সিলারেটর রিসোর্স ব্যবহার এবং অন্যান্য সিস্টেম মেট্রিক্স কল্পনা করতে Prometheus মেট্রিক্স এবং Grafana ড্যাশবোর্ড প্রদান করে।

ExaDeploy AWS Inferentia সমর্থন করে

AWS Inferentia-ভিত্তিক Amazon EC2 Inf1 দৃষ্টান্তগুলি গভীর শিক্ষার নির্দিষ্ট অনুমান কাজের চাপের জন্য ডিজাইন করা হয়েছে। এই দৃষ্টান্তগুলি 2.3x পর্যন্ত থ্রুপুট এবং 70% পর্যন্ত খরচ সাশ্রয় করে বর্তমান প্রজন্মের GPU অনুমানের উদাহরণগুলির তুলনায়।

ExaDeploy এখন AWS Inferentia সমর্থন করে, এবং একসাথে তারা উদ্দেশ্য-নির্মিত হার্ডওয়্যার-ত্বরণ এবং স্কেলে অপ্টিমাইজ করা রিসোর্স অর্কেস্ট্রেশনের মাধ্যমে অর্জিত বর্ধিত কর্মক্ষমতা এবং খরচ-সঞ্চয় আনলক করে। খুব সাধারণ আধুনিক এমএল ওয়ার্কলোড বিবেচনা করে ExaDeploy এবং AWS Inferentia-এর সম্মিলিত সুবিধাগুলি দেখুন: ব্যাচড, মিশ্র-কম্পিউট ওয়ার্কলোড।

কাল্পনিক কাজের চাপের বৈশিষ্ট্য:

  • 15 এমএস সিপিইউ-শুধু-প্রি-প্রসেস/পোস্ট-প্রসেস
  • মডেল ইনফরেন্স (GPU তে 15 ms, AWS Inferentia তে 5 ms)
  • 10 জন ক্লায়েন্ট, প্রত্যেকে প্রতি 20 মিসে অনুরোধ করে
  • CPU-এর আনুমানিক আপেক্ষিক খরচ:Inferentia:GPU হল 1:2:4 (c2.xlarge, inf5.xlarge, এবং g1dn.xlarge-এর জন্য Amazon EC4 অন-ডিমান্ড মূল্যের উপর ভিত্তি করে)

নীচের সারণীটি দেখায় যে প্রতিটি বিকল্প কীভাবে গঠন করে:

সেটআপ সংস্থান প্রয়োজন মূল্য অদৃশ্যতা
ExaDeploy ছাড়া GPU 2 CPU, 2 GPU প্রতি ক্লায়েন্ট (মোট 20 CPU, 20 GPU) 100 30 এমএস
ExaDeploy সহ GPU 8টি ক্লায়েন্ট জুড়ে 10টি GPU শেয়ার করা হয়েছে, প্রতি ক্লায়েন্ট 1টি CPU 42 30 এমএস
ExaDeploy ছাড়া AWS Inferentia 1 CPU, 1 AWS Inferentia প্রতি ক্লায়েন্ট (মোট 10 CPU, 10 Inferentia) 30 20 এমএস
ExaDeploy সহ AWS Inferentia 3 AWS Inferentia 10 ক্লায়েন্ট জুড়ে শেয়ার করা হয়েছে, প্রতি ক্লায়েন্ট 1 CPU 16 20 এমএস

AWS Inferentia উদাহরণে ExaDeploy

এই বিভাগে, আমরা একটি BERT PyTorch মডেলে inf1 নোড সহ একটি উদাহরণের মাধ্যমে ExaDeploy কনফিগার করার ধাপগুলি অতিক্রম করি৷ আমরা বার্ট-বেস মডেলের জন্য 1140 নমুনা/সেকেন্ডের গড় থ্রুপুট দেখেছি, যা দেখায় যে ExaDeploy এই একক মডেল, একক কাজের চাপ পরিস্থিতির জন্য সামান্য থেকে কোনো ওভারহেড চালু করেছিল।

ধাপ 1: একটি সেট আপ অ্যামাজন ইলাস্টিক কুবারনেটস পরিষেবা (Amazon EKS) ক্লাস্টার

একটি Amazon EKS ক্লাস্টার আমাদের সাথে আনা যেতে পারে Terraform AWS মডিউল. আমাদের উদাহরণের জন্য, আমরা একটি ব্যবহার করেছি inf1.xlarge AWS Inferentia-এর জন্য।

ধাপ 2: ExaDepoy সেট আপ করুন

দ্বিতীয় ধাপ হল ExaDeploy সেট আপ করা। সাধারণভাবে, inf1 দৃষ্টান্তে ExaDeploy এর স্থাপনা সহজবোধ্য। গ্রাফিক্স প্রসেসিং ইউনিট (GPU) দৃষ্টান্তগুলিতে সেটআপ বেশিরভাগ ক্ষেত্রে একই পদ্ধতি অনুসরণ করে। প্রাথমিক পার্থক্য হল মডেল ট্যাগকে GPU থেকে AWS Inferentia-তে পরিবর্তন করা এবং মডেলটিকে পুনরায় কম্পাইল করা। উদাহরণস্বরূপ, ExaDeploy-এর অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস (APIs) ব্যবহার করে g4dn থেকে inf1 ইনস্ট্যান্সে যাওয়ার জন্য কোডের মাত্র 10 লাইন পরিবর্তন করতে হবে।

  • একটি সহজ পদ্ধতি হল Exafunction's ব্যবহার করা Terraform AWS Kubernetes মডিউল or হেলম চার্ট. এগুলি Amazon EKS ক্লাস্টারে চালানোর জন্য মূল ExaDeploy উপাদানগুলি স্থাপন করে৷
  • একটি ক্রমিক বিন্যাসে মডেল কম্পাইল করুন (যেমন, টর্চস্ক্রিপ্ট, TF সংরক্ষিত মডেল, ONNX, ইত্যাদি)। AWS Inferentia-এর জন্য, আমরা অনুসরণ করেছি এই টিউটোরিয়াল.
  • ExaDeploy এর মডিউল সংগ্রহস্থলে সংকলিত মডেলটি নিবন্ধন করুন।
    with exa.ModuleRepository(MODULE_REPOSITORY_ADDRESS) as repo:
       repo.register_py_module(
           "BertInferentia",
           module_class="TorchModule",
           context_data=BERT_NEURON_TORCHSCRIPT_AS_BYTES,
           config={
               "_torchscript_input_names": ",".join(BERT_INPUT_NAMES).encode(),
               "_torchscript_output_names": BERT_OUTPUT_NAME.encode(),
               "execution_type": "inferentia".encode(),
           },
       )

  • মডেলের জন্য ডেটা প্রস্তুত করুন (যেমন, না ExaDeploy-specific).
    tokenizer = transformers.AutoTokenizer.from_pretrained(
       "bert-base-cased-finetuned-mrpc"
    )
    
    batch_encoding = tokenizer.encode_plus(
       "The company Exafunction is based in the Bay Area",
       "Exafunction’s headquarters are situated in Mountain View",
       max_length=MAX_LENGTH,
       padding="max_length",
       truncation=True,
       return_tensors="pt",
    )

  • ক্লায়েন্ট থেকে দূরবর্তীভাবে মডেল চালান.
    with exa.Session(
       scheduler_address=SCHEDULER_ADDRESS,
       module_tag="BertInferentia",
       constraint_config={
           "KUBERNETES_NODE_SELECTORS": "role=runner-inferentia",
           "KUBERNETES_ENV_VARS": "AWS_NEURON_VISIBLE_DEVICES=ALL",
       },
    ) as sess:
       bert = sess.new_module("BertInferentia")
       classification_logits = bert.run(
           **{
               key: value.numpy()
               for key, value in batch_encoding.items()
           }
       )[BERT_OUTPUT_NAME].numpy()
    
       # Assert that the model classifies the two statements as paraphrase.
       assert classification_logits[0].argmax() == 1

ExaDeploy এবং AWS Inferentia: একসাথে ভাল

AWS Inferentia মডেল অনুমানের জন্য থ্রুপুটের সীমানা ঠেলে দিচ্ছে এবং ক্লাউডে সর্বনিম্ন খরচ-প্রতি-অনুমান প্রদান করছে। বলা হচ্ছে, Inf1-এর প্রাইস-পারফরমেন্স বেনিফিট স্কেলে উপভোগ করার জন্য কোম্পানিগুলির যথাযথ অর্কেস্ট্রেশন প্রয়োজন। এমএল পরিবেশন একটি জটিল সমস্যা যেটি, যদি ইন-হাউসে সমাধান করা হয়, তবে দক্ষতার প্রয়োজন হয় যা কোম্পানির লক্ষ্য থেকে সরানো হয় এবং প্রায়শই পণ্যের সময়সীমা বিলম্বিত করে। ExaDeploy, যা Exafunction এর ML স্থাপনার সফ্টওয়্যার সমাধান, শিল্পের নেতা হিসাবে আবির্ভূত হয়েছে। এটি একটি বিশ্বমানের দল থেকে মসৃণ ইন্টিগ্রেশন অভিজ্ঞতা এবং সমর্থন প্রদান করার সময় এমনকি সবচেয়ে জটিল এমএল ওয়ার্কলোডগুলিও পরিবেশন করে। একসাথে, ExaDeploy এবং AWS Inferentia স্কেলে অনুমান কাজের চাপের জন্য কর্মক্ষমতা বৃদ্ধি এবং খরচ-সঞ্চয় আনলক করে।

উপসংহার

এই পোস্টে, আমরা আপনাকে দেখিয়েছি কিভাবে Exafunction কার্যক্ষমতা ML এর জন্য AWS Inferentia সমর্থন করে। Exafunction এর সাথে অ্যাপ্লিকেশন তৈরি করার বিষয়ে আরও তথ্যের জন্য, দেখুন নিষ্কাশন. Inf1-এ গভীর শিক্ষার কাজের চাপ তৈরির সর্বোত্তম অনুশীলনের জন্য, দেখুন Amazon EC2 Inf1 দৃষ্টান্ত।


লেখক সম্পর্কে

নিকোলাস জিয়াং, সফ্টওয়্যার ইঞ্জিনিয়ার, এক্সফাংশন

জোনাথন মা, সফ্টওয়্যার ইঞ্জিনিয়ার, এক্সফাংশন

প্রেম নায়ার, সফটওয়্যার ইঞ্জিনিয়ার, এক্সফাংশন

আনশুল রামচন্দ্রন, সফটওয়্যার ইঞ্জিনিয়ার, এক্সফাংশন

শ্রুতি কোপারকার, সিনিয়র প্রোডাক্ট মার্কেটিং ম্যানেজার, AWS

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

Amazon SageMaker-এর সর্বশেষ বৈশিষ্ট্যগুলি ব্যবহার করে গড়ে 50% দ্বারা মডেল স্থাপনের খরচ কমিয়ে দিন আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1919481
সময় স্ট্যাম্প: নভেম্বর 30, 2023

AWS-এ ডিপ লার্নিং-ভিত্তিক অ্যাডভান্সড ড্রাইভার অ্যাসিস্ট্যান্স সিস্টেমের জন্য অটো-লেবেলিং মডিউল আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1855364
সময় স্ট্যাম্প: জুলাই 3, 2023