ম্যান্টিয়াম কীভাবে অ্যামাজন সেজমেকারে ডিপস্পিডের সাথে কম-বিলম্বিত জিপিটি-জে ইনফারেন্স অর্জন করে

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

ম্যান্টিয়াম AI অ্যাপ্লিকেশন তৈরি এবং স্কেলে তাদের পরিচালনার জন্য একটি বিশ্বব্যাপী ক্লাউড প্ল্যাটফর্ম প্রদানকারী। Mantium-এর এন্ড-টু-এন্ড ডেভেলপমেন্ট প্ল্যাটফর্ম সব আকারের এন্টারপ্রাইজ এবং ব্যবসাকে AI অ্যাপ্লিকেশন এবং অটোমেশন তৈরি করতে সক্ষম করে যা ঐতিহ্যগতভাবে সম্ভব হয়েছে তার চেয়ে দ্রুত এবং সহজ। Mantium-এর সাহায্যে, প্রযুক্তিগত এবং অ-প্রযুক্তিগত দলগুলি AI অ্যাপ্লিকেশনগুলির প্রোটোটাইপ, বিকাশ, পরীক্ষা এবং স্থাপন করতে পারে, সবই একটি কম-কোড পদ্ধতির সাথে। স্বয়ংক্রিয় লগিং, মনিটরিং এবং সুরক্ষা বৈশিষ্ট্যগুলির মাধ্যমে, Mantium সফ্টওয়্যার এবং DevOps ইঞ্জিনিয়ারদের চাকাটি পুনরায় উদ্ভাবনের জন্য তাদের সময় ব্যয় করা থেকে মুক্তি দেয়। একটি উচ্চ স্তরে, Mantium প্রদান করে:

অত্যাধুনিক এ.আই - একটি সাধারণ UI বা API সহ ওপেন সোর্স এবং ব্যক্তিগত বৃহৎ ভাষার মডেলগুলির একটি বিস্তৃত নির্বাচনের সাথে পরীক্ষা করুন এবং বিকাশ করুন৷
এআই প্রক্রিয়া অটোমেশন - ইন্টিগ্রেশনের ক্রমবর্ধমান লাইব্রেরি এবং Mantium-এর গ্রাফিকাল AI বিল্ডার সহ সহজেই AI-চালিত অ্যাপ্লিকেশনগুলি তৈরি করুন৷
দ্রুত স্থাপনা - এক-ক্লিক স্থাপনের মাধ্যমে উৎপাদনের টাইমলাইন মাস থেকে সপ্তাহ বা এমনকি দিন ছোট করুন। এই বৈশিষ্ট্যটি AI অ্যাপ্লিকেশনগুলিকে এক ক্লিকে শেয়ারযোগ্য ওয়েব অ্যাপে পরিণত করে৷
সুরক্ষা এবং নিয়ন্ত্রণ - নিরাপত্তা এবং শাসন নীতির সাথে সম্মতি নিশ্চিত করুন এবং মানব-ইন-লুপ প্রক্রিয়াগুলির জন্য সমর্থন।

Mantium AI নির্মাতার সাথে, আপনি পরিশীলিত কর্মপ্রবাহ বিকাশ করতে পারেন যা বহিরাগত API, লজিক অপারেশন এবং AI মডেলগুলিকে একীভূত করে। নিচের স্ক্রিনশটটি Mantium AI অ্যাপের একটি উদাহরণ দেখায়, যা একটি Twilio ইনপুট, গভর্নেন্স পলিসি, AI ব্লক (যা GPT-J এর মত ওপেন-সোর্স মডেলের উপর নির্ভর করতে পারে) এবং Twilio আউটপুটকে একত্রিত করে।

এই অ্যাপটিকে সমর্থন করার জন্য, Mantium শুধুমাত্র ওপেন AI, Co:here, এবং AI21-এর মতো AI প্রদানকারীদের মডেল API-গুলিই নয়, অত্যাধুনিক ওপেন সোর্স মডেলগুলিতেও ব্যাপক এবং অভিন্ন অ্যাক্সেস প্রদান করে৷ Mantium-এ, আমরা বিশ্বাস করি যে যে কেউ আধুনিক AI অ্যাপ্লিকেশন তৈরি করতে সক্ষম হবেন যা তাদের নিজস্ব, এন্ড-টু-এন্ড, এবং আমরা পারফরম্যান্স-অপ্টিমাইজড ওপেন-সোর্স মডেলগুলিতে নো-কোড এবং লো-কোড অ্যাক্সেস প্রদান করে এটিকে সমর্থন করি।

উদাহরণস্বরূপ, Mantium এর মূল ওপেন সোর্স মডেলগুলির মধ্যে একটি জিপিটি-জে, একটি অত্যাধুনিক প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) মডেল তৈরি করেছে EleutherAI. 6 বিলিয়ন প্যারামিটার সহ, GPT-J হল বৃহত্তম এবং সেরা-পারফর্মিং ওপেন সোর্স টেক্সট জেনারেশন মডেলগুলির মধ্যে একটি৷ Mantium ব্যবহারকারীরা Mantium-এর AI বিল্ডারের মাধ্যমে তাদের AI অ্যাপ্লিকেশনগুলিতে GPT-J সংহত করতে পারে। GPT-J-এর ক্ষেত্রে, এর মধ্যে একটি নির্দিষ্ট করা জড়িত প্রম্পট (মডেলের কি করা উচিত তার একটি প্রাকৃতিক ভাষা উপস্থাপনা) এবং কিছু ঐচ্ছিক পরামিতি কনফিগার করা।

উদাহরণস্বরূপ, নিম্নলিখিত স্ক্রিনশটটি একটি সংক্ষিপ্ত প্রদর্শন দেখায় একটি অনুভূতি বিশ্লেষণ প্রম্পট যা ব্যাখ্যা এবং অনুভূতির পূর্বাভাস তৈরি করে। এই উদাহরণে, লেখক লিখেছেন যে "খাবারটি চমৎকার ছিল" এবং তাদের "পরিষেবা অসাধারণ ছিল।" অতএব, এই লেখাটি ইতিবাচক অনুভূতি প্রকাশ করে।

যাইহোক, ওপেন-সোর্স মডেলগুলির সাথে একটি চ্যালেঞ্জ হল যে তারা খুব কমই প্রোডাকশন-গ্রেড পারফরম্যান্সের জন্য ডিজাইন করা হয়েছে। GPT-J এর মতো বড় মডেলের ক্ষেত্রে, এটি ব্যবহারের ক্ষেত্রে নির্ভর করে উৎপাদন স্থাপনকে অব্যবহারিক এবং এমনকি অসম্ভাব্য করে তুলতে পারে।

আমাদের ব্যবহারকারীদের সর্বোত্তম-শ্রেণীর পারফরম্যান্সে অ্যাক্সেস রয়েছে তা নিশ্চিত করতে, আমরা সর্বদা আমাদের মূল মডেলগুলির লেটেন্সি হ্রাস করার উপায়গুলি সন্ধান করি৷ এই পোস্টে, আমরা একটি অনুমান অপ্টিমাইজেশান পরীক্ষার ফলাফল বর্ণনা করি যেখানে আমরা GPT-J এর অনুমান গতি প্রায় 116% বৃদ্ধি করতে DeepSpeed এর অনুমান ইঞ্জিন ব্যবহার করি। আমরা আমাদের ডিপস্পীডের সাথে GPT-J-এর হাগিং ফেস ট্রান্সফরমার বাস্তবায়ন কীভাবে স্থাপন করেছি তাও বর্ণনা করি। আমাজন সেজমেকার অনুমান শেষ বিন্দু।

GPT-J মডেলের ওভারভিউ

GPT-J হল একটি জেনারেটিভ প্রিট্রেইনড (GPT) ভাষার মডেল এবং এর স্থাপত্যের পরিপ্রেক্ষিতে, এটি ওপেন এআই-এর GPT-3-এর মতো জনপ্রিয়, ব্যক্তিগত, বৃহৎ ভাষার মডেলগুলির সাথে তুলনীয়। আগেই উল্লেখ করা হয়েছে, এটি প্রায় 6 বিলিয়ন প্যারামিটার এবং 28টি স্তর নিয়ে গঠিত, যা একটি ফিডফরওয়ার্ড ব্লক এবং একটি স্ব-মনোযোগ ব্লক নিয়ে গঠিত। যখন এটি প্রথম প্রকাশ করা হয়, তখন GPT-J ব্যবহার করা প্রথম বৃহৎ ভাষার মডেলগুলির মধ্যে একটি ঘূর্ণমান এম্বেডিং, একটি নতুন অবস্থান এনকোডিং কৌশল যা পরম এবং আপেক্ষিক অবস্থান এনকোডারকে একীভূত করে। এটি একটি উদ্ভাবনী সমান্তরালকরণ কৌশলও নিযুক্ত করে যেখানে ঘন এবং ফিডফরোয়ার্ড স্তরগুলি একক স্তরে একত্রিত হয়, যা যোগাযোগের ওভারহেডকে কমিয়ে দেয়।

যদিও GPT-J আজকের মান অনুসারে যথেষ্ট যোগ্য নাও হতে পারে—বড় মডেলগুলিতে সাধারণত 100 বিলিয়নের বেশি প্যারামিটার থাকে—এটি এখনও চিত্তাকর্ষকভাবে পারফরম্যান্স এবং কিছু প্রম্পট ইঞ্জিনিয়ারিং বা ন্যূনতম ফাইন-টিউনিং সহ, আপনি অনেক সমস্যা সমাধানের জন্য এটি ব্যবহার করতে পারেন। তদ্ব্যতীত, এর তুলনামূলকভাবে শালীন আকারের অর্থ হল আপনি এটিকে আরও দ্রুত এবং বড় মডেলের তুলনায় অনেক কম খরচে স্থাপন করতে পারেন।

যে বলেছে, GPT-J এখনও বেশ বড়। উদাহরণস্বরূপ, পূর্ণ ওজনের আপডেট সহ FP32-এ GPT-J প্রশিক্ষণের জন্য এবং অ্যাডাম অপ্টিমাইজারের জন্য 200 GB মেমরির প্রয়োজন: মডেল প্যারামিটারের জন্য 24 GB, গ্রেডিয়েন্টের জন্য 24 GB, অ্যাডামের স্কোয়ার গ্রেডিয়েন্টের জন্য 24 GB, অপ্টিমাইজার অবস্থার জন্য 24 GB, এবং প্রশিক্ষণ ব্যাচ লোড করা এবং সক্রিয়করণ সঞ্চয় করার জন্য অতিরিক্ত মেমরির প্রয়োজনীয়তা। অবশ্যই, FP16-এ প্রশিক্ষণ এই মেমরির প্রয়োজনীয়তাগুলিকে প্রায় অর্ধেকে কমিয়ে দেয়, কিন্তু 100 GB-এর বেশি মেমরির পদচিহ্নের জন্য এখনও উদ্ভাবনী প্রশিক্ষণের কৌশল প্রয়োজন। উদাহরণস্বরূপ, SageMaker-এর সাথে সহযোগিতায়, Mantium-এর NLP টিম একটি বিকাশ করেছে কর্মপ্রবাহ প্রশিক্ষণের জন্য (সূক্ষ্ম-টিউনিং) জিপিটি-জে সেজমেকার বিতরণ মডেল সমান্তরাল লাইব্রেরি ব্যবহার করে।

বিপরীতে, অনুমানের জন্য GPT-J পরিবেশন করার জন্য অনেক কম মেমরির প্রয়োজনীয়তা রয়েছে — FP16-এ, মডেলের ওজন 13 GB এর কম দখল করে, যার মানে হল যে অনুমান সহজেই একটি একক 16 GB GPU-তে পরিচালিত হতে পারে। যাইহোক, জিপিটি-জে-এর বাইরের-দ্যা-বক্স বাস্তবায়নের অনুমান, যেমন আলিঙ্গন ফেস ট্রান্সফরমার বাস্তবায়ন আমরা যে ব্যবহার করি, তা তুলনামূলকভাবে ধীর। অত্যন্ত প্রতিক্রিয়াশীল টেক্সট-জেনারেশনের প্রয়োজন এমন ক্ষেত্রে ব্যবহারকে সমর্থন করার জন্য, আমরা GPT-J এর ইনফারেন্স লেটেন্সি কমানোর উপর ফোকাস করেছি।

GPT-J-এর প্রতিক্রিয়া লেটেন্সি চ্যালেঞ্জ

রেসপন্স লেটেন্সি হল জেনারেটিভ প্রিট্রেইনড ট্রান্সফরমার (GPTs) যেমন GPT-J যা আধুনিক টেক্সট জেনারেশনের জন্য একটি মূল বাধা। জিপিটি মডেল অনুমান ধাপের ক্রমগুলির মাধ্যমে পাঠ্য তৈরি করে। প্রতিটি অনুমান ধাপে, মডেলটিকে ইনপুট হিসাবে পাঠ্য দেওয়া হয়, এবং এই ইনপুটের শর্তসাপেক্ষে, এটি পাঠ্যের সাথে যুক্ত করার জন্য তার শব্দভাণ্ডার থেকে একটি শব্দের নমুনা দেয়। উদাহরণস্বরূপ, টোকেনগুলির ক্রম অনুসারে "আমার একটি ছাতা দরকার কারণ এটি," একটি উচ্চ-সম্ভাবনা পরবর্তী টোকেন হতে পারে "বৃষ্টি"। যাইহোক, এটি "রৌদ্রোজ্জ্বল" বা "বাউন্ড"ও হতে পারে, যা "আমার একটি ছাতা দরকার কারণ এটি বৃষ্টি শুরু হতে বাধ্য।"

এই ধরনের পরিস্থিতি GPT মডেলগুলি স্থাপনের জন্য কিছু আকর্ষণীয় চ্যালেঞ্জ উত্থাপন করে কারণ বাস্তব-বিশ্ব ব্যবহারের ক্ষেত্রে দশ, শত, এমনকি হাজার হাজার অনুমান পদক্ষেপ জড়িত হতে পারে। উদাহরণস্বরূপ, একটি 1,000-টোকেন প্রতিক্রিয়া তৈরি করতে 1,000 অনুমান পদক্ষেপ প্রয়োজন! তদনুসারে, যদিও একটি মডেল অনুমান গতির প্রস্তাব দিতে পারে যা বিচ্ছিন্নভাবে যথেষ্ট দ্রুত বলে মনে হয়, দীর্ঘ টেক্সট তৈরি করা হলে লেটেন্সি অসহনীয় পর্যায়ে পৌঁছানো সহজ। আমরা একটি V280 GPU-তে প্রতি অনুমান ধাপে 100 মিলিসেকেন্ডের গড় বিলম্ব লক্ষ্য করেছি। এটি একটি 6.7 বিলিয়ন প্যারামিটার মডেলের জন্য দ্রুত মনে হতে পারে, কিন্তু এই ধরনের বিলম্বের সাথে, এটি একটি 30-টোকেন প্রতিক্রিয়া তৈরি করতে প্রায় 500 সেকেন্ড সময় নেয়, যা ব্যবহারকারীর অভিজ্ঞতার দৃষ্টিকোণ থেকে আদর্শ নয়।

ডিপস্পিড ইনফারেন্সের সাথে অনুমানের গতি অপ্টিমাইজ করা

ডিপস্পিড মাইক্রোসফ্ট দ্বারা বিকাশিত একটি ওপেন সোর্স ডিপ-লার্নিং অপ্টিমাইজেশান লাইব্রেরি। যদিও এটি প্রাথমিকভাবে বৃহৎ মডেলের প্রশিক্ষণের অপ্টিমাইজেশনের উপর দৃষ্টি নিবদ্ধ করে, ডিপস্পিড একটি অনুমান অপ্টিমাইজেশান ফ্রেমওয়ার্কও প্রদান করে যা BERT, Megatron, GPT-Neo, GPT2 এবং GPT-J সহ মডেলগুলির একটি নির্বাচিত সেটকে সমর্থন করে। ডিপস্পিড ইনফারেন্স মডেলের সমান্তরালতা, ইনফারেন্স-অপ্টিমাইজড CUDA কার্নেল এবং কোয়ান্টাইজেশনের সমন্বয়ের মাধ্যমে বৃহৎ ট্রান্সফরমার-ভিত্তিক আর্কিটেকচারের সাথে উচ্চ-পারফরম্যান্সের অনুমানকে সহজতর করে।

GPT-J এর সাথে অনুমানের গতি বাড়ানোর জন্য, আমরা হাগিং ফেস ট্রান্সফরমার GPT-J বাস্তবায়নে অপ্টিমাইজ করা CUDA কার্নেলগুলিকে ইনজেকশন করতে DeepSpeed-এর ইনফারেন্স ইঞ্জিন ব্যবহার করি।

DeepSpeed-এর ইনফরেন্স ইঞ্জিনের গতির সুবিধাগুলি মূল্যায়ন করার জন্য, আমরা বিভিন্ন কনফিগারেশনের অধীনে GPT-J-এর সময় নির্ধারণ করেছি এমন একটি সিরিজ লেটেন্সি পরীক্ষা পরিচালনা করেছি। বিশেষত, আমরা ডিপস্পিড ব্যবহার করা হয়েছে কিনা, হার্ডওয়্যার, আউটপুট সিকোয়েন্স দৈর্ঘ্য এবং ইনপুট সিকোয়েন্স দৈর্ঘ্যের মধ্যে পার্থক্য করেছি। আমরা উভয় আউটপুট এবং ইনপুট ক্রম দৈর্ঘ্যের উপর ফোকাস করেছি, কারণ তারা উভয়ই অনুমান গতিকে প্রভাবিত করে। 50টি টোকেনের একটি আউটপুট ক্রম তৈরি করতে, মডেলটিকে অবশ্যই 50টি অনুমান পদক্ষেপ করতে হবে। তদ্ব্যতীত, একটি অনুমান পদক্ষেপ সম্পাদন করার জন্য প্রয়োজনীয় সময় নির্ভর করে ইনপুট সিকোয়েন্সের আকারের উপর - বড় ইনপুটগুলির জন্য আরও প্রক্রিয়াকরণের সময় প্রয়োজন। যদিও আউটপুট সিকোয়েন্স সাইজের প্রভাব ইনপুট সিকোয়েন্স সাইজের প্রভাবের চেয়ে অনেক বেশি, তবুও উভয় কারণের জন্যই হিসাব করা প্রয়োজন।

আমাদের পরীক্ষায়, আমরা নিম্নলিখিত নকশা ব্যবহার করেছি:

ডিপস্পিড ইনফারেন্স ইঞ্জিন - চালু, বন্ধ
হার্ডওয়্যারের - T4 (ml.g4dn.2xlarge), V100 (ml.p3.2xlarge)
ইনপুট ক্রম দৈর্ঘ্য - 50, 200, 500, 1000
আউটপুট ক্রম দৈর্ঘ্য - 50, 100, 150, 200

মোট, এই নকশাটিতে এই চারটি কারণের 64টি সংমিশ্রণ রয়েছে এবং প্রতিটি সংমিশ্রণের জন্য, আমরা 20টি লেটেন্সি পরীক্ষা চালিয়েছি। প্রতিটি পরীক্ষা একটি প্রি-ইনিশিয়ালাইজড সেজমেকার ইনফারেন্স এন্ডপয়েন্টে চালানো হয়েছিল, নিশ্চিত করে যে আমাদের লেটেন্সি পরীক্ষাগুলি API এক্সচেঞ্জ এবং প্রিপ্রসেসিং সহ উত্পাদনের সময়গুলিকে প্রতিফলিত করে।

আমাদের পরীক্ষাগুলি দেখায় যে DeepSpeed-এর GPT-J অনুমান ইঞ্জিন বেসলাইন Hugging Face Transformers PyTorch বাস্তবায়নের তুলনায় যথেষ্ট দ্রুত। নিচের চিত্রটি ml.g4dn.2xlarge এবং ml.p3.2xlarge সেজমেকার ইনফারেন্স এন্ডপয়েন্টে ডিপস্পিড ত্বরণ সহ এবং ছাড়া GPT-J-এর গড় টেক্সট জেনারেশন লেটেন্সিগুলিকে চিত্রিত করে৷

ml.g4dn.2x বৃহৎ উদাহরণে, যা একটি 16 GB NVIDIA T4 GPU দিয়ে সজ্জিত, আমরা আনুমানিক 24% [স্ট্যান্ডার্ড ডেভিয়েশন (SD) = 0.05] এর গড় লেটেন্সি হ্রাস লক্ষ্য করেছি। এটি প্রতি সেকেন্ডে গড় 12.5 (SD = 0.91) টোকেন থেকে গড় 16.5 (SD = 2.13) টোকেন প্রতি সেকেন্ডে বৃদ্ধির সাথে সম্পর্কিত। উল্লেখযোগ্যভাবে, DeepSpeed-এর ত্বরণ প্রভাব ml.p3.2xlarge ইন্সট্যান্সে আরও শক্তিশালী ছিল, যেটি একটি NVIDIA V100 GPU দিয়ে সজ্জিত। সেই হার্ডওয়্যারে, আমরা একটি 53% (SD = .07) মানে লেটেন্সি হ্রাস লক্ষ্য করেছি৷ প্রতি সেকেন্ডে টোকেনের পরিপ্রেক্ষিতে, এটি প্রতি সেকেন্ডে গড় 21.9 (SD = 1.97) টোকেন থেকে গড় 47.5 (SD = 5.8) টোকেন প্রতি সেকেন্ডে বৃদ্ধির সাথে সম্পর্কিত।

আমরা আরও লক্ষ্য করেছি যে ডিপস্পিড দ্বারা প্রদত্ত ত্বরণ উভয় হার্ডওয়্যার কনফিগারেশনে সামান্য হ্রাস পেয়েছে কারণ ইনপুট সিকোয়েন্সের আকার বেড়েছে। যাইহোক, সমস্ত অবস্থার মধ্যে, DeepSpeed-এর GPT-J অপ্টিমাইজেশানগুলির সাথে অনুমান এখনও বেসলাইনের তুলনায় যথেষ্ট দ্রুত ছিল। উদাহরণস্বরূপ, g4dn উদাহরণে, সর্বোচ্চ এবং সর্বনিম্ন লেটেন্সি হ্রাস যথাক্রমে 31% (ইনপুট সিকোয়েন্স সাইজ = 50) এবং 15% (ইনপুট সিকোয়েন্স সাইজ = 1000) ছিল। এবং p3 উদাহরণে, সর্বোচ্চ এবং সর্বনিম্ন লেটেন্সি হ্রাস ছিল যথাক্রমে 62% (ইনপুট সিকোয়েন্স সাইজ = 50) এবং 40% (ইনপুট সিকোয়েন্স সাইজ = 1000),।

একটি সেজমেকার ইনফারেন্স এন্ডপয়েন্টে ডিপস্পিড সহ GPT-J স্থাপন করা হচ্ছে

GPT-J-এর জন্য নাটকীয়ভাবে টেক্সট জেনারেশনের গতি বৃদ্ধির পাশাপাশি, ডিপস্পিডের ইনফারেন্স ইঞ্জিনটি সেজমেকার ইনফারেন্স এন্ডপয়েন্টে একীভূত করা সহজ। আমাদের ইনফারেন্স স্ট্যাকে DeepSpeed যোগ করার আগে, আমাদের শেষ পয়েন্টগুলি একটি অফিসিয়াল PyTorch ইমেজের উপর ভিত্তি করে একটি কাস্টম ডকার ইমেজে চলছিল। সেজমেকার কাস্টম ইনফারেন্স এন্ডপয়েন্ট স্থাপন করা খুব সহজ করে তোলে এবং ডিপস্পিডকে একীভূত করা নির্ভরতা সহ এবং কোডের কয়েকটি লাইন লেখার মতোই সহজ ছিল। ডিপস্পিডের সাথে জিপিটি-জে স্থাপনের জন্য স্থাপনার কর্মপ্রবাহের ওপেন-সোর্স গাইড এখানে উপলব্ধ GitHub.

উপসংহার

Mantium নেতৃস্থানীয় উদ্ভাবনের জন্য নিবেদিত যাতে সবাই দ্রুত AI দিয়ে তৈরি করতে পারে। এআই-চালিত প্রক্রিয়া অটোমেশন থেকে কঠোর নিরাপত্তা এবং সম্মতি সেটিংস পর্যন্ত, আমাদের সম্পূর্ণ প্ল্যাটফর্ম শক্তিশালী, দায়িত্বশীল AI অ্যাপ্লিকেশনগুলিকে স্কেলে বিকাশ এবং পরিচালনা করার জন্য প্রয়োজনীয় সমস্ত সরঞ্জাম সরবরাহ করে এবং প্রবেশের বাধা কম করে। SageMaker Mantium-এর মতো কোম্পানিগুলিকে দ্রুত বাজারে পেতে সাহায্য করে।

কিভাবে Mantium আপনাকে আপনার প্রতিষ্ঠানের জন্য জটিল AI-চালিত কর্মপ্রবাহ তৈরি করতে সাহায্য করতে পারে তা জানতে, দেখুন www.mantiumai.com.

লেখক সম্পর্কে

জো হুভার Mantium এর AI R&D দলের একজন সিনিয়র ফলিত বিজ্ঞানী। তিনি মডেল, পদ্ধতি এবং অবকাঠামো তৈরির বিষয়ে উত্সাহী যা মানুষকে আধুনিক NLP সিস্টেমের সাথে বাস্তব-বিশ্বের সমস্যাগুলি সমাধান করতে সহায়তা করে। তার অবসর সময়ে, তিনি ব্যাকপ্যাকিং, বাগান করা, রান্না করা এবং তার পরিবারের সাথে আড্ডা দেওয়া উপভোগ করেন।

ধাওয়াল প্যাটেল AWS-এর একজন প্রধান মেশিন লার্নিং আর্কিটেক্ট। তিনি ডিস্ট্রিবিউটেড কম্পিউটিং এবং কৃত্রিম বুদ্ধিমত্তা সম্পর্কিত সমস্যা নিয়ে বড় উদ্যোগ থেকে শুরু করে মাঝারি আকারের স্টার্টআপ পর্যন্ত সংস্থাগুলির সাথে কাজ করেছেন। তিনি এনএলপি এবং কম্পিউটার ভিশন ডোমেন সহ গভীর শিক্ষার উপর ফোকাস করেন। তিনি গ্রাহকদের SageMaker-এ উচ্চ কর্মক্ষমতা মডেল অনুমান অর্জনে সহায়তা করেন।

সুনীল পদ্মনাভন AWS-এর একজন স্টার্টআপ সলিউশন আর্কিটেক্ট। একজন প্রাক্তন স্টার্টআপ প্রতিষ্ঠাতা এবং CTO হিসাবে, তিনি মেশিন লার্নিং সম্পর্কে উত্সাহী এবং স্টার্টআপগুলিকে তাদের ব্যবসায়িক ফলাফলের জন্য AI/ML-এর সাহায্য করতে এবং স্কেলে ML/AI সমাধানগুলি ডিজাইন ও স্থাপনে সহায়তা করার দিকে মনোনিবেশ করেন।

সময় স্ট্যাম্প: জুন 15, 2022

সময় স্ট্যাম্প: সেপ্টেম্বর 11, 2023

ম্যান্টিয়াম কীভাবে অ্যামাজন সেজমেকারে ডিপস্পিডের সাথে কম-বিলম্বিত জিপিটি-জে অনুমান অর্জন করে

প্লেটো দ্বারা প্রকাশিত

GPT-J মডেলের ওভারভিউ

GPT-J-এর প্রতিক্রিয়া লেটেন্সি চ্যালেঞ্জ

ডিপস্পিড ইনফারেন্সের সাথে অনুমানের গতি অপ্টিমাইজ করা

একটি সেজমেকার ইনফারেন্স এন্ডপয়েন্টে ডিপস্পিড সহ GPT-J স্থাপন করা হচ্ছে

উপসংহার

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

AWS DeepRacer এর সাথে Parsons-এ কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং ব্যবহার করা

Amazon Transcribe-এ কাস্টম শব্দভান্ডার সহ গ্রাহক-এজেন্ট কলের প্রতিলিপি নির্ভুলতা উন্নত করুন

অ্যামাজন কেন্দ্রের জন্য আপডেট করা Microsoft OneDrive সংযোগকারী (V2) ঘোষণা করা হচ্ছে

নিরাপদ, রিয়েল-টাইম ইনফারেন্সিংয়ের জন্য Amazon SageMaker এন্ডপয়েন্টের সাথে সম্পূর্ণরূপে সমজাতীয় এনক্রিপশন সক্ষম করুন

Amazon SageMaker Data Wrangler এবং Amazon SageMaker Autopilot এর সাথে ইউনিফাইড ডেটা প্রস্তুতি এবং মডেল প্রশিক্ষণ

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব