এআই কম্পিউটের উচ্চ খরচে নেভিগেট করা

এআই কম্পিউটের উচ্চ খরচে নেভিগেট করা

এআই কম্পিউট প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের উচ্চ খরচে নেভিগেট করা। উল্লম্ব অনুসন্ধান. আ.
সূত্র: মিডজার্নি

জেনারেটিভ এআই বুম কম্পিউট-বাউন্ড। এটির অনন্য বৈশিষ্ট্য রয়েছে যে আরও কম্পিউট যোগ করলে সরাসরি একটি ভাল পণ্য হয়। সাধারণত, R&D বিনিয়োগ একটি পণ্য কতটা মূল্যবান ছিল তার সাথে সরাসরি আবদ্ধ হয় এবং সেই সম্পর্কটি লক্ষণীয়ভাবে সাবলাইনার। কিন্তু কৃত্রিম বুদ্ধিমত্তার ক্ষেত্রে এটি বর্তমানে তেমন নয় এবং ফলস্বরূপ, আজ শিল্পকে চালিত করার একটি প্রধান কারণ হল প্রশিক্ষণ এবং অনুমানের খরচ। 

যদিও আমরা সত্যিকারের সংখ্যা জানি না, আমরা স্বনামধন্য উত্স থেকে শুনেছি যে গণনার সরবরাহ এতই সীমাবদ্ধ, চাহিদা এটিকে 10(!) এর ফ্যাক্টর দ্বারা ছাড়িয়ে যায়, তাই আমরা মনে করি যে, এখনই বলা ন্যায়সঙ্গত, গণনা সংস্থানগুলিতে অ্যাক্সেস — সর্বনিম্ন মোট খরচে — এআই কোম্পানিগুলির সাফল্যের জন্য একটি নির্ধারক ফ্যাক্টর হয়ে উঠেছে.

প্রকৃতপক্ষে, আমরা দেখেছি যে অনেক কোম্পানি তাদের মোট মূলধনের 80% এর বেশি ব্যয় করেছে গণনা সংস্থানগুলিতে!

এই পোস্টে, আমরা একটি AI কোম্পানির জন্য খরচের কারণগুলি ভেঙে দেওয়ার চেষ্টা করি। নিখুঁত সংখ্যা অবশ্যই সময়ের সাথে পরিবর্তিত হবে, তবে আমরা AI কোম্পানিগুলি থেকে তাদের গণনা সংস্থানগুলিতে তাদের অ্যাক্সেসের দ্বারা আবদ্ধ হওয়া থেকে তাত্ক্ষণিক ত্রাণ দেখতে পাচ্ছি না। সুতরাং, আশা করি, এটি ল্যান্ডস্কেপের মাধ্যমে চিন্তা করার জন্য একটি সহায়ক কাঠামো। 

কেন এআই মডেলগুলি গণনাগতভাবে এত ব্যয়বহুল?

জেনারেটিভ এআই মডেলের বিস্তৃত বৈচিত্র্য রয়েছে এবং অনুমান এবং প্রশিক্ষণের খরচ মডেলের আকার এবং প্রকারের উপর নির্ভর করে। সৌভাগ্যবশত, বর্তমানে সর্বাধিক জনপ্রিয় মডেলগুলি বেশিরভাগ ট্রান্সফরমার-ভিত্তিক আর্কিটেকচার, যার মধ্যে জনপ্রিয় বড় ভাষা মডেল (LLMs) যেমন GPT-3, GPT-J, বা BERT অন্তর্ভুক্ত। যদিও ট্রান্সফরমারের অনুমান এবং শেখার জন্য অপারেশনের সঠিক সংখ্যা মডেল-নির্দিষ্ট (দেখুন এই কাগজ), একটি মোটামুটি সঠিক নিয়ম রয়েছে যা শুধুমাত্র মডেলের প্যারামিটারের সংখ্যা (অর্থাৎ, নিউরাল নেটওয়ার্কের ওজন) এবং ইনপুট এবং আউটপুট টোকেনের সংখ্যার উপর নির্ভর করে। 

টোকেনগুলি মূলত কয়েকটি অক্ষরের সংক্ষিপ্ত ক্রম। এগুলি শব্দ বা শব্দের অংশগুলির সাথে মিলে যায়। টোকেনগুলির জন্য একটি অন্তর্দৃষ্টি পাওয়ার সর্বোত্তম উপায় হল সর্বজনীনভাবে উপলব্ধ অনলাইন টোকেনাইজারগুলির সাথে টোকেনাইজেশন চেষ্টা করা (যেমন, OpenAI) GPT-3 এর জন্য, একটি টোকেনের গড় দৈর্ঘ্য 4টি অক্ষর

ট্রান্সফরমারগুলির জন্য থাম্বের নিয়ম হল যে একটি মডেলের জন্য একটি ফরওয়ার্ড পাস (অর্থাৎ, অনুমান) p একটি ইনপুট এবং দৈর্ঘ্যের একটি আউটপুট অনুক্রমের জন্য পরামিতি n টোকেন প্রতি, প্রায় লাগে 2*n*p ফ্লোটিং পয়েন্ট অপারেশন (FLOPS)¹। একই মডেলের জন্য প্রশিক্ষণ প্রায় লাগে 6*p টোকেন প্রতি FLOPS (অর্থাৎ, অতিরিক্ত পশ্চাদপদ পাসের জন্য আরও চারটি অপারেশন প্রয়োজন²) আপনি প্রশিক্ষণের ডেটাতে টোকেনের পরিমাণ দ্বারা এটিকে গুণ করে প্রশিক্ষণের মোট খরচ আনুমানিক করতে পারেন।

ট্রান্সফরমারগুলির জন্য মেমরির প্রয়োজনীয়তাও মডেলের আকারের উপর নির্ভর করে। অনুমান জন্য, আমরা প্রয়োজন p মেমরিতে ফিট করার জন্য মডেল পরামিতি। শেখার জন্য (যেমন, ব্যাক-প্রোপাগেশন), আমাদের ফরওয়ার্ড এবং ব্যাকওয়ার্ড পাসের মধ্যে প্যারামিটার প্রতি অতিরিক্ত মধ্যবর্তী মান সঞ্চয় করতে হবে। ধরে নিচ্ছি আমরা 32-বিট ফ্লোটিং পয়েন্ট নম্বর ব্যবহার করি, এটি প্রতি প্যারামিটারে একটি অতিরিক্ত 8 বাইট। একটি 175-বিলিয়ন-প্যারামিটার মডেল প্রশিক্ষণের জন্য, আমাদের মেমরিতে এক টেরাবাইটের বেশি ডেটা রাখতে হবে — এটি বর্তমানে বিদ্যমান যেকোনো GPU-কে ছাড়িয়ে গেছে এবং আমাদেরকে মডেলটিকে কার্ড জুড়ে বিভক্ত করতে হবে। অনুমান এবং প্রশিক্ষণের জন্য মেমরির প্রয়োজনীয়তাগুলি ছোট দৈর্ঘ্যের ফ্লোটিং পয়েন্ট মান ব্যবহার করে অপ্টিমাইজ করা যেতে পারে, 16-বিট সাধারণ হয়ে উঠবে এবং 8-বিট অদূর ভবিষ্যতে প্রত্যাশিত হবে।

এআই কম্পিউট প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের উচ্চ খরচে নেভিগেট করা। উল্লম্ব অনুসন্ধান. আ.

উপরের টেবিলে বেশ কয়েকটি জনপ্রিয় মডেলের আকার এবং গণনা খরচ রয়েছে। GPT-3 এর প্রায় 175 বিলিয়ন প্যারামিটার রয়েছে, যা 1,024 টোকেনের ইনপুট এবং আউটপুটের জন্য, প্রায় 350 ট্রিলিয়ন ফ্লোটিং পয়েন্ট অপারেশনের (যেমন, টেরাফ্লপস বা TFLOPS) একটি গণনামূলক খরচ হয়। GPT-3 এর মত একটি মডেলকে প্রশিক্ষণ দিতে প্রায় 3.14*10^23 ফ্লোটিং পয়েন্ট অপারেশন লাগে। মেটা এর LLaMA মত অন্যান্য মডেল আছে আরো উঁচু প্রয়োজনীয়তা গণনা। এই ধরনের একটি মডেলের প্রশিক্ষণ মানবজাতি এখন পর্যন্ত গ্রহণ করা আরও গণনামূলকভাবে নিবিড় কাজগুলির মধ্যে একটি। 

সংক্ষেপে বলা যায়: এআই অবকাঠামো ব্যয়বহুল কারণ অন্তর্নিহিত অ্যালগরিদমিক সমস্যাগুলি অত্যন্ত গণনাগতভাবে কঠিন। এক মিলিয়ন এন্ট্রি সহ একটি ডাটাবেস টেবিল সাজানোর অ্যালগরিদমিক জটিলতা GPT-3 দিয়ে একটি একক শব্দ তৈরি করার জটিলতার তুলনায় নগণ্য। এর মানে হল আপনি সবচেয়ে ছোট মডেলটি বেছে নিতে চান যা আপনার ব্যবহারের ক্ষেত্রে সমাধান করে। 

ভাল খবর হল, ট্রান্সফরমারগুলির জন্য, আমরা সহজেই অনুমান করতে পারি যে একটি নির্দিষ্ট আকারের একটি মডেল কত কম্পিউট এবং মেমরি খরচ করবে। এবং, তাই, সঠিক হার্ডওয়্যার বাছাই পরবর্তী বিবেচনা হয়ে ওঠে। 

GPU-এর জন্য সময় এবং খরচের যুক্তি

কম্পিউটেশনাল জটিলতা কিভাবে সময়ের সাথে অনুবাদ করে? একটি প্রসেসর কোর সাধারণত প্রতি চক্রে 1-2টি নির্দেশনা কার্যকর করতে পারে এবং প্রসেসরের ঘড়ির হার গত 3 বছর ধরে 15 GHz এর কাছাকাছি স্থিতিশীল রয়েছে ডেনার্ড স্কেলিং. কোনো সমান্তরাল আর্কিটেকচারকে কাজে না লাগিয়ে একটি একক GPT-3 ইনফারেন্স অপারেশন চালানোর জন্য 350 TFLOPS/(3 GHz*1 FLOP) বা 116,000 সেকেন্ড বা 32 ঘন্টা সময় লাগবে। এটা খুবই অবাস্তব; পরিবর্তে আমাদের বিশেষ চিপ দরকার যা এই কাজটিকে ত্বরান্বিত করে।

অনুশীলনে, সমস্ত AI মডেলগুলি আজ এমন কার্ডগুলিতে চলে যা খুব বড় সংখ্যক বিশেষায়িত কোর ব্যবহার করে। উদাহরণস্বরূপ, একটি NVIDIA A100 GPU-তে 512 "টেনসর কোর" রয়েছে যা একটি একক চক্রে 4×4 ম্যাট্রিক্স গুণন (যা 64 গুণ ও সংযোজন বা 128 FLOPS এর সমতুল্য) সম্পাদন করতে পারে। AI অ্যাক্সিলারেটর কার্ডগুলিকে প্রায়শই GPUs (গ্রাফিক্স প্রসেসিং ইউনিট) হিসাবে উল্লেখ করা হয়, কারণ আর্কিটেকচারটি মূলত ডেস্কটপ গেমিংয়ের জন্য তৈরি করা হয়েছিল। ভবিষ্যতে আমরা আশা করি AI ক্রমবর্ধমানভাবে একটি স্বতন্ত্র পণ্য পরিবারে পরিণত হবে। 

A100 এর নামমাত্র কর্মক্ষমতা রয়েছে 312 TFLOPS যা তাত্ত্বিকভাবে GPT-3 এর অনুমানকে প্রায় 1 সেকেন্ডে কমিয়ে দেবে। তবে এটি বিভিন্ন কারণে একটি অতি সরলীকৃত গণনা। প্রথমত, বেশিরভাগ ব্যবহারের ক্ষেত্রে, বাধা হল GPU-এর কম্পিউট পাওয়ার নয় কিন্তু বিশেষায়িত গ্রাফিক্স মেমরি থেকে টেনসর কোরে ডেটা পাওয়ার ক্ষমতা। দ্বিতীয়ত, 175 বিলিয়ন ওজন 700GB গ্রহণ করবে এবং কোনো GPU-এর গ্রাফিক্স মেমরিতে ফিট হবে না। পার্টিশনিং এবং ওয়েট স্ট্রিমিং এর মত কৌশল ব্যবহার করা দরকার। এবং, তৃতীয়ত, অনেকগুলি অপ্টিমাইজেশান রয়েছে (যেমন, সংক্ষিপ্ত ফ্লোটিং পয়েন্ট উপস্থাপনা ব্যবহার করে, যেমন FP16, FP8, বা স্পার্স ম্যাট্রিস) যা গণনাকে ত্বরান্বিত করতে ব্যবহৃত হচ্ছে। কিন্তু, সামগ্রিকভাবে, উপরের গণিতটি আমাদের আজকের এলএলএম-এর সামগ্রিক গণনা খরচের একটি অন্তর্দৃষ্টি দেয়।

একটি ট্রান্সফরমার মডেলকে প্রশিক্ষণ দিতে টোকেন অনুযায়ী অনুমান করার প্রায় তিনগুণ সময় লাগে। যাইহোক, প্রশিক্ষণের ডেটা সেটটি একটি অনুমান প্রম্পটের চেয়ে প্রায় 300 মিলিয়ন গুণ বড়, প্রশিক্ষণে 1 বিলিয়ন ফ্যাক্টর বেশি সময় লাগে। একটি একক GPU-তে, প্রশিক্ষণের জন্য কয়েক দশক সময় লাগবে; অনুশীলনে এটি ডেডিকেটেড ডেটা সেন্টারে বা সম্ভবত, ক্লাউডে বড় কম্পিউট ক্লাস্টারে করা হয়। অনুমানের তুলনায় প্রশিক্ষণ সমান্তরাল করাও কঠিন, কারণ আপডেট করা ওজন নোডের মধ্যে বিনিময় করতে হবে। GPU গুলির মধ্যে মেমরি এবং ব্যান্ডউইথ প্রায়শই অনেক বেশি গুরুত্বপূর্ণ ফ্যাক্টর হয়ে ওঠে, উচ্চ-গতির আন্তঃসংযোগ এবং উত্সর্গীকৃত কাপড় সাধারণ। খুব বড় মডেলের প্রশিক্ষণের জন্য, একটি উপযুক্ত নেটওয়ার্ক সেটআপ তৈরি করা প্রাথমিক চ্যালেঞ্জ হতে পারে। ভবিষ্যতের দিকে তাকিয়ে, এআই এক্সিলারেটরগুলির কার্ডে বা এমনকি চিপে নেটওয়ার্কিং ক্ষমতা থাকবে। 

কিভাবে এই কম্পিউটেশনাল জটিলতা খরচ অনুবাদ করে? একটি GPT-3 অনুমান, যা আমরা উপরে দেখেছি, A1 তে প্রায় 100 সেকেন্ড সময় লাগে 0.0002 টোকেনের জন্য $0.0014 এবং $1,000 এর মধ্যে একটি কাঁচা গণনা খরচ হবে (এটি OpenAI-এর $0.002/1000 টোকেনের মূল্যের সাথে তুলনা করে)। একজন ব্যবহারকারী প্রতিদিন 100টি অনুমান অনুরোধ তৈরি করে প্রতি বছর ডলারের ক্রমানুসারে খরচ হবে। এটি একটি খুব কম মূল্যের পয়েন্ট এবং এটি মানুষের দ্বারা টেক্সট-ভিত্তিক AI এর বেশিরভাগ ক্ষেত্রে আর্থিকভাবে কার্যকর করে তোলে।

প্রশিক্ষণ অন্যদিকে, GPT-3 অনেক বেশি ব্যয়বহুল। আবার উপরোক্ত হারে 3.14*10^23 FLOPS-এর জন্য শুধুমাত্র গণনা খরচ গণনা করলে আমাদের A560,000 কার্ডে $100 এর অনুমান পাওয়া যায় একক প্রশিক্ষণ রান. অনুশীলনে, প্রশিক্ষণের জন্য আমরা GPU-তে প্রায় 100% দক্ষতা পাব না; তবে আমরা প্রশিক্ষণের সময় কমাতে অপ্টিমাইজেশন ব্যবহার করতে পারি। GPT-3 প্রশিক্ষণ খরচ পরিসীমা অন্যান্য অনুমান থেকে $500,000 থেকে $4.6 মিলিয়ন, হার্ডওয়্যার অনুমানের উপর নির্ভর করে। মনে রাখবেন যে এটি একটি একক রানের খরচ এবং সামগ্রিক খরচ নয়। একাধিক রানের প্রয়োজন হবে এবং ক্লাউড প্রদানকারীরা দীর্ঘমেয়াদী প্রতিশ্রুতি চাইবে (নীচে এই বিষয়ে আরও)। টপ-অফ-দ্য-লাইন মডেলের প্রশিক্ষণ ব্যয়বহুল, তবে একটি ভাল অর্থায়নে স্টার্ট-আপের নাগালের মধ্যে।

সংক্ষেপে বলতে গেলে, জেনারেটিভ এআই-এর জন্য আজ এআই অবকাঠামোতে ব্যাপক বিনিয়োগের প্রয়োজন। অদূর ভবিষ্যতে এর পরিবর্তন হবে বলে বিশ্বাস করার কোনো কারণ নেই। GPT-3 এর মতো একটি মডেলকে প্রশিক্ষণ দেওয়া মানবজাতির হাতে নেওয়া সবচেয়ে গণনামূলক নিবিড় কাজগুলির মধ্যে একটি। এবং যখন GPU গুলি দ্রুততর হচ্ছে, এবং আমরা প্রশিক্ষণকে অপ্টিমাইজ করার উপায় খুঁজে পাচ্ছি, তখন AI এর দ্রুত সম্প্রসারণ এই উভয় প্রভাবকে অস্বীকার করে।

AI পরিকাঠামো জন্য বিবেচনা

এই মুহুর্তে, আমরা আপনাকে AI মডেলগুলির প্রশিক্ষণ এবং অনুমান করার জন্য প্রয়োজনীয় স্কেল এবং অন্তর্নিহিত পরামিতিগুলি সেগুলিকে চালিত করার জন্য কিছু অন্তর্দৃষ্টি দেওয়ার চেষ্টা করেছি। সেই প্রেক্ষাপটের সাথে, আমরা এখন কোন AI পরিকাঠামো ব্যবহার করতে হবে তা নির্ধারণ করার বিষয়ে কিছু ব্যবহারিক নির্দেশনা দিতে চাই।

বাহ্যিক বনাম অভ্যন্তরীণ অবকাঠামো

আসুন এটির মুখোমুখি হই: জিপিইউগুলি দুর্দান্ত। অনেক প্রকৌশলী এবং প্রকৌশল-মনোভাবাপন্ন প্রতিষ্ঠাতাদের নিজস্ব AI হার্ডওয়্যার সরবরাহ করার প্রতি পক্ষপাতিত্ব রয়েছে, শুধুমাত্র এই কারণে নয় যে এটি মডেল প্রশিক্ষণের উপর সূক্ষ্ম নিয়ন্ত্রণ দেয়, কিন্তু কারণ প্রচুর পরিমাণে কম্পিউটিং শক্তি ব্যবহার করার বিষয়ে মজার কিছু রয়েছে (একটি প্রদর্শনী).

বাস্তবতা অবশ্য এটাই অনেক স্টার্টআপ - বিশেষ করে অ্যাপ কোম্পানিগুলিকে তাদের নিজস্ব AI পরিকাঠামো তৈরি করতে হবে না এর পরিবর্তে, হোস্ট করা মডেল পরিষেবা যেমন OpenAI বা Hugging Face (ভাষার জন্য) এবং Replicate (ছবি তৈরির জন্য) প্রতিষ্ঠাতাদের অন্তর্নিহিত অবকাঠামো বা মডেলগুলি পরিচালনা করার প্রয়োজন ছাড়াই পণ্য-বাজারের জন্য দ্রুত অনুসন্ধান করতে দেয়।

এই পরিষেবাগুলি এত ভাল হয়েছে যে অনেক কোম্পানি তাদের থেকে স্নাতক হয় না। ডেভেলপাররা প্রম্পট ইঞ্জিনিয়ারিং এবং হাই-অর্ডার ফাইন-টিউনিং অ্যাবস্ট্রাকশন (যেমন, API কলের মাধ্যমে ফাইন টিউনিং) এর মাধ্যমে মডেল পারফরম্যান্সের উপর অর্থপূর্ণ নিয়ন্ত্রণ অর্জন করতে পারে। এই পরিষেবাগুলির জন্য মূল্য ব্যবহার-ভিত্তিক, তাই এটি প্রায়শই পৃথক পরিকাঠামো চালানোর চেয়ে সস্তা। আমরা দেখেছি যে অ্যাপ কোম্পানিগুলি $50 মিলিয়নেরও বেশি ARR তৈরি করছে এবং $1 বিলিয়নেরও বেশি মূল্যবান, যেগুলি হুডের অধীনে হোস্ট করা মডেল পরিষেবাগুলি চালায়৷

উল্টো দিকে, কিছু স্টার্টআপ - বিশেষ করে যারা নতুন ফাউন্ডেশন মডেলের প্রশিক্ষণ দেয় বা উল্লম্বভাবে সমন্বিত এআই অ্যাপ্লিকেশন তৈরি করে - সরাসরি তাদের নিজস্ব মডেল চালানো এড়াতে পারে না GPU-তে। হয় কারণ মডেলটি কার্যকরভাবে পণ্য এবং দলটি "মডেল-মার্কেট ফিট" এর জন্য অনুসন্ধান করছে বা কারণ নির্দিষ্ট ক্ষমতা অর্জন করতে বা বড় আকারে প্রান্তিক খরচ কমাতে প্রশিক্ষণ এবং/অথবা অনুমানের উপর সূক্ষ্ম নিয়ন্ত্রণ প্রয়োজন। যেভাবেই হোক, পরিকাঠামো পরিচালনা প্রতিযোগিতামূলক সুবিধার উৎস হয়ে উঠতে পারে।

ক্লাউড বনাম ডেটা সেন্টার বিল্ড আউট

বেশিরভাগ ক্ষেত্রে, ক্লাউড হল আপনার AI পরিকাঠামোর জন্য সঠিক জায়গা। কম আপ-ফ্রন্ট খরচ, স্কেল আপ এবং ডাউন করার ক্ষমতা, আঞ্চলিক প্রাপ্যতা এবং আপনার নিজস্ব ডেটা সেন্টার তৈরি থেকে কম বিভ্রান্তি বেশিরভাগ স্টার্টআপ এবং বড় কোম্পানিগুলির জন্য বাধ্যতামূলক।

কিন্তু এই নিয়মের কিছু ব্যতিক্রম আছে:

  • আপনি যদি খুব বড় পরিসরে কাজ করেন, তাহলে আপনার নিজস্ব ডেটা সেন্টার চালানোর জন্য এটি আরও সাশ্রয়ী হতে পারে। সঠিক মূল্য বিন্দু ভৌগলিক অবস্থান এবং সেটআপের উপর ভিত্তি করে পরিবর্তিত হয়, তবে এটির জন্য সাধারণত প্রতি বছর $50 মিলিয়নের বেশি পরিকাঠামো ব্যয় প্রয়োজন।
  • আপনার খুব নির্দিষ্ট হার্ডওয়্যার প্রয়োজন যা আপনি একটি ক্লাউড প্রদানকারীর কাছ থেকে প্রাপ্ত করতে পারবেন না। উদাহরণস্বরূপ, GPU প্রকারগুলি যা ব্যাপকভাবে উপলব্ধ নয়, সেইসাথে অস্বাভাবিক মেমরি, স্টোরেজ বা নেটওয়ার্কিং প্রয়োজনীয়তা।
  • আপনি ভূ-রাজনৈতিক বিবেচনার জন্য গ্রহণযোগ্য একটি মেঘ খুঁজে পাবেন না।

আপনি যদি নিজের ডেটা সেন্টার তৈরি করতে চান, তাহলে আপনার নিজস্ব সেটআপের জন্য GPU গুলির ব্যাপক মূল্য/কর্মক্ষমতা বিশ্লেষণ করা হয়েছে (যেমন, টিম ডেটমারের বিশ্লেষণ) কার্ডের খরচ এবং কর্মক্ষমতা ছাড়াও, হার্ডওয়্যার নির্বাচন শক্তি, স্থান এবং শীতলকরণের উপরও নির্ভর করে। উদাহরণস্বরূপ, দুটি RTX 3080 Ti কার্ডের একত্রে A100 এর অনুরূপ কাঁচা গণনা ক্ষমতা রয়েছে, তবে সংশ্লিষ্ট শক্তি খরচ 700W বনাম 300W। তিন বছরের জীবনচক্রে $3,500/kWh এর বাজার হারে 0.10 kWh পাওয়ার পার্থক্য RTX3080 Ti-এর খরচ প্রায় 2x (প্রায় $1,000) বাড়িয়ে দেয়।

এই সব বলেছে, আমরা আশা করি বেশিরভাগ স্টার্টআপ ক্লাউড কম্পিউটিং ব্যবহার করবে। 

ক্লাউড পরিষেবা প্রদানকারীর তুলনা 

Amazon Web Services (AWS), Microsoft Azure এবং Google ক্লাউড প্ল্যাটফর্ম (GCP) সকলেই GPU দৃষ্টান্ত অফার করে, কিন্তু নতুন প্রদানকারীরাও বিশেষভাবে AI ওয়ার্কলোডের উপর ফোকাস করতে দেখা যাচ্ছে। এখানে একটি কাঠামো রয়েছে যা আমরা দেখেছি যে অনেক প্রতিষ্ঠাতা একটি ক্লাউড প্রদানকারী বেছে নিতে ব্যবহার করেন:

দাম: নীচের সারণীটি 7 এপ্রিল, 2023 তারিখে বেশ কয়েকটি বড় এবং ছোট বিশেষ ক্লাউডের জন্য মূল্য প্রদর্শন করে। এই ডেটা শুধুমাত্র নির্দেশক, কারণ উদাহরণগুলি নেটওয়ার্ক ব্যান্ডউইথ, ডেটা প্রস্থানের খরচ, CPU এবং নেটওয়ার্ক থেকে অতিরিক্ত খরচের ক্ষেত্রে উল্লেখযোগ্যভাবে পরিবর্তিত হয়। ডিসকাউন্ট, এবং অন্যান্য কারণ।

এআই কম্পিউট প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের উচ্চ খরচে নেভিগেট করা। উল্লম্ব অনুসন্ধান. আ.

নির্দিষ্ট হার্ডওয়্যারের কম্পিউট ক্ষমতা একটি পণ্য। সহজভাবে, আমরা মোটামুটি অভিন্ন দাম আশা করব, কিন্তু এটি এমন নয়। এবং ক্লাউডের মধ্যে উল্লেখযোগ্য বৈশিষ্ট্যের পার্থক্য বিদ্যমান থাকলেও, এগুলি ব্যাখ্যা করার জন্য অপর্যাপ্ত যে একটি অন-ডিমান্ড NVIDIA A100 এর মূল্য প্রদানকারীদের মধ্যে প্রায় 4x এর ফ্যাক্টর দ্বারা পরিবর্তিত হয়।

দামের স্কেলের শীর্ষে, বড় পাবলিক ক্লাউডগুলি ব্র্যান্ডের খ্যাতি, প্রমাণিত নির্ভরযোগ্যতা এবং কাজের চাপের বিস্তৃত পরিসর পরিচালনা করার প্রয়োজনীয়তার উপর ভিত্তি করে একটি প্রিমিয়াম চার্জ করে। ছোট স্পেশালিটি AI প্রদানকারীরা কম দামের অফার করে, হয় উদ্দেশ্য-নির্মিত ডেটা সেন্টার (যেমন, কোরওয়েভ) চালানোর মাধ্যমে বা অন্য ক্লাউডের (যেমন, ল্যাম্বদা ল্যাবস) সালিশ করে।

কার্যত বলতে গেলে, বেশিরভাগ বৃহত্তর ক্রেতারা ক্লাউড সরবরাহকারীদের সাথে সরাসরি দাম নিয়ে আলোচনা করে, প্রায়শই কিছু ন্যূনতম ব্যয়ের প্রয়োজনীয়তার পাশাপাশি ন্যূনতম সময়ের প্রতিশ্রুতি (আমরা 1-3 বছর দেখেছি)। ক্লাউডের মধ্যে দামের পার্থক্য আলোচনার পরে কিছুটা সঙ্কুচিত হয়, কিন্তু আমরা উপরের টেবিলে র‌্যাঙ্কিং তুলনামূলকভাবে স্থিতিশীল থাকতে দেখেছি। এটি লক্ষ করাও গুরুত্বপূর্ণ যে ছোট কোম্পানিগুলি বড় খরচের প্রতিশ্রুতি ছাড়াই বিশেষ ক্লাউড থেকে আক্রমণাত্মক মূল্য পেতে পারে।

উপস্থিতি: সবচেয়ে শক্তিশালী GPUs (যেমন, Nvidia A100s) গত 12-প্লাস মাস ধরে ধারাবাহিকভাবে স্বল্প সরবরাহে রয়েছে। 

শীর্ষ তিনটি ক্লাউড প্রদানকারীর বৃহৎ ক্রয়ক্ষমতা এবং সম্পদের পুল দেওয়ায় তাদের সেরা প্রাপ্যতা আছে বলে মনে করা যুক্তিযুক্ত হবে। কিন্তু, কিছুটা আশ্চর্যজনকভাবে, অনেক স্টার্টআপ এটিকে সত্য বলে খুঁজে পায়নি। বড় ক্লাউডগুলিতে প্রচুর হার্ডওয়্যার রয়েছে তবে গ্রাহকদের সন্তুষ্ট করার জন্য বড় চাহিদা রয়েছে — যেমন, Azure হল ChatGPT-এর জন্য প্রাথমিক হোস্ট — এবং চাহিদা মেটাতে ক্রমাগত যোগ/লিজিং ক্ষমতা যোগ করছে। ইতিমধ্যে, এনভিডিয়া নতুন বিশেষত্ব প্রদানকারীদের জন্য বরাদ্দ সহ সমগ্র শিল্প জুড়ে হার্ডওয়্যার বিস্তৃতভাবে উপলব্ধ করার প্রতিশ্রুতিবদ্ধ। (তারা ন্যায্য হতে এবং তাদের সাথে প্রতিযোগিতা করে এমন কিছু বড় গ্রাহকের উপর তাদের নির্ভরতা কমাতে উভয়ই করে।)

ফলস্বরূপ, অনেক স্টার্টআপ ছোট ক্লাউড সরবরাহকারীদের কাছে অত্যাধুনিক এনভিডিয়া H100 সহ আরও উপলব্ধ চিপ খুঁজে পায়। আপনি যদি একটি নতুন অবকাঠামো কোম্পানির সাথে কাজ করতে ইচ্ছুক হন, তাহলে আপনি হার্ডওয়্যারের জন্য অপেক্ষার সময় কমাতে সক্ষম হতে পারেন এবং সম্ভবত প্রক্রিয়ায় অর্থ সঞ্চয় করতে পারেন।

গণনা ডেলিভারি মডেল: বৃহৎ ক্লাউড আজ শুধুমাত্র ডেডিকেটেড GPU-এর সাথে উদাহরণ অফার করে, কারণ হল GPU ভার্চুয়ালাইজেশন এখনও একটি অমীমাংসিত সমস্যা। বিশেষায়িত AI ক্লাউডগুলি অন্যান্য মডেলগুলি অফার করে, যেমন কন্টেইনার বা ব্যাচ জব, যা একটি উদাহরণের স্টার্ট-আপ এবং টিয়ার-ডাউন খরচ ছাড়াই পৃথক কাজগুলি পরিচালনা করতে পারে। আপনি যদি এই মডেলটির সাথে স্বাচ্ছন্দ্য বোধ করেন তবে এটি খরচ কমাতে পারে।

নেটওয়ার্ক আন্তঃসংযোগ: প্রশিক্ষণের জন্য, বিশেষত, নেটওয়ার্ক ব্যান্ডউইথ প্রদানকারী নির্বাচনের একটি প্রধান কারণ। নোডের মধ্যে ডেডিকেটেড কাপড় সহ ক্লাস্টার, যেমন NVLink, কিছু বড় মডেলকে প্রশিক্ষণের জন্য প্রয়োজন। ইমেজ জেনারেশনের জন্য, এগ্রেস ট্রাফিক ফিও একটি বড় খরচ চালক হতে পারে।

গ্রাহক সমর্থন: বড় ক্লাউড প্রদানকারীরা হাজার হাজার পণ্য SKU জুড়ে গ্রাহকদের একটি বিশাল পুল পরিবেশন করে। আপনি একজন বড় গ্রাহক না হলে গ্রাহক সহায়তার দৃষ্টি আকর্ষণ করা বা সমস্যা সমাধান করা কঠিন হতে পারে। অনেক বিশেষায়িত AI ক্লাউড, অন্যদিকে, ছোট গ্রাহকদের জন্যও দ্রুত এবং প্রতিক্রিয়াশীল সমর্থন অফার করে। এটি আংশিকভাবে কারণ তারা একটি ছোট স্কেলে কাজ করছে, তবে তাদের কাজের চাপ আরও একজাত হওয়ার কারণে - তাই তারা এআই-নির্দিষ্ট বৈশিষ্ট্য এবং বাগগুলিতে ফোকাস করতে আরও উৎসাহিত হয়।

জিপিইউ তুলনা করা 

বাকি সব সমান, টপ-এন্ড জিপিইউগুলি প্রায় সমস্ত কাজের চাপে সেরা পারফর্ম করবে। যাইহোক, আপনি নীচের টেবিলে দেখতে পাচ্ছেন, সেরা হার্ডওয়্যারটিও যথেষ্ট বেশি ব্যয়বহুল। আপনার নির্দিষ্ট অ্যাপ্লিকেশানের জন্য সঠিক ধরনের GPU বাছাই করা খরচকে উল্লেখযোগ্যভাবে কমাতে পারে এবং একটি কার্যকরী এবং অব্যবহারযোগ্য ব্যবসায়িক মডেলের মধ্যে পার্থক্য করতে পারে।

এআই কম্পিউট প্লেটোব্লকচেন ডেটা ইন্টেলিজেন্সের উচ্চ খরচে নেভিগেট করা। উল্লম্ব অনুসন্ধান. আ.

তালিকাটি কতটা নিচে যেতে হবে তা নির্ধারণ করা - অর্থাৎ, আপনার অ্যাপ্লিকেশনের জন্য সবচেয়ে সাশ্রয়ী GPU পছন্দগুলি নির্ধারণ করা - মূলত একটি প্রযুক্তিগত সিদ্ধান্ত যা এই নিবন্ধের সুযোগের বাইরে। কিন্তু আমরা নিচে কিছু নির্বাচনের মানদণ্ড ভাগ করব যা আমরা দেখেছি সবচেয়ে গুরুত্বপূর্ণ:

প্রশিক্ষণ বনাম অনুমান: যেমনটি আমরা উপরের প্রথম বিভাগে দেখেছি, একটি ট্রান্সফরমার মডেল প্রশিক্ষণের জন্য মডেল ওজন ছাড়াও প্রশিক্ষণের জন্য আমাদের 8 বাইট ডেটা সঞ্চয় করতে হবে। এর মানে হল 12GB মেমরি সহ একটি সাধারণ হাই-এন্ড ভোক্তা GPU একটি 4-বিলিয়ন-প্যারামিটার মডেলকে প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে। অনুশীলনে, মেশিনের ক্লাস্টারে বড় মডেলের প্রশিক্ষণ দেওয়া হয় প্রতি সার্ভারে অনেকগুলি GPU, প্রচুর VRAM এবং সার্ভারের মধ্যে উচ্চ ব্যান্ডউইথ সংযোগ (যেমন, টপ-এন্ড ডেটা সেন্টার জিপিইউ ব্যবহার করে তৈরি ক্লাস্টার)।

বিশেষত, NVIDIA H100-এ অনেকগুলি মডেল সবচেয়ে সাশ্রয়ী হবে, কিন্তু আজকের হিসাবে এটি খুঁজে পাওয়া কঠিন এবং সাধারণত এক বছরেরও বেশি সময়ের দীর্ঘমেয়াদী প্রতিশ্রুতি প্রয়োজন। NVIDIA A100 আজ সবচেয়ে বেশি মডেল-প্রশিক্ষণ চালায়; এটি খুঁজে পাওয়া সহজ কিন্তু, বড় ক্লাস্টারগুলির জন্য, দীর্ঘমেয়াদী প্রতিশ্রুতিরও প্রয়োজন হতে পারে।

মেমরি প্রয়োজনীয়তা: বড় LLM-তে প্যারামিটারের সংখ্যা থাকে যেগুলি যে কোনও কার্ডে ফিট করার জন্য খুব বেশি। তাদের একাধিক কার্ডে বিভক্ত করতে হবে এবং প্রশিক্ষণের মতো একটি সেটআপ প্রয়োজন। অন্য কথায়, আপনার সম্ভবত LLM অনুমানের জন্য H100s বা A100s প্রয়োজন। কিন্তু ছোট মডেলের (যেমন, স্থিতিশীল বিস্তার) অনেক কম VRAM প্রয়োজন। যদিও A100 এখনও জনপ্রিয়, আমরা দেখেছি যে স্টার্টআপগুলি A10, A40, A4000, A5000 এবং A6000, এমনকি RTX কার্ড ব্যবহার করে। 

হার্ডওয়্যার সমর্থন: যদিও আমরা NVIDIA-এ চালানোর জন্য কথা বলেছি এমন কোম্পানিগুলিতে কাজের চাপের বেশিরভাগই, কিছু অন্যান্য বিক্রেতাদের সাথে পরীক্ষা করা শুরু করেছে। সবচেয়ে সাধারণ হল Google TPU, কিন্তু Intel এর Gaudi 2 কিছু ট্র্যাকশন পাচ্ছে বলে মনে হচ্ছে। এই বিক্রেতাদের সাথে চ্যালেঞ্জ হল যে আপনার মডেলের কর্মক্ষমতা প্রায়শই এই চিপগুলির জন্য সফ্টওয়্যার অপ্টিমাইজেশনের প্রাপ্যতার উপর নির্ভর করে। কর্মক্ষমতা বোঝার জন্য আপনাকে সম্ভবত একটি PoC করতে হবে।

বিলম্বের প্রয়োজনীয়তা: সাধারণভাবে, কম লেটেন্সি সংবেদনশীল ওয়ার্কলোড (যেমন, ব্যাচ ডেটা প্রসেসিং বা অ্যাপ্লিকেশন যার জন্য ইন্টারেক্টিভ UI প্রতিক্রিয়া প্রয়োজন হয় না) কম-শক্তিশালী GPU ব্যবহার করতে পারে। এটি গণনার খরচ কমাতে পারে 3-4x পর্যন্ত (যেমন, AWS-এ A100-এর সাথে A10-এর তুলনা করা)। অন্যদিকে, ব্যবহারকারী-মুখী অ্যাপগুলির একটি আকর্ষক, রিয়েল-টাইম ব্যবহারকারীর অভিজ্ঞতা প্রদানের জন্য প্রায়শই টপ-এন্ড কার্ডের প্রয়োজন হয়। একটি পরিচালনাযোগ্য পরিসরে খরচ আনার জন্য মডেলগুলিকে অপ্টিমাইজ করা প্রায়ই প্রয়োজনীয়।

স্পাইকিনেস: প্রযুক্তিটি খুবই নতুন এবং উত্তেজনাপূর্ণ হওয়ায় জেনারেটিভ এআই কোম্পানিগুলো প্রায়ই নাটকীয়ভাবে চাহিদা বৃদ্ধি পায়। একটি নতুন পণ্য প্রকাশের উপর ভিত্তি করে অনুরোধের পরিমাণ দিনে 10 গুণ বৃদ্ধি পাওয়া বা প্রতি সপ্তাহে ধারাবাহিকভাবে 50% বৃদ্ধি পাওয়া অস্বাভাবিক নয়। এই স্পাইকগুলি পরিচালনা করা প্রায়শই নিম্ন-প্রান্তের জিপিইউগুলিতে সহজ হয়, কারণ চাহিদা অনুসারে আরও কম্পিউট নোডগুলি সম্ভবত উপলব্ধ। এটি প্রায়শই বোধগম্য হয়, কম খরচের সংস্থানগুলির সাথে এই ধরণের ট্র্যাফিক পরিবেশন করা — কর্মক্ষমতার ব্যয়ে — যদি এটি কম নিযুক্ত বা কম সংযত ব্যবহারকারীদের কাছ থেকে আসে।

অপ্টিমাইজ এবং সময়সূচী মডেল

সফ্টওয়্যার অপ্টিমাইজেশানগুলি মডেলগুলির চলমান সময়কে ব্যাপকভাবে প্রভাবিত করতে পারে - এবং 10x লাভ অস্বাভাবিক নয়। যাইহোক, আপনার নির্দিষ্ট মডেল এবং সিস্টেমের সাথে কোন পদ্ধতিগুলি সবচেয়ে কার্যকর হবে তা আপনাকে নির্ধারণ করতে হবে।

কিছু কৌশল মোটামুটি বিস্তৃত মডেলের সাথে কাজ করে। সংক্ষিপ্ত ফ্লোটিং পয়েন্ট উপস্থাপনা ব্যবহার করে (যেমন, FP16 বা FP8 বনাম আসল FP32) বা কোয়ান্টাইজেশন (INT8, INT4, INT2) এমন একটি গতি অর্জন করে যা প্রায়শই বিট হ্রাসের সাথে রৈখিক হয়। এটির জন্য কখনও কখনও মডেলটি পরিবর্তন করা প্রয়োজন, কিন্তু ক্রমবর্ধমানভাবে, এমন প্রযুক্তি উপলব্ধ রয়েছে যা মিশ্র বা সংক্ষিপ্ত নির্ভুলতার সাথে স্বয়ংক্রিয়ভাবে কাজ করে। নিউরাল নেটওয়ার্ক ছাঁটাই কম মান সহ ওজন উপেক্ষা করে ওজনের সংখ্যা হ্রাস করে। একসাথে দক্ষ স্পার্স ম্যাট্রিক্স গুণনের সাথে, এটি আধুনিক জিপিইউতে একটি উল্লেখযোগ্য গতি অর্জন করতে পারে। অপ্টিমাইজেশান কৌশলগুলির আরেকটি সেট মেমরি ব্যান্ডউইথের বাধার সমাধান করে (যেমন, মডেল ওজন স্ট্রিমিং করে)।

অন্যান্য অপ্টিমাইজেশন অত্যন্ত মডেল-নির্দিষ্ট। উদাহরণস্বরূপ, স্থিতিশীল প্রসারণ অনুমানের জন্য প্রয়োজনীয় VRAM পরিমাণে বড় অগ্রগতি করেছে। তবুও অপ্টিমাইজেশনের আরেকটি শ্রেণী হল হার্ডওয়্যার-নির্দিষ্ট। NVIDIA-এর TensorML-এ অনেকগুলি অপ্টিমাইজেশন রয়েছে, কিন্তু শুধুমাত্র NVIDIA হার্ডওয়্যারে কাজ করবে। শেষ, কিন্তু অন্তত নয়, AI টাস্কগুলির সময়সূচী বিশাল কর্মক্ষমতা বাধা বা উন্নতি তৈরি করতে পারে। ওজনের অদলবদল কমানোর উপায়ে জিপিইউতে মডেল বরাদ্দ করা, একাধিক কাজ পাওয়া গেলে একটি কাজের জন্য সেরা জিপিইউ বাছাই করা এবং কাজের চাপ আগে থেকে ব্যাচ করে ডাউনটাইম কমানো সাধারণ কৌশল।

শেষ পর্যন্ত, মডেল অপ্টিমাইজেশান এখনও কিছুটা কালো শিল্প, এবং বেশিরভাগ স্টার্টআপের সাথে আমরা এই সফ্টওয়্যার দিকগুলির কয়েকটিতে সহায়তা করার জন্য তৃতীয় পক্ষের সাথে কাজ করার জন্য কথা বলি। প্রায়শই, এগুলি প্রথাগত MLops বিক্রেতা নয়, বরং এর পরিবর্তে এমন কোম্পানি যারা নির্দিষ্ট জেনারেটিভ মডেলের (যেমন, OctoML বা SegMind) জন্য অপ্টিমাইজেশানে বিশেষজ্ঞ।

কিভাবে AI অবকাঠামো খরচ বিকশিত হবে?

গত কয়েক বছরে, আমরা উভয়েরই সূচকীয় বৃদ্ধি দেখেছি মডেল পরামিতি এবং GPU কম্পিউট পাওয়ার. এই ধারা অব্যাহত থাকবে কিনা তা স্পষ্ট নয়।

আজ, এটি ব্যাপকভাবে স্বীকৃত যে সর্বোত্তম সংখ্যক প্যারামিটার এবং প্রশিক্ষণ ডেটা সেটের আকারের মধ্যে একটি সম্পর্ক রয়েছে (দেখুন ডিপমাইন্ডস চিনচিলা এই বিষয়ে আরও কাজ করুন)। সেরা এলএলএমদের আজ প্রশিক্ষণ দেওয়া হয় সাধারণ ক্রল (4.5 বিলিয়ন ওয়েব পৃষ্ঠাগুলির একটি সংগ্রহ, বা বিদ্যমান সমস্ত ওয়েব পৃষ্ঠাগুলির প্রায় 10%)। প্রশিক্ষণ সংস্থায় উইকিপিডিয়া এবং বইয়ের একটি সংগ্রহও রয়েছে, যদিও উভয়ই অনেক ছোট (অস্তিত্বে থাকা বইয়ের মোট সংখ্যা অনুমান করা হয় মাত্র 100 মিলিয়নের কাছাকাছি) অন্যান্য ধারণা, যেমন ভিডিও বা অডিও বিষয়বস্তু প্রতিলিপি করার পরামর্শ দেওয়া হয়েছে, কিন্তু এগুলোর কোনোটিই আকারের কাছাকাছি আসে না। এটি পরিষ্কার নয় যে আমরা একটি নন-সিন্থেটিক প্রশিক্ষণ ডেটাসেট পেতে পারি যা ইতিমধ্যে ব্যবহৃত হয়েছে তার চেয়ে 10x বড়।

GPU কর্মক্ষমতা বাড়তে থাকবে, তবে ধীর গতিতেও। আরও ট্রানজিস্টর এবং আরও কোর তৈরির জন্য মুরের আইন এখনও অক্ষত, কিন্তু শক্তি এবং I/O সীমিত কারণ হয়ে উঠছে। উপরন্তু, অপ্টিমাইজেশনের জন্য অনেক কম ঝুলন্ত ফল বাছাই করা হয়েছে। 

যাইহোক, এর কোনটির মানেই আমরা গণনার ক্ষমতার চাহিদা বৃদ্ধির আশা করি না। এমনকি মডেল এবং প্রশিক্ষণ সেটের বৃদ্ধি ধীর হয়ে গেলেও, AI শিল্পের বৃদ্ধি এবং AI ডেভেলপারদের সংখ্যা বৃদ্ধি আরও এবং দ্রুত GPU-এর চাহিদা বাড়িয়ে তুলবে। GPU ক্ষমতার একটি বৃহৎ ভগ্নাংশ একটি মডেলের বিকাশের পর্যায়ে ডেভেলপারদের দ্বারা পরীক্ষার জন্য ব্যবহৃত হয় এবং এই চাহিদাটি হেডকাউন্টের সাথে রৈখিকভাবে বৃদ্ধি পায়। আমাদের আজ যে জিপিইউ ঘাটতি রয়েছে তা অদূর ভবিষ্যতে হ্রাস পাবে এমন কোনও লক্ষণ নেই।

AI পরিকাঠামোর এই ক্রমাগত উচ্চ ব্যয় কি এমন একটি পরিখা তৈরি করবে যা নতুন প্রবেশকারীদের পক্ষে ভাল অর্থায়নে দায়িত্বপ্রাপ্তদের সাথে ধরা অসম্ভব করে তোলে? এই প্রশ্নের উত্তর আমরা এখনো জানি না। এলএলএম-এর প্রশিক্ষণের খরচ আজ পরিখার মতো দেখতে হতে পারে, কিন্তু আলপাকা বা স্থিতিশীল ডিফিউশনের মতো ওপেন সোর্স মডেলগুলি দেখিয়েছে যে এই বাজারগুলি এখনও প্রাথমিক এবং দ্রুত পরিবর্তন হতে পারে। সময়ের সাথে সাথে, উদীয়মান এআই সফ্টওয়্যার স্ট্যাকের ব্যয় কাঠামো (আমাদের আগের পোস্ট দেখুন) ঐতিহ্যগত সফ্টওয়্যার শিল্পের মতো দেখতে শুরু করতে পারে। 

শেষ পর্যন্ত, এটি একটি ভাল জিনিস হবে: ইতিহাস দেখায় যে এটি দ্রুত উদ্ভাবন এবং উদ্যোক্তা প্রতিষ্ঠাতাদের জন্য প্রচুর সুযোগ সহ প্রাণবন্ত বাস্তুতন্ত্রের দিকে নিয়ে যায়।

লেখার প্রক্রিয়া চলাকালীন তাদের ইনপুট এবং নির্দেশনার জন্য মইন নাদিম এবং শাংদা জুকে ধন্যবাদ।


¹ এখানে অন্তর্দৃষ্টি হল যে একটি নিউরাল নেটওয়ার্কে যেকোনো প্যারামিটারের (যেমন ওজন) জন্য, একটি অনুমান অপারেশন (অর্থাৎ ফরোয়ার্ড পাস) প্রতি প্যারামিটারে দুটি ফ্লোটিং পয়েন্ট অপারেশন করতে হবে। প্রথমত, এটি নিউরাল নেটওয়ার্কের ইনপুট নোডের মানকে প্যারামিটারের সাথে গুণ করে। দ্বিতীয়ত, এটি নিউরাল নেটওয়ার্কের আউটপুট নোডে যোগফলের ফলাফল যোগ করে। এনকোডারের প্যারামিটারগুলি প্রতি ইনপুট টোকেনে একবার ব্যবহার করা হয় এবং ডিকোডারের প্যারামিটারগুলি প্রতি আউটপুট টোকেনে একবার ব্যবহার করা হয়। আমরা যদি ধরে নিই একটি মডেল আছে p পরামিতি এবং ইনপুট এবং আউটপুট উভয়েরই একটি দৈর্ঘ্য রয়েছে n টোকেন, মোট ফ্লোটিং পয়েন্ট অপারেশন হয় n * পি. অন্যান্য অনেক ক্রিয়াকলাপ রয়েছে (যেমন স্বাভাবিকীকরণ, এমবেডিং এনকোডিং/ডিকোডিং) যেগুলি একটি মডেলে ঘটে, তবে সেগুলি সম্পাদন করতে যে সময় লাগে তা তুলনামূলকভাবে খুব কম। 

² শেখার জন্য প্রথমে উপরে বর্ণিত ট্রান্সফরমারের মধ্য দিয়ে একটি ফরোয়ার্ড পাস প্রয়োজন, তারপরে একটি ব্যাকওয়ার্ড পাস যা গ্রেডিয়েন্ট গণনা করতে এবং ওজন সামঞ্জস্য করতে প্রতি প্যারামিটারে চারটি অতিরিক্ত ক্রিয়াকলাপ বহন করে। মনে রাখবেন যে গ্রেডিয়েন্ট গণনা করার জন্য ফরওয়ার্ড পাস থেকে গণনা করা নোডের মানগুলি সংরক্ষণ করা প্রয়োজন। GPT-3 এর জন্য, ভাষার মডেলগুলি অল্প-শট লার্নার্স প্রশিক্ষণ খরচ আলোচনা.

* * * *

এখানে যে মতামত প্রকাশ করা হয়েছে তা হল স্বতন্ত্র AH Capital Management, LLC (“a16z”) কর্মীদের উদ্ধৃত এবং a16z বা এর সহযোগীদের মতামত নয়। এখানে থাকা কিছু তথ্য তৃতীয় পক্ষের উত্স থেকে প্রাপ্ত হয়েছে, যার মধ্যে a16z দ্বারা পরিচালিত তহবিলের পোর্টফোলিও কোম্পানিগুলি থেকে। নির্ভরযোগ্য বলে বিশ্বাস করা উৎস থেকে নেওয়া হলেও, a16z এই ধরনের তথ্য স্বাধীনভাবে যাচাই করেনি এবং তথ্যের স্থায়ী নির্ভুলতা বা প্রদত্ত পরিস্থিতির জন্য এর উপযুক্ততা সম্পর্কে কোনো উপস্থাপনা করেনি। উপরন্তু, এই বিষয়বস্তু তৃতীয় পক্ষের বিজ্ঞাপন অন্তর্ভুক্ত করতে পারে; a16z এই ধরনের বিজ্ঞাপন পর্যালোচনা করেনি এবং এতে থাকা কোনো বিজ্ঞাপন সামগ্রীকে সমর্থন করে না।

এই বিষয়বস্তু শুধুমাত্র তথ্যগত উদ্দেশ্যে প্রদান করা হয়, এবং আইনি, ব্যবসা, বিনিয়োগ, বা ট্যাক্স পরামর্শ হিসাবে নির্ভর করা উচিত নয়। এই বিষয়গুলি সম্পর্কে আপনার নিজের উপদেষ্টাদের সাথে পরামর্শ করা উচিত। যেকোন সিকিউরিটিজ বা ডিজিটাল সম্পদের রেফারেন্স শুধুমাত্র দৃষ্টান্তমূলক উদ্দেশ্যে, এবং বিনিয়োগের পরামর্শ বা বিনিয়োগ উপদেষ্টা পরিষেবা প্রদানের প্রস্তাব গঠন করে না। তদ্ব্যতীত, এই বিষয়বস্তু কোন বিনিয়োগকারী বা সম্ভাব্য বিনিয়োগকারীদের দ্বারা নির্দেশিত বা ব্যবহারের উদ্দেশ্যে নয় এবং a16z দ্বারা পরিচালিত যেকোন তহবিলে বিনিয়োগ করার সিদ্ধান্ত নেওয়ার সময় কোনও পরিস্থিতিতে নির্ভর করা যাবে না৷ (একটি a16z তহবিলে বিনিয়োগের প্রস্তাব শুধুমাত্র প্রাইভেট প্লেসমেন্ট মেমোরেন্ডাম, সাবস্ক্রিপশন চুক্তি, এবং এই ধরনের যেকোন তহবিলের অন্যান্য প্রাসঙ্গিক ডকুমেন্টেশন দ্বারা তৈরি করা হবে এবং তাদের সম্পূর্ণরূপে পড়া উচিত।) উল্লেখ করা যেকোন বিনিয়োগ বা পোর্টফোলিও কোম্পানিগুলি, বা বর্ণিতগুলি a16z দ্বারা পরিচালিত যানবাহনে সমস্ত বিনিয়োগের প্রতিনিধি নয়, এবং বিনিয়োগগুলি লাভজনক হবে বা ভবিষ্যতে করা অন্যান্য বিনিয়োগের একই বৈশিষ্ট্য বা ফলাফল থাকবে এমন কোনও নিশ্চয়তা থাকতে পারে না। Andreessen Horowitz দ্বারা পরিচালিত তহবিল দ্বারা করা বিনিয়োগের একটি তালিকা (যেসব বিনিয়োগের জন্য ইস্যুকারী a16z-এর জন্য সর্বজনীনভাবে প্রকাশ করার অনুমতি দেয়নি এবং সেইসাথে সর্বজনীনভাবে ব্যবসা করা ডিজিটাল সম্পদগুলিতে অঘোষিত বিনিয়োগগুলি ব্যতীত) https://a16z.com/investments-এ উপলব্ধ /।

এর মধ্যে প্রদত্ত চার্ট এবং গ্রাফগুলি শুধুমাত্র তথ্যের উদ্দেশ্যে এবং কোন বিনিয়োগ সিদ্ধান্ত নেওয়ার সময় তার উপর নির্ভর করা উচিত নয়। বিগত কর্মক্ষমতা ভবিষ্যতের ফলাফল পরিচায়ক হয় না। বিষয়বস্তু শুধুমাত্র নির্দেশিত তারিখ হিসাবে কথা বলে. এই উপকরণগুলিতে প্রকাশিত যেকোন অনুমান, অনুমান, পূর্বাভাস, লক্ষ্য, সম্ভাবনা এবং/অথবা মতামত বিজ্ঞপ্তি ছাড়াই পরিবর্তন সাপেক্ষে এবং অন্যদের দ্বারা প্রকাশিত মতামতের সাথে ভিন্ন বা বিপরীত হতে পারে। অতিরিক্ত গুরুত্বপূর্ণ তথ্যের জন্য দয়া করে https://a16z.com/disclosures দেখুন।

সময় স্ট্যাম্প:

থেকে আরো আন্দ্রেসেন হরোয়েজ্জ