এনভিডিয়া: ভবিষ্যতে সফ্টওয়্যারটি কেবলমাত্র এলএলএমগুলির একটি সংগ্রহ

এনভিডিয়া: ভবিষ্যতে সফ্টওয়্যারটি কেবলমাত্র এলএলএমগুলির একটি সংগ্রহ

এনভিডিয়া: ভবিষ্যতে সফ্টওয়্যারটি LLMs PlatoBlockchain ডেটা ইন্টেলিজেন্সের একটি সংগ্রহ মাত্র৷ উল্লম্ব অনুসন্ধান. আ.

কোড লিখতে সাহায্য করার জন্য বড় ভাষা মডেল (LLMs) ব্যবহার করবেন না, এনভিডিয়ার সিইও জেনসেন হুয়াং বিশ্বাস করেন যে ভবিষ্যতে, এন্টারপ্রাইজ সফ্টওয়্যার কাজটি সম্পূর্ণ করার জন্য একসাথে চ্যাট বটগুলির একটি সংগ্রহ হবে৷

"এটা অসম্ভাব্য যে আপনি এটি স্ক্র্যাচ থেকে লিখবেন বা পাইথন কোডের পুরো গুচ্ছ বা এই জাতীয় কিছু লিখবেন," তিনি তার জিটিসি চলাকালীন মঞ্চে বলেছিলেন। তান সোমবার। "এটি খুব সম্ভবত আপনি AI এর একটি দলকে একত্রিত করবেন।"

এই এআই দল, জেনসেন ব্যাখ্যা করে, এমন একটি মডেল অন্তর্ভুক্ত থাকতে পারে যা ভেঙে ফেলার জন্য ডিজাইন করা হয়েছে এবং অন্যান্য বিভিন্ন মডেলের কাছে একটি অনুরোধ অর্পণ করতে পারে। এই মডেলগুলির মধ্যে কিছু SAP বা Service Now এর মতো ব্যবসায়িক পরিষেবাগুলি বোঝার জন্য প্রশিক্ষিত হতে পারে, অন্যরা একটি ভেক্টর ডাটাবেসে সংরক্ষিত ডেটার সংখ্যাগত বিশ্লেষণ করতে পারে। তারপরে এই ডেটা একত্রিত করা যেতে পারে এবং অন্য মডেলের মাধ্যমে শেষ ব্যবহারকারীর কাছে উপস্থাপন করা যেতে পারে।

"আমরা প্রতিদিন একটি প্রতিবেদন পেতে পারি বা আপনি জানেন যে ঘন্টার শীর্ষে যা একটি বিল্ড প্ল্যান, বা কিছু পূর্বাভাস, বা কিছু গ্রাহক সতর্কতা, বা কিছু বাগ ডাটাবেস বা যা কিছু ঘটতে পারে তার সাথে কিছু করার আছে," তিনি ব্যাখ্যা করেছিলেন

এই সমস্ত মডেলগুলিকে একসাথে চেইন করার জন্য, এনভিডিয়া ডকারের বই থেকে একটি পৃষ্ঠা নিচ্ছে এবং AI এর জন্য একটি কন্টেইনার রানটাইম তৈরি করেছে।

এনভিডিয়া ইনফারেন্স মাইক্রোসার্ভিসেস, বা সংক্ষেপে এনআইএম ডাব করা, এগুলি মূলত কন্টেইনার ইমেজ যা উভয় মডেলকে ধারণ করে, তা ওপেন সোর্স হোক বা মালিকানাধীন, এবং এটি চালানোর জন্য প্রয়োজনীয় সমস্ত নির্ভরতা সহ। এই কন্টেইনারাইজড মডেলগুলি তারপর Nvidia-এক্সিলারেটেড Kubernetes নোড সহ যেকোন সংখ্যক রানটাইম জুড়ে স্থাপন করা যেতে পারে।

“আপনি এটিকে ডিজিএক্স ক্লাউড নামক আমাদের অবকাঠামোতে স্থাপন করতে পারেন, অথবা আপনি এটিকে প্রিম-এ স্থাপন করতে পারেন, অথবা আপনি যে কোনো জায়গায় এটি স্থাপন করতে পারেন। একবার আপনি এটি বিকাশ করলে, এটি আপনার যে কোনও জায়গায় নিয়ে যাওয়া,” জেনসেন বলেছিলেন।

অবশ্যই, আপনাকে প্রথমে এনভিডিয়ার এআই এন্টারপ্রাইজ স্যুটে সাবস্ক্রিপশনের প্রয়োজন হবে, যা প্রতি GPU $4,500/বছরে বা ক্লাউডে প্রতি GPU-এ $1/ঘণ্টাতে একেবারে সস্তা নয়। এই মূল্য নির্ধারণের কৌশলটি সাধারণভাবে ঘন উচ্চ কর্মক্ষমতা সিস্টেমকে উত্সাহিত করবে বলে মনে হবে কারণ আপনি L40 এ চালাচ্ছেন কিনা তা নির্বিশেষে এটির দাম একই। B100s.

GPU ত্বরান্বিত ওয়ার্কলোডগুলিকে কন্টেনারাইজ করার ধারণাটি পরিচিত মনে হলে, এটি এনভিডিয়ার জন্য একেবারে নতুন ধারণা নয়। চুদার ত্বরণ হয়েছে সমর্থিত ডকার, পডম্যান, কনটেইনারড, বা সিআরআই-ও সহ বিভিন্ন ধরণের কন্টেইনার রানটাইমে বছরের পর বছর ধরে, এবং দেখে মনে হচ্ছে না যে এনভিডিয়ার কন্টেইনার রানটাইম কোথাও যাচ্ছে।

এনআইএম-এর পিছনে মান প্রস্তাবটি মনে হচ্ছে যে এনভিডিয়া এই মডেলগুলির প্যাকেজিং এবং অপ্টিমাইজেশন পরিচালনা করবে যাতে তাদের মধ্যে সেরা পারফরম্যান্স পাওয়ার জন্য প্রয়োজনীয় CUDA, Triton Inference Server, বা TensorRT LLM-এর সঠিক সংস্করণ থাকে।

যুক্তি হল যে যদি এনভিডিয়া এমন একটি আপডেট প্রকাশ করে যা নাটকীয়ভাবে নির্দিষ্ট মডেলের ধরনগুলির অনুমান কার্যক্ষমতা বাড়ায়, সেই কার্যকারিতার সুবিধা গ্রহণের জন্য কেবলমাত্র সর্বশেষ এনআইএম ইমেজটি টানতে হবে।

হার্ডওয়্যার নির্দিষ্ট মডেল অপ্টিমাইজেশন ছাড়াও, এনভিডিয়া কনটেইনারগুলির মধ্যে সামঞ্জস্যপূর্ণ যোগাযোগ সক্ষম করার জন্যও কাজ করছে, যাতে তারা API কলের মাধ্যমে একে অপরের সাথে চ্যাট করতে পারে।

আমরা এটি বুঝতে পেরেছি, বর্তমানে বাজারে বিভিন্ন এআই মডেলের দ্বারা ব্যবহৃত API কলগুলি সর্বদা সামঞ্জস্যপূর্ণ নয় যার ফলে কিছু মডেলকে একসাথে স্ট্রিং করা সহজ হয় এবং অন্যদের জন্য অতিরিক্ত কাজের প্রয়োজন হতে পারে।

সাধারণ উদ্দেশ্য মডেলগুলিতে প্রাতিষ্ঠানিক জ্ঞান ধার দেওয়া

যে কেউ একটি AI চ্যাটবট ব্যবহার করেছে তারা জানবে যে যদিও তারা সাধারণত সাধারণ জ্ঞানের প্রশ্নগুলির সাথে বেশ ভাল থাকে, তবে তারা সবসময় অস্পষ্ট বা প্রযুক্তিগত অনুরোধগুলির সাথে সবচেয়ে নির্ভরযোগ্য হয় না।

জেনসেন তার মূল বক্তব্যের সময় এই সত্যটি তুলে ধরেন। Nvidia-এর মধ্যে ব্যবহৃত একটি অভ্যন্তরীণ প্রোগ্রাম সম্পর্কে জিজ্ঞাসা করা হলে, Meta's Llama 2 70B বড় ভাষার মডেলটি আশ্চর্যজনকভাবে একটি সম্পর্কহীন শব্দের সংজ্ঞা প্রদান করেছে।

এন্টারপ্রাইজগুলিকে তাদের নিজস্ব মডেলগুলিকে প্রশিক্ষিত করার চেষ্টা করার পরিবর্তে - এমন কিছু যা প্রচুর GPU বিক্রি করবে কিন্তু অ্যাড্রেসযোগ্য বাজারকে যথেষ্ট পরিমাণে সীমিত করবে — Nvidia গ্রাহক ডেটা এবং প্রক্রিয়াগুলির সাথে তার NIMগুলিকে সূক্ষ্ম সুর করার জন্য সরঞ্জামগুলি তৈরি করেছে৷

“আমাদের NeMo Microservices নামে একটি পরিষেবা রয়েছে যা আপনাকে ডেটা কিউরেট করতে, ডেটা প্রস্তুত করতে সাহায্য করে যাতে আপনি এই AI-তে যেতে পারেন৷ আপনি এটি ভাল সুর এবং তারপর আপনি এটি পাহার; তারপরে আপনি মূল্যায়ন করতে পারেন... অন্যান্য অন্যান্য উদাহরণের বিপরীতে এর কর্মক্ষমতা,” হুয়াং ব্যাখ্যা করেছেন।

তিনি Nvidia-এর NeMo Retriever পরিষেবা নিয়েও কথা বলেছেন যা মডেলটিকে বিশেষভাবে প্রশিক্ষিত করা হয়নি এমন তথ্যের উপর ভিত্তি করে পুনরুদ্ধার অগমেন্টেড জেনারেশন (RAG) ব্যবহার করার ধারণার উপর ভিত্তি করে।

এখানে ধারণাটি হল নথি, প্রক্রিয়া এবং অন্যান্য ডেটা মডেলের সাথে সংযুক্ত একটি ভেক্টর ডাটাবেসে লোড করা যেতে পারে। একটি প্রশ্নের উপর ভিত্তি করে, মডেলটি তারপর সেই ডাটাবেসটি অনুসন্ধান করতে পারে, পুনরুদ্ধার করতে পারে এবং প্রাসঙ্গিক তথ্য সংক্ষিপ্ত করতে পারে।

NIM মডেল এবং NeMo Retriever একত্রিত করার জন্য RAGs এখন উপলব্ধ, যখন NeMo Microservices প্রাথমিক অ্যাক্সেসে রয়েছে। ®

সময় স্ট্যাম্প:

থেকে আরো নিবন্ধনকর্মী