Nvidia: در آینده نرم افزار فقط مجموعه ای از LLM ها است

Nvidia: در آینده نرم افزار فقط مجموعه ای از LLM ها است

Nvidia: در آینده نرم افزار فقط مجموعه ای از LLMs PlatoBlockchain Data Intelligence است. جستجوی عمودی Ai.

جنسن هوانگ، مدیرعامل انویدیا معتقد است که در آینده، نرم‌افزار سازمانی فقط مجموعه‌ای از ربات‌های چت است که برای تکمیل این کار به هم متصل شده‌اند.

او روی صحنه در جریان GTC خود گفت: "بعید است که شما آن را از ابتدا بنویسید یا یک دسته کامل از کدهای پایتون یا هر چیز دیگری بنویسید." مفتاح دوشنبه. "به احتمال زیاد شما تیمی از هوش مصنوعی را جمع آوری کنید."

جنسن توضیح می دهد که این تیم هوش مصنوعی ممکن است شامل مدلی باشد که برای تجزیه و تفویض یک درخواست به مدل های مختلف دیگر طراحی شده است. برخی از این مدل ها ممکن است برای درک خدمات تجاری مانند SAP یا Service Now آموزش دیده باشند، در حالی که برخی دیگر ممکن است تجزیه و تحلیل عددی را روی داده های ذخیره شده در یک پایگاه داده برداری انجام دهند. سپس این داده ها را می توان با یک مدل دیگر ترکیب کرد و به کاربر نهایی ارائه کرد.

او توضیح داد: «ما می‌توانیم هر روز گزارشی دریافت کنیم، یا می‌دانید، در اوج ساعت که ارتباطی با یک برنامه ساخت، یا برخی پیش‌بینی‌ها، یا برخی هشدارهای مشتری، یا برخی پایگاه‌داده‌های اشکالات یا هر چیز دیگری دارد، داشته باشیم.

انویدیا برای زنجیره‌ای کردن همه این مدل‌ها، صفحه‌ای از کتاب Docker را برداشته و یک زمان اجرا برای هوش مصنوعی ایجاد کرده است.

اینها که Nvidia Inference Microservices یا به اختصار NIM نامیده می‌شوند، اساساً تصاویر محفظه‌ای هستند که هر دو مدل را، چه منبع باز یا اختصاصی، به همراه تمام وابستگی‌های لازم برای اجرای آن را در بر می‌گیرند. سپس این مدل‌های کانتینری می‌توانند در هر تعداد زمان اجرا، از جمله گره‌های Kubernetes شتاب‌دهنده Nvidia، مستقر شوند.

شما می توانید آن را در زیرساخت ما به نام DGX Cloud استقرار دهید، یا می توانید آن را در prem مستقر کنید، یا می توانید آن را در هر جایی که دوست دارید استقرار دهید. هنگامی که آن را توسعه دادید، هر جا به عهده شماست، می توانید آن را ببرید.” جنسن گفت.

البته، ابتدا به یک اشتراک در مجموعه AI Enterprise انویدیا نیاز دارید، که دقیقاً ارزان نیست و 4,500 دلار در سال به ازای هر GPU یا 1 دلار در ساعت به ازای هر GPU در فضای ابری است. به نظر می‌رسد این استراتژی قیمت‌گذاری به طور کلی سیستم‌های متراکم‌تر با عملکرد بالاتر را تشویق می‌کند، زیرا صرف نظر از اینکه روی L40s کار می‌کنید یا خیر، هزینه یکسانی دارد. B100s.

اگر ایده کانتینری‌سازی بارهای کاری سریع‌شده GPU آشنا به نظر می‌رسد، این دقیقاً ایده جدیدی برای Nvidia نیست. شتاب CUDA بوده است پشتیبانی در طیف گسترده‌ای از زمان‌های اجرا کانتینر، از جمله Docker، Podman، Containerd، یا CRI-O برای سال‌ها، و به نظر نمی‌رسد که Nvidia Container Runtime به جایی برسد.

به نظر می رسد ارزش پیشنهادی پشت NIM این است که انویدیا بسته بندی و بهینه سازی این مدل ها را انجام می دهد تا نسخه مناسب CUDA، Triton Inference Server یا TensorRT LLM را داشته باشند که برای به دست آوردن بهترین عملکرد از آنها ضروری است.

استدلال این است که اگر انویدیا به‌روزرسانی‌ای را منتشر کند که عملکرد استنتاج انواع مدل‌های خاص را به طور چشمگیری افزایش دهد، استفاده از آن عملکرد فقط مستلزم پایین کشیدن آخرین تصویر NIM است.

علاوه بر بهینه‌سازی مدل‌های خاص سخت‌افزاری، انویدیا همچنین در حال کار بر روی فعال کردن ارتباطات ثابت بین کانتینرها است تا بتوانند از طریق تماس‌های API با یکدیگر چت کنند.

همانطور که می‌دانیم، فراخوان‌های API که امروزه توسط مدل‌های هوش مصنوعی مختلف موجود در بازار استفاده می‌شوند، همیشه ثابت نیستند و در نتیجه ترکیب کردن برخی از مدل‌ها آسان‌تر است و برخی دیگر ممکن است به کار بیشتری نیاز داشته باشند.

وام دادن دانش نهادی به مدل‌های هدف عمومی

هرکسی که از یک ربات چت هوش مصنوعی استفاده کرده باشد، می‌داند که اگرچه معمولاً با سؤالات دانش عمومی بسیار خوب هستند، اما همیشه با درخواست‌های مبهم یا فنی قابل اعتمادترین نیستند.

جنسن این واقعیت را در طول سخنرانی خود برجسته کرد. در مورد یک برنامه داخلی مورد استفاده در انویدیا، مدل زبان بزرگ Llama 2 70B متا به طرز عجیبی تعریفی را برای یک اصطلاح نامرتبط ارائه کرد.

انویدیا به جای تلاش برای ترغیب شرکت‌ها به آموزش مدل‌های خود - چیزی که پردازنده‌های گرافیکی زیادی را به فروش می‌رساند اما بازار آدرس‌پذیر را به میزان قابل توجهی محدود می‌کند - ابزارهایی را برای تنظیم دقیق NIM‌های خود با داده‌ها و فرآیندهای مشتری توسعه داده است.

ما سرویسی به نام NeMo Microservices داریم که به شما کمک می‌کند داده‌ها را مدیریت کنید، داده‌ها را آماده کنید تا بتوانید روی این هوش مصنوعی... شما آن را به خوبی تنظیم می کنید و سپس آن را حفاظ می کنید. پس از آن می توانید عملکرد آن را در مقایسه با نمونه های دیگر ارزیابی کنید.

او همچنین در مورد سرویس NeMo Retriever انویدیا صحبت کرد که مبتنی بر مفهوم استفاده از نسل افزوده بازیابی (RAG) برای نشان دادن اطلاعاتی است که مدل به طور خاص روی آن آموزش ندیده است.

ایده در اینجا این است که اسناد، فرآیندها و سایر داده ها را می توان در یک پایگاه داده برداری که به مدل متصل است بارگذاری کرد. بر اساس یک پرس و جو، مدل سپس می تواند آن پایگاه داده را جستجو کند، اطلاعات مربوطه را بازیابی و خلاصه کند.

مدل‌های NIM و NeMo Retriever برای ادغام RAGها در حال حاضر در دسترس هستند، در حالی که NeMo Microservices در دسترس است. ®

تمبر زمان:

بیشتر از ثبت نام