Nvidia: A jövőben a szoftver csak az LLM-ek gyűjteménye

Nvidia: A jövőben a szoftver csak az LLM-ek gyűjteménye

Nvidia: In the future software is just a collection of LLMs PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Az Nvidia vezérigazgatója, Jensen Huang úgy véli, hogy a jövőben a vállalati szoftverek csak a chat-botok gyűjteménye lesz, amelyeket a feladat elvégzéséhez összefűzve használnak nagy nyelvi modelleket (LLM) a kódíráshoz.

„Nem valószínű, hogy a semmiből fogod megírni, vagy egy csomó Python kódot vagy bármi hasonlót” – mondta a színpadon a GTC alatt. alaphang Hétfő. "Nagyon valószínű, hogy összeállít egy MI-csapatot."

Ez az AI-csapat, magyarázza Jensen, tartalmazhat egy olyan modellt, amelyet arra terveztek, hogy lebontja és átadja a kéréseket számos más modellnek. E modellek némelyike ​​az üzleti szolgáltatások, például az SAP vagy a Service Now megértésére tanítható, míg mások numerikus elemzést végezhetnek a vektoros adatbázisban tárolt adatokon. Ezek az adatok azután kombinálhatók, és egy másik modell segítségével bemutathatók a végfelhasználónak.

„Minden nap kaphatunk jelentést, vagy az óra tetején, aminek köze van egy építési tervhez, vagy valamilyen előrejelzéshez, vagy valamilyen ügyfélriasztáshoz, vagy valamilyen hibaadatbázishoz vagy bármihez” – magyarázta.

A modellek összekapcsolásához az Nvidia kivesz egy oldalt a Docker könyvéből, és létrehozott egy konténer futtatókörnyezetet az AI számára.

Az Nvidia Inference Microservices-nek vagy röviden NIM-nek nevezett konténerképek, amelyek mindkét modellt tartalmazzák, legyen az nyílt forráskódú vagy szabadalmaztatott, valamint a működéséhez szükséges összes függőséget. Ezek a konténeres modellek ezután tetszőleges számú futási környezetben üzembe helyezhetők, beleértve az Nvidia által gyorsított Kubernetes csomópontokat is.

„Telepítheti a DGX Cloud nevű infrastruktúránkon, vagy üzembe helyezheti prem-en, vagy bárhová telepítheti, ahol csak akarja. Ha egyszer kifejleszted, a tiéd, bárhová elviheted” – mondta Jensen.

Természetesen először elő kell fizetni az Nvidia AI Enterprise csomagjára, ami nem éppen olcsó, GPU-nként évi 4,500 dollár vagy GPU-nként óránként 1 dollár a felhőben. Úgy tűnik, hogy ez az árstratégia általában a sűrűbb, nagyobb teljesítményű rendszereket ösztönzi, mivel ugyanannyiba kerül, függetlenül attól, hogy L40-es vagy B100-asok.

Ha a GPU-gyorsított munkaterhelések konténerbe helyezésének ötlete ismerősen hangzik, ez nem teljesen új ötlet az Nvidia számára. CUDA gyorsulás volt támogatott sokféle konténer-futtatókörnyezetben, például Docker, Podman, Containerd vagy CRI-O évek óta, és nem úgy tűnik, hogy az Nvidia Container Runtime bárhová is vezet.

Úgy tűnik, a NIM mögött meghúzódó értékajánlat az, hogy az Nvidia fogja kezelni ezeknek a modelleknek a csomagolását és optimalizálását, hogy a CUDA, a Triton Inference Server vagy a TensorRT LLM megfelelő verziójával rendelkezzenek, amely szükséges a legjobb teljesítmény eléréséhez.

Az érv az, hogy ha az Nvidia olyan frissítést ad ki, amely drasztikusan megnöveli bizonyos modelltípusok következtetési teljesítményét, akkor ennek a funkciónak a kihasználásához csak a legújabb NIM-kép letöltésére lenne szükség.

A hardverspecifikus modelloptimalizálások mellett az Nvidia azon is dolgozik, hogy lehetővé tegye a konténerek közötti konzisztens kommunikációt, hogy azok API-hívásokon keresztül cseveghessenek egymással.

Értesülésünk szerint a piacon lévő különféle AI-modellek által használt API-hívások nem mindig következetesek, ami azt eredményezi, hogy egyes modelleket könnyebb összefűzni, míg mások további munkát igényelhetnek.

Intézményi ismeretek kölcsönzése általános célú modellekhez

Bárki, aki használt már mesterséges intelligencia csevegőbotot, tudja, hogy bár általában elég jók az általános ismeretekkel kapcsolatos kérdésekben, nem mindig a legmegbízhatóbbak a homályos vagy technikai kérések esetén.

Jensen kiemelte ezt a tényt vitaindítójában. Az Nvidián belül használt belső programra vonatkozó kérdésre a Meta Llama 2 70B nagy nyelvi modellje nem meglepő módon egy nem kapcsolódó kifejezés definícióját adta meg.

Ahelyett, hogy megpróbálná rávenni a vállalatokat saját modelljeik képzésére – ami sok GPU-t adna el, de jelentősen korlátozná a megszólítható piacot – az Nvidia eszközöket fejlesztett ki a NIM-ek finomhangolására az ügyfelek adataival és folyamataival.

„Van egy NeMo Microservices nevű szolgáltatásunk, amely segít összegyűjteni az adatokat, előkészíteni az adatokat, hogy… bekapcsolódhasson az AI-ba. Finomhangolja, majd védőkorlátba helyezi; akkor értékelheti… a teljesítményét más példákkal összehasonlítva” – magyarázta Huang.

Beszélt az Nvidia NeMo Retriever szolgáltatásáról is, amely azon az elgondoláson alapul, hogy a retrieval augmented generation (RAG) segítségével olyan információkat jelenítenek meg, amelyekre a modellt nem képezték ki.

Az ötlet az, hogy dokumentumok, folyamatok és egyéb adatok betölthetők egy vektoros adatbázisba, amely kapcsolódik a modellhez. Egy lekérdezés alapján a modell kereshet az adatbázisban, lekérheti és összefoglalhatja a releváns információkat.

A NIM modellek és a RAG-ok integrálására szolgáló NeMo Retriever már elérhetők, míg a NeMo Microservices korai hozzáférésű. ®

Időbélyeg:

Még több A regisztráció