Nvidia: În viitor, software-ul este doar o colecție de LLM-uri

Nvidia: În viitor, software-ul este doar o colecție de LLM-uri

Nvidia: In the future software is just a collection of LLMs PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Nu contează utilizarea modelelor de limbaj mari (LLM) pentru a ajuta la scrierea codului, CEO-ul Nvidia, Jensen Huang, consideră că, în viitor, software-ul pentru întreprinderi va fi doar o colecție de roboti de chat legați împreună pentru a finaliza sarcina.

„Este puțin probabil să o scrieți de la zero sau să scrieți o grămadă de cod Python sau ceva de genul acesta”, a spus el pe scenă în timpul GTC. keynote Luni. „Este foarte probabil să aduni o echipă de AI.”

Această echipă de inteligență artificială, explică Jensen, ar putea include un model conceput pentru a defalca și a delega o solicitare către diferite alte modele. Unele dintre aceste modele ar putea fi instruite pentru a înțelege serviciile de afaceri precum SAP sau Service Now, în timp ce altele ar putea efectua analize numerice asupra datelor stocate într-o bază de date vectorială. Aceste date pot fi apoi combinate și prezentate utilizatorului final de un alt model.

„Putem primi un raport în fiecare zi sau, știți, la începutul orei, care are ceva de-a face cu un plan de construire, sau o prognoză, sau o alertă pentru clienți, sau o bază de date de erori sau orice se întâmplă”, a explicat el.

Pentru a lega toate aceste modele împreună, Nvidia scoate o pagină din cartea lui Docker și a creat un timp de rulare a containerului pentru AI.

Denumite Nvidia Inference Microservices, sau NIM pe scurt, acestea sunt în esență imagini container care conțin atât modelul, fie că este open source sau proprietar, împreună cu toate dependențele necesare pentru a-l pune în funcțiune. Aceste modele containerizate pot fi apoi implementate în orice număr de runtime, inclusiv noduri Kubernetes accelerate de Nvidia.

„Îl puteți implementa în infrastructura noastră numită DGX Cloud, sau îl puteți implementa pe site, sau îl puteți implementa oriunde doriți. Odată ce îl dezvolți, e al tău să îl duci oriunde”, a spus Jensen.

Desigur, mai întâi veți avea nevoie de un abonament la suita AI Enterprise de la Nvidia, care nu este tocmai ieftină la 4,500 USD/an per GPU sau 1 USD/oră pe GPU în cloud. Această strategie de preț ar părea să stimuleze sisteme mai dense de performanță, în general, deoarece costă același, indiferent dacă rulați pe L40 sau B100s.

Dacă ideea de containerizare a sarcinilor de lucru accelerate GPU sună familiară, aceasta nu este tocmai o idee nouă pentru Nvidia. Accelerarea CUDA a fost sprijinite pe o mare varietate de durate de rulare a containerelor, inclusiv Docker, Podman, Containerd sau CRI-O de ani de zile și nu pare că Container Runtime de la Nvidia va merge nicăieri.

Propunerea de valoare din spatele NIM pare să fie că Nvidia se va ocupa de ambalarea și optimizarea acestor modele, astfel încât acestea să aibă versiunea potrivită a CUDA, Triton Inference Server sau TensorRT LLM, necesară pentru a obține cea mai bună performanță din ele.

Argumentul este că, dacă Nvidia lansează o actualizare care mărește dramatic performanța de inferență a anumitor tipuri de modele, pentru a profita de această funcționalitate, ar fi nevoie doar de a elimina cea mai recentă imagine NIM.

Pe lângă optimizările modelelor specifice hardware, Nvidia lucrează și la activarea comunicațiilor consistente între containere, astfel încât acestea să poată discuta între ele, prin apeluri API.

După cum înțelegem, apelurile API utilizate de diferitele modele AI de pe piață astăzi nu sunt întotdeauna consecvente, ceea ce duce la unirea mai ușor a unor modele, iar altele pot necesita muncă suplimentară.

Împrumutarea cunoștințelor instituționale modelelor de uz general

Oricine a folosit un chatbot AI va ști că, deși sunt de obicei destul de buni cu întrebările de cunoștințe generale, nu sunt întotdeauna cei mai de încredere cu solicitări obscure sau tehnice.

Jensen a subliniat acest fapt în timpul discursului său principal. Întrebat despre un program intern utilizat în cadrul Nvidia, modelul de limbaj mare Llama 2 70B de la Meta a oferit, fără a fi surprinzător, definiția unui termen care nu are legătură.

În loc să încerce să convingă întreprinderile să-și antreneze propriile modele – ceva care ar vinde o mulțime de GPU-uri, dar ar limita considerabil piața adresabilă – Nvidia a dezvoltat instrumente pentru a-și ajusta NIM-urile cu datele și procesele clienților.

„Avem un serviciu numit NeMo Microservices, care vă ajută să selectați datele, să pregătiți datele, astfel încât să puteți... la bordul acestui AI. Îl reglați fin și apoi îl protejați; apoi puteți evalua... performanța sa față de alte exemple”, a explicat Huang.

El a vorbit, de asemenea, despre serviciul NeMo Retriever de la Nvidia, care se bazează pe conceptul de utilizare a generației augmentate de recuperare (RAG) pentru a evidenția informații despre care modelul nu a fost instruit în mod specific.

Ideea aici este că documentele, procesele și alte date pot fi încărcate într-o bază de date vectorială care este conectată la model. Pe baza unei interogări, modelul poate căuta apoi în acea bază de date, poate prelua și rezuma informațiile relevante.

Modelele NIM și NeMo Retriever pentru integrarea RAG-urilor sunt disponibile acum, în timp ce NeMo Microservices este în acces anticipat. ®

Timestamp-ul:

Mai mult de la Registrul