Nvidia: I fremtiden er software blot en samling af LLM'er

Nvidia: I fremtiden er software blot en samling af LLM'er

Nvidia: In the future software is just a collection of LLMs PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Glem ikke at bruge store sprogmodeller (LLM'er) til at hjælpe med at skrive kode, Nvidia CEO Jensen Huang mener, at virksomhedssoftware i fremtiden blot vil være en samling chatbots, der er spændt sammen for at fuldføre opgaven.

"Det er usandsynligt, at du vil skrive det fra bunden eller skrive en hel masse Python-kode eller noget lignende," sagde han på scenen under sin GTC keynote Mandag. "Det er meget sandsynligt, at du samler et hold af AI."

Dette AI-team, forklarer Jensen, kan inkludere en model designet til at nedbryde og uddelegere en anmodning til forskellige andre modeller. Nogle af disse modeller kan være trænet til at forstå forretningstjenester som SAP eller Service Now, mens andre kan udføre numerisk analyse af data, der er gemt i en vektordatabase. Disse data kan derefter kombineres og præsenteres for slutbrugeren af ​​endnu en model.

"Vi kan få en rapport hver eneste dag, eller du ved, top of the time, der har noget at gøre med en byggeplan, eller en prognose, eller en kundeadvarsel, eller en fejldatabase eller hvad det nu er," forklarede han.

For at kæde alle disse modeller sammen tager Nvidia en side ud af Dockers bog og har skabt en container-runtime til AI.

Kaldt Nvidia Inference Microservices, eller NIM for kort, er disse i det væsentlige containerbilleder, der indeholder både modellen, uanset om den er open source eller proprietær, sammen med alle de afhængigheder, der er nødvendige for at få den til at køre. Disse containeriserede modeller kan derefter implementeres på tværs af et vilkårligt antal runtimes, inklusive Nvidia-accelererede Kubernetes-noder.

"Du kan implementere det på vores infrastruktur kaldet DGX Cloud, eller du kan implementere det på forhånd, eller du kan implementere det hvor som helst du vil. Når du først har udviklet det, er det dit at tage med overalt,” sagde Jensen.

Selvfølgelig skal du først have et abonnement på Nvidias AI Enterprise-suite, som ikke ligefrem er billig til $4,500/år pr. GPU eller $1/time pr. GPU i skyen. Denne prisstrategi ser ud til at stimulere tættere systemer med højere ydeevne generelt, da den koster det samme, uanset om du kører på L40'er eller B100s.

Hvis ideen om at containerisere GPU-accelererede arbejdsbelastninger lyder bekendt, er dette ikke ligefrem en ny idé for Nvidia. CUDA acceleration har været understøttes på en lang række container-runtimes, inklusive Docker, Podman, Containerd eller CRI-O i årevis, og det ser ikke ud til, at Nvidias Container Runtime er på vej nogen steder.

Værdiforslaget bag NIM ser ud til at være, at Nvidia vil håndtere pakningen og optimeringen af ​​disse modeller, så de har den rigtige version af CUDA, Triton Inference Server eller TensorRT LLM, der er nødvendig for at få den bedste ydeevne ud af dem.

Argumentet er, at hvis Nvidia udgiver en opdatering, der dramatisk øger slutningsydelsen for visse modeltyper, ville det blot kræve at trække det seneste NIM-billede ned.

Ud over hardwarespecifikke modeloptimeringer arbejder Nvidia også på at muliggøre ensartet kommunikation mellem containere, så de kan chatte med hinanden via API-kald.

Som vi forstår det, er API-kaldene, der bruges af de forskellige AI-modeller på markedet i dag, ikke altid konsistente, hvilket resulterer i, at det er nemmere at sammensætte nogle modeller, mens andre kan kræve yderligere arbejde.

Udlån af institutionel viden til generelle formålsmodeller

Enhver, der har brugt en AI-chatbot, vil vide, at selvom de normalt er ret gode med spørgsmål om generelle viden, er de ikke altid de mest pålidelige med obskure eller tekniske anmodninger.

Jensen fremhævede dette faktum under sin keynote. Adspurgt om et internt program, der blev brugt i Nvidia, gav Metas store sprogmodel Llama 2 70B ikke overraskende definitionen til et ikke-relateret udtryk.

I stedet for at forsøge at få virksomheder til at træne deres egne modeller - noget, der ville sælge mange GPU'er, men ville begrænse det adresserbare marked betydeligt - har Nvidia udviklet værktøjer til at finjustere sine NIM'er med kundedata og -processer.

"Vi har en tjeneste kaldet NeMo Microservices, der hjælper dig med at kurere dataene, forberede dataene, så du kan... ombord på denne AI. Du finjusterer den og så beskytter du den; du kan derefter evaluere ... dens ydeevne i forhold til andre andre eksempler,” forklarede Huang.

Han talte også om Nvidias NeMo Retriever-tjeneste, som er baseret på konceptet med at bruge retrieval augmented generation (RAG) til at fremkomme med information, som modellen ikke er blevet specifikt trænet i.

Ideen her er, at dokumenter, processer og andre data kan indlæses i en vektordatabase, der er forbundet med modellen. Baseret på en forespørgsel kan modellen derefter søge i databasen, hente og opsummere den relevante information.

NIM-modeller og NeMo Retriever til integration af RAG'er er tilgængelige nu, mens NeMo Microservices er i tidlig adgang. ®

Tidsstempel:

Mere fra Registret