Nvidia: programska oprema v prihodnosti je le zbirka LLM

Ponovno objavil Platon

Spremljevalci: 0

Nvidia: v prihodnosti bo programska oprema le zbirka LLM-jev PlatoBlockchain Data Intelligence. Navpično iskanje. Ai.

Ne glede na uporabo velikih jezikovnih modelov (LLM) za pomoč pri pisanju kode, izvršni direktor Nvidie Jensen Huang verjame, da bo v prihodnosti programska oprema za podjetja le zbirka robotov za klepet, ki bodo združeni za dokončanje naloge.

"Malo verjetno je, da ga boste napisali iz nič ali napisali cel kup kode Python ali kaj podobnega," je dejal na odru med svojim GTC Slavnostni ponedeljek "Zelo verjetno je, da sestavite ekipo AI."

Ta ekipa AI, pojasnjuje Jensen, lahko vključuje model, zasnovan za razčlenitev in delegiranje zahteve na različne druge modele. Nekateri od teh modelov so morda usposobljeni za razumevanje poslovnih storitev, kot sta SAP ali Service Now, drugi pa lahko izvajajo numerično analizo podatkov, shranjenih v vektorski bazi podatkov. Te podatke je nato mogoče združiti in predstaviti končnemu uporabniku s še enim drugim modelom.

»Vsak dan lahko dobimo poročilo ali veste, na vrhu ure, ki ima nekaj opraviti z načrtom gradnje ali kakšno napovedjo ali opozorilom stranke ali neko bazo podatkov o hroščih ali karkoli že se zgodi,« je pojasnil.

Da bi vse te modele povezala skupaj, je Nvidia vzela stran iz Dockerjeve knjige in ustvarila izvajalno okolje vsebnika za AI.

Poimenovane Nvidia Inference Microservices ali na kratko NIM, so to v bistvu slike vsebnika, ki vsebujejo model, ne glede na to, ali je odprtokoden ali lastniški, skupaj z vsemi odvisnostmi, potrebnimi za njegovo delovanje. Te vsebniške modele je mogoče nato razmestiti v poljubnem številu izvajalnih časov, vključno z vozlišči Kubernetes, ki jih pospešuje Nvidia.

»Lahko ga uvedete na naši infrastrukturi, imenovani DGX Cloud, lahko ga uvedete na prem ali pa ga uvedete kjerkoli želite. Ko ga enkrat razvijete, ga lahko vzamete kamorkoli,« je dejal Jensen.

Seveda boste najprej potrebovali naročnino na Nvidijin paket AI Enterprise, ki ni ravno poceni pri 4,500 $/leto na GPU ali 1 $/uro na GPE v oblaku. Zdi se, da ta strategija določanja cen na splošno spodbuja gostejše in zmogljivejše sisteme, saj stane enako, ne glede na to, ali uporabljate L40 ali B100s.

Če se vam zamisel o zbiranju delovnih obremenitev, pospešenih z GPU, zdi znana, to ni ravno nova ideja za Nvidio. Pospešek CUDA je bil podprta na najrazličnejših izvajalnih okoljih vsebnikov, vključno z Dockerjem, Podmanom, Containerdom ali CRI-O že leta, in ni videti, da bi Nvidijin Container Runtime šel nikamor.

Zdi se, da je predlog vrednosti za NIM ta, da bo Nvidia skrbela za pakiranje in optimizacijo teh modelov, tako da bodo imeli pravo različico CUDA, Triton Inference Server ali TensorRT LLM, ki je potrebna za doseganje najboljše zmogljivosti iz njih.

Argument je, da če Nvidia izda posodobitev, ki dramatično poveča zmogljivost sklepanja določenih vrst modelov, bi izkoriščanje te funkcionalnosti zahtevalo le odstranitev najnovejše slike NIM.

Poleg optimizacij modelov, specifičnih za strojno opremo, Nvidia dela tudi na omogočanju dosledne komunikacije med vsebniki, tako da lahko klepetajo drug z drugim prek klicev API-ja.

Kot razumemo, klici API-ja, ki jih uporabljajo različni modeli umetne inteligence na današnjem trgu, niso vedno dosledni, zaradi česar je nekatere modele lažje združiti, medtem ko je za druge morda potrebno dodatno delo.

Posojanje institucionalnega znanja modelom splošnega namena

Vsakdo, ki je uporabljal klepetalnega robota z umetno inteligenco, bo vedel, da čeprav so običajno precej dobri pri vprašanjih splošnega znanja, niso vedno najbolj zanesljivi pri nejasnih ali tehničnih zahtevah.

Jensen je to dejstvo poudaril med svojim osrednjim govorom. Na vprašanje o notranjem programu, ki se uporablja v Nvidii, Metin veliki jezikovni model Llama 2 70B ni presenetljivo zagotovil definicijo nepovezanega izraza.

Namesto da bi poskušala prepričati podjetja, da usposobijo lastne modele - nekaj, kar bi prodalo veliko grafičnih procesorjev, vendar bi precej omejilo naslovljivi trg - je Nvidia razvila orodja za natančno prilagajanje svojih NIM s podatki in procesi strank.

»Imamo storitev, imenovano NeMo Microservices, ki vam pomaga kurirati podatke, pripraviti podatke, tako da lahko … vključite ta AI. Natančno ga prilagodite in nato zavarujete; nato lahko ocenite ... njegovo delovanje v primerjavi z drugimi drugimi primeri,« je pojasnil Huang.

Govoril je tudi o Nvidijini storitvi NeMo Retriever, ki temelji na konceptu uporabe razširjene generacije pridobivanja (RAG) za prikaz informacij, za katere model ni bil posebej usposobljen.

Ideja tukaj je, da je mogoče dokumente, procese in druge podatke naložiti v vektorsko bazo podatkov, ki je povezana z modelom. Na podlagi poizvedbe lahko model nato preišče to bazo podatkov, pridobi in povzame ustrezne informacije.

Modeli NIM in NeMo Retriever za integracijo RAG-ov so zdaj na voljo, medtem ko je NeMo Microservices v zgodnjem dostopu. ®