Nvidia: Tulevaisuudessa ohjelmisto on vain kokoelma LLM:itä

Nvidia: Tulevaisuudessa ohjelmisto on vain kokoelma LLM:itä

Nvidia: Tulevaisuudessa ohjelmisto on vain kokoelma LLM:itä PlatoBlockchain Data Intelligencesta. Pystysuuntainen haku. Ai.

Älä välitä suurten kielimallien (LLM) käyttämisestä koodin kirjoittamiseen, Nvidian toimitusjohtaja Jensen Huang uskoo, että tulevaisuudessa yritysohjelmistot ovat vain kokoelma chat-botteja, jotka on koottu yhteen tehtävän suorittamiseksi.

"On epätodennäköistä, että kirjoitat sen tyhjästä tai kirjoitat koko joukon Python-koodia tai jotain sellaista", hän sanoi lavalla GTC:n aikana. perussävel Maanantai. "On hyvin todennäköistä, että kokoat tekoälyryhmän."

Tämä AI-tiimi, Jensen selittää, saattaa sisältää mallin, joka on suunniteltu hajottamaan ja delegoimaan pyyntö useille muille malleille. Jotkut näistä malleista voidaan kouluttaa ymmärtämään yrityspalveluita, kuten SAP tai Service Now, kun taas toiset voivat suorittaa numeerista analyysiä vektoritietokantaan tallennetuista tiedoista. Nämä tiedot voidaan sitten yhdistää ja esittää loppukäyttäjälle toisella mallilla.

"Voimme saada raportin joka ikinen päivä tai tiedäthän, tunnin alkuun, jolla on jotain tekemistä rakennussuunnitelman tai ennusteen tai asiakasvaroituksen tai virhetietokannan tai minkä tahansa kanssa", hän selitti.

Kaikkien näiden mallien ketjuttamiseksi yhteen Nvidia ottaa sivun Dockerin kirjasta ja on luonut konttiajoajan tekoälylle.

Nvidia Inference Microservices tai lyhyesti NIM, nämä ovat pohjimmiltaan säilökuvia, jotka sisältävät sekä mallin, olipa kyseessä sitten avoimen lähdekoodin tai omaperäinen malli, sekä kaikki riippuvuudet, jotka ovat tarpeen sen saamiseen käyttöön. Näitä konttimalleja voidaan sitten ottaa käyttöön millä tahansa määrällä ajonaikaa, mukaan lukien Nvidia-kiihdytetyt Kubernetes-solmut.

"Voit ottaa sen käyttöön DGX Cloud -infrastruktuurissamme, tai voit ottaa sen käyttöön premissä tai missä tahansa haluat. Kun kehität sen, voit ottaa sen mukaan minne tahansa”, Jensen sanoi.

Tietenkin tarvitset ensin Nvidian AI Enterprise -paketin tilauksen, joka ei ole aivan halpa 4,500 1 dollaria vuodessa GPU:ta kohti tai 40 dollari tunnissa per GPU pilvessä. Tämä hinnoittelustrategia näyttää kannustavan yleensä tiheämpiä ja tehokkaampia järjestelmiä, koska se maksaa saman verran riippumatta siitä, käytätkö LXNUMX- tai B100s.

Jos ajatus grafiikkasuorittimen kiihdytettyjen työkuormien tallentamisesta kuulostaa tutulta, tämä ei ole aivan uusi idea Nvidialle. CUDA-kiihtyvyys on ollut tuettu useissa eri konttiajoissa, mukaan lukien Docker, Podman, Containerd tai CRI-O vuosien ajan, eikä näytä siltä, ​​että Nvidian Container Runtime on menossa mihinkään.

NIM:n taustalla oleva arvoehdotus näyttää olevan, että Nvidia hoitaa näiden mallien pakkaamisen ja optimoinnin, jotta niillä on oikea versio CUDA:sta, Triton Inference Serveristä tai TensorRT LLM:stä, jotta niistä saadaan paras suorituskyky.

Argumentti on, että jos Nvidia julkaisee päivityksen, joka parantaa dramaattisesti tiettyjen mallityyppien päättelykykyä, tämän toiminnon hyödyntäminen vaatisi vain uusimman NIM-kuvan poistamista.

Laitteistokohtaisten mallien optimoinnin lisäksi Nvidia pyrkii myös mahdollistamaan johdonmukaisen viestinnän säilöjen välillä, jotta ne voivat keskustella toistensa kanssa API-kutsujen kautta.

Ymmärrämme, että markkinoilla olevien eri tekoälymallien käyttämät API-kutsut eivät aina ole johdonmukaisia, minkä vuoksi joidenkin mallien yhdistäminen on helpompaa ja toiset saattavat vaatia lisätyötä.

Institutionaalisen tiedon lainaaminen yleisiin malleihin

Jokainen AI-chatbotia käyttänyt tietää, että vaikka he ovat yleensä melko hyviä yleistietokysymyksissä, ne eivät aina ole luotettavimpia epäselvien tai teknisten pyyntöjen suhteen.

Jensen korosti tätä tosiasiaa pääpuhuessaan. Kun Metan Llama 2 70B iso kielimalli kysyttiin Nvidiassa käytetystä sisäisestä ohjelmasta, se ei yllättäen tarjosi määritelmän asiaan liittymättömälle termille.

Sen sijaan, että yrittäisi saada yrityksiä kouluttamaan omia mallejaan – mikä myyisi paljon grafiikkasuoritteita mutta rajoittaisi huomattavasti osoitettavia markkinoita – Nvidia on kehittänyt työkaluja NIM-laitteidensa hienosäätämiseen asiakastiedoilla ja prosesseilla.

”Meillä on palvelu nimeltä NeMo Microservices, joka auttaa sinua kuratoimaan dataa, valmistelemaan tiedot, jotta voit… käyttää tätä tekoälyä. Hienosäädät sen ja suojaat sen sitten; voit sitten arvioida… sen suorituskykyä muihin esimerkkeihin verrattuna”, Huang selitti.

Hän puhui myös Nvidian NeMo Retriever -palvelusta, joka perustuu ajatukseen käyttää lisätyn sukupolven (RAG) käyttöä sellaisten tietojen paljastamiseksi, joihin mallia ei ole erityisesti koulutettu.

Ideana on, että asiakirjat, prosessit ja muut tiedot voidaan ladata malliin yhdistettyyn vektoritietokantaan. Kyselyn perusteella malli voi sitten etsiä tietokannasta, hakea ja tehdä yhteenvedon asiaankuuluvista tiedoista.

NIM-mallit ja NeMo Retriever RAG:iden integrointia varten ovat nyt saatavilla, kun taas NeMo Microservices on varhaisessa käytössä. ®

Aikaleima:

Lisää aiheesta Rekisteri