Nvidia: tulevikus on tarkvara vaid LLM-ide kogu

Taasavaldanud Platon

järgijaid: 0

Nvidia: tulevikus on tarkvara vaid LLM-ide PlatoBlockchain Data Intelligence kogum. Vertikaalne otsing. Ai.

Nvidia tegevjuht Jensen Huang usub, et tulevikus on ettevõtte tarkvara lihtsalt kogum vestlusroboteid, mis on ühendatud ülesande täitmiseks.

"On ebatõenäoline, et kirjutate selle nullist või kirjutate terve hunniku Pythoni koodi või midagi sellist," ütles ta oma GTC ajal laval. põhitoon esmaspäev. "On väga tõenäoline, et komplekteerite AI meeskonna."

See AI-meeskond, selgitab Jensen, võib sisaldada mudelit, mis on loodud päringu purustamiseks ja delegeerimiseks erinevatele teistele mudelitele. Mõned neist mudelitest võivad olla koolitatud mõistma äriteenuseid, nagu SAP või Service Now, samas kui teised võivad vektorandmebaasi salvestatud andmetele arvuliselt analüüsida. Neid andmeid saab seejärel kombineerida ja esitada lõppkasutajale veel ühe mudeli abil.

"Me võime saada aruande iga päev või tunni alguses, millel on midagi pistmist ehitusplaani või prognoosiga või mõne kliendihoiatusega või mõne vigade andmebaasiga või millega iganes see juhtub," selgitas ta.

Kõigi nende mudelite ühendamiseks võtab Nvidia Dockeri raamatust lehe välja ja on loonud AI jaoks konteineri käitusaja.

Nvidia Inference Microservices või lühidalt NIM-i nimega kujutised on sisuliselt konteinerpildid, mis sisaldavad mõlemat mudelit, olgu see siis avatud lähtekoodiga või patenteeritud, koos kõigi selle käivitamiseks vajalike sõltuvustega. Neid konteinermudeleid saab seejärel juurutada suvalise arvu käitusaegade jaoks, sealhulgas Nvidia kiirendatud Kubernetese sõlmedes.

"Saate selle juurutada meie infrastruktuuris nimega DGX Cloud või saate juurutada prem-il või kõikjal, kus soovite. Kui olete selle välja töötanud, on see teie enda kanda kõikjale," ütles Jensen.

Loomulikult vajate esmalt Nvidia AI Enterprise komplekti tellimust, mis pole just odav – 4,500 dollarit aastas GPU kohta või 1 dollar tunnis GPU kohta pilves. See hinnastrateegia näib üldiselt motiveerivat tihedamaid ja suurema jõudlusega süsteeme, kuna see maksab sama, olenemata sellest, kas kasutate L40-d või B100-d.

Kui idee GPU kiirendatud töökoormuste konteinerisse paigutamisest tundub tuttav, pole see Nvidia jaoks päris uus idee. CUDA kiirendus on olnud toetab paljudes konteinerite käitusaegades, sealhulgas Docker, Podman, Containerd või CRI-O juba aastaid, ja tundub, et Nvidia Container Runtime ei lähe kuhugi.

NIM-i väärtuspakkumine näib olevat see, et Nvidia tegeleb nende mudelite pakendamise ja optimeerimisega, et neil oleks CUDA, Triton Inference Server või TensorRT LLM õige versioon, mis on vajalik nende parima jõudluse saavutamiseks.

Argument seisneb selles, et kui Nvidia annab välja värskenduse, mis suurendab märkimisväärselt teatud mudelitüüpide järelduste jõudlust, nõuab selle funktsiooni ärakasutamine lihtsalt uusima NIM-pildi alla tõmbamist.

Lisaks riistvaraspetsiifiliste mudelite optimeerimisele töötab Nvidia ka konteineritevahelise järjepideva suhtluse võimaldamise nimel, et nad saaksid API-kõnede kaudu üksteisega vestelda.

Nagu me mõistame, ei ole tänapäeval turul olevate erinevate tehisintellekti mudelite kasutatavad API-kutsed alati järjepidevad, mistõttu on mõningaid mudeleid lihtsam ühendada ja teised võivad vajada lisatööd.

Institutsionaalsete teadmiste laenamine üldotstarbelistele mudelitele

Igaüks, kes on AI-vestlusbotit kasutanud, teab, et kuigi nad on tavaliselt üldteadmiste küsimustega üsna head, ei ole nad alati kõige usaldusväärsemad ebaselgete või tehniliste taotluste korral.

Jensen rõhutas seda asjaolu oma peaettekandes. Kui küsiti Nvidias kasutatava siseprogrammi kohta, andis Meta Llama 2 70B suur keelemudel üllatuslikult definitsiooni mitteseotud terminile.

Selle asemel, et püüda panna ettevõtteid koolitama oma mudeleid – midagi, mis müüks palju GPU-sid, kuid piiraks adresseeritavat turgu märkimisväärselt –, on Nvidia välja töötanud tööriistad oma NIM-ide viimistlemiseks kliendiandmete ja protsessidega.

"Meil on teenus nimega NeMo Microservices, mis aitab teil andmeid kureerida ja andmeid ette valmistada, et saaksite... selle AI pardal. Peenhäälestate selle ja seejärel kaitsete selle; siis saate hinnata… selle toimivust teiste näidete suhtes,” selgitas Huang.

Ta rääkis ka Nvidia NeMo retriiveri teenusest, mis põhineb kontseptsioonil kasutada täiustatud generatsiooni (RAG) teavet, mille kohta mudelit pole spetsiaalselt koolitatud.

Idee seisneb selles, et dokumente, protsesse ja muid andmeid saab laadida vektorandmebaasi, mis on mudeliga ühendatud. Päringu põhjal saab mudel seejärel otsida sellest andmebaasist, hankida ja teha kokkuvõtte asjakohase teabe.

NIM-i mudelid ja NeMo retriiver RAG-ide integreerimiseks on nüüd saadaval, samas kui NeMo Microservices on varajases juurdepääsus. ®