Interjú az Nvidia szoftver vezetőjével, Kari Briskivel

Interjú az Nvidia szoftver vezetőjével, Kari Briskivel

Interjú az Nvidia szoftver vezetőjével, Kari Briski PlatoBlockchain Data Intelligence-vel. Függőleges keresés. Ai.

Interjú Az Nvidia GPU technológiai konferenciája a múlt héten zárult, és hírt hozott a cég Blackwell chipjeiről és a mesterséges intelligencia sokat emlegetett csodáiról, a drágán vásárolt GPU hardverekkel együtt.

Akkora a felhajtás a cég körül, hogy részvényeinek árfolyama rekordmagasságokkal kacérkodik, azon az elgondoláson alapul, hogy a gépi tanulási modellek által lehetővé tett automatizálással sok kreatív próbálkozás gyorsabbá, ha nem jobbá tehető.

Ezt még tesztelik a piacon.

George Santayana egyszer írt: "Aki nem tud emlékezni a múltra, arra van ítélve, hogy megismételje." Ez egy gyakran ismételt kifejezés. A múltbeli dolgokra való emlékezés azonban nem igazán különböztette meg az AI-modelleket. Tudnak emlékezni a múltra, de még mindig arra vannak ítélve, hogy kérésre megismételjék, néha helytelenül.

Ennek ellenére sokan esküsznek a mindenható MI-re, különösen azok, akik mesterséges intelligencia hardvert vagy felhőszolgáltatásokat árulnak. Többek között az Nvidia is nagyot fogad rá. Így A regisztráció rövid látogatást tett a GPU konferencián, hogy lássa, mi a felhajtás. Természetesen nem a kiállítóteremben csütörtökön felszolgált citromszeletekről volt szó, amelyek közül sok a bemutatóteremben befejezetlenül fejezte be kezdeti nyilvános ajánlatát.

Sokkal vonzóbb volt a beszélgetés A regisztráció Kari Briskivel, az Nvidia mesterséges intelligencia- és HPC-szoftverfejlesztési készleteinek termékkezelési alelnökével. Ő vezeti a szoftvertermékek kezelését a vállalat alapmodelljeiben, könyvtáraiban, SDK-iban, és most olyan mikroszolgáltatásokban, amelyek képzéssel és következtetésekkel foglalkoznak, mint például az újonnan bejelentett Neki mikroszolgáltatások és a jobban megalapozott nemo telepítési keretrendszer.

A regisztráció: Hogyan fogják a cégek ezeket a mikroszolgáltatásokat fogyasztani – felhőben, telephelyen?

Briski: Valójában ez a szépsége annak, amiért megépítettük a NIM-eket. Elég vicces azt mondani, hogy „a NIM-ek”. De ezt az utat már nagyon régen kezdtük. Kezdetem óta a következtetésekkel dolgozunk – azt hiszem, a TensorRT 1.0 volt, amikor 2016-ban elkezdtem.

Az évek során folyamatosan bővítettük következtetéseinket, és többet tudtunk meg mindenféle munkaterhelésről, kezdve a számítógépes látásmóddal és a mély ajánlórendszerekkel és a beszéddel, az automatikus beszédfelismeréssel és a beszédszintézissel, és most a nagy nyelvi modellekkel. Ez egy igazán fejlesztőközpontú stack volt. És most, hogy a vállalatok [látták] az OpenAI-t és a ChatGPT-t, megértették, hogy szükség van ezekre a nagy nyelvi modellekre a vállalati adataik mellett vagy vállalati alkalmazásaikban.

Az átlagos felhőszolgáltató, a felügyelt szolgáltatásaikhoz több száz mérnök dolgozott következtetések levonásával, optimalizálási technikákkal. A vállalatok erre nem képesek. Azonnal meg kell szerezniük az értékmeghatározási időt. Ezért foglaltuk össze mindazt, amit az évek során tanultunk a TensorRT-vel, a nagy nyelvi modellekkel, a Triton következtetési kiszolgálónkkal, a szabványos API-val és az állapotellenőrzésekkel. [Az ötlet az, hogy] mindezt be lehessen foglalni, így kevesebb mint öt perc alatt eljuthat nulláról egy nagy nyelvi modell végpontra.

[Az on-prem versus felhő adatközpontokkal kapcsolatban] sok ügyfelünk hibrid felhő. Előnyben részesítették a számítást. Így ahelyett, hogy az adatokat egy felügyelt szolgáltatásba küldenék, a mikroszolgáltatást az adataik közelében futtathatják, és bárhol futtathatják.

A regisztráció: Hogyan néz ki az Nvidia mesterséges intelligenciához készült szoftvercsomagja a programozási nyelvek tekintetében? Még mindig nagyrészt CUDA, Python, C és C++? Máshol keres nagyobb sebességet és hatékonyságot?

Briski: Mindig azt vizsgáljuk, hogy a fejlesztők hol használják. Mindig is ez volt a kulcsunk. Tehát amióta az Nvidiánál kezdtem, gyorsított matematikai könyvtárakon dolgozom. Először is CUDA-ban kellett programozni a párhuzamosság eléréséhez. Aztán voltak C API-ink. És volt egy Python API-nk. Tehát arról van szó, hogy a platformot bárhová is vigyük, ahol a fejlesztők tartózkodnak. Jelenleg a fejlesztők csak egy nagyon egyszerű API-végpontot szeretnének elérni, például egy curl vagy egy Python paranccsal vagy valami hasonlóval. Szóval rendkívül egyszerűnek kell lennie, mert ma itt találkozunk a fejlesztőkkel.

A regisztráció: A CUDA nyilvánvalóan óriási szerepet játszik a GPU-számítás hatékonyságában. Mit tesz az Nvidia a CUDA fejlesztése érdekében?

Briski: A CUDA az összes GPU-nk alapja. Ez egy CUDA-kompatibilis, CUDA-programozható GPU. Néhány évvel ezelőtt CUDA-X-nek hívtuk, mivel ezek a domain-specifikus nyelvek voltak. Tehát ha van orvosi képalkotó [alkalmazása], akkor van cuCIM. Ha rendelkezik automatikus beszédfelismeréssel, akkor annak végén van egy CUDA gyorsított nyalábkereső dekódere. Így a CUDA felgyorsította ezeket a konkrét dolgokat minden különböző típusú munkaterheléshez. Az évek során felépítettük ezeket a speciális könyvtárakat, mint pl cuDF és a cuML, és cu-this-and-hat. Mindezek a CUDA-könyvtárak képezik az alapját annak, amit az évek során építettünk, és most ennek a tetejére építünk.

A regisztráció: Hogyan nézi az Nvidia a költségeket a szoftver- és hardvertervezési mód tekintetében? Az Nvidia AI Enterprise-hoz hasonló GPU-nként 4,500 dollár évente, ami jelentős.

Briski: Először is, a kisebb cégeknél mindig a Inception program. Mindig az ügyfelekkel dolgozunk – 90 napos ingyenes próbaverzió, valóban értékes az Ön számára? Tényleg megéri? Ezután a vásárlás költségeinek csökkentése érdekében folyamatosan optimalizáljuk szoftverünket. Tehát ha évi 4,500 dollárt vásárolt GPU-nként licencenként, és A100-at használ, holnap pedig H100-at, akkor ugyanaz az ár – a költségek csökkentek [az átviteli sebességhez képest]. Ezért ezeket az optimalizálásokat, valamint a teljes birtoklási költséget és teljesítményt mindig visszaépítjük a szoftverbe.

Ha a képzésen és a következtetésen is gondolkodunk, a betanítás egy kicsit több időt vesz igénybe, de ezek az automatikus konfigurátorok meg tudják mondani: „Mennyi adata van? Mennyi számításra van szüksége? Meddig akarod tartani?" Így kisebb lehet a számítási területe, de előfordulhat, hogy tovább tart a modell betanítása… Szeretné egy hét alatt betanítani? Vagy egy nap alatt szeretnéd edzeni? És így megteheti ezeket a kompromisszumokat.

A regisztráció: Ami az aktuális problémákat illeti, van valami konkrét megoldás, amit meg szeretne oldani, vagy van valamilyen technikai kihívás, amit szeretne leküzdeni?

Briski: Jelenleg eseményvezérelt Rongyok [amely az AI-modellek külső forrásból származó adatokkal való kiegészítésének módja]. Sok vállalkozás csak a klasszikus kérdésre gondol a válasz generálására. De valójában azt akarjuk, hogy [láncba láncoljuk] ezeket a visszakereséssel kiegészített generatív rendszereket. Mert ha rád gondolsz, és egy olyan feladatra, amelyet esetleg el szeretnél végezni: „Ó, mennem kell, beszélnem kell az adatbázis-csapattal. És ennek az adatbázis-csapatnak beszélnie kell a Tableau csapattal. Készítenek belőlem egy műszerfalat”, és mindezeknek meg kell történniük, mielőtt ténylegesen befejezhetné a feladatot. Tehát ez amolyan eseményvezérelt RAG. Nem mondanám, hogy a RAG-ok beszélnek a RAG-okkal, de lényegében ez – az ügynökök elmennek, és rengeteg munkát végeznek, majd visszatérnek. És ennek a küszöbén vagyunk. Szóval azt hiszem, ez egy olyan dolog, amit nagyon izgatott vagyok, hogy 2024-ben láthatok.

A regisztráció: Az Nvidia saját AI-t készít dogfood-ra? Hasznosnak találta az AI-t belsőleg?

Briski: Tulajdonképpen elmentünk, és tavaly, mivel 2023 a felfedezés éve volt, 150 csapat volt az Nvidián belül, akikre rátaláltam – lehetett volna több is –, és azt próbáltuk elmondani, hogyan használod az eszközeinket, milyen felhasználási eseteket, és elkezdtük egyesíteni az összes tanulságot, mintegy ezer virág virágzásából, és az összes tanulságot bevált gyakorlatokká egyesítettük egy repóban. Valójában ezt adtuk ki, amit mi úgy hívunk Generatív mesterséges intelligencia példák a GitHubon, mert csak azt akartuk, hogy az összes bevált gyakorlat egy helyen legyen.

Valahogy ezt csináltuk szerkezetileg. De kifejezett példaként azt hiszem, megírtuk ezt az igazán nagyszerű újságot, a címet ChipNeMo, és valójában minden az EDA, VLSI tervezőcsapatunkról szól, és arról, hogy hogyan alakították ki az alapozó modellt, és hogyan képezték ki azt a védett adatainkra. Saját kódolási nyelveink vannak a VLSI-hez. Tehát másodpilóták (nyílt forráskód-generáló modellek) kódoltak, hogy létrehozhassák saját nyelvünket, és segítsék az új mérnökök termelékenységét, akik nem ismerik teljesen a VLSI tervezési chip-író kódunkat.

És ez minden vásárlóban visszhangra talált. Tehát ha beszél az SAP-val, van ABAP-juk (Advanced Business Application Programming), amely olyan, mint egy saját SQL az adatbázisukban. És beszéltem három másik ügyféllel, akiknek különböző védett nyelveik voltak – még az SQL-ben is több száz dialektus van. Tehát a kódgenerálás nem olyan használati eset, amelyet a RAG azonnal megoldhat. Igen, a RAG segít lekérni a dokumentációt és néhány kódrészletet, de hacsak nincs betanítva arra, hogy az adott nyelven generálja a tokeneket, akkor nem csak kódot alkothat.

A regisztráció: Ha megnézi a nagy nyelvi modelleket, és azt, ahogyan azokat az alkalmazásokkal összekapcsolják, gondol-e a késleltetésre, amely bevezethet, és hogyan kezelje ezt? Vannak olyan esetek, amikor egy döntési fa egyszerű hardkódolása logikusabbnak tűnik?

Briski: Igazad van, amikor felteszel egy adott kérdést vagy felszólítást, akkor lehet, hogy akár csak egy kérdésre is, öt vagy hét modell már elindult, így azonnali átírást, védőkorlátokat, retrievert és átsorolást kaphat. majd a generátor. Ezért olyan fontos a NIM, mert a késleltetésre optimalizáltuk.

Ezért is kínáljuk az alapmodellek különböző verzióit, mert előfordulhat, hogy van egy SLM-je, egy kis nyelvi modellje, amely egy adott feladatcsoporthoz jobban megfelel, és akkor a nagyobb modellt szeretné a nagyobb pontosság érdekében. De ennek az egésznek a láncolása, hogy beleférjen a késleltetési ablakba, olyan probléma, amelyet az évek során számos hiperskálás vagy felügyelt szolgáltatásnál megoldottunk. Vannak ezek a késleltetési ablakok, és gyakran, amikor feltesz egy kérdést vagy keresést végez, valójában többször is felteszik a kérdést. Tehát sok versenyfeltétellel rendelkeznek, hogy „mi a késleltetési időtartamom a teljes válasz minden kis részére?” Szóval igen, mindig ezt nézzük.

Ami a hardcodingot illeti, éppen ma beszéltem erről egy ügyféllel. Túl vagyunk a kemény kódoláson… Használhat párbeszédkezelőt, és ha-akkor mást. [De] a több ezer szabály kezelése nagyon-nagyon lehetetlen. És ezért szeretjük az olyan dolgokat, mint a védőkorlátok, mert a védőkorlátok egyfajta helyettesítést jelentenek a klasszikus párbeszéd-menedzsereknél. Ahelyett, hogy azt mondaná: „Ne beszéljen a baseballról, ne beszéljen softballról, ne beszéljen a futballról”, és felsorolja őket, egyszerűen csak azt mondhatja: „Ne beszélj a sportról”. És akkor az LLM tudja, mi a sport. Az időmegtakarítás és a kód későbbi kezelése sokkal jobb. ®

Időbélyeg:

Még több A regisztráció