Navigálás az AI számítás magas költségei között

Navigálás az AI számítás magas költségei között

Navigálás az AI Compute PlatoBlockchain adatintelligencia magas költségei között. Függőleges keresés. Ai.
Forrás: Midjourney

A generatív mesterséges intelligencia fellendülése számításokhoz kötött. Megvan az az egyedülálló tulajdonsága, hogy több számítás hozzáadása közvetlenül jobb terméket eredményez. Általában a K+F-beruházás közvetlenebbül kapcsolódik ahhoz, hogy egy termék mennyire értékes volt, és ez a kapcsolat kifejezetten szublineáris. De ez jelenleg nem így van a mesterséges intelligencia esetében, és ennek eredményeként ma az ipart meghatározó tényezője egyszerűen a képzés és a következtetések költsége. 

Bár nem ismerjük a valós számokat, jó hírű forrásokból azt hallottuk, hogy a számítástechnika kínálata annyira korlátozott, a kereslet 10-szeresére (!) meghaladja azt. Tehát úgy gondoljuk, jogos azt mondani, hogy jelenleg a számítási erőforrásokhoz való hozzáférés – a legalacsonyabb összköltséggel – meghatározó tényezővé vált az AI-cégek sikere szempontjából.

Sőt, sok vállalat láttuk, hogy teljes felvett tőkéjének több mint 80%-át számítási erőforrásokra költik!

Ebben a bejegyzésben megpróbáljuk lebontani egy AI-cég költségtényezőit. Az abszolút számok természetesen idővel változni fognak, de nem látunk azonnali enyhülést az AI-cégek által a számítási erőforrásokhoz való hozzáférésük miatt. Remélhetőleg ez egy hasznos keret a táj átgondolásához. 

Miért olyan drágák az AI modellek számítási szempontból?

A generatív mesterséges intelligencia modellek széles választéka létezik, és a következtetések és a képzési költségek a modell méretétől és típusától függenek. Szerencsére manapság a legnépszerűbb modellek többnyire a transzformátor alapú architektúrák, amelyek közé tartoznak a népszerű nagynyelvi modellek (LLM), például a GPT-3, GPT-J vagy a BERT. Míg a transzformátorok következtetéséhez és betanulásához szükséges műveletek pontos száma modellfüggő (lásd ez a dokumentum), van egy meglehetősen pontos ökölszabály, amely csak a modell paramétereinek számától (azaz a neurális hálózatok súlyától), valamint a bemeneti és kimeneti tokenek számától függ. 

A tokenek lényegében néhány karakterből álló rövid sorozatok. Szavaknak vagy szórészeknek felelnek meg. A tokenekkel kapcsolatos intuíció megszerzésének legjobb módja, ha nyilvánosan elérhető online tokenizátorokkal (pl. OpenAI). A GPT-3 esetében a token átlagos hossza 4 karakterből áll

A transzformátorok hüvelykujjszabálya az, hogy egy előrelépés (azaz következtetés) egy modell esetén p paraméterek egy bemeneti és egy kimeneti hosszúságú sorozathoz n tokenek minden, kb 2*n*p lebegőpontos műveletek (FLOPS)¹. Ugyanazon modell képzése kb 6*p FLOPS tokenenként (azaz a további visszafelé lépéshez négy további művelet szükséges²). Megközelítheti a teljes képzési költséget, ha ezt megszorozza a képzési adatokban található tokenek mennyiségével.

A transzformátorok memóriaigénye a modell méretétől is függ. A következtetéshez szükségünk van a p modellparamétereket, hogy elférjen a memóriában. A tanuláshoz (azaz a visszaterjedéshez) paraméterenként további köztes értékeket kell tárolnunk az előre és hátra lépés között. Feltételezve, hogy 32 bites lebegőpontos számokat használunk, ez paraméterenként további 8 bájtot jelent. Egy 175 milliárd paraméteres modell betanításához több mint egy terabájtnyi adatot kellene a memóriában tartanunk – ez meghaladja a jelenleg létező GPU-t, és megköveteli, hogy a modellt fel kell osztanunk kártyákra. A következtetésekhez és a betanításhoz szükséges memóriaigény optimalizálható rövidebb hosszúságú lebegőpontos értékek használatával, ahol a 16 bit általánossá válik, a 8 bites pedig a közeljövőben várható.

Navigálás az AI Compute PlatoBlockchain adatintelligencia magas költségei között. Függőleges keresés. Ai.

A fenti táblázat számos népszerű modell méretét és számítási költségeit tartalmazza. A GPT-3 körülbelül 175 milliárd paraméterrel rendelkezik, ami 1,024 token bemenete és kimenete esetén körülbelül 350 billió lebegőpontos művelet számítási költsége (pl. Teraflops vagy TFLOPS). A GPT-3-hoz hasonló modell betanítása körülbelül 3.14*10^23 lebegőpontos műveletet vesz igénybe. Más modellek, mint például a Meta LLAMA még magasabb számítási követelmények. Egy ilyen modell kiképzése az emberiség eddigi számításigényesebb feladatai közé tartozik. 

Összefoglalva: az AI-infrastruktúra drága, mert a mögöttes algoritmusproblémák számítási szempontból rendkívül nehezek. Egy millió bejegyzést tartalmazó adatbázistábla rendezésének algoritmikus bonyolultsága jelentéktelen ahhoz képest, hogy egyetlen szót generálunk a GPT-3 segítségével. Ez azt jelenti, hogy a legkisebb modellt szeretné kiválasztani, amely megoldja az Ön használati esetét. 

A jó hír az, hogy a transzformátorok esetében könnyen meg tudjuk becsülni, hogy egy adott méretű modell mennyi számítást és memóriát fogyaszt. Így a megfelelő hardver kiválasztása lesz a következő szempont. 

A GPU-k idő- és költségérve

Hogyan jelenik meg a számítási bonyolultság az időre? Egy processzormag jellemzően 1-2 utasítást tud végrehajtani ciklusonként, és a processzor órajele az elmúlt 3 évben stabilan 15 GHz körül alakult a ciklus vége miatt. Dennard Scaling. Egyetlen GPT-3 következtetési művelet végrehajtása párhuzamos architektúra kihasználása nélkül 350 TFLOPS/(3 GHz*1 FLOP) vagy 116,000 32 másodpercet, azaz XNUMX órát vesz igénybe. Ez vadul kivitelezhetetlen; ehelyett speciális chipekre van szükségünk, amelyek felgyorsítják ezt a feladatot.

A gyakorlatban manapság minden mesterséges intelligencia modell olyan kártyákon fut, amelyek nagyon sok speciális magot használnak. Például egy NVIDIA A100 GPU 512 „tenzormaggal” rendelkezik, amelyek 4×4-es mátrixszorzást tudnak végrehajtani (ami 64 szorzásnak és összeadásnak vagy 128 FLOPS-nak felel meg) egyetlen ciklusban. Az AI-gyorsító kártyákat gyakran GPU-nak (grafikus feldolgozó egységnek) nevezik, mivel az architektúrát eredetileg asztali játékokhoz fejlesztették ki. A jövőben arra számítunk, hogy a mesterséges intelligencia egyre inkább külön termékcsaláddá válik. 

Az A100 névleges teljesítménnyel rendelkezik 312 TFLOPS ami elméletileg körülbelül 3 másodpercre csökkentené a GPT-1 következtetését. Ez azonban több okból is túlságosan leegyszerűsített számítás. Először is, a legtöbb felhasználási esetben a szűk keresztmetszet nem a GPU számítási teljesítménye, hanem az a képesség, hogy az adatokat a speciális grafikus memóriából a tenzormagokba továbbítsák. Másodszor, a 175 milliárdos súly 700 GB-ot foglalna el, és nem férne el egyetlen GPU grafikus memóriájába sem. Olyan technikákat kell alkalmazni, mint a particionálás és a súlytovábbítás. Harmadszor pedig számos optimalizálást használnak (pl. rövidebb lebegőpontos ábrázolások, például FP16, FP8 vagy ritka mátrixok használata), amelyeket a számítás felgyorsítására használnak. Összességében azonban a fenti matematika intuíciót ad a mai LLM-ek teljes számítási költségéről.

Egy transzformátormodell betanítása tokenenként körülbelül háromszor annyi időt vesz igénybe, mint a következtetés levonása. Tekintettel azonban arra, hogy a betanítási adatkészlet körülbelül 300 milliószor nagyobb, mint egy következtetés, a betanítás 1 milliárdszor hosszabb ideig tart. Egyetlen GPU-n a betanítás évtizedeket vesz igénybe; a gyakorlatban ez nagy számítási fürtökön történik dedikált adatközpontokban, vagy valószínűbb, hogy a felhőben. A képzést is nehezebb párhuzamosítani, mint a következtetést, mivel a frissített súlyokat fel kell cserélni a csomópontok között. A GPU-k közötti memória és sávszélesség gyakran sokkal fontosabb tényezővé válik, mivel gyakoriak a nagy sebességű összekapcsolások és a dedikált szövetek. Nagyon nagy modellek betanítása esetén a megfelelő hálózati beállítás létrehozása lehet az elsődleges kihívás. A jövőre nézve az AI-gyorsítók hálózati képességekkel rendelkeznek majd a kártyán vagy akár a chipen. 

Mennyibe kerül ez a számítási bonyolultság? Egy GPT-3 következtetés, amely, mint fentebb láttuk, körülbelül 1 másodpercet vesz igénybe egy A100-on, a nyers számítási költség 0.0002 és 0.0014 dollár között van 1,000 token esetén (ez az OpenAI 0.002 dollár/1000 token árához képest). Egy felhasználó, aki naponta 100 következtetési kérelmet generál, évi dollárba kerül. Ez egy nagyon alacsony ár, és az emberek által használt szöveges mesterséges intelligencia legtöbb esetben pénzügyileg életképessé teszi.

Képzések A GPT-3 viszont jóval drágább. Ha ismét csak a számítási költséget számoljuk ki 3.14*10^23 FLOPS esetén a fenti árfolyamok mellett, akkor 560,000 100 dollárra becsüljük az AXNUMX kártyákat egy egyetlen edzésfutás. Gyakorlatilag a képzéshez közel 100%-os hatékonyságot nem fogunk elérni a GPU-ban; azonban optimalizálásokat is alkalmazhatunk az edzésidő csökkentésére. A GPT-3 képzési költségére vonatkozó egyéb becslések tól $500,000 nak nek 4.6 millió dollár, hardveres feltételezésektől függően. Vegye figyelembe, hogy ez egyetlen futtatás költsége, nem pedig az összköltség. Valószínűleg több futtatásra lesz szükség, és a felhőszolgáltatóknak hosszú távú kötelezettségekre lesz szükségük (erről lentebb olvashat bővebben). A csúcsmodellek képzése továbbra is drága, de egy jól finanszírozott induló vállalkozás számára elérhető.

Összefoglalva, a generatív mesterséges intelligencia manapság hatalmas befektetéseket igényel az AI-infrastruktúrába. Nincs okunk azt hinni, hogy ez a közeljövőben változni fog. Egy olyan modell kiképzése, mint a GPT-3, az egyik legszámításigényesebb feladat, amelyet az emberiség valaha is vállalt. És bár a GPU-k egyre gyorsabbak, és módot találunk a képzés optimalizálására, az AI gyors terjeszkedése mindkét hatást tagadja.

Az AI-infrastruktúra szempontjai

Eddig a pontig próbáltunk némi intuíciót adni az AI-modellek betanításához és következtetéseihez szükséges skálához, valamint ahhoz, hogy milyen alapvető paraméterek mozgatják ezeket. Ezzel a kontextussal szeretnénk most gyakorlati útmutatást adni arról, hogyan döntsük el, melyik AI-infrastruktúrát használjuk.

Külső kontra házon belüli infrastruktúra

Valljuk be: a GPU-k menők. Sok mérnök és mérnöki beállítottságú alapító hajlamos saját mesterségesintelligencia-hardverének kiépítésére, nem csak azért, mert ez finoman irányítja a modellképzést, hanem azért is, mert a nagy számítási teljesítmény kihasználásában van valami szórakoztató (kiállítás A).

A valóság azonban az sok induló vállalkozásnak – különösen az alkalmazásvállalatoknak – nem kell saját AI-infrastruktúrát kiépítenie Ehelyett az olyan hosztolt modellszolgáltatások, mint az OpenAI vagy a Hugging Face (nyelvhez) és a Replicate (képgeneráláshoz), lehetővé teszik az alapítóknak, hogy gyorsan keressenek a termékpiachoz való illeszkedést anélkül, hogy az alapul szolgáló infrastruktúrát vagy modelleket kellene kezelniük.

Ezek a szolgáltatások annyira jók lettek, hogy sok cég soha nem végzett tőlük. A fejlesztők érdemi szabályozást érhetnek el a modell teljesítménye felett gyors tervezéssel és magasabb szintű finomhangolási absztrakciókkal (azaz API-hívásokon keresztül történő finomhangolással). Ezeknek a szolgáltatásoknak az árazása fogyasztás alapú, így gyakran olcsóbb is, mint külön infrastruktúra üzemeltetése. Láttunk olyan alkalmazáscégeket, amelyek több mint 50 millió dolláros ARR-t termelnek, és több mint 1 milliárd dollár értékben, és amelyek modellszolgáltatásokat nyújtanak a motorháztető alatt.

A másik oldalon néhány startup – különösen akik új alapmodelleket oktatnak vagy vertikálisan integrált AI-alkalmazásokat készítenek – nem kerülhetik el, hogy saját modelleiket közvetlenül futtassák GPU-kon. Vagy azért, mert a modell valójában a termék, és a csapat a „modell-piaci illeszkedést” keresi, vagy azért, mert bizonyos képességek eléréséhez vagy a határköltségek nagy léptékű csökkentéséhez a képzés és/vagy következtetések finom vezérlésére van szükség. Akárhogy is, az infrastruktúra kezelése versenyelőny forrásává válhat.

A felhő kontra adatközpont kiépítése

A legtöbb esetben a felhő a megfelelő hely az AI infrastruktúrájához. Az alacsonyabb kezdeti költség, a felfelé és lefelé skálázhatóság, a regionális elérhetőség és a saját adatközpont felépítésétől való kisebb elvonó képesség vonzó a legtöbb induló és nagyobb vállalat számára.

De van néhány kivétel ez alól a szabály alól:

  • Ha nagyon nagy léptékben működik, költséghatékonyabbá válhat saját adatközpontjának üzemeltetése. A pontos ár a földrajzi helytől és a beállítástól függően változik, de általában évente több mint 50 millió dollár infrastrukturális ráfordítást igényel.
  • Nagyon speciális hardverre van szüksége, amelyet nem szerezhet be egy felhőszolgáltatótól. Például a nem széles körben elérhető GPU-típusok, valamint a szokatlan memória-, tárhely- vagy hálózati követelmények.
  • Nem találsz geopolitikai megfontolásból elfogadható felhőt.

Ha saját adatközpontot szeretne építeni, a GPU-k átfogó ár/teljesítmény elemzése készült a saját beállításához (pl. Tim Dettmer elemzése). A hardver kiválasztása a kártya költségén és teljesítményén túl a teljesítménytől, a helytől és a hűtéstől is függ. Például két RTX 3080 Ti kártya együtt hasonló nyers számítási kapacitással rendelkezik, mint egy A100, de a megfelelő energiafogyasztás 700 W és 300 W. A 3,500 kWh teljesítménykülönbség 0.10 USD/kWh piaci áron egy három éves életciklus alatt az RTX3080 Ti költségét közel kétszeresére (körülbelül 2 USD) növeli.

Mindezek mellett azt várjuk, hogy az induló vállalkozások túlnyomó többsége felhőalapú számítástechnikát használ. 

A felhőszolgáltatók összehasonlítása 

Az Amazon Web Services (AWS), a Microsoft Azure és a Google Cloud Platform (GCP) egyaránt kínál GPU-példányokat, de úgy tűnik, az új szolgáltatók is kifejezetten az AI-munkaterhelésekre összpontosítanak. Íme egy keretrendszer, amelyet sok alapító használt a felhőszolgáltató kiválasztásához:

Ár: Az alábbi táblázat számos nagyobb és kisebb speciális felhő árait mutatja 7. április 2023-én. Ezek az adatok csak tájékoztató jellegűek, mivel az esetek jelentősen eltérnek a hálózati sávszélesség, az adatkilépési költségek, a CPU és a hálózat többletköltségei, elérhetősége tekintetében. kedvezmények és egyéb tényezők.

Navigálás az AI Compute PlatoBlockchain adatintelligencia magas költségei között. Függőleges keresés. Ai.

Egy adott hardver számítási kapacitása árucikk. Naiv módon meglehetősen egységes árakat várnánk, de ez nem így van. És bár jelentős különbségek vannak a felhők között, ezek nem elegendőek ahhoz, hogy megmagyarázzák, hogy az igény szerinti NVIDIA A100 ára közel 4-szeresére változik a szolgáltatók között.

Az árskála legfelső végén a nagy nyilvános felhők felárat számítanak fel a márka hírneve, a bizonyított megbízhatóság és a munkaterhelések széles körének kezelésének szükségessége alapján. A kisebb speciális mesterségesintelligencia-szolgáltatók alacsonyabb árakat kínálnak, akár célirányosan épített adatközpontok (pl. Coreweave), akár más felhők (pl. Lambda Labs) kezelésével.

Gyakorlatilag a legtöbb nagyobb vevő közvetlenül a felhőszolgáltatókkal tárgyal az árakról, gyakran vállalva valamilyen minimális költési követelményt, valamint minimális időt (láttunk 1-3 évet). A felhők közötti árkülönbségek az egyeztetést követően némileg csökkennek, de azt láttuk, hogy a fenti táblázatban a helyezés viszonylag stabil maradt. Fontos megjegyezni azt is, hogy a kisebb cégek agresszív árazást kaphatnak a speciális felhőkből anélkül, hogy nagy kiadási kötelezettségeket vállalnának.

Elérhetőség: A legerősebb GPU-k (pl. Nvidia A100) folyamatosan hiánycikknek számítottak az elmúlt 12 hónapban. 

Logikus lenne azt gondolni, hogy az első három felhőszolgáltató rendelkezik a legjobb elérhetőséggel, tekintve nagy vásárlóerejüket és erőforráskészletüket. De némileg meglepő módon sok induló vállalkozás ezt nem találta igaznak. A nagy felhők sok hardverrel rendelkeznek, de nagy ügyféligényeket is kielégítenek – például az Azure a ChatGPT elsődleges gazdagépe –, és folyamatosan bővítik/bérbeadják a kapacitást a kereslet kielégítése érdekében. Mindeközben az Nvidia elkötelezte magát amellett, hogy a hardvert széles körben elérhetővé teszi az iparágban, beleértve az új speciális szolgáltatók számára történő allokációt is. (Ezt egyrészt azért teszik, hogy igazságosak legyenek, másrészt azért, hogy csökkentsék a függőséget néhány nagy ügyféltől, akik szintén versenyeznek velük.)

Ennek eredményeként sok induló vállalkozás több elérhető chipet talál a kisebb felhőszolgáltatóknál, köztük az élvonalbeli Nvidia H100-asokat. Ha hajlandó együttműködni egy újabb infrastrukturális vállalattal, akkor csökkentheti a hardver várakozási idejét, és pénzt takaríthat meg a folyamat során.

Szállítási modell kiszámítása: A nagy felhők ma már csak dedikált GPU-val rendelkező példányokat kínálnak, ennek az az oka, hogy a GPU-virtualizáció még mindig megoldatlan probléma. A speciális mesterséges intelligencia-felhők más modelleket is kínálnak, például konténereket vagy kötegelt feladatokat, amelyek képesek kezelni az egyes feladatokat anélkül, hogy egy példány indítási és lebontási költségeit terhelnék. Ha elégedett ezzel a modellel, jelentősen csökkentheti a költségeket.

Hálózati összeköttetések: A képzés esetében különösen a hálózati sávszélesség fontos tényező a szolgáltató kiválasztásában. Bizonyos nagy modellek betanításához olyan fürtökre van szükség, amelyek a csomópontok között dedikált szövetekkel rendelkeznek, mint például az NVLink. A képgenerálásnál a kilépő forgalmi díjak is jelentős költségtényezők lehetnek.

Vevőszolgálat: A nagy felhőszolgáltatók hatalmas ügyfélkört szolgálnak ki több ezer termékváltozaton keresztül. Nehéz lehet felhívni az ügyfélszolgálat figyelmét, vagy megoldani egy problémát, hacsak nem nagy ügyfél. Számos speciális AI-felhő viszont gyors és érzékeny támogatást kínál még a kis ügyfelek számára is. Ennek részben az az oka, hogy kisebb léptékben működnek, de azért is, mert a munkaterhelésük homogénebb – így jobban ösztönzik őket arra, hogy az AI-specifikus funkciókra és hibákra összpontosítsanak.

A GPU-k összehasonlítása 

Ha minden más egyenlő, a csúcskategóriás GPU-k teljesítenek a legjobban szinte minden munkaterhelésen. Amint azonban az alábbi táblázatból is látható, a legjobb hardver lényegesen drágább is. Az adott alkalmazáshoz megfelelő típusú GPU kiválasztása jelentősen csökkentheti a költségeket, és különbséget tehet az életképes és az életképtelen üzleti modell között.

Navigálás az AI Compute PlatoBlockchain adatintelligencia magas költségei között. Függőleges keresés. Ai.

Annak eldöntése, hogy meddig menjen lejjebb a listán – azaz a legköltséghatékonyabb GPU-választások meghatározása az alkalmazáshoz – nagyrészt technikai döntés, amely túlmutat e cikk keretein. Az alábbiakban azonban megosztunk néhány kiválasztási kritériumot, amelyeket a legfontosabbnak láttunk:

Képzés vs. következtetés: Ahogy a fenti első részben láttuk, a Transformer modell betanításához a modell súlyain kívül 8 bájtnyi adatot kell tárolnunk a betanításhoz. Ez azt jelenti, hogy egy tipikus csúcskategóriás fogyasztói GPU 12 GB memóriával alig használható egy 4 milliárd paraméteres modell betanítására. A gyakorlatban a nagy modellek betanítása olyan gépek fürtjein történik, amelyek kiszolgálónként lehetőleg sok GPU-val, sok VRAM-mal és a szerverek közötti nagy sávszélességű kapcsolattal rendelkeznek (azaz csúcskategóriás adatközponti GPU-k használatával épített fürtökön).

Konkrétan sok modell a legköltséghatékonyabb az NVIDIA H100-on, de manapság nehéz megtalálni, és általában egy évnél hosszabb távú elkötelezettséget igényel. Az NVIDIA A100 manapság a legtöbb modellképzést futtatja; könnyebb megtalálni, de nagy klaszterek esetén hosszú távú elkötelezettséget is igényelhet.

Memóriaigény: A nagy LLM-ek paraméterszáma túl magas ahhoz, hogy bármilyen kártyába beleférjenek. Ezeket több kártyára kell felosztani, és a képzéshez hasonló beállítást igényelnek. Más szóval, valószínűleg még az LLM-következtetéshez is szüksége van H100-ra vagy A100-ra. De a kisebb modellek (pl. Stable Diffusion) sokkal kevesebb VRAM-ot igényelnek. Bár az A100 továbbra is népszerű, láthattuk, hogy a startupok A10, A40, A4000, A5000 és A6000, vagy akár RTX kártyákat használnak. 

Hardver támogatás: Míg azokban a vállalatokban, amelyekről beszéltünk, a munkaterhelések túlnyomó többsége NVIDIA-n fut, néhányan elkezdtek kísérletezni más gyártókkal. A leggyakoribb a Google TPU, de úgy tűnik, hogy az Intel Gaudi 2-je is kap némi tapadást. Ezekkel a gyártókkal az a kihívás, hogy a modell teljesítménye gyakran nagymértékben függ az ezekhez a chipekhez elérhető szoftveroptimalizálástól. Valószínűleg PoC-t kell készítenie a teljesítmény megértéséhez.

Késési követelmények: Általában a kevésbé késleltetésre érzékeny munkaterhelések (pl. kötegelt adatfeldolgozás vagy interaktív felhasználói felület válaszokat nem igénylő alkalmazások) kisebb teljesítményű GPU-kat használhatnak. Ez akár 3-4-szeresére is csökkentheti a számítási költségeket (pl. A100-as és A10-es AWS-en való összehasonlítása). A felhasználóbarát alkalmazásoknak viszont gyakran csúcskategóriás kártyákra van szükségük, hogy vonzó, valós idejű felhasználói élményt nyújtsanak. A modellek optimalizálása gyakran szükséges ahhoz, hogy a költségeket kezelhető tartományba hozzuk.

tüskésség: A generatív mesterséges intelligencia vállalatok gyakran drámai keresletnövekedést tapasztalnak, mivel a technológia annyira új és izgalmas. Nem szokatlan, hogy a kérelmek mennyisége napi 10-szeresére nő egy új termékkiadás alapján, vagy folyamatosan 50%-kal nő hetente. Ezeknek a tüskéknek a kezelése gyakran könnyebb az alacsonyabb kategóriás GPU-kon, mivel valószínűleg több számítási csomópont áll rendelkezésre igény szerint. Gyakran az is értelmes, hogy ezt a fajta forgalmat alacsonyabb költségű erőforrásokkal szolgáljuk ki – a teljesítmény rovására –, ha az kevésbé elkötelezett vagy kevésbé megtartó felhasználóktól származik.

Modellek optimalizálása és ütemezése

A szoftveroptimalizálás nagymértékben befolyásolhatja a modellek futási idejét – és a 10-szeres növekedés sem ritka. Azonban meg kell határoznia, hogy mely módszerek lesznek a leghatékonyabbak az adott modellnél és rendszernél.

Egyes technikák a modellek meglehetősen széles skálájával működnek. Rövidebb lebegőpontos ábrázolások (pl. FP16 vagy FP8 az eredeti FP32-vel szemben) vagy kvantálás (INT8, INT4, INT2) használatával olyan gyorsulás érhető el, amely gyakran lineáris a bitek csökkentésével. Ez időnként megköveteli a modell módosítását, de egyre inkább rendelkezésre állnak olyan technológiák, amelyek vegyes vagy rövidebb pontossággal automatizálják a munkát. A neurális hálózatok levágása csökkenti a súlyozások számát az alacsony értékű súlyok figyelmen kívül hagyásával. A hatékony ritka mátrixszorzással együtt ez jelentős gyorsulást érhet el a modern GPU-kon. Az optimalizálási technikák egy másik csoportja a memória sávszélességének szűk keresztmetszetét kezeli (pl. modellsúlyok streamelésével).

A többi optimalizálás erősen modellspecifikus. Például a Stable Diffusion jelentős előrelépést tett a következtetésekhez szükséges VRAM mennyiségét illetően. Az optimalizálás egy másik osztálya hardver-specifikus. Az NVIDIA TensorML-je számos optimalizálást tartalmaz, de csak NVIDIA hardveren működik. Végül, de nem utolsósorban az AI-feladatok ütemezése hatalmas szűk keresztmetszeteket vagy fejlesztéseket okozhat a teljesítményben. A modellek hozzárendelése a GPU-khoz oly módon, hogy minimalizálja a súlyok cseréjét, a legjobb GPU kiválasztása egy feladathoz, ha több is rendelkezésre áll, és a leállások minimalizálása a munkaterhelések előre csoportosításával.

Végül is a modelloptimalizálás még mindig egy fekete műfaj, és a legtöbb induló vállalkozás, akikkel beszélünk, együttműködik harmadik felekkel, hogy segítsen e szoftveres szempontok némelyikében. Ezek gyakran nem hagyományos MLops-szállítók, hanem olyan cégek, amelyek speciális generatív modellek (pl. OctoML vagy SegMind) optimalizálására szakosodtak.

Hogyan alakulnak az AI-infrastruktúra költségei?

Az elmúlt néhány évben mindkettő exponenciális növekedését tapasztaltuk modell paraméterei és a GPU számítási teljesítmény. Nem világos, hogy ez a tendencia folytatódik-e.

Ma már széles körben elfogadott, hogy összefüggés van a paraméterek optimális száma és a betanítási adatkészlet mérete között (lásd a Deepmind's Csincsilla dolgozzon többet erről). A mai legjobb LLM-ek képzése a Közös feltérképezés (4.5 milliárd weboldalból álló gyűjtemény, ami az összes létező weboldal körülbelül 10%-a). A képzési korpusz a Wikipédiát és egy könyvgyűjteményt is tartalmaz, bár mindkettő jóval kisebb (a létező könyvek teljes számát becslések szerint csak 100 millió körül). Más ötletek is felmerültek, például videó- ​​vagy hangtartalom átírása, de ezek egyike sem közelíti meg méretét. Nem világos, hogy sikerül-e megszereznünk egy nem szintetikus képzési adatkészletet, amely 10-szer nagyobb, mint a már használt.

A GPU teljesítménye tovább fog növekedni, de lassabban is. A Moore-törvény továbbra is érintetlen, több tranzisztort és több magot tesz lehetővé, de a teljesítmény és az I/O korlátozó tényezőkké válnak. Ezenkívül sok alacsonyan lógó gyümölcsöt is leszedtek az optimalizálás érdekében. 

Mindez azonban nem jelenti azt, hogy nem számítunk a számítási kapacitás iránti kereslet növekedésére. Még ha a modellek és a képzési készletek növekedése is lelassul, az AI-ipar növekedése és az AI-fejlesztők számának növekedése több és gyorsabb GPU iránti keresletet generál. A GPU-kapacitás nagy részét tesztelésre használják a fejlesztők a modell fejlesztési szakaszában, és ez az igény lineárisan skálázódik a létszámmal. Semmi jele annak, hogy a mai GPU-hiány a közeljövőben csökkenni fog.

A mesterséges intelligencia infrastruktúrájának ez a továbbra is magas költsége olyan árkot hoz létre, amely lehetetlenné teszi az új belépők számára, hogy utolérjék a jól finanszírozott inkumbenseket? Erre a kérdésre még nem tudjuk a választ. Az LLM képzési költsége ma ároknak tűnhet, de az olyan nyílt forráskódú modellek, mint az Alpaca vagy a Stable Diffusion, megmutatták, hogy ezek a piacok még koraiak, és gyorsan változhatnak. Idővel a feltörekvő AI-szoftververem költségstruktúrája (lásd korábbi bejegyzésünket) jobban hasonlíthat a hagyományos szoftveriparra. 

Végső soron ez jó dolog lenne: a történelem azt mutatja, hogy ez élénk ökoszisztémákhoz vezet, gyors innovációval és sok lehetőséggel a vállalkozói alapítók számára.

Köszönet Moin Nadeemnek és Shangda Xunak az írási folyamat során nyújtott hozzájárulásukért és útmutatásukért.


¹ Itt az az intuíció, hogy egy neurális hálózat bármely paraméteréhez (pl. súlyához) egy következtetési műveletnek (azaz előrehaladásnak) paraméterenként két lebegőpontos műveletet kell végrehajtania. Először megszorozza a neurális hálózat bemeneti csomópontjának értékét a paraméterrel. Másodszor, hozzáadja az összegzés eredményét a neurális hálózat kimeneti csomópontjához. A kódoló paraméterei bemeneti tokenenként egyszer, a dekódoló paraméterei pedig kimeneti tokenenként egyszer használatosak. Ha feltételezzük, hogy egy modell rendelkezik p a paramétereknek és a bemenetnek és a kimenetnek egyaránt megvan a hossza n tokenek, az összes lebegőpontos művelet n * p. Számos egyéb művelet (pl. normalizálás, a beágyazás kódolása/dekódolása) történik egy modellben, de ezek végrehajtásához képest kevés az idő. 

² A tanuláshoz először a transzformátoron való előrehaladás szükséges a fent leírtak szerint, majd egy hátramenet, amely paraméterenként négy további műveletet igényel a gradiens kiszámításához és a súly beállításához. Vegye figyelembe, hogy a gradiens kiszámításához meg kell őrizni az előremenetből számított csomópontértékeket. GPT-3 esetén A nyelvi modellek kevéssé tanulnak tárgyalja a képzés költségeit.

* * *

Az itt kifejtett nézetek az AH Capital Management, LLC („a16z”) egyes alkalmazottainak nézetei, és nem az a16z vagy leányvállalatai nézetei. Az itt található bizonyos információk harmadik féltől származnak, többek között az a16z által kezelt alapok portfólióvállalataitól. Noha megbízhatónak vélt forrásokból származnak, az a16z nem ellenőrizte önállóan ezeket az információkat, és nem nyilatkozik az információk tartós pontosságáról vagy adott helyzetre való megfelelőségéről. Ezenkívül ez a tartalom harmadik féltől származó hirdetéseket is tartalmazhat; az a16z nem vizsgálta át az ilyen hirdetéseket, és nem támogatja az abban található reklámtartalmat.

Ez a tartalom csak tájékoztatási célokat szolgál, és nem támaszkodhat rá jogi, üzleti, befektetési vagy adótanácsadásként. Ezekkel a kérdésekkel kapcsolatban konzultáljon saját tanácsadójával. Bármely értékpapírra vagy digitális eszközre történő hivatkozások csak illusztrációs célt szolgálnak, és nem minősülnek befektetési ajánlásnak vagy ajánlatnak befektetési tanácsadási szolgáltatások nyújtására. Ezen túlmenően ez a tartalom nem befektetőknek vagy leendő befektetőknek szól, és nem is szánható felhasználásra, és semmilyen körülmények között nem támaszkodhat rá az a16z által kezelt alapokba történő befektetésről szóló döntés meghozatalakor. (A16z alapba történő befektetésre vonatkozó ajánlatot csak az ilyen alap zártkörű kibocsátási memoranduma, jegyzési szerződése és egyéb vonatkozó dokumentációja tesz, és azokat teljes egészében el kell olvasni.) Minden említett, hivatkozott befektetés vagy portfóliótársaság, ill. A leírtak nem reprezentatívak az a16z által kezelt járművekbe történő összes befektetésre, és nem garantálható, hogy a befektetések nyereségesek lesznek, vagy a jövőben végrehajtott egyéb beruházások hasonló tulajdonságokkal vagy eredménnyel járnak. Az Andreessen Horowitz által kezelt alapok befektetéseinek listája (kivéve azokat a befektetéseket, amelyek esetében a kibocsátó nem adott engedélyt az a16z számára a nyilvánosságra hozatalra, valamint a nyilvánosan forgalmazott digitális eszközökbe történő be nem jelentett befektetéseket) a https://a16z.com/investments oldalon érhető el. /.

A benne található diagramok és grafikonok kizárólag tájékoztató jellegűek, és nem szabad rájuk hagyatkozni befektetési döntések meghozatalakor. A múltbeli teljesítmény nem jelzi a jövőbeli eredményeket. A tartalom csak a feltüntetett dátum szerint beszél. Az ezekben az anyagokban megfogalmazott előrejelzések, becslések, előrejelzések, célok, kilátások és/vagy vélemények előzetes értesítés nélkül változhatnak, és mások véleményétől eltérhetnek vagy ellentétesek lehetnek. További fontos információkért látogasson el a https://a16z.com/disclosures oldalra.

Időbélyeg:

Még több Andreessen Horowitz