Krmarjenje po visokih stroških računalništva z umetno inteligenco

Krmarjenje po visokih stroških računalništva z umetno inteligenco

Navigating the High Cost of AI Compute PlatoBlockchain Data Intelligence. Vertical Search. Ai.
Vir: Midjourney

Razcvet generativne umetne inteligence je vezan na računalništvo. Ima edinstveno lastnost, da dodajanje več računalništva neposredno povzroči boljši izdelek. Običajno so naložbe v raziskave in razvoj bolj neposredno povezane s tem, kako dragocen je bil izdelek, in to razmerje je izrazito sublinearno. Vendar to trenutno ni tako z umetno inteligenco in posledično je prevladujoč dejavnik, ki poganja industrijo danes, enostavno cena usposabljanja in sklepanja. 

Čeprav ne poznamo pravih številk, smo iz uglednih virov slišali, da je ponudba računalništva tako omejena, da jo povpraševanje presega za faktor 10 (!). Zato menimo, da je pošteno reči, da trenutno, dostop do računalniških virov – z najnižjimi skupnimi stroški – je postal odločilni dejavnik za uspeh podjetij z umetno inteligenco.

Pravzaprav smo videli, da mnoga podjetja porabijo več kot 80 % svojega celotnega zbranega kapitala za računalniške vire!

V tej objavi poskušamo razčleniti stroškovne dejavnike za podjetje z umetno inteligenco. Absolutne številke se bodo sčasoma seveda spremenile, vendar ne vidimo takojšnjega olajšanja, ker so podjetja z umetno inteligenco vezana na svoj dostop do računalniških virov. Upajmo torej, da je to koristen okvir za razmišljanje skozi pokrajino. 

Zakaj so modeli AI računsko tako dragi?

Obstaja veliko različnih generativnih modelov AI, stroški sklepanja in usposabljanja pa so odvisni od velikosti in vrste modela. Na srečo so danes najbolj priljubljeni modeli večinoma arhitekture na osnovi transformatorjev, ki vključujejo priljubljene velike jezikovne modele (LLM), kot so GPT-3, GPT-J ali BERT. Medtem ko je natančno število operacij za sklepanje in učenje transformatorjev odvisno od modela (glejte ta papir), obstaja dokaj natančno pravilo, ki je odvisno le od števila parametrov (tj. uteži nevronskih mrež) modela ter števila vhodnih in izhodnih žetonov. 

Žetoni so v bistvu kratka zaporedja nekaj znakov. Ustrezajo besedam ali delom besed. Najboljši način, da dobite intuicijo za žetone, je, da preizkusite tokenizacijo z javno dostopnimi spletnimi tokenizatorji (npr. OpenAI). Za GPT-3 povprečna dolžina žetona je 4 znaki

Osnovno pravilo za transformatorje je, da se prehod naprej (tj. sklepanje) za model z p parametri za vhodno in izhodno zaporedje dolžine n žetonih vsak, traja približno 2*n*str operacije s plavajočo vejico (FLOPS)¹. Usposabljanje za isti model traja približno 6*str FLOPS na žeton (tj. dodatni prehod nazaj zahteva štiri dodatne operacije²). Skupne stroške usposabljanja lahko približno izračunate tako, da jih pomnožite s količino žetonov v podatkih o usposabljanju.

Pomnilniške zahteve za transformatorje so odvisne tudi od velikosti modela. Za sklepanje potrebujemo p parametri modela, da se prilegajo v pomnilnik. Za učenje (tj. širjenje nazaj) moramo shraniti dodatne vmesne vrednosti na parameter med prehodom naprej in nazaj. Ob predpostavki, da uporabljamo 32-bitna števila s plavajočo vejico, je to dodatnih 8 bajtov na parameter. Za usposabljanje modela s 175 milijardami parametrov bi morali hraniti več kot terabajt podatkov v pomnilniku - to presega kateri koli GPU, ki obstaja danes, in zahteva, da model razdelimo na več kartic. Zahteve po pomnilniku za sklepanje in usposabljanje je mogoče optimizirati z uporabo vrednosti s plavajočo vejico krajših dolžin, pri čemer bo 16-bitno postalo običajno, 8-bitno pa se pričakuje v bližnji prihodnosti.

Navigating the High Cost of AI Compute PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Zgornja tabela vsebuje velikosti in stroške izračuna za več priljubljenih modelov. GPT-3 ima približno 175 milijard parametrov, kar za vhod in izhod 1,024 žetonov povzroči računske stroške približno 350 bilijonov operacij s plavajočo vejico (tj. teraflopov ali TFLOPS). Usposabljanje modela, kot je GPT-3, zahteva približno 3.14*10^23 operacij s plavajočo vejico. Drugi modeli, kot je Metin LLaMA, imajo še višje računalniške zahteve. Usposabljanje takšnega modela je ena izmed računalniško intenzivnejših nalog, ki se jih je človeštvo lotilo doslej. 

Če povzamemo: infrastruktura umetne inteligence je draga, ker so osnovni algoritemski problemi izjemno računalniško težki. Algoritemska zapletenost razvrščanja tabele zbirke podatkov z milijoni vnosov je nepomembna v primerjavi s zapletenostjo generiranja ene same besede z GPT-3. To pomeni, da želite izbrati najmanjši model, ki rešuje vaš primer uporabe. 

Dobra novica je, da lahko pri transformatorjih enostavno ocenimo, koliko računalništva in pomnilnika bo porabil model določene velikosti. In tako postane izbira prave strojne opreme naslednja naloga. 

Argument časa in stroškov za grafične procesorje

Kako se računska kompleksnost prevede v čas? Procesorsko jedro lahko običajno izvede 1-2 ukaza na cikel, takt procesorja pa je zadnjih 3 let stabilen okoli 15 GHz zaradi konca Dennard Skaliranje. Izvajanje ene same operacije sklepanja GPT-3 brez izkoriščanja vzporedne arhitekture bi trajalo približno 350 TFLOPS/(3 GHz*1 FLOP) ali 116,000 sekund ali 32 ur. To je skrajno nepraktično; namesto tega potrebujemo specializirane čipe, ki pospešijo to nalogo.

V praksi vsi modeli AI danes delujejo na karticah, ki uporabljajo zelo veliko število specializiranih jeder. Na primer, GPE NVIDIA A100 ima 512 "tenzorskih jeder", ki lahko izvajajo množenje matrike 4 × 4 (kar je enako 64 množenjem in seštevanjima ali 128 FLOPS) v enem ciklu. Kartice za pospeševanje AI se pogosto imenujejo GPE (grafične procesne enote), saj je bila arhitektura prvotno razvita za namizne igre. V prihodnosti pričakujemo, da bo umetna inteligenca vse bolj postajala posebna družina izdelkov. 

A100 ima nominalno zmogljivost 312 TFLOPS kar bi teoretično zmanjšalo sklepanje za GPT-3 na približno 1 sekundo. Vendar je to preveč poenostavljen izračun iz več razlogov. Prvič, za večino primerov uporabe ozko grlo ni računalniška moč GPE-ja, temveč zmožnost prenosa podatkov iz specializiranega grafičnega pomnilnika v tenzorska jedra. Drugič, 175 milijard uteži bi zavzelo 700 GB in se ne bi prilegalo v grafični pomnilnik katere koli GPE. Uporabiti je treba tehnike, kot sta razdelitev in pretakanje teže. In tretjič, obstajajo številne optimizacije (npr. uporaba krajših predstavitev s plavajočo vejico, kot so FP16, FP8 ali redke matrike), ki se uporabljajo za pospešitev računanja. Toda na splošno nam zgornja matematika daje intuicijo o splošnih računskih stroških današnjih LLM.

Usposabljanje transformatorskega modela traja približno trikrat toliko časa na žeton kot sklepanje. Glede na to, da je nabor podatkov o usposabljanju približno 300-milijonkrat večji od poziva za sklepanje, usposabljanje traja dlje za faktor 1 milijarde. Na enem samem GPU bi usposabljanje trajalo desetletja; v praksi se to izvaja na velikih računalniških gručih v namenskih podatkovnih centrih ali, bolj verjetno, v oblaku. Usposabljanje je tudi težje vzporediti kot sklepanje, saj je treba posodobljene uteži izmenjati med vozlišči. Pomnilnik in pasovna širina med grafičnimi procesorji pogosto postaneta veliko pomembnejši dejavnik, pri čemer so pogoste hitre medsebojne povezave in namenske tkanine. Za usposabljanje zelo velikih modelov je lahko glavni izziv ustvarjanje ustrezne nastavitve omrežja. Če pogledamo v prihodnost, bodo pospeševalci AI imeli omrežne zmogljivosti na kartici ali celo na čipu. 

Kako se ta računalniška zapletenost prenese na stroške? Sklep GPT-3, ki, kot smo videli zgoraj, traja približno 1 sekundo na A100, bi imel neobdelane računske stroške med 0.0002 USD in 0.0014 USD za 1,000 žetonov (to se primerja s ceno OpenAI 0.002 USD/1000 žetonov). Uporabnik, ki ustvari 100 zahtevkov za sklepanje na dan, bi stal približno dolarjev na leto. To je zelo nizka cena in naredi večino primerov uporabe besedilne umetne inteligence s strani ljudi finančno vzdržnih.

usposabljanje GPT-3 pa je veliko dražji. Če ponovno izračunamo samo stroške računanja za 3.14*10^23 FLOPS po zgornjih stopnjah, dobimo oceno 560,000 USD na karticah A100 za enojni trening. V praksi za usposabljanje ne bomo dosegli skoraj 100-odstotne učinkovitosti GPU; lahko pa uporabimo tudi optimizacije za skrajšanje časa usposabljanja. Druge ocene stroškov usposabljanja GPT-3 segajo od $500,000 do 4.6 milijonov USD, odvisno od strojnih predpostavk. Upoštevajte, da je to strošek posameznega zagona in ne skupni strošek. Verjetno bo potrebnih več zagonov in ponudniki oblakov bodo želeli dolgoročne zaveze (več o tem spodaj). Usposabljanje vrhunskih modelov je še vedno drago, a dosegljivo za dobro financiran start-up.

Če povzamemo, generativna umetna inteligenca danes zahteva ogromne naložbe v infrastrukturo umetne inteligence. Nobenega razloga ni, da bi verjeli, da se bo to v bližnji prihodnosti spremenilo. Usposabljanje modela, kot je GPT-3, je ena računalniško najbolj intenzivnih nalog, ki se jih je človeštvo kdaj lotilo. In medtem ko GPE postajajo hitrejši in mi najdemo načine za optimizacijo usposabljanja, hitra širitev umetne inteligence izniči oba učinka.

Premisleki o infrastrukturi umetne inteligence

Do te točke smo vam poskušali dati nekaj intuicije glede obsega, ki je potreben za usposabljanje in sklepanje modelov AI, in kateri osnovni parametri jih poganjajo. S tem kontekstom želimo zdaj zagotoviti nekaj praktičnih smernic o tem, kako se odločiti, katero infrastrukturo umetne inteligence uporabiti.

Zunanja in notranja infrastruktura

Priznajmo si: grafični procesorji so kul. Številni inženirji in inženirsko usmerjeni ustanovitelji so nagnjeni k zagotavljanju lastne strojne opreme AI, ne samo zato, ker daje natančen nadzor nad usposabljanjem modelov, ampak zato, ker je v izkoriščanju velikih količin računalniške moči nekaj zabavnega (razstava A).

Realnost pa je takšna mnogim zagonskim podjetjem – zlasti podjetjem za aplikacije – ni treba zgraditi lastne infrastrukture umetne inteligence 1. dan. Namesto tega gostujoče modelne storitve, kot sta OpenAI ali Hugging Face (za jezik) in Replicate (za ustvarjanje slik), ustanoviteljem omogočajo hitro iskanje primernosti izdelka za trg, ne da bi bilo treba upravljati osnovno infrastrukturo ali modele.

Te storitve so postale tako dobre, da jih številna podjetja nikoli ne končajo. Razvijalci lahko dosežejo pomemben nadzor nad zmogljivostjo modela s hitrim inženiringom in abstrakcijami natančnega prilagajanja višjega reda (tj. fino prilagajanje prek klicev API-ja). Cene teh storitev temeljijo na porabi, zato so pogosto tudi cenejše od vodenja ločene infrastrukture. Videli smo podjetja za aplikacije, ki ustvarijo več kot 50 milijonov dolarjev ARR in so ocenjena na več kot milijardo dolarjev, ki izvajajo storitve gostujočih modelov pod pokrovom.

Na drugi strani pa nekatera zagonska podjetja – še posebej tisti, ki usposabljajo nove osnovne modele ali gradijo vertikalno integrirane aplikacije AI – se ne morejo izogniti neposrednemu izvajanju lastnih modelov na grafičnih procesorjih. Bodisi zato, ker je model dejansko izdelek in ekipa išče »prilagojenost modela trgu« bodisi zato, ker je za doseganje določenih zmogljivosti ali zmanjšanje mejnih stroškov v velikem obsegu potreben natančen nadzor nad usposabljanjem in/ali sklepanjem. Kakor koli že, upravljanje infrastrukture lahko postane vir konkurenčne prednosti.

Oblak proti izgradnji podatkovnega centra

V večini primerov je oblak pravo mesto za vašo infrastrukturo umetne inteligence. Nižji začetni stroški, zmožnost povečevanja in zniževanja, regionalna razpoložljivost in manj motenj pri gradnji lastnega podatkovnega centra so prepričljivi za večino startupov in večjih podjetij.

Vendar obstaja nekaj izjem od tega pravila:

  • Če delujete v zelo velikem obsegu, bo morda stroškovno učinkoviteje voditi lasten podatkovni center. Natančna cena se razlikuje glede na geografsko lokacijo in nastavitev, vendar običajno zahteva porabo več kot 50 milijonov USD na leto za infrastrukturo.
  • Potrebujete zelo specifično strojno opremo, ki je ne morete dobiti od ponudnika v oblaku. Na primer vrste grafičnih procesorjev, ki niso široko dostopni, pa tudi neobičajne zahteve glede pomnilnika, pomnilnika ali omrežja.
  • Ne morete najti oblaka, ki bi bil sprejemljiv za geopolitične vidike.

Če želite zgraditi lasten podatkovni center, obstaja celovita analiza cene/zmogljivosti grafičnih procesorjev za vašo lastno nastavitev (npr. Analiza Tima Dettmerja). Poleg cene in zmogljivosti same kartice je izbira strojne opreme odvisna tudi od moči, prostora in hlajenja. Na primer, dve kartici RTX 3080 Ti skupaj imata podobno surovo računalniško zmogljivost kot A100, vendar je ustrezna poraba energije 700 W proti 300 W. Razlika v moči 3,500 kWh po tržni ceni 0.10 USD/kWh v triletnem življenjskem ciklu poveča stroške RTX3080 Ti za skoraj 2x (približno 1,000 USD).

Glede na to pričakujemo, da bo velika večina startupov uporabljala računalništvo v oblaku. 

Primerjava ponudnikov storitev v oblaku 

Amazonove spletne storitve (AWS), Microsoft Azure in Google Cloud Platform (GCP) ponujajo primerke GPE, vendar se zdi, da se novi ponudniki osredotočajo posebej na delovne obremenitve AI. Tu je ogrodje, ki ga mnogi ustanovitelji uporabljajo za izbiro ponudnika v oblaku:

Cena: Spodnja tabela prikazuje cene za več večjih in manjših posebnih oblakov od 7. aprila 2023. Ti podatki so le okvirni, saj se primeri precej razlikujejo glede pasovne širine omrežja, izhodnih stroškov podatkov, dodatnih stroškov CPU in omrežja, ki so na voljo popusti in drugi dejavniki.

Navigating the High Cost of AI Compute PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Računalniška zmogljivost na določeni strojni opremi je blago. Naivno bi pričakovali dokaj enotne cene, a temu ni tako. In čeprav obstajajo znatne razlike v funkcijah med oblaki, niso dovolj, da bi pojasnili, da se cene za NVIDIA A100 na zahtevo med ponudniki razlikujejo skoraj 4-krat.

Na vrhu cenovne lestvice veliki javni oblaki zaračunavajo premijo na podlagi ugleda blagovne znamke, dokazane zanesljivosti in potrebe po upravljanju širokega nabora delovnih obremenitev. Manjši specializirani ponudniki umetne inteligence ponujajo nižje cene bodisi z izvajanjem namensko zgrajenih podatkovnih centrov (npr. Coreweave) bodisi z arbitražo drugih oblakov (npr. Lambda Labs).

Praktično gledano se večina večjih kupcev pogaja o cenah neposredno s ponudniki storitev v oblaku, pri čemer se pogosto zavežejo določeni minimalni porabi in minimalnim časovnim zavezam (videli smo 1-3 leta). Razlike v ceni med oblaki se po pogajanjih nekoliko zmanjšajo, vendar smo videli, da je razvrstitev v zgornji tabeli ostala relativno stabilna. Pomembno je tudi omeniti, da lahko manjša podjetja dobijo agresivne cene iz posebnih oblakov brez velikih izdatkov.

Na voljo: Najzmogljivejših grafičnih procesorjev (npr. Nvidia A100) je v zadnjih 12 mesecih nenehno primanjkovalo. 

Logično bi bilo misliti, da imajo najboljši trije ponudniki oblakov najboljšo razpoložljivost glede na njihovo veliko kupno moč in vire. Toda nekoliko presenetljivo veliko startupov ni ugotovilo, da je to res. Veliki oblaki imajo veliko strojne opreme, vendar morajo zadovoljiti tudi velike potrebe strank – npr. Azure je primarni gostitelj za ChatGPT – in nenehno dodajajo/zakupujejo zmogljivosti, da zadostijo povpraševanju. Medtem se je Nvidia zavezala, da bo strojno opremo naredila široko dostopno v celotni industriji, vključno z dodelitvami za nove posebne ponudnike. (To počnejo zato, da so pošteni in da zmanjšajo svojo odvisnost od nekaj velikih strank, ki jim prav tako tekmujejo.)

Posledično veliko startupov najde več razpoložljivih čipov, vključno z najsodobnejšimi Nvidia H100, pri manjših ponudnikih v oblaku. Če ste pripravljeni sodelovati z novejšim infrastrukturnim podjetjem, boste morda lahko skrajšali čakalne dobe za strojno opremo in pri tem morda prihranili denar.

Model dostave računalništva: Današnji veliki oblaki ponujajo samo primerke z namenskimi grafičnimi procesorji, razlog pa je, da je virtualizacija grafičnih procesorjev še vedno nerešen problem. Specializirani oblaki AI ponujajo druge modele, kot so vsebniki ali paketna opravila, ki lahko obravnavajo posamezne naloge, ne da bi pri tem nastali stroški zagona in razgradnje instance. Če ste zadovoljni s tem modelom, lahko znatno znižate stroške.

Omrežne povezave: Za usposabljanje je pasovna širina omrežja glavni dejavnik pri izbiri ponudnika. Za usposabljanje določenih velikih modelov so potrebni grozdi z namenskimi tkaninami med vozlišči, kot je NVLink. Za ustvarjanje slik so pristojbine za izhodni promet prav tako lahko glavni dejavnik stroškov.

Pomoč strankam: Veliki ponudniki v oblaku služijo ogromnemu naboru strank v več tisoč SKU-jih izdelkov. Težko je pritegniti pozornost podpore strankam ali odpraviti težavo, razen če ste velika stranka. Številni specializirani oblaki AI pa ponujajo hitro in odzivno podporo tudi za majhne stranke. To je deloma zato, ker delujejo v manjšem obsegu, pa tudi zato, ker so njihove delovne obremenitve bolj homogene – zato so bolj spodbujeni, da se osredotočijo na funkcije in hrošče, specifične za AI.

Primerjava grafičnih procesorjev 

Če so vsi ostali enaki, se bodo vrhunski grafični procesorji najbolje obnesli pri skoraj vseh delovnih obremenitvah. Vendar, kot lahko vidite v spodnji tabeli, je najboljša strojna oprema tudi bistveno dražja. Izbira prave vrste GPE za vašo specifično aplikacijo lahko bistveno zmanjša stroške in lahko naredi razliko med uspešnim in neživljenjskim poslovnim modelom.

Navigating the High Cost of AI Compute PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Odločitev, kako daleč navzdol na seznamu iti – to je določanje stroškovno najučinkovitejše izbire GPU za vašo aplikacijo – je v veliki meri tehnična odločitev, ki presega obseg tega članka. Spodaj pa bomo delili nekaj izbirnih meril, za katera smo videli, da so najpomembnejša:

Usposabljanje proti sklepanju: Kot smo videli v prvem razdelku zgoraj, usposabljanje modela Transformer zahteva, da poleg uteži modela shranimo 8 bajtov podatkov za usposabljanje. To pomeni, da bi tipičen potrošniški grafični procesor višjega razreda z 12 GB pomnilnika komajda lahko uporabil za usposabljanje modela s 4 milijardami parametrov. V praksi se usposabljanje velikih modelov izvaja na gručah strojev s po možnosti veliko GPE-ji na strežnik, veliko VRAM-a in povezavami z visoko pasovno širino med strežniki (tj. gruče, zgrajene z uporabo vrhunskih GPE-jev podatkovnih centrov).

Natančneje, veliko modelov bo najbolj stroškovno učinkovito na NVIDIA H100, vendar ga je danes težko najti in običajno zahteva dolgoročno zavezo, več kot eno leto. NVIDIA A100 danes izvaja večino usposabljanja za modele; lažje ga je najti, vendar za velike grozde lahko zahteva tudi dolgoročno zavezanost.

Zahteve glede pomnilnika: Veliki LLM-ji imajo previsoko število parametrov, da bi se prilegali kateri koli kartici. Razdeliti jih je treba na več kart in zahtevajo nastavitev, podobno usposabljanju. Z drugimi besedami, verjetno potrebujete H100s ali A100s tudi za LLM sklepanje. Toda manjši modeli (npr. Stable Diffusion) zahtevajo veliko manj VRAM-a. Medtem ko je A100 še vedno priljubljen, smo videli startupe, ki uporabljajo kartice A10, A40, A4000, A5000 in A6000 ali celo kartice RTX. 

Podpora za strojno opremo: Medtem ko velika večina delovnih obremenitev v podjetjih, s katerimi smo govorili, deluje na NVIDIA, jih je nekaj začelo eksperimentirati z drugimi prodajalci. Najpogostejši je Google TPU, vendar se zdi, da tudi Intelov Gaudi 2 dobiva nekaj oprijema. Izziv pri teh prodajalcih je, da je zmogljivost vašega modela pogosto zelo odvisna od razpoložljivosti optimizacij programske opreme za te čipe. Verjetno boste morali narediti PoC, da boste razumeli zmogljivost.

Zahteve glede zakasnitve: Na splošno lahko delovne obremenitve, občutljive na manj zakasnitve (npr. paketna obdelava podatkov ali aplikacije, ki ne zahtevajo interaktivnih odzivov uporabniškega vmesnika), uporabljajo manj zmogljive grafične procesorje. To lahko zmanjša stroške računanja za kar 3-4x (npr. primerjava A100s z A10s na AWS). Po drugi strani aplikacije, namenjene uporabnikom, pogosto potrebujejo vrhunske kartice, da zagotovijo privlačno uporabniško izkušnjo v realnem času. Optimizacija modelov je pogosto potrebna, da se stroški spravijo v obvladljiv obseg.

Bodičastost: Podjetja, ki se ukvarjajo z umetno inteligenco, se pogosto srečujejo z dramatičnimi skoki povpraševanja, saj je tehnologija tako nova in vznemirljiva. Nič nenavadnega ni, da se količine zahtev povečajo za 10-krat na dan na podlagi izdaje novega izdelka ali dosledno rastejo za 50 % na teden. Ravnanje s temi konicami je pogosto lažje pri grafičnih procesorjih nižjega cenovnega razreda, saj je na zahtevo verjetno na voljo več računalniških vozlišč. Pogosto je tudi smiselno, da se tovrstnemu prometu zagotovijo cenejši viri – na račun uspešnosti –, če prihaja od manj angažiranih ali manj zadržanih uporabnikov.

Modeli optimizacije in razporejanja

Optimizacije programske opreme lahko zelo vplivajo na čas delovanja modelov - in 10-kratni dobički niso neobičajni. Vendar pa boste morali ugotoviti, katere metode bodo najučinkovitejše pri vašem modelu in sistemu.

Nekatere tehnike delujejo s precej širokim spektrom modelov. Z uporabo krajših predstavitev s plavajočo vejico (tj. FP16 ali FP8 v primerjavi z originalnim FP32) ali kvantizacijo (INT8, INT4, INT2) dosežete pospešek, ki je pogosto linearen z zmanjšanjem bitov. To včasih zahteva spreminjanje modela, vendar je vedno več na voljo tehnologij, ki avtomatizirajo delo z mešano ali krajšo natančnostjo. Obrezovanje nevronskih mrež zmanjša število uteži z ignoriranjem uteži z nizkimi vrednostmi. Skupaj z učinkovitim množenjem redke matrike lahko to doseže znatno pospešitev sodobnih grafičnih procesorjev. Drug niz optimizacijskih tehnik obravnava ozko grlo pasovne širine pomnilnika (npr. s pretakanjem uteži modela).

Druge optimizacije so zelo specifične za model. Na primer, Stable Diffusion je naredil velik napredek pri količini VRAM-a, potrebnega za sklepanje. Še en razred optimizacij je specifičen za strojno opremo. TensorML NVIDIA vključuje številne optimizacije, vendar bo deloval samo na strojni opremi NVIDIA. Nenazadnje lahko razporejanje nalog umetne inteligence povzroči velika ozka grla ali izboljšave delovanja. Dodeljevanje modelov GPE-jem na način, da se čim bolj zmanjša zamenjava uteži, izbiranje najboljšega GPE-ja za nalogo, če jih je na voljo več, in zmanjševanje izpadov z vnaprejšnjim šaržanjem delovnih obremenitev so običajne tehnike.

Na koncu je optimizacija modela še vedno črna umetnost in večina startupov, s katerimi se pogovarjamo, sodeluje s tretjimi osebami, da bi pomagala pri nekaterih od teh vidikov programske opreme. Pogosto to niso tradicionalni prodajalci MLops, temveč podjetja, ki so specializirana za optimizacije za specifične generativne modele (npr. OctoML ali SegMind).

Kako se bodo razvijali stroški infrastrukture AI?

V zadnjih nekaj letih smo bili priča eksponentni rasti obeh parametri modela in Računska moč GPE. Ni jasno, ali se bo ta trend nadaljeval.

Danes je splošno sprejeto, da obstaja razmerje med optimalnim številom parametrov in velikostjo nabora podatkov o usposabljanju (glejte Deepmindov Chinchilla delo za več o tem). Najboljši LLM-ji se danes usposabljajo na Navadni pajk (zbirka 4.5 milijarde spletnih strani ali približno 10 % vseh obstoječih spletnih strani). Korpus za usposabljanje vključuje tudi Wikipedijo in zbirko knjig, čeprav sta obe precej manjši (skupno število obstoječih knjig je ocenjeno na le okoli 100 milijonov). Predlagane so bile tudi druge zamisli, kot je prepis video ali zvočne vsebine, vendar nobena od teh ni blizu velikosti. Ni jasno, ali bi lahko pridobili nesintetični nabor podatkov o usposabljanju, ki je 10x večji od tistega, ki je bil že uporabljen.

Zmogljivost GPE se bo še naprej povečevala, vendar tudi počasneje. Moorov zakon je še vedno nedotaknjen in omogoča več tranzistorjev in več jeder, vendar moč in V/I postajata omejujoča dejavnika. Poleg tega je bilo pobranih veliko nizko visečih plodov za optimizacije. 

Vendar nič od tega ne pomeni, da ne pričakujemo povečanja povpraševanja po računalniških zmogljivostih. Tudi če se rast modelov in naborov za usposabljanje upočasni, bosta rast industrije umetne inteligence in povečanje števila razvijalcev umetne inteligence spodbudila povpraševanje po več in hitrejših grafičnih procesorjih. Razvijalci med razvojno fazo modela uporabljajo velik del zmogljivosti GPU za testiranje, to povpraševanje pa se linearno spreminja s številom zaposlenih. Nič ne kaže, da se bo pomanjkanje GPE, ki ga imamo danes, v bližnji prihodnosti zmanjšalo.

Ali bodo ti nenehni visoki stroški infrastrukture umetne inteligence ustvarili jarek, ki bo novim udeležencem onemogočil, da bi dohiteli dobro financirane prvotne? Odgovora na to vprašanje še ne poznamo. Stroški usposabljanja LLM so morda danes videti kot nizki, vendar so odprtokodni modeli, kot sta Alpaca ali Stable Diffusion, pokazali, da so ti trgi še zgodnji in se lahko hitro spremenijo. Sčasoma se je struktura stroškov nastajajočega sklada programske opreme AI (glej našo prejšnjo objavo) bo morda začel izgledati bolj kot tradicionalna industrija programske opreme. 

Navsezadnje bi bilo to dobro: zgodovina je pokazala, da to vodi do živahnih ekosistemov s hitrimi inovacijami in veliko priložnostmi za ustanovitelje podjetnikov.

Hvala Moin Nadeemu in Shangda Xuju za njun prispevek in vodenje med procesom pisanja.


¹ Intuicija je, da mora za kateri koli parameter (tj. težo) v nevronski mreži operacija sklepanja (tj. prehod naprej) izvesti dve operaciji s plavajočo vejico na parameter. Najprej pomnoži vrednost vhodnega vozlišča nevronske mreže s parametrom. Drugič, doda rezultat seštevanja izhodnemu vozlišču nevronske mreže. Parametri v kodirniku se uporabijo enkrat na vhodni žeton, parametri v dekoderju pa enkrat na izhodni žeton. Če predpostavimo, da ima model p parametri ter vhod in izhod imajo dolžino n žetonih, skupne operacije s plavajočo vejico so n * str. Obstaja veliko drugih operacij (npr. normalizacija, kodiranje/dekodiranje vdelave), ki se zgodijo v modelu, vendar je čas, potreben za njihovo izvedbo, v primerjavi s tem majhen. 

² Učenje najprej zahteva prehod naprej skozi transformator, kot je opisano zgoraj, čemur sledi prehod nazaj, ki zahteva štiri dodatne operacije na parameter za izračun gradienta in prilagoditev teže. Upoštevajte, da izračun gradienta zahteva ohranitev izračunanih vrednosti vozlišč iz prehoda naprej. Za GPT-3, Jezikovni modeli se učijo le malo posnetkov razpravlja o stroških usposabljanja.

* * *

Tukaj izražena stališča so stališča posameznega citiranega osebja družbe AH Capital Management, LLC (»a16z«) in niso stališča družbe a16z ali njenih podružnic. Nekatere informacije, vsebovane tukaj, so bile pridobljene iz virov tretjih oseb, vključno s portfeljskimi družbami skladov, ki jih upravlja a16z. Čeprav so vzeti iz virov, za katere menijo, da so zanesljivi, a16z ni neodvisno preveril takih informacij in ne daje nobenih zagotovil o trajni točnosti informacij ali njihovi ustreznosti za dano situacijo. Poleg tega lahko ta vsebina vključuje oglase tretjih oseb; a16z ni pregledal takšnih oglasov in ne podpira nobene oglaševalske vsebine v njih.

Ta vsebina je na voljo samo v informativne namene in se je ne smete zanašati kot pravni, poslovni, naložbeni ali davčni nasvet. Glede teh zadev se morate posvetovati s svojimi svetovalci. Sklici na katere koli vrednostne papirje ali digitalna sredstva so samo v ilustrativne namene in ne predstavljajo naložbenega priporočila ali ponudbe za zagotavljanje investicijskih svetovalnih storitev. Poleg tega ta vsebina ni namenjena nobenim vlagateljem ali bodočim vlagateljem niti ji ni namenjena in se nanjo v nobenem primeru ne smete zanašati, ko se odločate za vlaganje v kateri koli sklad, ki ga upravlja a16z. (Ponudba za vlaganje v sklad a16z bo podana le z memorandumom o zasebni plasiranju, pogodbo o vpisu in drugo ustrezno dokumentacijo katerega koli takega sklada in jo je treba prebrati v celoti.) Vse naložbe ali portfeljske družbe, omenjene, navedene ali opisane niso reprezentativne za vse naložbe v vozila, ki jih upravlja a16z, in ni nobenega zagotovila, da bodo naložbe donosne ali da bodo imele druge naložbe v prihodnosti podobne značilnosti ali rezultate. Seznam naložb skladov, ki jih upravlja Andreessen Horowitz (razen naložb, za katere izdajatelj ni dal dovoljenja a16z za javno razkritje, ter nenapovedanih naložb v digitalna sredstva, s katerimi se javno trguje), je na voljo na https://a16z.com/investments /.

Grafi in grafi, ki so navedeni znotraj, so izključno informativne narave in se nanje ne bi smeli zanašati pri sprejemanju kakršnih koli investicijskih odločitev. Pretekla uspešnost ni pokazatelj prihodnjih rezultatov. Vsebina govori samo od navedenega datuma. Vse projekcije, ocene, napovedi, cilji, obeti in/ali mnenja, izražena v tem gradivu, se lahko spremenijo brez predhodnega obvestila in se lahko razlikujejo ali so v nasprotju z mnenji, ki so jih izrazili drugi. Za dodatne pomembne informacije obiščite https://a16z.com/disclosures.

Časovni žig:

Več od Andreessen Horowitz