AI arvutamise kõrgete kuludega navigeerimine

AI arvutamise kõrgete kuludega navigeerimine

Tehisintellekti arvutamise PlatoBlockchaini andmeluure kõrgete kuludega navigeerimine. Vertikaalne otsing. Ai.
Allikas: Midjourney

Generatiivne AI buum on arvutuslik. Sellel on ainulaadne omadus, et arvutuste arvu lisamine toob kaasa parema toote. Tavaliselt on teadus- ja arendustegevuse investeeringud otsesemalt seotud toote väärtusega ja see seos on selgelt alalineaarne. Kuid tehisintellekti puhul see praegu nii ei ole ja sellest tulenevalt on tänapäeval tööstust juhtivaks teguriks lihtsalt koolituse ja järelduste maksumus. 

Kuigi me ei tea tegelikke numbreid, oleme kuulnud usaldusväärsetest allikatest, et arvutusseadmete pakkumine on nii piiratud, et nõudlus ületab selle 10 korda (!). Seega arvame, et on õiglane öelda, et praegu juurdepääs arvutusressurssidele madalaima kogukuluga on muutunud tehisintellekti ettevõtete edu määravaks teguriks.

Tegelikult oleme näinud, et paljud ettevõtted kulutavad rohkem kui 80% kogu kogutud kapitalist arvutusressurssidele!

Selles postituses proovime jagada tehisintellektiettevõtte kulutegureid. Absoluutarvud aja jooksul loomulikult muutuvad, kuid me ei näe kohest leevendust tehisintellekti ettevõtetele, mis on seotud nende juurdepääsuga arvutusressurssidele. Nii et loodetavasti on see kasulik raamistik maastiku läbimõtlemiseks. 

Miks on AI mudelid arvutuslikult nii kallid?

Generatiivseid tehisintellekti mudeleid on lai valik ning järeldused ja koolituskulud sõltuvad mudeli suurusest ja tüübist. Õnneks on tänapäeval kõige populaarsemad mudelid enamasti trafopõhised arhitektuurid, mille hulka kuuluvad populaarsed suurkeelemudelid (LLM) nagu GPT-3, GPT-J või BERT. Kuigi trafode järelduste ja õppimise toimingute täpne arv on mudelispetsiifiline (vt Selles raamatus), on üsna täpne rusikareegel, mis sõltub ainult mudeli parameetrite (st närvivõrkude kaalu) arvust ning sisend- ja väljundmärkide arvust. 

Märgid on sisuliselt lühikesed jadad, mis koosnevad mõnest tähemärgist. Need vastavad sõnadele või sõnaosadele. Parim viis žetoonide intuitsiooni saamiseks on proovida tokeniseerimist avalikult saadaolevate võrgumärgistajatega (nt OpenAI). GPT-3 puhul märgi keskmine pikkus on 4 tähemärki

Trafode rusikareegel on see, et mudeli puhul on edasiminek (st järeldus). p parameetrid sisendi ja väljundi pikkuse jada jaoks n märkide iga, kulub ligikaudu 2*n*p ujukomatehted (FLOPS)¹. Sama mudeli väljaõpe võtab aega ligikaudu 6*lk FLOPS iga märgi kohta (st täiendav tagasikäik nõuab veel nelja toimingut²). Saate ligikaudselt hinnata koolituse kogumaksumust, korrutades selle treeningandmetes olevate märkide arvuga.

Trafode mälunõuded sõltuvad ka mudeli suurusest. Järelduste tegemiseks vajame p mudeli parameetrid mällu mahtuma. Õppimiseks (st tagasilevitamiseks) peame iga parameetri kohta salvestama täiendavaid vaheväärtusi edasi- ja tagasikäigu vahel. Eeldusel, et kasutame 32-bitiseid ujukoma numbreid, on see lisaks 8 baiti parameetri kohta. 175 miljardi parameetriga mudeli väljaõpetamiseks peaksime mälus hoidma üle terabaidi andmeid – see ületab praegu olemasolevaid GPU-sid ja nõuab mudeli jagamist kaartide vahel. Järelduste ja treenimise mälunõudeid saab optimeerida, kasutades lühema pikkusega ujukoma väärtusi, kusjuures 16-bitine muutub tavaliseks ja 8-bitine on lähitulevikus oodata.

Tehisintellekti arvutamise PlatoBlockchaini andmeluure kõrgete kuludega navigeerimine. Vertikaalne otsing. Ai.

Ülaltoodud tabelis on mitme populaarse mudeli suurused ja kulud. GPT-3-l on ligikaudu 175 miljardit parameetrit, mis 1,024 märgi sisendi ja väljundi korral annab ligikaudu 350 triljoni ujukomaoperatsiooni (st teraflops või TFLOPS) arvutuskulu. Sellise mudeli nagu GPT-3 väljaõpetamine võtab umbes 3.14*10^23 ujukomaoperatsiooni. Teistel mudelitel nagu Meta LLaMA on olemas isegi suurem arvutamise nõuded. Sellise mudeli väljaõpe on üks arvutusmahukamaid ülesandeid, mida inimkond on seni ette võtnud. 

Kokkuvõtteks: AI infrastruktuur on kallis, kuna aluseks olevad algoritmilised probleemid on arvutuslikult väga rasked. Miljoni kirjega andmebaasitabeli sortimise algoritmiline keerukus on tähtsusetu võrreldes GPT-3 abil ühe sõna genereerimise keerukusega. See tähendab, et soovite valida väikseima mudeli, mis teie kasutusjuhtumi lahendab. 

Hea uudis on see, et trafode puhul saame hõlpsasti hinnata, kui palju arvutusi ja mälu teatud suurusega mudel tarbib. Ja nii saab järgmiseks kaalutluseks õige riistvara valimine. 

GPU-de aja ja kulu argument

Kuidas arvutamise keerukus ajas väljendub? Protsessori tuum suudab tavaliselt täita 1–2 käsku tsükli kohta ja protsessori taktsagedus on viimase 3 aasta jooksul püsinud stabiilsena umbes 15 GHz. Dennardi skaleerimine. Ühe GPT-3 järeldusoperatsiooni sooritamine ilma paralleelset arhitektuuri kasutamata võtaks suurusjärgus 350 TFLOPS/(3 GHz*1 FLOP) ehk 116,000 32 sekundit ehk XNUMX tundi. See on metsikult ebapraktiline; selle asemel vajame spetsiaalseid kiipe, mis seda ülesannet kiirendavad.

Praktikas töötavad kõik AI mudelid tänapäeval kaartidel, mis kasutavad väga suurt hulka spetsiaalseid südamikke. Näiteks NVIDIA A100 GPU-l on 512 "tensorituuma", mis suudavad ühe tsükli jooksul sooritada 4 × 4 maatrikskorrutamist (mis võrdub 64 korrutamise ja liitmisega või 128 FLOPSiga). Tehisintellekti kiirendikaarte nimetatakse sageli GPU-deks (graafikatöötlusüksusteks), kuna arhitektuur töötati algselt välja lauaarvutimängude jaoks. Tulevikus eeldame, et tehisintellekt muutub üha enam eraldiseisvaks tootepereks. 

A100 nominaalne jõudlus on 312 TFLOPS mis teoreetiliselt vähendaks GPT-3 järelduse umbes 1 sekundini. Kuid see on mitmel põhjusel liiga lihtsustatud arvutus. Esiteks, enamiku kasutusjuhtude puhul ei ole kitsaskohaks GPU arvutusvõimsus, vaid võime saada andmeid spetsiaalsest graafikamälust tensorituumadesse. Teiseks võtaks 175 miljardit kaalu 700 GB ja ei mahu ühegi GPU graafikamällu. Kasutada tuleb selliseid tehnikaid nagu jaotamine ja kaalu voogesitus. Ja kolmandaks, arvutuste kiirendamiseks kasutatakse mitmeid optimeerimisi (nt lühemate ujukomaesituste kasutamine, nagu FP16, FP8 või hõredad maatriksid). Kuid üldiselt annab ülaltoodud matemaatika meile intuitsiooni tänapäeva LLM-ide arvutuskuludest.

Trafomudeli väljaõpetamine võtab ühe märgi kohta umbes kolm korda kauem aega kui järelduste tegemine. Arvestades aga, et treeningandmete kogum on umbes 300 miljonit korda suurem kui järeldusviip, võtab treenimine aega 1 miljard korda kauem. Ühel GPU-l kuluks väljaõpe aastakümneid; praktikas tehakse seda suurtes arvutusklastrites spetsiaalsetes andmekeskustes või tõenäolisemalt pilves. Treeningut on samuti raskem paralleelselt teha kui järeldada, kuna uuendatud kaalusid tuleb sõlmede vahel vahetada. GPU-de vaheline mälu ja ribalaius muutuvad sageli palju olulisemaks teguriks, kusjuures tavalised on kiired ühendused ja spetsiaalsed kangad. Väga suurte mudelite koolitamisel võib esmaseks väljakutseks olla sobiva võrguseadistuse loomine. Tulevikku vaadates on tehisintellekti kiirenditel kaardil või isegi kiibil võrguvõimalused. 

Kuidas see arvutuslik keerukus maksma läheb? GPT-3 järeldus, mis, nagu eespool nägime, võtab A1 puhul aega umbes 100 sekundi, oleks 0.0002 märgi kohta 0.0014–1,000 dollari toorarvutusmaksumus (võrreldes OpenAI hinnakujundusega 0.002 dollarit 1000 märgi kohta). Kasutaja, kes genereerib 100 järeldustaotlust päevas, maksaks suurusjärgus dollareid aastas. See on väga madal hind ja muudab enamiku inimeste tekstipõhise tehisintellekti kasutamise rahaliselt elujõuliseks.

koolitus GPT-3 on seevastu palju kallim. Jällegi ainult 3.14*10^23 FLOPSi arvutamise maksumus ülaltoodud kurssidega annab meile hinnanguliselt 560,000 100 dollarit AXNUMX kaartidel ühekordne treeningjooks. Praktikas ei saavuta me koolituse jaoks GPU-s ligi 100% efektiivsust; aga saame treeningu aja vähendamiseks kasutada ka optimeerimisi. Muud GPT-3 koolituskulude hinnangud ulatuvad vahemikust $500,000 et $ 4.6 miljonit olenevalt riistvaralistest eeldustest. Pange tähele, et see on ühe käigu maksumus, mitte kogukulu. Tõenäoliselt on vaja mitut käitamist ja pilveteenuse pakkujad soovivad võtta pikaajalisi kohustusi (selle kohta lähemalt allpool). Tippmudelite koolitamine on endiselt kulukas, kuid hästi rahastatud idufirma käeulatuses.

Kokkuvõtteks võib öelda, et generatiivne AI nõuab tänapäeval suuri investeeringuid tehisintellekti infrastruktuuri. Pole põhjust arvata, et see lähiajal muutuks. Sellise mudeli nagu GPT-3 koolitamine on üks arvutusmahukamaid ülesandeid, mida inimkond on kunagi ette võtnud. Ja kuigi GPU-d muutuvad kiiremaks ja me leiame võimalusi koolituse optimeerimiseks, muudab AI kiire laienemine mõlemad need mõjud olematuks.

AI infrastruktuuri kaalutlused

Siiani oleme püüdnud anda teile intuitsiooni AI mudelite väljaõppeks ja järelduste tegemiseks vajaliku skaala ja nende aluseks olevate parameetrite kohta. Selles kontekstis tahame nüüd anda praktilisi juhiseid selle kohta, kuidas otsustada, millist tehisintellekti infrastruktuuri kasutada.

Väline vs majasisene infrastruktuur

Olgem ausad: GPU-d on lahedad. Paljud insenerid ja insenerimeelsed asutajad kalduvad oma tehisintellekti riistvara varustama mitte ainult seetõttu, et see annab täpse kontrolli mudelikoolituse üle, vaid ka seetõttu, et suure arvutusvõimsuse ärakasutamises on lihtsalt midagi lõbusat (näitus A).

Tegelikkus on aga selline Paljud idufirmad – eriti rakenduste ettevõtted – ei pea oma tehisintellekti infrastruktuuri üles ehitama 1. päeval. Selle asemel võimaldavad hostitud mudeliteenused, nagu OpenAI või Hugging Face (keele jaoks) ja Replicate (pildi genereerimiseks), asutajatel kiiresti otsida tooteturule sobivat, ilma et oleks vaja hallata aluseks olevat infrastruktuuri või mudeleid.

Need teenused on muutunud nii heaks, et paljud ettevõtted ei lõpeta neid kunagi. Arendajad saavad saavutada mudeli jõudluse üle sisuka kontrolli kiire inseneritöö ja kõrgema astme peenhäälestusabstraktsioonide (st API-kõnede kaudu peenhäälestamise) abil. Nende teenuste hinnakujundus on tarbimispõhine, seega on see sageli odavam kui eraldi infrastruktuuri käitamine. Oleme näinud, et rakendusettevõtted teenivad rohkem kui 50 miljonit dollarit ARR-i ja mille väärtus on üle 1 miljardi dollari ning mis pakuvad kapoti all hostitud mudeliteenuseid.

Teisest küljest on mõned idufirmad - eriti need, kes koolitavad uusi alusmudeleid või ehitavad vertikaalselt integreeritud tehisintellekti rakendusi – ei saa vältida oma mudelite otsest käitamist GPU-del. Kas seetõttu, et mudel on tegelikult toode ja meeskond otsib „mudeliturule sobivust”, või seetõttu, et teatud võimaluste saavutamiseks või suuremahuliste piirkulude vähendamiseks on vaja täpset kontrolli koolituse ja/või järelduste tegemise üle. Mõlemal juhul võib infrastruktuuri haldamine saada konkurentsieelise allikaks.

Pilve vs andmekeskuse ehitamine

Enamikul juhtudel on pilv teie tehisintellekti infrastruktuuri jaoks õige koht. Väiksemad esialgsed kulud, suutlikkus suurendada ja vähendada, piirkondlik kättesaadavus ja väiksem tähelepanu kõrvalejuhtimine oma andmekeskuse ehitamisest on enamiku alustavate ja suuremate ettevõtete jaoks mõjuvad.

Kuid sellel reeglil on mõned erandid:

  • Kui tegutsete väga suures mahus, võib oma andmekeskuse haldamine olla kuluefektiivsem. Täpne hind sõltub geograafilisest asukohast ja seadistusest, kuid tavaliselt nõuab see infrastruktuuri kulutusi üle 50 miljoni dollari aastas.
  • Teil on vaja väga spetsiifilist riistvara, mida te ei saa pilveteenuse pakkujalt hankida. Näiteks GPU tüübid, mis pole laialdaselt saadaval, samuti ebatavalised mälu-, salvestus- või võrgunõuded.
  • Te ei saa leida pilve, mis oleks geopoliitilistel kaalutlustel vastuvõetav.

Kui soovite luua oma andmekeskuse, on teie enda seadistuste jaoks tehtud GPU-de põhjalik hinna/jõudluse analüüs (nt Tim Dettmeri analüüs). Riistvara valik sõltub lisaks kaardi enda maksumusele ja jõudlusele ka võimsusest, ruumist ja jahutusest. Näiteks kahel RTX 3080 Ti kaardil on koos A100-ga sarnane töötlemata arvutusvõimsus, kuid vastav energiatarve on 700 W vs. 300 W. 3,500 kWh võimsuse erinevus turuhinnaga 0.10 $/kWh kolmeaastase elutsükli jooksul suurendab RTX3080 Ti maksumust peaaegu 2 korda (umbes 1,000 $).

Seda kõike arvestades eeldame, et enamik idufirmasid kasutab pilvandmetöötlust. 

Pilveteenuse pakkujate võrdlus 

Amazon Web Services (AWS), Microsoft Azure ja Google Cloud Platform (GCP) pakuvad kõik GPU eksemplare, kuid näib, et uued pakkujad keskenduvad ka konkreetselt AI töökoormustele. Siin on raamistik, mida paljud asutajad kasutasid pilveteenuse pakkuja valimiseks.

Hind: Allolevas tabelis on näidatud mitmete suuremate ja väiksemate eripilvede hind seisuga 7. aprill 2023. Need andmed on vaid soovituslikud, kuna juhtumid erinevad märkimisväärselt võrgu ribalaiuse, andmete väljumiskulude, protsessori ja võrgu lisakulude osas, saadaval allahindlusi ja muid tegureid.

Tehisintellekti arvutamise PlatoBlockchaini andmeluure kõrgete kuludega navigeerimine. Vertikaalne otsing. Ai.

Konkreetse riistvara arvutusvõimsus on kaup. Naiivselt eeldaksime üsna ühtlaseid hindu, kuid see pole nii. Ja kuigi pilvede funktsioonide vahel on olulisi erinevusi, ei piisa neist, et selgitada, et tellitava NVIDIA A100 hinnakujundus varieerub pakkujate vahel peaaegu 4 korda.

Hinnaskaala ülemises otsas maksavad suured avalikud pilved lisatasu, mis põhineb kaubamärgi mainel, tõestatud töökindlusel ja vajadusel hallata mitmesuguseid töökoormusi. Väiksemad spetsialiseerunud tehisintellekti pakkujad pakuvad madalamaid hindu kas selleks loodud andmekeskuste (nt Coreweave) või muude pilvede (nt Lambda Labs) vahendusel.

Praktiliselt räägib enamik suuremaid ostjaid hindade üle otse pilveteenuse pakkujaga, järgides sageli nii minimaalseid kulunõudeid kui ka minimaalseid ajakohustusi (oleme näinud 1–3 aastat). Pilvede vahelised hinnaerinevused kahanevad mõnevõrra pärast läbirääkimisi, kuid oleme näinud, et ülaltoodud tabelis on edetabel suhteliselt stabiilne. Samuti on oluline märkida, et väiksemad ettevõtted võivad eripilvedest saada agressiivset hinnakujundust ilma suurte kulukohustusteta.

Saadavus: Kõige võimsamad GPU-d (nt Nvidia A100s) on viimase 12 kuu jooksul pidevalt defitsiit olnud. 

Arvestades nende suurt ostujõudu ja ressursside kogumit, oleks loogiline arvata, et kolmel parimal pilveteenuse pakkujal on parim saadavus. Kuid mõneti üllataval kombel pole paljud idufirmad seda tõeks pidanud. Suurtel pilvedel on palju riistvara, kuid neil on ka suured klientide vajadused – nt Azure on ChatGPT peamine host – ja nõudluse rahuldamiseks lisatakse/renditakse pidevalt võimsust. Samal ajal on Nvidia võtnud endale kohustuse teha riistvara laialdaselt kättesaadavaks kogu tööstuses, sealhulgas eraldada uutele erialapakkujatele. (Nad teevad seda nii aususe huvides kui ka selleks, et vähendada oma sõltuvust mõnest suurest kliendist, kes samuti nendega konkureerivad.)

Selle tulemusena leiavad paljud idufirmad väiksemate pilvepakkujate juurest rohkem saadaolevaid kiipe, sealhulgas tipptasemel Nvidia H100s. Kui olete valmis töötama uuema infrastruktuuriettevõttega, saate võib-olla vähendada riistvara ooteaegu ja säästa raha.

Arvutage tarnemudel: Tänapäeval pakuvad suured pilved ainult spetsiaalsete GPU-dega eksemplare, põhjuseks on see, et GPU virtualiseerimine on endiselt lahendamata probleem. Spetsiaalsed AI-pilved pakuvad muid mudeleid, nagu konteinerid või paketttööd, mis saavad hakkama üksikute ülesannetega ilma eksemplari käivitamis- ja mahavõtmiskulusid kandmata. Kui olete selle mudeliga rahul, võib see kulusid oluliselt vähendada.

Võrguühendused: Koolituse puhul on võrgu ribalaius pakkuja valikul peamine tegur. Teatud suurte mudelite koolitamiseks on vaja klastreid, mille sõlmede vahel on spetsiaalsed kangad, näiteks NVLink. Pildi loomisel võivad väljapääsutasud olla ka suur kulutekitaja.

Klienditugi: Suured pilveteenuse pakkujad teenindavad tohutul hulgal kliente tuhandete toote SKU-de kaudu. Klienditoe tähelepanu või probleemi lahendamine võib olla raske, kui te pole suur klient. Paljud spetsialiseeritud AI-pilved seevastu pakuvad kiiret ja reageerivat tuge isegi väikestele klientidele. See on osaliselt tingitud sellest, et nad töötavad väiksemas mahus, aga ka seetõttu, et nende töökoormus on homogeensem – seega on neil suurem motivatsioon keskenduda tehisintellekti spetsiifilistele funktsioonidele ja vigadele.

GPU-de võrdlemine 

Kui kõik muu on võrdne, töötavad tipptasemel GPU-d kõige paremini peaaegu kõigi töökoormustega. Kuid nagu näete allolevast tabelist, on parim riistvara ka oluliselt kallim. Konkreetse rakenduse jaoks õige graafikaprotsessori tüübi valimine võib kulusid oluliselt vähendada ja võib muuta elujõulise ja mitteelujõulise ärimudeli vahel.

Tehisintellekti arvutamise PlatoBlockchaini andmeluure kõrgete kuludega navigeerimine. Vertikaalne otsing. Ai.

Otsustamine, kui kaugele loendis alla minna, st oma rakenduse jaoks kõige kuluefektiivsemate GPU valikute kindlaksmääramine, on suures osas tehniline otsus, mis jääb käesoleva artikli reguleerimisalast välja. Kuid me jagame allpool mõningaid valikukriteeriume, mis on meie arvates kõige olulisemad.

Treening vs. järeldus: Nagu nägime ülaltoodud esimeses jaotises, nõuab Transformeri mudeli treenimine, et lisaks mudeli kaaludele salvestame treenimiseks 8 baiti andmeid. See tähendab, et tüüpilist 12 GB mäluga tipptasemel GPU-d saab vaevalt kasutada 4 miljardi parameetriga mudeli treenimiseks. Praktikas toimub suurte mudelite koolitamine masinate klastrites, millel on eelistatavalt palju GPU-sid serveri kohta, palju VRAM-i ja serveritevahelised suure ribalaiusega ühendused (st klastrid, mis on ehitatud tipptasemel andmekeskuse GPU-de abil).

Täpsemalt on paljud mudelid kõige kuluefektiivsemad NVIDIA H100 puhul, kuid praeguse seisuga on seda raske leida ja see nõuab tavaliselt pikaajalist, rohkem kui aastast pühendumist. NVIDIA A100 juhib tänapäeval enamikku mudelikoolitustest; seda on lihtsam leida, kuid suurte klastrite puhul võib see nõuda ka pikaajalist pühendumist.

Mälu nõuded: Suurtel LLM-idel on parameetrite arv, mis on liiga kõrge, et mahutada ühelegi kaardile. Need tuleb jagada mitme kaardi vahel ja vajavad koolitusega sarnast seadistust. Teisisõnu, tõenäoliselt vajate H100 või A100 isegi LLM-i järelduste tegemiseks. Kuid väiksemad mudelid (nt Stable Diffusion) nõuavad palju vähem VRAM-i. Kuigi A100 on endiselt populaarne, oleme näinud, et idufirmad kasutavad A10, A40, A4000, A5000 ja A6000 või isegi RTX-kaarte. 

Riistvara tugi: Kuigi enamik töökoormust ettevõtetes, kellega oleme rääkinud, töötab NVIDIA-s, on mõned hakanud katsetama teiste müüjatega. Kõige tavalisem on Google'i TPU, kuid näib, et ka Inteli Gaudi 2 saab veojõu. Nende tarnijate väljakutse seisneb selles, et teie mudeli jõudlus sõltub sageli suurel määral nende kiipide tarkvara optimeerimise saadavusest. Tõenäoliselt peate jõudluse mõistmiseks tegema PoC.

Latentsusnõuded: Üldiselt võivad vähem latentsustundlikud töökoormused (nt pakettandmete töötlemine või rakendused, mis ei vaja interaktiivseid kasutajaliidese vastuseid) kasutada vähem võimsaid GPU-sid. See võib vähendada arvutuskulusid kuni 3–4 korda (nt A100 ja A10 võrdlemine AWS-is). Teisest küljest vajavad kasutajale suunatud rakendused sageli tipptasemel kaarte, et pakkuda kaasahaaravat ja reaalajas kasutuskogemust. Mudelite optimeerimine on sageli vajalik selleks, et viia kulud juhitavasse ulatusse.

Teravus: Generatiivsed tehisintellekti ettevõtted näevad sageli dramaatilisi hüppeid nõudluses, kuna tehnoloogia on nii uus ja põnev. Pole sugugi ebatavaline, et taotluste maht suureneb 10 korda päevas, võttes aluseks uue toote väljalaske, või kasvab pidevalt 50% nädalas. Nende hüpete käsitlemine on madalama klassi GPU-de puhul sageli lihtsam, kuna nõudmisel on tõenäoliselt saadaval rohkem arvutussõlme. Sageli on mõistlik ka seda tüüpi liiklust teenindada madalamate kuludega ressurssidega – toimivuse arvelt –, kui see pärineb vähem kaasatud või vähem säilitavatelt kasutajatelt.

Mudelite optimeerimine ja ajastamine

Tarkvara optimeerimine võib mudelite tööaega oluliselt mõjutada – ja 10-kordne kasv ei ole haruldane. Siiski peate kindlaks määrama, millised meetodid on teie konkreetse mudeli ja süsteemiga kõige tõhusamad.

Mõned tehnikad töötavad üsna paljude mudelite puhul. Kasutades lühemaid ujukoma esitusi (st FP16 või FP8 vs. algne FP32) või kvantiseerimist (INT8, INT4, INT2) saavutate kiiruse, mis on sageli bittide vähendamisega lineaarne. Mõnikord nõuab see mudeli muutmist, kuid üha enam on saadaval tehnoloogiaid, mis automatiseerivad segatud või lühema täpsusega töötamist. Närvivõrkude kärpimine vähendab kaalude arvu, jättes tähelepanuta madalate väärtustega kaalud. Koos tõhusa hõreda maatriksi korrutamisega võib see kaasaegsetel GPU-del oluliselt kiirendada. Teine optimeerimistehnikate komplekt käsitleb mälu ribalaiuse kitsaskohta (nt mudeli kaalude voogesituse kaudu).

Muud optimeerimised on väga mudelispetsiifilised. Näiteks Stable Diffusion on teinud suuri edusamme järelduste tegemiseks vajaliku VRAM-i mahu osas. Veel üks optimeerimisklass on riistvaraspetsiifiline. NVIDIA TensorML sisaldab mitmeid optimeerimisi, kuid töötab ainult NVIDIA riistvaraga. Viimaseks, kuid mitte vähemtähtsaks, võib AI-ülesannete ajastamine põhjustada suuri jõudluse kitsaskohti või täiustusi. Mudelite jaotamine GPU-dele kaalude vahetamise minimeerimiseks, ülesande jaoks parima GPU valimine, kui saadaval on mitu mudelit, ja seisakuaja minimeerimine töökoormuse eelnevalt jaotades on tavalised võtted.

Lõppkokkuvõttes on mudelite optimeerimine endiselt veidi must kunst ja enamik idufirmasid, kellega me räägime, teevad koostööd kolmandate osapooltega, et aidata mõnda neist tarkvaraaspektidest. Sageli ei ole need traditsioonilised MLopsi müüjad, vaid on ettevõtted, mis on spetsialiseerunud konkreetsete generatiivsete mudelite (nt OctoML või SegMind) optimeerimisele.

Kuidas AI infrastruktuuri kulud arenevad?

Viimase paari aasta jooksul oleme näinud mõlema eksponentsiaalset kasvu mudeli parameetrid ja GPU arvutusvõimsus. Kas see trend jätkub, pole selge.

Tänapäeval on laialdaselt aktsepteeritud, et optimaalse parameetrite arvu ja treeningandmete kogumi suuruse vahel on seos (vt Deepmindi tšintšilja töötage selle nimel rohkem). Tänapäeva parimad LLM-id on koolitatud Ühine indekseerimine (4.5 miljardist veebilehest koosnev kogum ehk umbes 10% kõigist olemasolevatest veebilehtedest). Koolituskorpus sisaldab ka Vikipeediat ja raamatute kogu, kuigi mõlemad on palju väiksemad (olemasolevate raamatute koguarv on hinnanguliselt ainult umbes 100 miljonit). On pakutud ka muid ideid, nagu video- või helisisu transkribeerimine, kuid ükski neist ei ole oma suuruse poolest ligilähedane. Ei ole selge, kas saaksime mittesünteetilise koolituse andmestiku, mis on 10 korda suurem kui juba kasutatud.

GPU jõudlus kasvab jätkuvalt, kuid ka aeglasemalt. Moore'i seadus on endiselt puutumata, võimaldades rohkem transistore ja rohkem südamikke, kuid võimsus ja sisend/väljund on muutumas piiravateks teguriteks. Lisaks on optimeerimiseks korjatud palju madalalt rippuvaid puuvilju. 

See aga ei tähenda, et me ei eelda arvutusvõimsuse nõudluse kasvu. Isegi kui mudelite ja koolituskomplektide kasv aeglustub, suurendab AI-tööstuse kasv ja tehisintellekti arendajate arvu kasv nõudlust rohkemate ja kiiremate GPU-de järele. Arendajad kasutavad mudeli arendusfaasis testimiseks suurt osa GPU võimsusest ja see nõudlus skaalaldub lineaarselt töötajate arvuga. Ei ole märke, et tänane GPU puudus lähitulevikus väheneks.

Kas tehisintellekti infrastruktuuri jätkuvalt kõrge hind loob vallikraavi, mis muudab uute tulijate jaoks võimatuks hästi rahastatud turgu valitsevatele operaatoritele järele jõuda? Me ei tea sellele küsimusele veel vastust. LLM-i koolituskulud võivad tänapäeval tunduda vallikraavina, kuid avatud lähtekoodiga mudelid, nagu Alpaca või Stable Diffusion, on näidanud, et need turud on veel varajased ja võivad kiiresti muutuda. Aja jooksul on areneva AI tarkvaravirna kulustruktuur (vaata meie eelmist postitust) võib hakata välja nägema rohkem traditsioonilise tarkvaratööstuse moodi. 

Lõppkokkuvõttes oleks see hea: ajalugu on näidanud, et see viib elavate ökosüsteemideni, kus on kiire innovatsioon ja palju võimalusi ettevõtlikele asutajatele.

Täname Moin Nadeemi ja Shangda Xu nende panuse ja juhendamise eest kirjutamisprotsessi ajal.


¹ Intuitsioon seisneb selles, et närvivõrgu mis tahes parameetri (st kaalu) korral peab järeldamistehing (st edasiliikumine) tegema kaks ujukomatehet parameetri kohta. Esiteks korrutab see närvivõrgu sisendsõlme väärtuse parameetriga. Teiseks lisab see liitmise tulemuse närvivõrgu väljundsõlme. Koderis olevaid parameetreid kasutatakse üks kord sisendmärgi kohta ja dekoodris olevaid parameetreid üks kord väljundmärgi kohta. Kui eeldame, et mudelil on p parameetritel ning sisendil ja väljundil on mõlema pikkus n märkide, ujukomatehteid kokku on n * lk. Mudelis toimub palju muid toiminguid (nt normaliseerimine, manustamise kodeerimine/dekodeerimine), kuid nende sooritamiseks kuluv aeg on sellega võrreldes väike. 

² Õppimiseks on kõigepealt vaja trafot edasi liikuda, nagu eespool kirjeldatud, millele järgneb tagasikäik, mis hõlmab nelja lisatoimingut parameetri kohta, et arvutada gradient ja reguleerida kaalu. Pange tähele, et gradiendi arvutamine eeldab arvutatud sõlme väärtuste säilitamist edasipääsust. GPT-3 jaoks Keelemudelid on väheõppijad arutab koolituse maksumust.

* * *

Siin väljendatud seisukohad on tsiteeritud AH Capital Management, LLC (“a16z”) üksikute töötajate seisukohad, mitte a16z ega tema sidusettevõtete seisukohad. Teatud siin sisalduv teave on saadud kolmandate osapoolte allikatest, sealhulgas a16z hallatavate fondide portfelliettevõtetelt. Kuigi a16z on võetud usaldusväärsetest allikatest, ei ole a16z sellist teavet sõltumatult kontrollinud ega kinnita teabe püsivat täpsust ega selle sobivust antud olukorras. Lisaks võib see sisu sisaldada kolmandate isikute reklaame; aXNUMXz ei ole selliseid reklaame üle vaadanud ega toeta neis sisalduvat reklaamisisu.

See sisu on esitatud ainult informatiivsel eesmärgil ja sellele ei tohiks tugineda kui juriidilisele, äri-, investeerimis- ega maksunõustamisele. Nendes küsimustes peaksite konsulteerima oma nõustajatega. Viited mis tahes väärtpaberitele või digitaalsetele varadele on illustratiivse tähendusega ega kujuta endast investeerimissoovitust ega investeerimisnõustamisteenuste pakkumist. Lisaks ei ole see sisu suunatud ega mõeldud kasutamiseks ühelegi investorile ega potentsiaalsetele investoritele ning sellele ei tohi mingil juhul tugineda, kui tehakse otsus investeerida a16z hallatavasse fondi. (A16z fondi investeerimise pakkumine tehakse ainult sellise fondi erainvesteeringute memorandumi, märkimislepingu ja muu asjakohase dokumentatsiooni alusel ning neid tuleks lugeda tervikuna.) Kõik mainitud, viidatud investeeringud või portfelliettevõtted või kirjeldatud ei esinda kõiki a16z hallatavatesse sõidukitesse tehtud investeeringuid ning ei saa olla kindlust, et investeeringud on tulusad või et teised tulevikus tehtavad investeeringud on sarnaste omaduste või tulemustega. Andreessen Horowitzi hallatavate fondide tehtud investeeringute loend (v.a investeeringud, mille kohta emitent ei ole andnud A16z-le luba avalikustada, samuti etteteatamata investeeringud avalikult kaubeldavatesse digitaalvaradesse) on saadaval aadressil https://a16z.com/investments /.

Siin esitatud diagrammid ja graafikud on üksnes informatiivsel eesmärgil ja neile ei tohiks investeerimisotsuse tegemisel tugineda. Varasemad tulemused ei näita tulevasi tulemusi. Sisu räägib ainult märgitud kuupäeva seisuga. Kõik nendes materjalides väljendatud prognoosid, hinnangud, prognoosid, eesmärgid, väljavaated ja/või arvamused võivad muutuda ilma ette teatamata ning võivad erineda või olla vastuolus teiste väljendatud arvamustega. Olulist lisateavet leiate aadressilt https://a16z.com/disclosures.

Ajatempel:

Veel alates Andreessen Horowitz