Navigeren door de hoge kosten van AI Compute

Navigeren door de hoge kosten van AI Compute

Navigeren door de hoge kosten van AI Compute PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.
Bron: Midjourney

De generatieve AI-boom is rekengebonden. Het heeft de unieke eigenschap dat het toevoegen van meer rekenkracht direct resulteert in een beter product. Gewoonlijk zijn R&D-investeringen directer gekoppeld aan hoe waardevol een product was, en die relatie is duidelijk sublineair. Maar dit is momenteel niet het geval met kunstmatige intelligentie en als gevolg daarvan zijn de kosten van training en inferentie een overheersende factor die de industrie tegenwoordig aandrijft. 

Hoewel we de echte cijfers niet kennen, hebben we van gerenommeerde bronnen gehoord dat het aanbod van computers zo beperkt is dat de vraag er een factor 10(!) overtreft. toegang tot computerbronnen โ€“ tegen de laagste totale kosten โ€“ is een bepalende factor geworden voor het succes van AI-bedrijven.

We hebben zelfs gezien dat veel bedrijven meer dan 80% van hun totale ingezamelde kapitaal besteden aan computerresources!

In deze post proberen we de kostenfactoren voor een AI-bedrijf op te splitsen. De absolute cijfers zullen natuurlijk in de loop van de tijd veranderen, maar we zien niet onmiddellijk verlichting van AI-bedrijven die gebonden zijn aan hun toegang tot computerbronnen. Dus hopelijk is dit een nuttig raamwerk voor het doordenken van het landschap. 

Waarom zijn AI-modellen zo rekenkundig duur?

Er is een grote verscheidenheid aan generatieve AI-modellen en de kosten voor inferentie en training zijn afhankelijk van de grootte en het type model. Gelukkig zijn de meest populaire modellen tegenwoordig meestal op transformatoren gebaseerde architecturen, waaronder populaire grote taalmodellen (LLM's) zoals GPT-3, GPT-J of BERT. Hoewel het exacte aantal bewerkingen voor inferentie en leren van transformatoren modelspecifiek is (zie dit papier), is er een redelijk nauwkeurige vuistregel die alleen afhangt van het aantal parameters (dwz de gewichten van de neurale netwerken) van het model en het aantal invoer- en uitvoertokens. 

Tokens zijn in wezen korte reeksen van een paar karakters. Ze komen overeen met woorden of delen van woorden. De beste manier om intuรฏtie voor tokens te krijgen, is door tokenisatie uit te proberen met openbaar beschikbare online tokenizers (bijv. OpenAI). Voor GPT-3 is dit de gemiddelde lengte van een token bestaat uit 4 tekens

De vuistregel voor transformatoren is dat een voorwaartse pass (dwz gevolgtrekking) voor een model met p parameters voor een input- en een outputsequentie van lengte n penningen elk, duurt ongeveer 2*n*p drijvende-kommabewerkingen (FLOPS)ยน. Training voor hetzelfde model duurt ongeveer 6*p FLOPS per token (dwz de extra achterwaartse pass vereist nog vier operatiesยฒ). U kunt de totale trainingskosten benaderen door dit te vermenigvuldigen met het aantal tokens in de trainingsgegevens.

Geheugenvereisten voor transformatoren zijn ook afhankelijk van de modelgrootte. Voor gevolgtrekking hebben we de p modelparameters om in het geheugen te passen. Om te leren (dwz back-propagation), moeten we extra tussenwaarden per parameter opslaan tussen de voorwaartse en achterwaartse pass. Ervan uitgaande dat we 32-bits getallen met drijvende komma gebruiken, zijn dit 8 bytes extra per parameter. Voor het trainen van een model met 175 miljard parameters zouden we meer dan een terabyte aan gegevens in het geheugen moeten bewaren - dit overtreft elke GPU die vandaag bestaat en vereist dat we het model over kaarten verdelen. Geheugenvereisten voor inferentie en training kunnen worden geoptimaliseerd door drijvende-kommawaarden van kortere lengtes te gebruiken, waarbij 16-bits algemeen wordt en 8-bits in de nabije toekomst wordt verwacht.

Navigeren door de hoge kosten van AI Compute PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

De bovenstaande tabel bevat maten en rekenkosten voor verschillende populaire modellen. GPT-3 heeft ongeveer 175 miljard parameters, wat voor een invoer en uitvoer van 1,024 tokens resulteert in een rekenkost van ongeveer 350 biljoen drijvende-kommabewerkingen (dwz Teraflops of TFLOPS). Het trainen van een model als GPT-3 kost ongeveer 3.14*10^23 drijvende-kommabewerkingen. Andere modellen zoals Meta's LLaMA hebben zelfs hoger vereisten berekenen. Het trainen van een dergelijk model is een van de meer rekenintensieve taken die de mensheid tot dusver op zich heeft genomen. 

Samengevat: AI-infrastructuur is duur omdat de onderliggende algoritmische problemen extreem rekenkundig moeilijk zijn. De algoritmische complexiteit van het sorteren van een databasetabel met een miljoen items is onbeduidend vergeleken met de complexiteit van het genereren van een enkel woord met GPT-3. Dit betekent dat u het kleinste model wilt kiezen dat uw use case oplost. 

Het goede nieuws is dat we voor transformatoren gemakkelijk kunnen inschatten hoeveel rekenkracht en geheugen een model van een bepaalde grootte zal verbruiken. En dus wordt het kiezen van de juiste hardware de volgende overweging. 

Het tijd- en kostenargument voor GPU's

Hoe vertaalt computationele complexiteit zich naar tijd? Een processorkern kan doorgaans 1-2 instructies per cyclus uitvoeren, en de kloksnelheden van de processor zijn de afgelopen 3 jaar stabiel rond de 15 GHz geweest vanwege het einde van Dennard-schaalverdeling. Het uitvoeren van een enkele GPT-3-inferentiebewerking zonder gebruik te maken van een parallelle architectuur zou ongeveer 350 TFLOPS/(3 GHz*1 FLOP) of 116,000 seconden of 32 uur in beslag nemen. Dit is enorm onpraktisch; in plaats daarvan hebben we gespecialiseerde chips nodig die deze taak versnellen.

In de praktijk draaien alle AI-modellen tegenwoordig op kaarten die een zeer groot aantal gespecialiseerde kernen gebruiken. Een NVIDIA A100 GPU heeft bijvoorbeeld 512 "tensorkernen" die een 4ร—4 matrixvermenigvuldiging kunnen uitvoeren (wat overeenkomt met 64 vermenigvuldigingen en optellingen, of 128 FLOPS) in een enkele cyclus. AI-versnellerkaarten worden vaak GPU's (grafische verwerkingseenheden) genoemd, omdat de architectuur oorspronkelijk is ontwikkeld voor desktopgaming. In de toekomst verwachten we dat AI steeds meer een aparte productfamilie wordt. 

De A100 heeft een nominale prestatie van 312 TFLOPS wat in theorie de gevolgtrekking voor GPT-3 zou verminderen tot ongeveer 1 seconde. Dit is echter om verschillende redenen een te vereenvoudigde berekening. Ten eerste is het knelpunt voor de meeste gebruikssituaties niet de rekenkracht van de GPU, maar de mogelijkheid om gegevens van het gespecialiseerde grafische geheugen naar de tensorkernen te krijgen. Ten tweede zouden de 175 miljard gewichten 700 GB in beslag nemen en passen ze niet in het grafische geheugen van een GPU. Technieken zoals partitionering en gewichtsverdeling moeten worden gebruikt. En ten derde zijn er een aantal optimalisaties (bijv. het gebruik van kortere drijvende-kommarepresentaties, zoals FP16, FP8 of schaarse matrices) die worden gebruikt om de berekening te versnellen. Maar over het algemeen geeft de bovenstaande wiskunde ons een intuรฏtie van de totale rekenkosten van de huidige LLM's.

Het trainen van een transformatormodel duurt ongeveer drie keer zo lang per token als het doen van gevolgtrekkingen. Aangezien de trainingsdataset echter ongeveer 300 miljoen keer groter is dan een inferentieprompt, duurt de training een factor 1 miljard langer. Op een enkele GPU zou training tientallen jaren duren; in de praktijk gebeurt dit op grote rekenclusters in speciale datacenters of, waarschijnlijker, in de cloud. Training is ook moeilijker te parallelliseren dan gevolgtrekking, omdat bijgewerkte gewichten tussen knooppunten moeten worden uitgewisseld. Geheugen en bandbreedte tussen GPU's worden vaak een veel belangrijkere factor, waarbij snelle verbindingen en speciale fabrics gebruikelijk zijn. Voor het trainen van zeer grote modellen kan het creรซren van een geschikte netwerkconfiguratie de belangrijkste uitdaging zijn. Als we naar de toekomst kijken, zullen AI-versnellers netwerkmogelijkheden op de kaart of zelfs op de chip hebben. 

Hoe vertaalt deze computationele complexiteit zich naar kosten? Een GPT-3-inferentie, die, zoals we hierboven zagen, ongeveer 1 seconde duurt op een A100, zou ruwe rekenkosten hebben tussen $ 0.0002 en $ 0.0014 voor 1,000 tokens (dit is vergelijkbaar met de prijs van OpenAI van $ 0.002/1000 tokens). Een gebruiker die 100 inferentieverzoeken per dag genereert, kost in de orde van grootte van dollars per jaar. Dit is een zeer lage prijs en maakt de meeste use-cases van op tekst gebaseerde AI door mensen financieel haalbaar.

Trainingen GPT-3 daarentegen is veel duurder. Wederom berekenen we alleen de rekenkosten voor 3.14 * 10 ^ 23 FLOPS tegen de bovenstaande tarieven, wat ons een schatting geeft van $ 560,000 op A100-kaarten voor een enkele trainingsronde. In de praktijk zullen we voor training niet bijna 100% efficiรซntie in de GPU halen; we kunnen echter ook optimalisaties gebruiken om de trainingstijd te verkorten. Andere schattingen van GPT-3-trainingskosten variรซren van $500,000 naar $ 4.6 miljoen, afhankelijk van hardwareaannames. Merk op dat dit de kosten van een enkele run zijn en niet de totale kosten. Er zullen waarschijnlijk meerdere runs nodig zijn en cloudproviders willen langetermijnverplichtingen (meer hierover hieronder). Het opleiden van topmodellen blijft duur, maar ligt binnen het bereik van een goed gefinancierde start-up.

Samenvattend: generatieve AI vereist tegenwoordig enorme investeringen in AI-infrastructuur. Er is geen reden om aan te nemen dat dit in de nabije toekomst zal veranderen. Het trainen van een model als GPT-3 is een van de meest rekenintensieve taken die de mensheid ooit heeft ondernomen. En terwijl GPU's sneller worden en we manieren vinden om training te optimaliseren, doet de snelle uitbreiding van AI beide effecten teniet.

Overwegingen voor AI-infrastructuur

Tot nu toe hebben we geprobeerd u enige intuรฏtie te geven voor de schaal die nodig is om AI-modellen te trainen en te concluderen, en welke onderliggende parameters deze aandrijven. Met die context willen we nu wat praktische richtlijnen geven over hoe te beslissen welke AI-infrastructuur moet worden gebruikt.

Externe versus interne infrastructuur

Laten we eerlijk zijn: GPU's zijn cool. Veel ingenieurs en technisch ingestelde oprichters zijn geneigd om hun eigen AI-hardware in te richten, niet alleen omdat het fijnmazige controle geeft over modeltraining, maar omdat er gewoon iets leuks is aan het benutten van grote hoeveelheden rekenkracht (Tentoonstelling A).

De realiteit is echter dat veel startups โ€“ vooral app-bedrijven โ€“ hoeven geen eigen AI-infrastructuur te bouwen op dag 1. In plaats daarvan stellen gehoste modelservices zoals OpenAI of Hugging Face (voor taal) en Replicate (voor het genereren van afbeeldingen) oprichters in staat om snel te zoeken naar product-markt-fit zonder de onderliggende infrastructuur of modellen te hoeven beheren.

Deze services zijn zo goed geworden dat veel bedrijven er nooit van af komen. Ontwikkelaars kunnen zinvolle controle krijgen over de modelprestaties door middel van snelle engineering en verfijnde abstracties van hogere orde (dwz fijnafstemming via API-aanroepen). De prijzen voor deze services zijn gebaseerd op verbruik, dus het is vaak ook goedkoper dan het runnen van een afzonderlijke infrastructuur. We hebben gezien dat app-bedrijven meer dan $ 50 miljoen aan ARR genereren en meer dan $ 1 miljard waard zijn, die gehoste modelservices onder de motorkap uitvoeren.

Aan de andere kant, sommige startups - vooral degenen die nieuwe basismodellen trainen of verticaal geรฏntegreerde AI-applicaties bouwen, kunnen er niet omheen om hun eigen modellen rechtstreeks uit te voeren op GPU's. Ofwel omdat het model feitelijk het product is en het team op zoek is naar 'model-market fit', ofwel omdat fijnmazige controle over training en/of inferentie vereist is om bepaalde capaciteiten te bereiken of marginale kosten op grote schaal te verlagen. Hoe dan ook, het beheer van de infrastructuur kan een bron van concurrentievoordeel worden.

De opbouw van de cloud versus het datacenter

In de meeste gevallen is de cloud de juiste plek voor uw AI-infrastructuur. Minder kosten vooraf, de mogelijkheid om op en neer te schalen, regionale beschikbaarheid en minder afleiding van het bouwen van uw eigen datacenter zijn aantrekkelijk voor de meeste startups en grotere bedrijven.

Maar er zijn een paar uitzonderingen op deze regel:

  • Als u op zeer grote schaal werkt, kan het kosteneffectiever worden om uw eigen datacenter te runnen. De exacte prijs varieert op basis van de geografische locatie en configuratie, maar vereist doorgaans infrastructuuruitgaven van meer dan $ 50 miljoen per jaar.
  • Je hebt heel specifieke hardware nodig die je niet bij een cloudprovider kunt krijgen. Bijvoorbeeld GPU-types die niet overal verkrijgbaar zijn, evenals ongebruikelijke geheugen-, opslag- of netwerkvereisten.
  • Je kunt geen cloud vinden die uit geopolitieke overwegingen acceptabel is.

Als u uw eigen datacenter wilt bouwen, is er een uitgebreide prijs/prestatie-analyse van GPU's voor uw eigen opstelling (bijv. De analyse van Tim Dettmer). Naast de kosten en prestaties van de kaart zelf, is de hardwarekeuze ook afhankelijk van vermogen, ruimte en koeling. Twee RTX 3080 Ti-kaarten hebben bijvoorbeeld samen een vergelijkbare onbewerkte rekencapaciteit als een A100, maar het respectievelijke stroomverbruik is 700 W versus 300 W. Het vermogensverschil van 3,500 kWh tegen markttarieven van $ 0.10/kWh over een levenscyclus van drie jaar verhoogt de kosten van de RTX3080 Ti met bijna 2x (ongeveer $ 1,000).

Dit alles gezegd hebbende, verwachten we dat de overgrote meerderheid van de startups gebruik zal maken van cloud computing. 

Het vergelijken van de cloudserviceproviders 

Amazon Web Services (AWS), Microsoft Azure en Google Cloud Platform (GCP) bieden allemaal GPU-instances, maar nieuwe providers lijken zich ook specifiek op AI-workloads te richten. Hier is een raamwerk dat we veel oprichters hebben zien gebruiken om een โ€‹โ€‹cloudprovider te kiezen:

Prijs: De onderstaande tabel toont de prijzen voor een aantal grote en kleinere gespecialiseerde clouds per 7 april 2023. Deze gegevens zijn slechts indicatief, aangezien de instanties aanzienlijk verschillen in termen van netwerkbandbreedte, kosten voor uitgaand gegevensverkeer, extra kosten van CPU en netwerk, beschikbaar kortingen en andere factoren.

Navigeren door de hoge kosten van AI Compute PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Rekencapaciteit op specifieke hardware is een commodity. Naรฏef zouden we vrij uniforme prijzen verwachten, maar dat is niet het geval. En hoewel er substantiรซle functieverschillen tussen de clouds bestaan, zijn ze onvoldoende om uit te leggen dat de prijzen voor een on-demand NVIDIA A100 met een factor van bijna 4x variรซren tussen providers.

Aan de bovenkant van de prijsschaal rekenen de grote openbare clouds een premie op basis van merkreputatie, bewezen betrouwbaarheid en de noodzaak om een โ€‹โ€‹breed scala aan workloads te beheren. Kleinere gespecialiseerde AI-aanbieders bieden lagere prijzen, hetzij door speciaal gebouwde datacenters (bijv. Coreweave) of door andere clouds te arbitreren (bijv. Lambda Labs).

In de praktijk onderhandelen de meeste grotere kopers rechtstreeks met de cloudproviders over prijzen, waarbij ze zich vaak committeren aan een minimale bestedingsvereiste en een minimale tijdsbesteding (we hebben gezien 1-3 jaar). De prijsverschillen tussen clouds worden na onderhandeling iets kleiner, maar we hebben gezien dat de rangschikking in bovenstaande tabel relatief stabiel blijft. Het is ook belangrijk op te merken dat kleinere bedrijven agressieve prijzen kunnen krijgen van speciale clouds zonder grote uitgavenverplichtingen.

Beschikbaarheid: De krachtigste GPU's (bijv. Nvidia A100s) zijn de afgelopen meer dan 12 maanden constant schaars geweest. 

Het zou logisch zijn om te denken dat de top drie cloudproviders de beste beschikbaarheid hebben, gezien hun grote koopkracht en pool van middelen. Maar, enigszins verrassend, hebben veel startups niet ontdekt dat dit waar is. De grote clouds hebben veel hardware, maar hebben ook grote klantbehoeften waaraan moet worden voldaan โ€” Azure is bijvoorbeeld de primaire host voor ChatGPT โ€” en voegen voortdurend capaciteit toe/leasen om aan de vraag te voldoen. Ondertussen heeft Nvidia toegezegd hardware breed beschikbaar te maken in de hele branche, inclusief toewijzingen voor nieuwe gespecialiseerde providers. (Ze doen dit zowel om eerlijk te zijn als om minder afhankelijk te zijn van een paar grote klanten die ook met hen concurreren.)

Als gevolg hiervan vinden veel startups meer beschikbare chips, waaronder de geavanceerde Nvidia H100s, bij kleinere cloudproviders. Als u bereid bent om met een nieuwer infrastructuurbedrijf samen te werken, kunt u mogelijk de wachttijden voor hardware verkorten en daarbij mogelijk geld besparen.

Bereken leveringsmodel: De grote clouds bieden tegenwoordig alleen instances met dedicated GPU's, de reden hiervoor is dat GPU-virtualisatie nog steeds een onopgelost probleem is. Gespecialiseerde AI-clouds bieden andere modellen, zoals containers of batchtaken, die individuele taken kunnen uitvoeren zonder de opstart- en demontagekosten van een instantie. Als u vertrouwd bent met dit model, kan dit de kosten aanzienlijk verlagen.

Netwerkverbindingen: Met name voor training is de netwerkbandbreedte een belangrijke factor bij de keuze van een provider. Clusters met speciale fabrics tussen nodes, zoals NVLink, zijn nodig om bepaalde grote modellen te trainen. Voor het genereren van afbeeldingen kunnen kosten voor uitgaand verkeer ook een belangrijke kostenfactor zijn.

Klantenondersteuning: Grote cloudproviders bedienen een enorme klantenpool met duizenden product-SKU's. Het kan moeilijk zijn om de aandacht van de klantenservice te trekken of een probleem op te lossen, tenzij u een grote klant bent. Veel gespecialiseerde AI-clouds bieden daarentegen snelle en responsieve ondersteuning, zelfs voor kleine klanten. Dit komt deels omdat ze op kleinere schaal werken, maar ook omdat hun werklast homogener is, waardoor ze meer worden gestimuleerd om zich te concentreren op AI-specifieke functies en bugs.

GPU's vergelijken 

Als al het andere gelijk is, zullen de top-end GPU's het beste presteren op bijna alle workloads. Zoals je in de onderstaande tabel kunt zien, is de beste hardware echter ook aanzienlijk duurder. Het kiezen van het juiste type GPU voor uw specifieke toepassing kan de kosten aanzienlijk verlagen en kan het verschil maken tussen een levensvatbaar en niet-levensvatbaar bedrijfsmodel.

Navigeren door de hoge kosten van AI Compute PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Beslissen hoe ver u op de lijst wilt komen, dat wil zeggen, bepalen wat de meest kosteneffectieve GPU-keuzes voor uw toepassing zijn, is grotendeels een technische beslissing die buiten het bestek van dit artikel valt. Maar we zullen hieronder enkele van de selectiecriteria delen waarvan we hebben gezien dat ze het belangrijkst zijn:

Training versus gevolgtrekking: Zoals we in het eerste gedeelte hierboven hebben gezien, vereist het trainen van een Transformer-model dat we 8 bytes aan gegevens opslaan voor training naast de modelgewichten. Dit betekent dat een typische high-end consumenten-GPU met 12 GB geheugen nauwelijks kan worden gebruikt om een โ€‹โ€‹model met 4 miljard parameters te trainen. In de praktijk wordt het trainen van grote modellen gedaan op clusters van machines met bij voorkeur veel GPU's per server, veel VRAM en verbindingen met hoge bandbreedte tussen de servers (dwz clusters die zijn gebouwd met behulp van hoogwaardige datacenter-GPU's).

In het bijzonder zullen veel modellen het meest kosteneffectief zijn op de NVIDIA H100, maar vanaf vandaag is het moeilijk te vinden en vereist het meestal een langetermijnverbintenis van meer dan een jaar. De NVIDIA A100 voert tegenwoordig de meeste modeltrainingen uit; het is gemakkelijker te vinden, maar voor grote clusters kan ook een langetermijnengagement nodig zijn.

Geheugenvereisten: Grote LLM's hebben parametertellingen die te hoog zijn om op een kaart te passen. Ze moeten over meerdere kaarten worden verdeeld en vereisen een opzet die vergelijkbaar is met training. Met andere woorden, u hebt waarschijnlijk H100s of A100s nodig, zelfs voor LLM-inferentie. Maar kleinere modellen (bijv. Stable Diffusion) hebben veel minder VRAM nodig. Hoewel de A100 nog steeds populair is, hebben we gezien dat startups de A10-, A40-, A4000-, A5000- en A6000- of zelfs RTX-kaarten gebruiken. 

Hardware-ondersteuning: Terwijl de overgrote meerderheid van de workloads in bedrijven waarmee we hebben gesproken op NVIDIA draait, zijn er een paar begonnen te experimenteren met andere leveranciers. Het meest gebruikelijk is de Google TPU, maar Intel's Gaudi 2 lijkt ook wat grip te krijgen. De uitdaging bij deze leveranciers is dat de prestaties van uw model vaak sterk afhankelijk zijn van de beschikbaarheid van software-optimalisaties voor deze chips. U zult waarschijnlijk een PoC moeten doen om de prestaties te begrijpen.

Latentievereisten: Over het algemeen kunnen minder latentiegevoelige workloads (bijvoorbeeld batchgegevensverwerking of applicaties die geen interactieve UI-antwoorden vereisen) minder krachtige GPU's gebruiken. Dit kan de rekenkosten tot wel 3-4x verlagen (bijv. A100's vergelijken met A10's op AWS). Aan de andere kant hebben gebruikersgerichte apps vaak hoogwaardige kaarten nodig om een โ€‹โ€‹boeiende, realtime gebruikerservaring te bieden. Het optimaliseren van modellen is vaak nodig om de kosten beheersbaar te maken.

Stekeligheid: Generatieve AI-bedrijven zien vaak dramatische pieken in de vraag omdat de technologie zo nieuw en opwindend is. Het is niet ongebruikelijk om de vraagvolumes met 10x per dag te zien toenemen, op basis van een nieuwe productrelease, of consistent met 50% per week te groeien. Het omgaan met deze pieken is vaak gemakkelijker op lagere GPU's, omdat er waarschijnlijk meer rekenknooppunten op aanvraag beschikbaar zijn. Het is vaak ook logisch om dit soort verkeer te bedienen met goedkopere middelen - ten koste van de prestaties - als het afkomstig is van minder betrokken of minder vasthoudende gebruikers.

Modellen optimaliseren en plannen

Software-optimalisaties kunnen de looptijd van modellen enorm beรฏnvloeden - en winsten van 10x zijn niet ongebruikelijk. U moet echter bepalen welke methoden het meest effectief zijn met uw specifieke model en systeem.

Sommige technieken werken met een vrij breed scala aan modellen. Het gebruik van kortere drijvende-kommarepresentaties (dwz FP16 of FP8 versus de originele FP32) of kwantisatie (INT8, INT4, INT2) zorgt voor een versnelling die vaak lineair is met de reductie van bits. Hiervoor moet soms het model worden aangepast, maar er zijn steeds meer technologieรซn beschikbaar die het werken met gemengde of kortere precisie automatiseren. Het snoeien van neurale netwerken vermindert het aantal gewichten door gewichten met lage waarden te negeren. Samen met efficiรซnte schaarse matrixvermenigvuldiging kan dit een aanzienlijke versnelling van moderne GPU's opleveren. Een andere reeks optimalisatietechnieken pakt het knelpunt in de geheugenbandbreedte aan (bijvoorbeeld door modelgewichten te streamen).

Andere optimalisaties zijn zeer modelspecifiek. Stable Diffusion heeft bijvoorbeeld grote vooruitgang geboekt in de hoeveelheid VRAM die nodig is voor inferentie. Nog een andere klasse van optimalisaties is hardwarespecifiek. NVIDIA's TensorML bevat een aantal optimalisaties, maar werkt alleen op NVIDIA-hardware. Last but not least kan het plannen van AI-taken enorme prestatieknelpunten of -verbeteringen veroorzaken. Het toewijzen van modellen aan GPU's op een manier om het verwisselen van gewichten te minimaliseren, het kiezen van de beste GPU voor een taak als er meerdere beschikbaar zijn, en het minimaliseren van downtime door werklasten vooraf in batches te verdelen, zijn gebruikelijke technieken.

Uiteindelijk is modeloptimalisatie nog steeds een beetje een zwarte kunst, en de meeste startups waarmee we praten, werken samen met derden om te helpen met sommige van deze softwareaspecten. Vaak zijn dit geen traditionele MLops-leveranciers, maar bedrijven die gespecialiseerd zijn in optimalisaties voor specifieke generatieve modellen (bijvoorbeeld OctoML of SegMind).

Hoe zullen de kosten van de AI-infrastructuur evolueren?

De afgelopen jaren hebben we een exponentiรซle groei van beide gezien modelparameters en GPU rekenkracht. Het is onduidelijk of deze trend doorzet.

Tegenwoordig wordt algemeen aanvaard dat er een verband bestaat tussen het optimale aantal parameters en de grootte van de trainingsdataset (zie Deepmind's Chinchilla werk hier meer aan). De beste LLM's van vandaag worden getraind op de Gemeenschappelijke crawl (een verzameling van 4.5 miljard webpagina's, of ongeveer 10% van alle bestaande webpagina's). Het trainingscorpus omvat ook Wikipedia en een verzameling boeken, hoewel beide veel kleiner zijn (het totale aantal bestaande boeken wordt geschat op slechts ongeveer 100 miljoen). Er zijn andere ideeรซn gesuggereerd, zoals het transcriberen van video- of audio-inhoud, maar geen van deze komt qua omvang in de buurt. Het is niet duidelijk of we een niet-synthetische trainingsdataset zouden kunnen verkrijgen die 10x groter is dan wat al is gebruikt.

GPU-prestaties zullen blijven toenemen, maar ook in een langzamer tempo. De wet van Moore is nog steeds intact, waardoor er meer transistors en meer cores mogelijk zijn, maar vermogen en I/O worden beperkende factoren. Bovendien is veel van het laaghangende fruit voor optimalisaties geplukt. 

Dit betekent echter niet dat we geen toename van de vraag naar rekencapaciteit verwachten. Zelfs als de groei van modellen en trainingssets vertraagt, zal de groei van de AI-industrie en de toename van het aantal AI-ontwikkelaars de vraag naar meer en snellere GPU's aanwakkeren. Een groot deel van de GPU-capaciteit wordt gebruikt voor testen door ontwikkelaars tijdens de ontwikkelingsfase van een model, en deze vraag schaalt lineair met het personeelsbestand. Er is geen teken dat het GPU-tekort dat we vandaag hebben in de nabije toekomst zal afnemen.

Zullen deze aanhoudend hoge kosten van AI-infrastructuur een slotgracht creรซren die het voor nieuwkomers onmogelijk maakt om de goed gefinancierde gevestigde exploitanten in te halen? Het antwoord op deze vraag weten we nog niet. De opleidingskosten van een LLM lijken vandaag misschien op een slotgracht, maar open source-modellen zoals Alpaca of Stable Diffusion hebben aangetoond dat deze markten nog in de kinderschoenen staan โ€‹โ€‹en snel kunnen veranderen. Na verloop van tijd is de kostenstructuur van de opkomende AI-softwarestack (zie ons vorige bericht) kan meer gaan lijken op de traditionele software-industrie. 

Uiteindelijk zou dit een goede zaak zijn: de geschiedenis heeft aangetoond dat dit leidt tot levendige ecosystemen met snelle innovatie en veel kansen voor startende ondernemers.

Met dank aan Moin Nadeem en Shangda Xu voor hun inbreng en begeleiding tijdens het schrijfproces.


ยน De intuรฏtie hier is dat voor elke parameter (dwz gewicht) in een neuraal netwerk een inferentiebewerking (dwz voorwaartse pass) twee drijvende-kommabewerkingen per parameter moet uitvoeren. Eerst vermenigvuldigt het de waarde van het invoerknooppunt van het neurale netwerk met de parameter. Ten tweede voegt het het resultaat van de optelling toe aan het uitvoerknooppunt van het neurale netwerk. De parameters in de encoder worden รฉรฉn keer per invoertoken gebruikt en de parameters in de decoder worden รฉรฉn keer per uitvoertoken gebruikt. Als we aannemen dat een model heeft p parameters en invoer en uitvoer hebben beide een lengte n penningen, totale drijvende-kommabewerkingen zijn n * p. Er zijn veel andere bewerkingen (bijv. normalisatie, coderen/decoderen, inbedden) die plaatsvinden in een model, maar de tijd die nodig is om ze uit te voeren is in vergelijking daarmee klein. 

ยฒ Eerst leren vereist een voorwaartse doorgang door de transformator zoals hierboven beschreven, gevolgd door een achterwaartse doorgang die vier extra bewerkingen per parameter met zich meebrengt om de helling te berekenen en het gewicht aan te passen. Merk op dat voor het berekenen van de gradiรซnt de berekende knooppuntwaarden van de voorwaartse doorgang behouden moeten blijven. Voor GPT-3, Taalmodellen zijn weinig geschoten leerlingen bespreekt opleidingskosten.

* * *

De standpunten die hier naar voren worden gebracht, zijn die van het individuele personeel van AH Capital Management, LLC (โ€œa16zโ€) dat wordt geciteerd en zijn niet de standpunten van a16z of haar gelieerde ondernemingen. Bepaalde informatie in dit document is verkregen uit externe bronnen, waaronder van portefeuillebedrijven van fondsen die worden beheerd door a16z. Hoewel ontleend aan bronnen die betrouwbaar worden geacht, heeft a16z dergelijke informatie niet onafhankelijk geverifieerd en doet het geen uitspraken over de blijvende nauwkeurigheid van de informatie of de geschiktheid ervan voor een bepaalde situatie. Bovendien kan deze inhoud advertenties van derden bevatten; a16z heeft dergelijke advertenties niet beoordeeld en keurt de daarin opgenomen advertentie-inhoud niet goed.

Deze inhoud is uitsluitend bedoeld voor informatieve doeleinden en mag niet worden beschouwd als juridisch, zakelijk, investerings- of belastingadvies. U dient hierover uw eigen adviseurs te raadplegen. Verwijzingen naar effecten of digitale activa zijn alleen voor illustratieve doeleinden en vormen geen beleggingsaanbeveling of aanbod om beleggingsadviesdiensten te verlenen. Bovendien is deze inhoud niet gericht op of bedoeld voor gebruik door beleggers of potentiรซle beleggers, en mag er in geen geval op worden vertrouwd bij het nemen van een beslissing om te beleggen in een fonds dat wordt beheerd door a16z. (Een aanbod om te beleggen in een a16z-fonds wordt alleen gedaan door middel van het onderhandse plaatsingsmemorandum, de inschrijvingsovereenkomst en andere relevante documentatie van een dergelijk fonds en moet in hun geheel worden gelezen.) Alle genoemde beleggingen of portefeuillebedrijven waarnaar wordt verwezen, of beschreven zijn niet representatief voor alle investeringen in voertuigen die door a16z worden beheerd, en er kan geen garantie worden gegeven dat de investeringen winstgevend zullen zijn of dat andere investeringen die in de toekomst worden gedaan vergelijkbare kenmerken of resultaten zullen hebben. Een lijst van investeringen die zijn gedaan door fondsen die worden beheerd door Andreessen Horowitz (met uitzondering van investeringen waarvoor de uitgevende instelling geen toestemming heeft gegeven aan a16z om openbaar te maken, evenals onaangekondigde investeringen in openbaar verhandelde digitale activa) is beschikbaar op https://a16z.com/investments /.

De grafieken en grafieken die hierin worden verstrekt, zijn uitsluitend bedoeld voor informatieve doeleinden en er mag niet op worden vertrouwd bij het nemen van een investeringsbeslissing. In het verleden behaalde resultaten zijn geen indicatie voor toekomstige resultaten. De inhoud spreekt alleen vanaf de aangegeven datum. Alle projecties, schattingen, voorspellingen, doelstellingen, vooruitzichten en/of meningen die in deze materialen worden uitgedrukt, kunnen zonder voorafgaande kennisgeving worden gewijzigd en kunnen verschillen of in strijd zijn met meningen van anderen. Zie https://a16z.com/disclosures voor aanvullende belangrijke informatie.

Tijdstempel:

Meer van Andreessen Horowitz