Navigera i den höga kostnaden för AI Compute

Navigera i den höga kostnaden för AI Compute

Navigera i den höga kostnaden för AI Compute PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.
Källa: Midjourney

Den generativa AI-boomen är beräkningsbunden. Den har den unika egenskapen att lägga till mer beräkning direkt resulterar i en bättre produkt. Vanligtvis är FoU-investeringar mer direkt kopplade till hur värdefull en produkt var, och det förhållandet är markant sublinjärt. Men det är för närvarande inte så med artificiell intelligens och som ett resultat är en dominerande faktor som driver branschen idag helt enkelt kostnaden för utbildning och slutsatser. 

Även om vi inte känner till de verkliga siffrorna, har vi hört från välrenommerade källor att utbudet av datorer är så begränsat att efterfrågan överträffar den med en faktor 10(!) Så vi tycker att det är rättvist att säga att just nu, tillgång till beräkningsresurser – till lägsta totalkostnad – har blivit en avgörande faktor för framgången för AI-företag.

Faktum är att vi har sett att många företag spenderar mer än 80 % av sitt totala insamlade kapital på datorresurser!

I det här inlägget försöker vi bryta ner kostnadsfaktorerna för ett AI-företag. De absoluta siffrorna kommer givetvis att förändras över tid, men vi ser ingen omedelbar lättnad från att AI-företag är bundna av sin tillgång till beräkningsresurser. Så förhoppningsvis är detta en användbar ram för att tänka igenom landskapet. 

Varför är AI-modeller så beräkningsmässigt dyra?

Det finns ett brett utbud av generativa AI-modeller, och slutsatser och utbildningskostnader beror på modellens storlek och typ. Lyckligtvis är de mest populära modellerna idag mest transformatorbaserade arkitekturer, som inkluderar populära stora språkmodeller (LLM) som GPT-3, GPT-J eller BERT. Medan det exakta antalet operationer för inferens och inlärning av transformatorer är modellspecifikt (se detta papper), finns det en ganska exakt tumregel som bara beror på antalet parametrar (dvs vikten av de neurala nätverken) för modellen och antalet in- och utmatningstoken. 

Tokens är i huvudsak korta sekvenser med några få tecken. De motsvarar ord eller delar av ord. Det bästa sättet att få en intuition för tokens är att prova tokenisering med allmänt tillgängliga online-tokenizers (t.ex. OpenAI). För GPT-3, den genomsnittliga längden på en token är 4 tecken

Tumregeln för transformatorer är att ett framåtpass (dvs slutledning) för en modell med p parametrar för en ingångs- och en utgångssekvens av längd n token varje, tar ungefär 2*n*sid flyttalsoperationer (FLOPS)¹. Utbildning för samma modell tar ungefär 6*s FLOPS per token (dvs den extra bakåtpassningen kräver ytterligare fyra operationer²). Du kan uppskatta den totala träningskostnaden genom att multiplicera denna med mängden tokens i träningsdatan.

Minneskraven för transformatorer beror också på modellstorleken. För slutledning behöver vi p modellparametrar för att passa in i minnet. För inlärning (dvs. back-propagation) måste vi lagra ytterligare mellanliggande värden per parameter mellan framåt- och bakåtpassningen. Om vi ​​antar att vi använder 32-bitars flyttal, är detta ytterligare 8 byte per parameter. För att träna en modell med 175 miljarder parametrar skulle vi behöva ha över en terabyte data i minnet – detta överstiger alla GPU som finns idag och kräver att vi delar upp modellen över kort. Minneskrav för slutledning och träning kan optimeras genom att använda flyttalsvärden av kortare längder, där 16-bitars blir vanliga och 8-bitars förväntade inom en snar framtid.

Navigera i den höga kostnaden för AI Compute PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Tabellen ovan har storlekar och beräkningskostnader för flera populära modeller. GPT-3 har cirka 175 miljarder parametrar, vilket för en ingång och utmatning av 1,024 350 tokens resulterar i en beräkningskostnad på cirka 3 biljoner flyttalsoperationer (dvs. Teraflops eller TFLOPS). Att träna en modell som GPT-3.14 tar cirka 10*23^XNUMX flyttalsoperationer. Andra modeller som Metas LLaMA har ännu högre beräkningskrav. Att träna en sådan modell är en av de mer beräkningsintensiva uppgifter som mänskligheten har åtagit sig hittills. 

För att sammanfatta: AI-infrastruktur är dyr eftersom de underliggande algoritmproblemen är extremt beräkningsmässigt svåra. Den algoritmiska komplexiteten i att sortera en databastabell med en miljon poster är obetydlig jämfört med komplexiteten i att generera ett enda ord med GPT-3. Det betyder att du vill välja den minsta modellen som löser ditt användningsfall. 

Den goda nyheten är att för transformatorer kan vi enkelt uppskatta hur mycket beräkning och minne en modell av en viss storlek kommer att förbruka. Och så, att välja rätt hårdvara blir nästa övervägande. 

Tids- och kostnadsargumentet för GPU:er

Hur översätts beräkningskomplexitet till tid? En processorkärna kan vanligtvis utföra 1-2 instruktioner per cykel, och processorns klockhastigheter har varit stabila runt 3 GHz under de senaste 15 åren på grund av slutet av Dennard skalning. Att utföra en enda GPT-3-inferensoperation utan att utnyttja någon parallell arkitektur skulle ta i storleksordningen 350 TFLOPS/(3 GHz*1 FLOP) eller 116,000 32 sekunder, eller XNUMX timmar. Detta är väldigt opraktiskt; istället behöver vi specialiserade chips som påskyndar denna uppgift.

I praktiken körs alla AI-modeller idag på kort som använder ett mycket stort antal specialiserade kärnor. Till exempel har en NVIDIA A100 GPU 512 "tensorkärnor" som kan utföra en 4×4 matrismultiplikation (vilket motsvarar 64 multiplikationer och additioner, eller 128 FLOPS) i en enda cykel. AI-acceleratorkort kallas ofta för GPU:er (graphics processing units), eftersom arkitekturen ursprungligen utvecklades för skrivbordsspel. I framtiden förväntar vi oss att AI i allt högre grad kommer att bli en distinkt produktfamilj. 

A100 har en nominell prestanda på 312 TFLOPS vilket i teorin skulle minska slutsatsen för GPT-3 till cirka 1 sekund. Detta är dock en alltför förenklad beräkning av flera skäl. För det första, för de flesta användningsfall är flaskhalsen inte beräkningskraften hos GPU:n utan förmågan att hämta data från det specialiserade grafikminnet till tensorkärnorna. För det andra skulle de 175 miljarder vikterna ta upp 700 GB och kommer inte att passa in i grafikminnet på någon GPU. Tekniker som partitionering och viktströmning måste användas. Och för det tredje finns det ett antal optimeringar (t.ex. genom att använda kortare flyttalsrepresentationer, såsom FP16, FP8 eller glesa matriser) som används för att påskynda beräkningen. Men totalt sett ger ovanstående matematik oss en intuition av den totala beräkningskostnaden för dagens LLM.

Att träna en transformatormodell tar ungefär tre gånger så lång tid per token som att göra slutledningar. Men med tanke på att träningsdatauppsättningen är cirka 300 miljoner gånger större än en slutledningsprompt, tar träningen längre tid med en faktor på 1 miljard. På en enda GPU skulle träning ta decennier; i praktiken görs detta på stora datorkluster i dedikerade datacenter eller, mer troligt, i molnet. Träning är också svårare att parallellisera än slutledning, eftersom uppdaterade vikter måste utbytas mellan noder. Minne och bandbredd mellan GPU:er blir ofta en mycket viktigare faktor, med höghastighetsanslutningar och dedikerade tyger som är vanliga. För att träna mycket stora modeller kan det vara den främsta utmaningen att skapa en lämplig nätverksuppställning. Om man ser in i framtiden kommer AI-acceleratorer att ha nätverkskapacitet på kortet eller till och med på chippet. 

Hur översätts denna beräkningskomplexitet till kostnad? En GPT-3 slutledning, som, som vi såg ovan, tar ungefär 1 sekund på en A100 skulle ha en rå beräkningskostnad mellan $0.0002 och $0.0014 för 1,000 0.002 tokens (detta kan jämföras med OpenAI:s prissättning på $1000/100 tokens). En användare som genererar XNUMX slutledningsbegäranden per dag skulle kosta i storleksordningen dollar per år. Detta är ett mycket lågt pris och gör de flesta användningsfall av textbaserad AI av människor ekonomiskt lönsamma.

Utbildning GPT-3, å andra sidan, är mycket dyrare. Att återigen bara beräkna beräkningskostnaden för 3.14*10^23 FLOPS vid ovanstående priser ger oss en uppskattning av $560,000 100 på AXNUMX-kort för en enstaka träningslopp. I praktiken, för utbildning kommer vi inte att få nästan 100% effektivitet i GPU; men vi kan också använda optimeringar för att minska träningstiden. Andra uppskattningar av GPT-3 utbildningskostnader sträcker sig från $500,000 till $ 4.6 miljoner, beroende på hårdvaruantaganden. Observera att detta är kostnaden för en enda körning och inte den totala kostnaden. Flera körningar kommer sannolikt att krävas och molnleverantörer kommer att vilja ha långsiktiga åtaganden (mer om detta nedan). Att träna toppmodeller är fortfarande dyrt, men inom räckhåll för en välfinansierad start-up.

Sammanfattningsvis kräver generativ AI massiva investeringar i AI-infrastruktur idag. Det finns ingen anledning att tro att detta kommer att förändras inom en snar framtid. Att träna en modell som GPT-3 är en av de mest beräkningsintensiva uppgifterna som mänskligheten någonsin har åtagit sig. Och medan GPU:er blir snabbare, och vi hittar sätt att optimera träningen, motverkar den snabba expansionen av AI båda dessa effekter.

Överväganden för AI-infrastruktur

Hittills har vi försökt ge dig lite intuition för den skala som krävs för att träna och sluta AI-modeller, och vilka underliggande parametrar som driver dem. Med det sammanhanget vill vi nu ge lite praktisk vägledning om hur man bestämmer vilken AI-infrastruktur som ska användas.

Extern kontra intern infrastruktur

Låt oss inse det: GPU:er är coola. Många ingenjörer och ingenjörsinriktade grundare har en partiskhet mot att tillhandahålla sin egen AI-hårdvara, inte bara för att det ger finkornig kontroll över modellträning, utan för att det bara finns något roligt med att utnyttja stora mängder datorkraft (Objekt A).

Verkligheten är dock den många nystartade företag – särskilt appföretag – behöver inte bygga sin egen AI-infrastruktur på dag 1. Istället tillåter värdbaserade modelltjänster som OpenAI eller Hugging Face (för språk) och Replicate (för bildgenerering) grundare att snabbt söka efter produkt-marknadsanpassning utan att behöva hantera den underliggande infrastrukturen eller modellerna.

Dessa tjänster har blivit så bra att många företag aldrig tar examen från dem. Utvecklare kan uppnå meningsfull kontroll över modellens prestanda genom snabb konstruktion och finjusteringsabstraktioner av högre ordning (dvs finjustering genom API-anrop). Prissättningen för dessa tjänster är konsumtionsbaserad, så det är också ofta billigare än att driva separat infrastruktur. Vi har sett appföretag generera mer än 50 miljoner dollar i ARR, och värderade över 1 miljard dollar, som driver värdbaserade modelltjänster under huven.

På baksidan, vissa startups - speciellt de som tränar nya grundmodeller eller bygger vertikalt integrerade AI-applikationer — kan inte undvika att köra sina egna modeller direkt på GPU:er. Antingen för att modellen i själva verket är produkten och teamet söker efter "modell-marknadsanpassning", eller för att finkornig kontroll över utbildning och/eller slutsatser krävs för att uppnå vissa förmågor eller minska marginalkostnaden i stor skala. Hur som helst kan hantering av infrastrukturen bli en källa till konkurrensfördelar.

Utbyggnaden av molnet kontra datacenter

I de flesta fall är molnet rätt plats för din AI-infrastruktur. Mindre initiala kostnader, möjligheten att skala upp och ner, regional tillgänglighet och mindre distraktion från att bygga ditt eget datacenter är övertygande för de flesta nystartade företag och större företag.

Men det finns några undantag från denna regel:

  • Om du arbetar i mycket stor skala kan det bli mer kostnadseffektivt att driva ditt eget datacenter. Den exakta prisnivån varierar beroende på geografisk plats och installation, men det kräver vanligtvis infrastrukturutgifter på mer än 50 miljoner USD per år.
  • Du behöver mycket specifik hårdvara som du inte kan få från en molnleverantör. Till exempel GPU-typer som inte är allmänt tillgängliga, såväl som ovanliga minnes-, lagrings- eller nätverkskrav.
  • Du kan inte hitta ett moln som är acceptabelt för geopolitiska överväganden.

Om du vill bygga ditt eget datacenter har det gjorts en omfattande pris/prestandaanalys av GPU:er för din egen installation (t.ex. Tim Dettmers analys). Förutom kostnaden och prestandan för själva kortet beror valet av hårdvara också på ström, utrymme och kylning. Till exempel har två RTX 3080 Ti-kort tillsammans liknande råberäkningskapacitet som en A100, men respektive strömförbrukning är 700W mot 300W. Effektskillnaden på 3,500 0.10 kWh vid marknadspriser på 3080 USD/kWh under en treårig livscykel ökar kostnaden för RTX2 Ti med nästan 1,000x (ungefär XNUMX XNUMX USD).

Allt detta sagt, vi förväntar oss att de allra flesta nystartade företag använder cloud computing. 

Jämför molntjänstleverantörerna 

Amazon Web Services (AWS), Microsoft Azure och Google Cloud Platform (GCP) erbjuder alla GPU-instanser, men nya leverantörer verkar också fokusera på AI-arbetsbelastningar specifikt. Här är ett ramverk som vi har sett många grundare använda för att välja en molnleverantör:

Pris: Tabellen nedan visar prissättning för ett antal större och mindre specialmoln från och med den 7 april 2023. Dessa data är endast vägledande, eftersom instanserna varierar avsevärt vad gäller nätverksbandbredd, kostnader för datautträde, extra kostnad från CPU och nätverk, tillgängligt rabatter och andra faktorer.

Navigera i den höga kostnaden för AI Compute PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Beräkningskapacitet på specifik hårdvara är en handelsvara. Naivt skulle vi förvänta oss ganska enhetliga priser, men så är inte fallet. Och även om det finns betydande funktionsskillnader mellan molnen, är de otillräckliga för att förklara att priset för en on-demand NVIDIA A100 varierar med en faktor på nästan 4x mellan leverantörer.

I den övre änden av prisskalan tar de stora offentliga molnen ut en premie baserat på varumärkesrykte, beprövad tillförlitlighet och behovet av att hantera ett brett utbud av arbetsbelastningar. Mindre specialiserade AI-leverantörer erbjuder lägre priser, antingen genom att driva specialbyggda datacenter (t.ex. Coreweave) eller genom att arbitraga andra moln (t.ex. Lambda Labs).

Praktiskt sett förhandlar de flesta större köpare priser direkt med molnleverantörerna, och förbinder sig ofta till ett visst minimiutgiftskrav samt minimitidsåtaganden (vi har sett 1-3 år). Prisskillnaderna mellan molnen krymper något efter förhandling, men vi har sett att rankningen i tabellen ovan är relativt stabil. Det är också viktigt att notera att mindre företag kan få aggressiv prissättning från specialmoln utan stora utgiftsåtaganden.

Tillgänglighet: De mest kraftfulla grafikprocessorerna (t.ex. Nvidia A100) har varit en konsekvent bristvara de senaste 12 månaderna. 

Det skulle vara logiskt att tro att de tre bästa molnleverantörerna har den bästa tillgängligheten, med tanke på deras stora köpkraft och pool av resurser. Men, något överraskande, har många startups inte funnit att det är sant. De stora molnen har mycket hårdvara men har också stora kundbehov att tillfredsställa – t.ex. är Azure den primära värden för ChatGPT – och lägger ständigt till/hyr ut kapacitet för att möta efterfrågan. Samtidigt har Nvidia förbundit sig att göra hårdvara tillgänglig över hela branschen, inklusive tilldelningar för nya specialleverantörer. (De gör detta både för att vara rättvisa och för att minska sitt beroende av några få stora kunder som också konkurrerar med dem.)

Som ett resultat hittar många startups fler tillgängliga chips, inklusive de banbrytande Nvidia H100s, hos mindre molnleverantörer. Om du är villig att arbeta med ett nyare infrastrukturföretag kan du kanske minska väntetiderna för hårdvara och eventuellt spara pengar i processen.

Beräkna leveransmodell: De stora molnen idag erbjuder bara instanser med dedikerade GPU:er, anledningen är att GPU-virtualisering fortfarande är ett olöst problem. Specialiserade AI-moln erbjuder andra modeller, såsom containrar eller batch-jobb, som kan hantera enskilda uppgifter utan att ådra sig start- och rivningskostnaden för en instans. Om du är bekväm med den här modellen kan den minska kostnaderna avsevärt.

Nätverksanslutningar: När det gäller utbildning är nätverksbandbredd en viktig faktor i valet av leverantör. Kluster med dedikerade tyger mellan noder, som NVLink, behövs för att träna vissa stora modeller. För bildgenerering kan avgifter för utgående trafik också vara en stor kostnadsdrivare.

Kundsupport: Stora molnleverantörer betjänar en enorm pool av kunder över tusentals produkt-SKU:er. Det kan vara svårt att få kundsupportens uppmärksamhet, eller få ett problem åtgärdat, om du inte är en stor kund. Många specialiserade AI-moln erbjuder å andra sidan snabb och lyhörd support även för små kunder. Detta beror delvis på att de arbetar i mindre skala, men också för att deras arbetsbelastning är mer homogen – så de är mer motiverade att fokusera på AI-specifika funktioner och buggar.

Jämför GPU:er 

Allt annat lika kommer de högsta GPU:erna att prestera bäst på nästan alla arbetsbelastningar. Men som du kan se i tabellen nedan är den bästa hårdvaran också betydligt dyrare. Att välja rätt typ av GPU för din specifika applikation kan minska kostnaderna avsevärt och kan göra skillnaden mellan en livskraftig och icke livskraftig affärsmodell.

Navigera i den höga kostnaden för AI Compute PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Att bestämma hur långt ner på listan som ska gå - det vill säga att bestämma de mest kostnadseffektiva GPU-valen för din applikation - är till stor del ett tekniskt beslut som ligger utanför ramen för denna artikel. Men vi kommer att dela nedan några av urvalskriterierna som vi har sett är de viktigaste:

Träning kontra slutledning: Som vi såg i det första avsnittet ovan kräver träning av en Transformer-modell att vi lagrar 8 byte data för träning utöver modellvikterna. Detta innebär att en typisk high-end konsument-GPU med 12 GB minne knappt kunde användas för att träna en modell med 4 miljarder parametrar. I praktiken görs träning av stora modeller på kluster av maskiner med helst många GPU:er per server, massor av VRAM och hög bandbreddsanslutningar mellan servrarna (dvs. kluster byggda med hjälp av top-end datacenter GPU).

Specifikt kommer många modeller att vara mest kostnadseffektiva på NVIDIA H100, men från och med idag är den svår att hitta och kräver vanligtvis ett långsiktigt engagemang på mer än ett år. NVIDIA A100 kör mest modellträning idag; det är lättare att hitta men för stora kluster kan det också kräva ett långsiktigt engagemang.

Minneskrav: Stora LLM:er har parameterantal som är för höga för att få plats i något kort. De måste delas upp på flera kort och kräver en inställning som liknar träning. Med andra ord behöver du förmodligen H100s eller A100s även för LLM-inferens. Men mindre modeller (t.ex. Stable Diffusion) kräver mycket mindre VRAM. Medan A100 fortfarande är populär har vi sett startups använda A10, A40, A4000, A5000 och A6000, eller till och med RTX-kort. 

Hårdvarustöd: Medan de allra flesta arbetsbelastningar i företag som vi har pratat med kör på NVIDIA, har ett fåtal börjat experimentera med andra leverantörer. Vanligast är Google TPU, men Intels Gaudi 2 verkar också få lite dragkraft. Utmaningen med dessa leverantörer är att din modells prestanda ofta är mycket beroende av tillgängligheten av mjukvaruoptimeringar för dessa chips. Du kommer förmodligen att behöva göra en PoC för att förstå prestanda.

Latenskrav: I allmänhet kan mindre latenskänsliga arbetsbelastningar (t.ex. batchdatabehandling eller applikationer som inte kräver interaktiva UI-svar) använda mindre kraftfulla GPU:er. Detta kan minska beräkningskostnaden med så mycket som 3-4x (t.ex. jämför A100s med A10s på AWS). Användarvända appar, å andra sidan, behöver ofta toppkort för att ge en engagerande användarupplevelse i realtid. Att optimera modeller är ofta nödvändigt för att få kostnaderna till ett hanterbart intervall.

Spikiness: Generativa AI-företag ser ofta dramatiska toppar i efterfrågan eftersom tekniken är så ny och spännande. Det är inte ovanligt att se volymerna för förfrågningar öka med 10x på en dag, baserat på en ny produktutgåva, eller växa med 50 % per vecka konsekvent. Att hantera dessa spikar är ofta lättare på lägre GPU:er, eftersom fler beräkningsnoder sannolikt är tillgängliga på begäran. Det är ofta också vettigt att betjäna den här typen av trafik med billigare resurser – på bekostnad av prestanda – om den kommer från mindre engagerade eller mindre retentionsvänliga användare.

Optimera och schemalägga modeller

Programvaruoptimeringar kan i hög grad påverka modellernas körtid - och 10x vinster är inte ovanliga. Du måste dock bestämma vilka metoder som är mest effektiva med just din modell och ditt system.

Vissa tekniker fungerar med ett ganska brett utbud av modeller. Genom att använda kortare flyttalsrepresentationer (dvs. FP16 eller FP8 jämfört med den ursprungliga FP32) eller kvantisering (INT8, INT4, INT2) uppnås en hastighet som ofta är linjär med minskningen av bitar. Detta kräver ibland modifiering av modellen, men det finns i allt högre grad tillgängliga tekniker som automatiserar arbete med blandad eller kortare precision. Att beskära neurala nätverk minskar antalet vikter genom att ignorera vikter med låga värden. Tillsammans med effektiv gles matrismultiplikation kan detta uppnå en avsevärd snabbhet på moderna GPU:er. En annan uppsättning optimeringstekniker adresserar minnesbandbreddens flaskhals (t.ex. genom att strömma modellvikter).

Andra optimeringar är mycket modellspecifika. Till exempel har Stable Diffusion gjort stora framsteg i mängden VRAM som krävs för slutledning. Ytterligare en klass av optimeringar är hårdvaruspecifik. NVIDIAs TensorML innehåller ett antal optimeringar, men kommer bara att fungera på NVIDIA-hårdvara. Sist men inte minst kan schemaläggning av AI-uppgifter skapa enorma prestandaflaskhalsar eller förbättringar. Att allokera modeller till grafikprocessorer på ett sätt för att minimera viktbyten, välja den bästa grafikprocessorn för en uppgift om flera är tillgängliga och minimera driftstopp genom att gruppera arbetsbelastningar i förväg är vanliga tekniker.

I slutändan är modelloptimering fortfarande lite av en svart konst, och majoriteten av startups som vi pratar med arbetar med tredje part för att hjälpa till med några av dessa mjukvaruaspekter. Ofta är dessa inte traditionella MLops-leverantörer, utan är istället företag som specialiserar sig på optimeringar för specifika generativa modeller (t.ex. OctoML eller SegMind).

Hur kommer kostnaderna för AI-infrastrukturen att utvecklas?

Under de senaste åren har vi sett exponentiell tillväxt av båda modellparametrar och GPU datorkraft. Det är oklart om denna trend kommer att fortsätta.

Idag är det allmänt accepterat att det finns ett samband mellan optimalt antal parametrar och storleken på träningsdatauppsättningen (se Deepminds Chinchilla arbeta för mer om detta). De bästa LLMs idag är utbildade på Vanlig genomsökning (en samling på 4.5 miljarder webbsidor, eller cirka 10 % av alla webbsidor som finns). Utbildningskorpusen inkluderar även Wikipedia och en samling böcker, även om båda är mycket mindre (det totala antalet böcker som finns uppskattas vara bara runt 100 miljoner). Andra idéer, som att transkribera video- eller ljudinnehåll, har föreslagits, men ingen av dessa kommer i närheten av storleken. Det är inte klart om vi skulle kunna få en icke-syntetisk träningsdatauppsättning som är 10 gånger större än vad som redan har använts.

GPU-prestandan kommer att fortsätta att öka, men också i en långsammare takt. Moores lag är fortfarande intakt och tillåter fler transistorer och fler kärnor, men kraft och I/O blir begränsande faktorer. Dessutom har många av de lågt hängande frukterna för optimering plockats. 

Inget av detta betyder dock att vi inte förväntar oss en ökning av efterfrågan på beräkningskapacitet. Även om tillväxten av modeller och träningsuppsättningar avtar, kommer tillväxten av AI-industrin och ökningen av antalet AI-utvecklare att underblåsa en efterfrågan på fler och snabbare GPU:er. En stor del av GPU-kapaciteten används för testning av utvecklare under utvecklingsfasen av en modell, och denna efterfrågan skalas linjärt med antalet anställda. Det finns inga tecken på att bristen på GPU vi har idag kommer att avta inom en snar framtid.

Kommer denna fortsatt höga kostnad för AI-infrastruktur att skapa en vallgrav som gör det omöjligt för nya aktörer att komma ikapp med välfinansierade etablerade operatörer? Vi vet inte svaret på denna fråga ännu. Utbildningskostnaden för en LLM kan se ut som en vallgrav idag, men modeller med öppen källkod som Alpaca eller Stable Diffusion har visat att dessa marknader fortfarande är tidiga och kan förändras snabbt. Med tiden kommer kostnadsstrukturen för den framväxande AI-programvaran (se vårt tidigare inlägg) kan börja se mer ut som den traditionella mjukvaruindustrin. 

I slutändan skulle detta vara en bra sak: Historien har visat att detta leder till levande ekosystem med snabb innovation och massor av möjligheter för entreprenöriella grundare.

Tack till Moin Nadeem och Shangda Xu för deras input och vägledning under skrivprocessen.


¹ Intuitionen här är att för vilken parameter som helst (dvs vikt) i ett neuralt nätverk måste en slutledningsoperation (dvs. framåtpassning) utföra två flyttalsoperationer per parameter. Först multiplicerar den värdet på ingångsnoden i det neurala nätverket med parametern. För det andra lägger den till resultatet av summeringen till utgångsnoden i det neurala nätverket. Parametrarna i kodaren används en gång per inmatningstoken och parametrarna i avkodaren används en gång per utmatningstoken. Om vi ​​antar att en modell har p parametrar och ingång och utgång har båda en längd n token, totala flyttalsoperationer är n * sid. Det finns många andra operationer (t.ex. normalisering, kodning/avkodning av inbäddningen) som sker i en modell, men tiden det tar att utföra dem är liten i jämförelse. 

² Inlärning kräver först en framåtpassning genom transformatorn enligt beskrivningen ovan, följt av en bakåtpassering som medför fyra ytterligare operationer per parameter för att beräkna gradienten och justera vikten. Observera att beräkning av gradienten kräver att de beräknade nodvärdena från framåtpasset bevaras. För GPT-3, Språkmodeller är några få elever diskuterar utbildningskostnad.

* * *

De åsikter som uttrycks här är de från den individuella AH Capital Management, LLC (“a16z”) personal som citeras och är inte åsikterna från a16z eller dess dotterbolag. Viss information som finns här har erhållits från tredjepartskällor, inklusive från portföljbolag av fonder som förvaltas av a16z. Även om den är hämtad från källor som anses vara tillförlitliga, har a16z inte självständigt verifierat sådan information och gör inga utfästelser om informationens varaktiga riktighet eller dess lämplighet för en given situation. Dessutom kan detta innehåll innehålla tredjepartsannonser; a16z har inte granskat sådana annonser och stöder inte något reklaminnehåll i dem.

Detta innehåll tillhandahålls endast i informationssyfte och bör inte litas på som juridisk rådgivning, affärs-, investerings- eller skatterådgivning. Du bör rådfråga dina egna rådgivare i dessa frågor. Hänvisningar till värdepapper eller digitala tillgångar är endast i illustrativt syfte och utgör inte en investeringsrekommendation eller erbjudande om att tillhandahålla investeringsrådgivningstjänster. Dessutom är detta innehåll inte riktat till eller avsett att användas av några investerare eller potentiella investerare, och får inte under några omständigheter lita på när man fattar ett beslut om att investera i någon fond som förvaltas av a16z. (Ett erbjudande om att investera i en a16z-fond kommer endast att göras av det privata emissionsmemorandumet, teckningsavtalet och annan relevant dokumentation för en sådan fond och bör läsas i sin helhet.) Alla investeringar eller portföljbolag som nämns, hänvisas till, eller beskrivna är inte representativa för alla investeringar i fordon som förvaltas av a16z, och det finns ingen garanti för att investeringarna kommer att vara lönsamma eller att andra investeringar som görs i framtiden kommer att ha liknande egenskaper eller resultat. En lista över investeringar gjorda av fonder som förvaltas av Andreessen Horowitz (exklusive investeringar för vilka emittenten inte har gett tillstånd för a16z att offentliggöra såväl som oanmälda investeringar i börsnoterade digitala tillgångar) finns tillgänglig på https://a16z.com/investments /.

Diagram och grafer som tillhandahålls i är endast i informationssyfte och bör inte litas på när man fattar investeringsbeslut. Tidigare resultat är inte en indikation på framtida resultat. Innehållet talar endast från det angivna datumet. Alla prognoser, uppskattningar, prognoser, mål, framtidsutsikter och/eller åsikter som uttrycks i detta material kan ändras utan föregående meddelande och kan skilja sig åt eller strida mot åsikter som uttrycks av andra. Se https://a16z.com/disclosures för ytterligare viktig information.

Tidsstämpel:

Mer från Andreessen Horowitz