Navigering i de høye kostnadene ved AI Compute

Publisert av Platon

Følgere: 0

Navigering i de høye kostnadene ved AI Compute PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. — Kilde: Midjourney

Den generative AI-boomen er beregningsbundet. Den har den unike egenskapen at å legge til mer databehandling direkte resulterer i et bedre produkt. Vanligvis er FoU-investeringer mer direkte knyttet til hvor verdifullt et produkt var, og det forholdet er markant sublineært. Men dette er foreløpig ikke slik med kunstig intelligens, og som et resultat er en dominerende faktor som driver bransjen i dag ganske enkelt kostnadene ved opplæring og slutninger.

Selv om vi ikke vet de sanne tallene, har vi hørt fra anerkjente kilder at tilgangen på databehandling er så begrenset at etterspørselen overgår den med en faktor på 10(!) Så vi synes det er rettferdig å si at akkurat nå, tilgang til dataressurser – til lavest mulig totalkostnad – har blitt en avgjørende faktor for suksessen til AI-selskaper.

Faktisk har vi sett at mange selskaper bruker mer enn 80 % av den totale kapitalen de har samlet inn på dataressurser!

I dette innlegget prøver vi å bryte ned kostnadsfaktorene for et AI-selskap. De absolutte tallene vil selvsagt endre seg over tid, men vi ser ikke umiddelbar lettelse fra AI-selskaper som er bundet av tilgangen til dataressurser. Så forhåpentligvis er dette en nyttig ramme for å tenke gjennom landskapet.

Hvorfor er AI-modeller så beregningsmessig dyre?

Det finnes et bredt utvalg av generative AI-modeller, og slutnings- og treningskostnader avhenger av størrelsen og typen av modellen. Heldigvis er de mest populære modellene i dag for det meste transformatorbaserte arkitekturer, som inkluderer populære store språkmodeller (LLM) som GPT-3, GPT-J eller BERT. Mens det nøyaktige antallet operasjoner for inferens og læring av transformatorer er modellspesifikk (se dette papiret), er det en ganske nøyaktig tommelfingerregel som bare avhenger av antall parametere (dvs. vekten av de nevrale nettverkene) til modellen og antall input- og output-tokens.

Tokens er i hovedsak korte sekvenser av noen få tegn. De tilsvarer ord eller deler av ord. Den beste måten å få en intuisjon for tokens på er å prøve tokenisering med offentlig tilgjengelige online tokenizers (f.eks. OpenAI). For GPT-3, gjennomsnittslengden på et token er på 4 tegn.

Tommelfingerregelen for transformatorer er at en foroverpassering (dvs. slutning) for en modell med p parametere for en inngangs- og en utgangssekvens av lengde n poletter hver enkelt, tar ca 2*n*s flytepunktoperasjoner (FLOPS)¹. Trening for samme modell tar ca 6*s FLOPS per token (dvs. den ekstra bakoverleveringen krever ytterligere fire operasjoner²). Du kan anslå den totale treningskostnaden ved å multiplisere dette med antall tokens i treningsdataene.

Minnekrav til transformatorer avhenger også av modellstørrelse. For slutninger trenger vi p modellparametere for å passe inn i minnet. For læring (dvs. forplantning tilbake) må vi lagre ytterligere mellomverdier per parameter mellom forover- og bakoverpassering. Forutsatt at vi bruker 32-bits flyttall, er dette ytterligere 8 byte per parameter. For å trene en modell med 175 milliarder parametere, må vi ha over en terabyte med data i minnet – dette overgår enhver GPU som eksisterer i dag og krever at vi deler modellen opp på kort. Minnekrav for inferens og trening kan optimaliseres ved å bruke flyttallverdier med kortere lengder, med 16-bit som blir vanlig og 8-bit forventet i nær fremtid.

Tabellen ovenfor har størrelser og beregningskostnader for flere populære modeller. GPT-3 har omtrent 175 milliarder parametere, som for en input og output på 1,024 tokens, resulterer i en beregningskostnad på omtrent 350 billioner flyttalloperasjoner (dvs. Teraflops eller TFLOPS). Å trene en modell som GPT-3 tar omtrent 3.14*10^23 flyttalloperasjoner. Andre modeller som Metas LLaMA har enda høyere beregningskrav. Å trene opp en slik modell er en av de mer beregningsintensive oppgavene menneskeheten har påtatt seg så langt.

For å oppsummere: AI-infrastruktur er dyr fordi de underliggende algoritmiske problemene er ekstremt beregningsmessig vanskelige. Den algoritmiske kompleksiteten ved å sortere en databasetabell med en million oppføringer er ubetydelig sammenlignet med kompleksiteten ved å generere et enkelt ord med GPT-3. Dette betyr at du ønsker å velge den minste modellen som løser din brukssituasjon.

Den gode nyheten er at for transformatorer kan vi enkelt anslå hvor mye data og minne en modell av en viss størrelse vil forbruke. Og så, å velge riktig maskinvare blir neste vurdering.

Tids- og kostnadsargumentet for GPUer

Hvordan oversettes beregningsmessig kompleksitet til tid? En prosessorkjerne kan typisk utføre 1-2 instruksjoner per syklus, og prosessorens klokkehastigheter har vært stabile rundt 3 GHz de siste 15 årene på grunn av slutten av Dennard skalering. Å utføre en enkelt GPT-3 inferensoperasjon uten å utnytte noen parallell arkitektur vil ta i størrelsesorden 350 TFLOPS/(3 GHz*1 FLOP) eller 116,000 32 sekunder, eller XNUMX timer. Dette er vilt upraktisk; i stedet trenger vi spesialiserte brikker som akselererer denne oppgaven.

I praksis kjører alle AI-modeller i dag på kort som bruker et svært stort antall spesialiserte kjerner. For eksempel har en NVIDIA A100 GPU 512 "tensorkjerner" som kan utføre en 4×4 matrisemultiplikasjon (som tilsvarer 64 multiplikasjoner og addisjoner, eller 128 FLOPS) i en enkelt syklus. AI-akseleratorkort blir ofte referert til som GPUer (grafikkbehandlingsenheter), ettersom arkitekturen opprinnelig ble utviklet for skrivebordsspill. I fremtiden forventer vi at AI i økende grad vil bli en distinkt produktfamilie.

A100 har en nominell ytelse på 312 TFLOPS som i teorien vil redusere slutningen for GPT-3 til omtrent 1 sekund. Dette er imidlertid en forenklet beregning av flere grunner. For det første, for de fleste brukstilfeller er ikke flaskehalsen datakraften til GPUen, men muligheten til å hente data fra det spesialiserte grafikkminnet til tensorkjernene. For det andre vil de 175 milliarder vektene ta opp 700 GB og vil ikke passe inn i grafikkminnet til noen GPU. Teknikker som partisjonering og vektstrømming må brukes. Og for det tredje er det en rekke optimaliseringer (f.eks. ved å bruke kortere flyttallsrepresentasjoner, som FP16, FP8 eller sparsomme matriser) som brukes for å akselerere beregningen. Men totalt sett gir regnestykket ovenfor oss en intuisjon av de totale beregningskostnadene for dagens LLM-er.

Å trene en transformatormodell tar omtrent tre ganger så lang tid per token som å gjøre slutninger. Men gitt at treningsdatasettet er omtrent 300 millioner ganger større enn en slutningsmelding, tar treningen lenger tid med en faktor på 1 milliard. På en enkelt GPU ville trening ta flere tiår; i praksis gjøres dette på store dataklynger i dedikerte datasentre eller, mer sannsynlig, i skyen. Trening er også vanskeligere å parallellisere enn inferens, da oppdaterte vekter må utveksles mellom noder. Minne og båndbredde mellom GPU-er blir ofte en langt viktigere faktor, med høyhastighetsforbindelser og dedikerte stoffer som er vanlige. For å trene veldig store modeller kan det være hovedutfordringen å lage et passende nettverksoppsett. Ser vi inn i fremtiden, vil AI-akseleratorer ha nettverksfunksjoner på kortet eller til og med på brikken.

Hvordan oversettes denne beregningsmessige kompleksiteten til kostnad? En GPT-3-slutning, som, som vi så ovenfor, tar omtrent 1 sekund på en A100 ville ha en rå beregningskostnad mellom $0.0002 og $0.0014 for 1,000 tokens (dette sammenlignes med OpenAIs prissetting på $0.002/1000 tokens). En bruker som genererer 100 slutningsforespørsler om dagen vil koste i størrelsesorden dollar per år. Dette er et veldig lavt prispunkt og gjør de fleste brukstilfeller av tekstbasert AI av mennesker økonomisk levedyktig.

Kurs GPT-3 er derimot mye dyrere. Igjen beregner vi bare beregningskostnaden for 3.14*10^23 FLOPS ved de ovennevnte prisene, og gir oss et estimat på $560,000 100 på AXNUMX-kort for en enkelt treningsløp. I praksis vil vi for trening ikke få på langt nær 100 % effektivitet i GPUen; men vi kan også bruke optimaliseringer for å redusere treningstiden. Andre estimater for GPT-3 treningskostnader varierer fra $500,000 til $ 4.6 millioner, avhengig av maskinvareforutsetninger. Merk at dette er kostnaden for en enkelt kjøring og ikke totalkostnaden. Flere kjøringer vil sannsynligvis være nødvendig, og skyleverandører vil ha langsiktige forpliktelser (mer om dette nedenfor). Trening av toppmodeller er fortsatt dyrt, men innen rekkevidde for en godt finansiert oppstart.

For å oppsummere krever generativ AI enorme investeringer i AI-infrastruktur i dag. Det er ingen grunn til å tro at dette vil endre seg i nær fremtid. Å trene opp en modell som GPT-3 er en av de mest beregningsintensive oppgavene menneskeheten noen gang har påtatt seg. Og mens GPU-er blir raskere, og vi finner måter å optimalisere treningen på, opphever den raske utvidelsen av AI begge disse effektene.

Hensyn til AI-infrastruktur

Til dette punktet har vi prøvd å gi deg litt intuisjon for skalaen som kreves for å trene og konkludere med AI-modeller, og hvilke underliggende parametere som driver dem. Med den konteksten ønsker vi nå å gi litt praktisk veiledning om hvordan man bestemmer hvilken AI-infrastruktur som skal brukes.

Ekstern vs. intern infrastruktur

La oss innse det: GPUer er kule. Mange ingeniører og ingeniørinteresserte grunnleggere har en skjevhet mot å klargjøre sin egen AI-maskinvare, ikke bare fordi det gir finmasket kontroll over modelltrening, men fordi det bare er noe morsomt med å utnytte store mengder datakraft (utstilling A).

Realiteten er imidlertid den mange startups – spesielt appselskaper – trenger ikke bygge sin egen AI-infrastruktur på dag 1. I stedet lar vertsbaserte modelltjenester som OpenAI eller Hugging Face (for språk) og Replicate (for bildegenerering) grunnleggere raskt søke etter produktmarkedstilpasning uten å måtte administrere den underliggende infrastrukturen eller modellene.

Disse tjenestene har blitt så gode at mange bedrifter aldri uteksamineres fra dem. Utviklere kan oppnå meningsfull kontroll over modellytelsen gjennom rask utvikling og høyere ordens finjusteringsabstraksjoner (dvs. finjustering gjennom API-kall). Prissettingen for disse tjenestene er forbruksbasert, så det er også ofte billigere enn å kjøre separat infrastruktur. Vi har sett appselskaper som genererer mer enn 50 millioner dollar i ARR, og verdsatt over 1 milliard dollar, som kjører vertsbaserte modelltjenester under panseret.

På baksiden, noen oppstarter - spesielt de som trener nye grunnmodeller eller bygger vertikalt integrerte AI-applikasjoner – kan ikke unngå å kjøre sine egne modeller direkte på GPUer. Enten fordi modellen effektivt er produktet og teamet søker etter "modell-markedstilpasning", eller fordi finmasket kontroll over trening og/eller slutning er nødvendig for å oppnå visse evner eller redusere marginale kostnader i stor skala. Uansett kan administrasjon av infrastrukturen bli en kilde til konkurransefortrinn.

Utbyggingen av nettskyen kontra datasenteret

I de fleste tilfeller er skyen det rette stedet for AI-infrastrukturen din. Mindre forhåndskostnader, muligheten til å skalere opp og ned, regional tilgjengelighet og mindre distraksjon fra å bygge ditt eget datasenter er overbevisende for de fleste nystartede selskaper og større selskaper.

Men det er noen unntak fra denne regelen:

Hvis du opererer i veldig stor skala, kan det bli mer kostnadseffektivt å drive ditt eget datasenter. Det nøyaktige prispunktet varierer basert på geografisk plassering og oppsett, men det krever vanligvis infrastrukturkostnader på mer enn $50 millioner per år.
Du trenger veldig spesifikk maskinvare som du ikke kan få tak i fra en skyleverandør. For eksempel GPU-typer som ikke er allment tilgjengelige, samt uvanlige krav til minne, lagring eller nettverk.
Du kan ikke finne en sky som er akseptabel for geopolitiske hensyn.

Hvis du ønsker å bygge ditt eget datasenter, har det vært omfattende pris/ytelsesanalyse av GPUer for ditt eget oppsett (f.eks. Tim Dettmers analyse). I tillegg til kostnadene og ytelsen til selve kortet, avhenger maskinvarevalget også av strøm, plass og kjøling. For eksempel har to RTX 3080 Ti-kort sammen lignende rådatakapasitet som en A100, men det respektive strømforbruket er 700W vs. 300W. Strømforskjellen på 3,500 kWh til markedspriser på $0.10/kWh over en treårig livssyklus øker kostnadene for RTX3080 Ti med nesten 2 ganger (omtrent $1,000).

Alt dette sagt, forventer vi at de aller fleste startups bruker cloud computing.

Sammenligning av skytjenesteleverandører

Amazon Web Services (AWS), Microsoft Azure og Google Cloud Platform (GCP) tilbyr alle GPU-forekomster, men nye leverandører ser også ut til å fokusere spesielt på AI-arbeidsbelastninger. Her er et rammeverk vi har sett mange grunnleggere bruke for å velge en skyleverandør:

Pris: Tabellen nedenfor viser priser for en rekke større og mindre spesialskyer per 7. april 2023. Disse dataene er kun veiledende, da forekomstene varierer betydelig når det gjelder nettverksbåndbredde, datautgangskostnader, ekstrakostnader fra CPU og nettverk, tilgjengelig rabatter og andre faktorer.

Beregningskapasitet på spesifikk maskinvare er en handelsvare. Naivt sett forventer vi ganske ensartede priser, men dette er ikke tilfelle. Og selv om det eksisterer betydelige funksjonsforskjeller mellom skyene, er de utilstrekkelige til å forklare at prisene for en on-demand NVIDIA A100 varierer med en faktor på nesten 4x blant leverandører.

På den øverste enden av prisskalaen tar de store offentlige skyene en premie basert på merkevareomdømme, bevist pålitelighet og behovet for å administrere et bredt spekter av arbeidsbelastninger. Mindre spesialitets-AI-leverandører tilbyr lavere priser, enten ved å drive spesialbygde datasentre (f.eks. Coreweave) eller arbitrage andre skyer (f.eks. Lambda Labs).

Praktisk sett forhandler de fleste større kjøpere priser direkte med skyleverandørene, og forplikter seg ofte til et minimumskrav samt minimumstidsforpliktelser (vi har sett 1-3 år). Prisforskjellene mellom skyene krymper noe etter forhandlinger, men vi har sett at rangeringen i tabellen over holder seg relativt stabil. Det er også viktig å merke seg at mindre selskaper kan få aggressive priser fra spesialskyer uten store utgiftsforpliktelser.

Tilgjengelighet: De kraftigste GPUene (f.eks. Nvidia A100s) har vært konsekvent mangelvare de siste 12 månedene.

Det ville være logisk å tro at de tre beste skyleverandørene har best tilgjengelighet, gitt deres store kjøpekraft og ressursmasse. Men noe overraskende har mange startups ikke funnet ut at det er sant. De store skyene har mye maskinvare, men har også store kundebehov å tilfredsstille – f.eks. er Azure hovedverten for ChatGPT – og legger til/leaser stadig kapasitet for å møte etterspørselen. I mellomtiden har Nvidia forpliktet seg til å gjøre maskinvare tilgjengelig over hele bransjen, inkludert tildelinger til nye spesialitetsleverandører. (De gjør dette både for å være rettferdige og for å redusere avhengigheten av noen få store kunder som også konkurrerer med dem.)

Som et resultat finner mange startups flere tilgjengelige brikker, inkludert banebrytende Nvidia H100s, hos mindre skyleverandører. Hvis du er villig til å jobbe med et nyere infrastrukturselskap, kan du kanskje redusere ventetiden for maskinvare og muligens spare penger i prosessen.

Beregn leveringsmodell: De store skyene i dag tilbyr kun forekomster med dedikerte GPUer, grunnen er at GPU-virtualisering fortsatt er et uløst problem. Spesialiserte AI-skyer tilbyr andre modeller, for eksempel containere eller batchjobber, som kan håndtere individuelle oppgaver uten å pådra seg oppstarts- og nedbyggingskostnadene for en instans. Hvis du er komfortabel med denne modellen, kan den redusere kostnadene betydelig.

Nettverksforbindelser: For opplæring, spesielt, er nettverksbåndbredde en viktig faktor i leverandørvalg. Klynger med dedikerte stoffer mellom noder, slik som NVLink, er nødvendig for å trene visse store modeller. For bildegenerering kan avgifter for utgående trafikk også være en stor kostnadsdriver.

Kundeservice: Store skyleverandører betjener et stort antall kunder på tvers av tusenvis av produkt-SKUer. Det kan være vanskelig å få oppmerksomhet fra kundestøtte, eller få løst et problem, med mindre du er en stor kunde. Mange spesialiserte AI-skyer tilbyr derimot rask og responsiv støtte selv for små kunder. Dette er delvis fordi de opererer i mindre skala, men også fordi arbeidsmengdene deres er mer homogene - så de er mer motivert til å fokusere på AI-spesifikke funksjoner og feil.

Sammenligning av GPUer

Alt annet likt, vil topp-end GPUene yte best på nesten alle arbeidsbelastninger. Men som du kan se i tabellen nedenfor, er den beste maskinvaren også vesentlig dyrere. Å velge riktig type GPU for din spesifikke applikasjon kan redusere kostnadene betydelig og kan utgjøre forskjellen mellom en levedyktig og ikke-levedyktig forretningsmodell.

Å bestemme hvor langt ned på listen som skal gå - det vil si å bestemme de mest kostnadseffektive GPU-valgene for applikasjonen din - er i stor grad en teknisk avgjørelse som ligger utenfor denne artikkelens omfang. Men vi deler nedenfor noen av utvalgskriteriene vi har sett er de viktigste:

Trening vs. slutning: Som vi så i den første delen ovenfor, krever trening av en transformatormodell at vi lagrer 8 byte med data for trening i tillegg til modellvektene. Dette betyr at en typisk high-end forbruker-GPU med 12 GB minne knapt kan brukes til å trene en modell med 4 milliarder parametere. I praksis utføres trening av store modeller på klynger av maskiner med fortrinnsvis mange GPUer per server, mye VRAM og høybåndbreddeforbindelser mellom serverne (dvs. klynger bygget ved bruk av datasenter-GPUer).

Nærmere bestemt vil mange modeller være mest kostnadseffektive på NVIDIA H100, men per i dag er det vanskelig å finne og krever vanligvis en langsiktig satsing på mer enn ett år. NVIDIA A100 kjører mest modelltrening i dag; det er lettere å finne, men for store klynger kan det også kreve en langsiktig forpliktelse.

Minne krav: Store LLM-er har parametertellinger som er for høye til å passe inn i et kort. De må deles på flere kort og krever et oppsett som ligner på trening. Med andre ord, du trenger sannsynligvis H100s eller A100s selv for LLM-slutninger. Men mindre modeller (f.eks. Stable Diffusion) krever mye mindre VRAM. Mens A100 fortsatt er populær, har vi sett startups bruke A10, A40, A4000, A5000 og A6000, eller til og med RTX-kort.

Maskinvarestøtte: Mens de aller fleste arbeidsbelastningene i selskaper som vi har snakket med kjører på NVIDIA, har noen få begynt å eksperimentere med andre leverandører. Mest vanlig er Google TPU, men Intels Gaudi 2 ser ut til å få litt trekkraft også. Utfordringen med disse leverandørene er at ytelsen til modellen din ofte er svært avhengig av tilgjengeligheten av programvareoptimaliseringer for disse brikkene. Du må sannsynligvis gjøre en PoC for å forstå ytelsen.

Latenskrav: Generelt kan mindre latenssensitive arbeidsbelastninger (f.eks. batchdatabehandling eller applikasjoner som ikke krever interaktive UI-svar) bruke mindre kraftige GPUer. Dette kan redusere beregningskostnadene med så mye som 3-4 ganger (f.eks. sammenligne A100-er med A10-er på AWS). Brukervendte apper, på den annen side, trenger ofte toppkort for å levere en engasjerende brukeropplevelse i sanntid. Optimalisering av modeller er ofte nødvendig for å bringe kostnadene til et håndterbart område.

Spikiness: Generative AI-selskaper ser ofte dramatiske topper i etterspørselen siden teknologien er så ny og spennende. Det er ikke uvanlig å se forespørselsvolumene øke med 10 ganger på en dag, basert på en ny produktutgivelse, eller vokse 50 % per uke konsekvent. Håndtering av disse toppene er ofte enklere på lavere GPU-er, siden flere beregningsnoder sannsynligvis er tilgjengelige på forespørsel. Det er ofte også fornuftig å betjene denne typen trafikk med rimeligere ressurser – på bekostning av ytelsen – hvis den kommer fra mindre engasjerte eller mindre retentive brukere.

Optimalisering og planlegging av modeller

Programvareoptimaliseringer kan i stor grad påvirke kjøretiden til modellene - og 10x gevinster er ikke uvanlig. Du må imidlertid finne ut hvilke metoder som vil være mest effektive med din spesifikke modell og system.

Noen teknikker fungerer med et ganske bredt spekter av modeller. Ved å bruke kortere flytende kommarepresentasjoner (dvs. FP16 eller FP8 vs. den originale FP32) eller kvantisering (INT8, INT4, INT2) oppnår du en speedup som ofte er lineær med reduksjonen av biter. Dette krever noen ganger modifisering av modellen, men det er i økende grad tilgjengelige teknologier som automatiserer arbeid med blandet eller kortere presisjon. Beskjæring av nevrale nettverk reduserer antall vekter ved å ignorere vekter med lave verdier. Sammen med effektiv sparsom matrisemultiplikasjon kan dette oppnå en betydelig hastighetsøkning på moderne GPUer. Et annet sett med optimaliseringsteknikker adresserer flaskehalsen for minnebåndbredden (f.eks. ved å strømme modellvekter).

Andre optimaliseringer er svært modellspesifikke. For eksempel har Stable Diffusion gjort store fremskritt i mengden VRAM som kreves for slutning. Enda en annen klasse med optimaliseringer er maskinvarespesifikk. NVIDIAs TensorML inkluderer en rekke optimaliseringer, men vil kun fungere på NVIDIA-maskinvare. Sist, men ikke minst, kan planlegging av AI-oppgaver skape store flaskehalser eller forbedringer i ytelsen. Å tildele modeller til GPUer på en måte for å minimere bytte av vekter, velge den beste GPUen for en oppgave hvis flere er tilgjengelige, og minimere nedetid ved å samle arbeidsbelastninger på forhånd er vanlige teknikker.

Til syvende og sist er modelloptimalisering fortsatt litt av en svart kunst, og flertallet av startups som vi snakker med jobber med tredjeparter for å hjelpe med noen av disse programvareaspektene. Ofte er dette ikke tradisjonelle MLops-leverandører, men i stedet selskaper som spesialiserer seg på optimaliseringer for spesifikke generative modeller (f.eks. OctoML eller SegMind).

Hvordan vil kostnadene for AI-infrastruktur utvikle seg?

I løpet av de siste årene har vi sett eksponentiell vekst av begge modellparametere og GPU datakraft. Det er uklart om denne trenden vil fortsette.

I dag er det allment akseptert at det er en sammenheng mellom optimalt antall parametere og størrelsen på treningsdatasettet (se Deepminds Chinchilla jobbe for mer om dette). De beste LLM-ene i dag er trent på Vanlig gjennomgang (en samling på 4.5 milliarder nettsider, eller omtrent 10 % av alle nettsider som eksisterer). Opplæringskorpuset inkluderer også Wikipedia og en samling bøker, selv om begge er mye mindre (det totale antallet bøker som eksisterer er beregnet til å være bare rundt 100 millioner). Andre ideer, som å transkribere video- eller lydinnhold, har blitt foreslått, men ingen av disse kommer i nærheten i størrelse. Det er ikke klart om vi kunne få et ikke-syntetisk opplæringsdatasett som er 10 ganger større enn det som allerede er brukt.

GPU-ytelsen vil fortsette å øke, men også i en lavere hastighet. Moores lov er fortsatt intakt og tillater flere transistorer og flere kjerner, men kraft og I/O blir begrensende faktorer. I tillegg er mange av de lavthengende fruktene for optimaliseringer plukket.

Men ingenting av dette betyr at vi ikke forventer en økning i etterspørselen etter datakapasitet. Selv om veksten av modell og treningssett avtar, vil veksten i AI-industrien og økningen i antall AI-utviklere drive etterspørselen etter flere og raskere GPUer. En stor del av GPU-kapasiteten brukes til testing av utviklere under utviklingsfasen av en modell, og denne etterspørselen skaleres lineært med antall ansatte. Det er ingen tegn til at GPU-mangelen vi har i dag vil avta i nær fremtid.

Vil disse fortsatt høye kostnadene for AI-infrastruktur skape en vollgrav som gjør det umulig for nye aktører å ta igjen godt finansierte etablerte operatører? Vi vet ikke svaret på dette spørsmålet ennå. Opplæringskostnadene for en LLM kan se ut som en vollgrav i dag, men åpen kildekode-modeller som Alpakka eller Stable Diffusion har vist at disse markedene fortsatt er tidlige og kan endre seg raskt. Over tid vil kostnadsstrukturen til den nye AI-programvarestabelen (se vårt forrige innlegg) kan begynne å ligne mer på den tradisjonelle programvareindustrien.

Til syvende og sist ville dette være en god ting: Historien har vist at dette fører til levende økosystemer med rask innovasjon og mange muligheter for gründere.

Takk til Moin Nadeem og Shangda Xu for deres innspill og veiledning under skriveprosessen.

¹ Intuisjonen her er at for en hvilken som helst parameter (dvs. vekt) i et nevralt nettverk, må en inferensoperasjon (dvs. foroverpassering) utføre to flyttalloperasjoner per parameter. Først multipliserer den verdien til inngangsnoden til det nevrale nettverket med parameteren. For det andre legger den resultatet av summeringen til utgangsnoden til det nevrale nettverket. Parametrene i koderen brukes én gang per inndatabrikke og parameterne i dekoderen brukes én gang per utdatabrikke. Hvis vi antar en modell har p parametere og inngang og utgang har begge en lengde n poletter, totale flyttalloperasjoner er n * s. Det er mange andre operasjoner (f.eks. normalisering, koding/dekoding av innebyggingen) som skjer i en modell, men tiden det tar å utføre dem er liten i sammenligning.

² Læring krever først en foroverpassering gjennom transformatoren som beskrevet ovenfor, etterfulgt av en bakoverpassering som medfører fire ekstra operasjoner per parameter for å beregne gradienten og justere vekten. Merk at beregning av gradienten krever å bevare de beregnede nodeverdiene fra foroverpasset. For GPT-3, Språkmodeller er få skuddlærere diskuterer treningskostnad.

* * *

Synspunktene som uttrykkes her er de fra individuelle AH Capital Management, LLC (“a16z”) personell som er sitert og er ikke synspunktene til a16z eller dets tilknyttede selskaper. Visse opplysninger her er innhentet fra tredjepartskilder, inkludert fra porteføljeselskaper av fond forvaltet av a16z. Selv om a16z er hentet fra kilder som antas å være pålitelige, har ikke a16z uavhengig verifisert slik informasjon og gir ingen representasjoner om den varige nøyaktigheten til informasjonen eller dens hensiktsmessighet for en gitt situasjon. I tillegg kan dette innholdet inkludere tredjepartsannonser; aXNUMXz har ikke vurdert slike annonser og støtter ikke noe reklameinnhold som finnes deri.

Dette innholdet er kun gitt for informasjonsformål, og bør ikke stoles på som juridisk, forretningsmessig, investerings- eller skatterådgivning. Du bør rådføre deg med dine egne rådgivere om disse sakene. Referanser til verdipapirer eller digitale eiendeler er kun for illustrasjonsformål, og utgjør ikke en investeringsanbefaling eller tilbud om å tilby investeringsrådgivningstjenester. Videre er dette innholdet ikke rettet mot eller ment for bruk av noen investorer eller potensielle investorer, og kan ikke under noen omstendigheter stoles på når du tar en beslutning om å investere i et fond som forvaltes av a16z. (Et tilbud om å investere i et a16z-fond vil kun gis av det private emisjonsmemorandumet, tegningsavtalen og annen relevant dokumentasjon for et slikt fond og bør leses i sin helhet.) Eventuelle investeringer eller porteføljeselskaper nevnt, referert til, eller beskrevet er ikke representative for alle investeringer i kjøretøy forvaltet av a16z, og det kan ikke gis noen garanti for at investeringene vil være lønnsomme eller at andre investeringer som gjøres i fremtiden vil ha lignende egenskaper eller resultater. En liste over investeringer foretatt av fond forvaltet av Andreessen Horowitz (unntatt investeringer som utstederen ikke har gitt tillatelse til at a16z kan offentliggjøre så vel som uanmeldte investeringer i børsnoterte digitale eiendeler) er tilgjengelig på https://a16z.com/investments /.

Diagrammer og grafer gitt i er kun for informasjonsformål og bør ikke stoles på når du tar investeringsbeslutninger. Tidligere resultater er ikke en indikasjon på fremtidige resultater. Innholdet taler kun fra den angitte datoen. Eventuelle anslag, estimater, prognoser, mål, prospekter og/eller meninger uttrykt i dette materialet kan endres uten varsel og kan avvike eller være i strid med meninger uttrykt av andre. Vennligst se https://a16z.com/disclosures for ytterligere viktig informasjon.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoAiStream. Web3 Data Intelligence. Kunnskap forsterket. Tilgang her.
Minting the Future med Adryenn Ashley. Tilgang her.
kilde: https://a16z.com/2023/04/27/navigating-the-high-cost-of-ai-compute/

Tidstempel: April 27, 2023

Mer fra Andreessen Horowitz

Hvem eier den generative AI-plattformen?

Kildeklynge:

Andreessen Horowitz

Kilde node: 1789581

Tidstempel: Jan 19, 2023

Hvorfor Amerika må utvikle plass, og hvordan vi skal gjøre det PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Hvorfor Amerika må utvikle verdensrommet, og hvordan vi skal gjøre det

Andreessen Horowitz

Kilde node: 1646361

Tidstempel: August 31, 2022

Publisert av Platon

Hvorfor Amerika må utvikle verdensrommet, og hvordan vi skal gjøre det

Hva er en superapp?

Et verktøy for å oppdage metamorfe smarte kontrakter

Måling av SNARK-ytelse: Frontends, backends og fremtiden

Ledende med programvare når du bygger en utlånsbedrift

Det største selskapet i verden

Investering i Believer

Doing More with Moore: Biotech's Tech Moment

Investering i Radiant

En oppfordring til SEC: Behandle kryptoaktiva som om klienter betyr noe

Can't Be Evil NFT-lisensene

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn