Navigointi AI Compute -laskennan korkeissa kustannuksissa

Navigointi AI Compute -laskennan korkeissa kustannuksissa

Selvitä AI Compute PlatoBlockchain Data Intelligencen korkeista kustannuksista. Pystysuuntainen haku. Ai.
Lähde: Midjourney

Generatiivinen AI-buumi on sidottu laskemiseen. Sillä on ainutlaatuinen ominaisuus, että laskennan lisääminen johtaa suoraan parempaan tuotteeseen. Yleensä T&K-investoinnit ovat suoremmin sidoksissa tuotteen arvoon, ja tämä suhde on selvästi sublineaarinen. Mutta näin ei ole tällä hetkellä tekoälyn kanssa, ja sen seurauksena vallitseva tekijä, joka ohjaa alaa nykyään, on yksinkertaisesti koulutuksen kustannukset ja päätelmät. 

Vaikka emme tiedä todellisia lukuja, olemme kuulleet hyvämaineisista lähteistä, että laskennan tarjonta on niin rajallista, että kysyntä ylittää sen 10-kertaisesti (!). Joten mielestämme on reilua sanoa, että juuri nyt pääsystä laskentaresursseihin – alhaisin kokonaiskustannuksin – on tullut tekoälyyritysten menestyksen ratkaiseva tekijä.

Itse asiassa olemme nähneet, että monet yritykset käyttävät yli 80 % kerätystä pääomastaan ​​laskentaresursseihin!

Tässä viestissä yritämme eritellä tekoälyyrityksen kustannustekijät. Absoluuttiset luvut tietysti muuttuvat ajan myötä, mutta emme näe välitöntä helpotusta tekoälyyritysten sidoksissa laskentaresursseihinsa. Joten toivottavasti tämä on hyödyllinen kehys maiseman läpi ajamiseen. 

Miksi tekoälymallit ovat niin laskennallisesti kalliita?

Generatiivisia tekoälymalleja on laaja valikoima, ja päätelmät ja koulutuskustannukset riippuvat mallin koosta ja tyypistä. Onneksi suosituimmat mallit nykyään ovat enimmäkseen muuntajapohjaisia ​​arkkitehtuureja, joihin kuuluu suosittuja suurikielisiä malleja (LLM), kuten GPT-3, GPT-J tai BERT. Vaikka muuntajien päättelyyn ja oppimiseen tarvittavien operaatioiden tarkka lukumäärä on mallikohtainen (katso Tässä asiakirjassa), on olemassa melko tarkka nyrkkisääntö, joka riippuu vain mallin parametrien lukumäärästä (eli hermoverkkojen painotuksista) sekä tulo- ja lähtömerkkien määrästä. 

Tokenit ovat pohjimmiltaan lyhyitä muutaman merkin sarjoja. Ne vastaavat sanoja tai sanan osia. Paras tapa saada intuitio tokeneihin on kokeilla tokenointia julkisesti saatavilla olevilla online-tokeniserillä (esim. OpenAI). GPT-3:lle tunnuksen keskimääräinen pituus on 4 merkkiä

Peukalosääntö muuntajille on, että eteenpäin pass (eli päättely) mallille, jossa on p parametrit tulo- ja lähtösekvenssille n rahakkeita kukin, kestää noin 2*n*p liukulukuoperaatiot (FLOPS)¹. Saman mallin harjoittelu kestää noin 6*s FLOPS per merkki (eli ylimääräinen takaperin vaatii neljä lisätoimintoa²). Voit arvioida harjoittelun kokonaiskustannukset kertomalla tämän koulutustiedoissa olevien merkkien määrällä.

Muuntajien muistivaatimukset riippuvat myös mallin koosta. Päätelmiä varten tarvitsemme p mallin parametrit mahtumaan muistiin. Oppimista varten (eli taaksepäin leviämistä varten) meidän on tallennettava lisää väliarvoja per parametri eteenpäin- ja taaksepäin-kierroksen väliin. Olettaen, että käytämme 32-bittisiä liukulukuja, tämä on ylimääräinen 8 tavua parametria kohden. 175 miljardin parametrin mallin opettamiseksi meidän on säilytettävä yli teratavu dataa muistissa – tämä ylittää kaikki nykyiset GPU:t, ja meidän on jaettava malli korteille. Päättelyn ja harjoittelun muistivaatimukset voidaan optimoida käyttämällä lyhyempiä liukulukuarvoja, jolloin 16-bittinen yleistyy ja 8-bittinen odotetaan lähitulevaisuudessa.

Selvitä AI Compute PlatoBlockchain Data Intelligencen korkeista kustannuksista. Pystysuuntainen haku. Ai.

Yllä olevassa taulukossa on koot ja laskentakustannukset useille suosituille malleille. GPT-3:ssa on noin 175 miljardia parametria, mikä 1,024 350 tokenin syötölle ja ulostulolle johtaa noin 3 biljoonan liukulukuoperaation (eli teraflopsin tai TFLOPSin) laskentakustannuksiin. GPT-3.14:n kaltaisen mallin kouluttaminen kestää noin 10*23^XNUMX liukulukuoperaatiota. Muissa malleissa, kuten Metan LLaMA, on jopa korkeampi laskentavaatimukset. Tällaisen mallin kouluttaminen on yksi laskentaintensiivisimmistä tehtävistä, joihin ihmiskunta on tähän mennessä ryhtynyt. 

Yhteenvetona: AI-infrastruktuuri on kallis, koska taustalla olevat algoritmiset ongelmat ovat laskennallisesti erittäin vaikeita. Miljoonan merkinnän sisältävän tietokantataulukon lajittelun algoritminen monimutkaisuus on merkityksetön verrattuna yhden sanan luomisen monimutkaisuuteen GPT-3:lla. Tämä tarkoittaa, että haluat valita pienimmän mallin, joka ratkaisee käyttötapauksesi. 

Hyvä uutinen on, että muuntajien osalta voimme helposti arvioida, kuinka paljon laskentaa ja muistia tietyn kokoinen malli kuluttaa. Ja siten oikean laitteiston valitseminen on seuraava harkinnanvarainen asia. 

Grafiikkasuorittimien aika- ja hinta-argumentti

Miten laskennallinen monimutkaisuus muuttuu ajassa? Prosessoriydin voi tyypillisesti suorittaa 1-2 käskyä sykliä kohden, ja prosessorin kellotaajuudet ovat pysyneet vakaana noin 3 GHz viimeiset 15 vuotta johtuen Dennardin skaalaus. Yhden GPT-3-päätelmän suorittaminen käyttämättä mitään rinnakkaista arkkitehtuuria vaatisi luokkaa 350 TFLOPS/(3 GHz*1 FLOP) tai 116,000 32 sekuntia tai XNUMX tuntia. Tämä on hurjan epäkäytännöllistä; sen sijaan tarvitsemme erikoissiruja, jotka nopeuttavat tätä tehtävää.

Käytännössä kaikki tekoälymallit toimivat nykyään korteilla, jotka käyttävät erittäin suurta määrää erikoisytimiä. Esimerkiksi NVIDIA A100 GPU:ssa on 512 "tensoriydintä", jotka pystyvät suorittamaan 4 × 4 -matriisikertouksen (joka vastaa 64 kerto- ja yhteenlaskua tai 128 FLOPSia) yhdessä syklissä. AI-kiihdytinkortteja kutsutaan usein GPU:iksi (grafiikkakäsittelyyksiköiksi), koska arkkitehtuuri kehitettiin alun perin pöytäpeleihin. Odotamme tulevaisuudessa tekoälystä muodostuvan yhä enemmän erilliseksi tuoteperheeksi. 

A100:n nimellinen suorituskyky on 312 TFLOPS mikä teoriassa vähentäisi GPT-3:n päättelyn noin 1 sekuntiin. Tämä on kuitenkin liian yksinkertaistettu laskelma useista syistä. Ensinnäkin useimmissa käyttötapauksissa pullonkaula ei ole GPU:n laskentateho, vaan kyky saada tietoja erikoistuneesta grafiikkamuistista tensoriytimiin. Toiseksi 175 miljardin painot vievät 700 Gt eivätkä mahdu minkään GPU:n grafiikkamuistiin. On käytettävä tekniikoita, kuten osiointia ja painojen suoratoistoa. Ja kolmanneksi, on olemassa useita optimointeja (esim. käyttämällä lyhyempiä liukulukuesityksiä, kuten FP16, FP8 tai harvat matriisit), joita käytetään nopeuttamaan laskemista. Mutta kaiken kaikkiaan yllä oleva matematiikka antaa meille intuition tämän päivän LLM:ien kokonaislaskentakustannuksista.

Muuntajamallin koulutus kestää noin kolme kertaa niin kauan per merkki kuin päättelyn tekeminen. Koska harjoitustietojoukko on kuitenkin noin 300 miljoonaa kertaa suurempi kuin päättelykehote, harjoittelu kestää miljardi kertaa kauemmin. Yhdellä GPU:lla koulutus kestäisi vuosikymmeniä; Käytännössä tämä tehdään suurilla laskentaklustereilla omistetuissa datakeskuksissa tai todennäköisemmin pilvessä. Harjoittelu on myös vaikeampaa rinnastaa kuin päättäminen, koska päivitetyt painot on vaihdettava solmujen välillä. Muistista ja kaistanleveydestä GPU:iden välillä tulee usein paljon tärkeämpi tekijä, kun nopeat yhteenliitännät ja omistetut kankaat ovat yleisiä. Erittäin suurten mallien koulutuksessa sopivien verkkoasetusten luominen voi olla ensisijainen haaste. Tulevaisuuteen katsottuna tekoälykiihdyttimillä on verkko-ominaisuudet kortilla tai jopa sirulla. 

Miten tämä laskennallinen monimutkaisuus muuttuu kustannuksiksi? GPT-3-päätelmän, joka, kuten yllä näimme, kestää noin 1 sekunti A100:lla, raakalaskuhinta olisi 0.0002–0.0014 dollaria 1,000 0.002 merkkiä kohden (tämä verrataan OpenAI:n hinnoitteluun 1000 dollaria/100 merkkiä). XNUMX päättelypyyntöä päivässä tekevä käyttäjä maksaisi luokkaa dollareita vuodessa. Tämä on erittäin alhainen hintapiste, ja se tekee useimpien ihmisten tekstipohjaisen tekoälyn käytöstä taloudellisesti kannattavaa.

koulutus GPT-3 sen sijaan on paljon kalliimpi. Jälleen kerran laskemalla vain 3.14*10^23 FLOPSin laskentakustannukset yllä olevilla hinnoilla saamme arviolta 560,000 100 dollaria AXNUMX-korteilla yksi harjoituslenkki. Käytännössä koulutukseen emme saa GPU:ssa lähes 100 % tehokkuutta; voimme kuitenkin käyttää optimointeja myös harjoitusajan lyhentämiseksi. Muut arviot GPT-3 koulutuskustannuksista vaihtelevat $500,000 että $ 4.6 miljoonaa, riippuen laitteisto-oletuksista. Huomaa, että tämä on yhden ajon hinta, ei kokonaiskustannus. Useita suorituksia tarvitaan todennäköisesti ja pilvipalveluntarjoajat haluavat pitkäaikaisia ​​sitoumuksia (lisätietoja alla). Huippumallien kouluttaminen on edelleen kallista, mutta hyvin rahoitetun start-up-yrityksen ulottuvilla.

Yhteenvetona voidaan todeta, että generatiivinen tekoäly vaatii nykyään valtavia investointeja tekoälyinfrastruktuuriin. Ei ole mitään syytä uskoa, että tämä muuttuisi lähitulevaisuudessa. GPT-3:n kaltaisen mallin kouluttaminen on yksi laskentaintensiivisimmistä tehtävistä, joihin ihmiskunta on koskaan ryhtynyt. Ja vaikka GPU:t ovat nopeutuneet ja löydämme tapoja optimoida koulutusta, tekoälyn nopea laajeneminen kumoaa nämä molemmat vaikutukset.

Tekoälyinfrastruktuuria koskevia huomioita

Tähän asti olemme yrittäneet antaa sinulle intuitiota mittakaavassa, joka tarvitaan koulutukseen ja tekoälymallien päättelemiseen ja mitkä taustalla olevat parametrit ohjaavat niitä. Tässä yhteydessä haluamme nyt antaa käytännön ohjeita käytettävän tekoälyinfrastruktuurin päättämiseen.

Ulkoinen vs. sisäinen infrastruktuuri

Todettakoon: GPU:t ovat siistejä. Monet insinöörit ja insinöörimieliset perustajat ovat taipuvaisia ​​hankkimaan omia tekoälylaitteitaan, ei vain siksi, että se antaa mallikoulutuksen hienorakeisen hallinnan, vaan koska suuren laskentatehon hyödyntämisessä on vain jotain hauskaa (näyttely A).

Todellisuus on kuitenkin se monien startup-yritysten – etenkään sovellusyritysten – ei tarvitse rakentaa omaa tekoälyinfrastruktuuriaan päivänä 1. Sen sijaan isännöidyt mallipalvelut, kuten OpenAI tai Hugging Face (kielelle) ja Replicate (kuvan luomiseen), antavat perustajille mahdollisuuden etsiä nopeasti sopivia tuotteita markkinoille ilman, että heidän tarvitsee hallita taustalla olevaa infrastruktuuria tai malleja.

Nämä palvelut ovat kehittyneet niin hyviksi, että monet yritykset eivät koskaan valmistu niistä. Kehittäjät voivat hallita mallin suorituskykyä mielekkäästi nopealla suunnittelulla ja korkeamman tason hienosäätöabstraktioilla (eli hienosäädöllä API-kutsujen avulla). Näiden palveluiden hinnoittelu on kulutusperusteista, joten se on usein myös halvempaa kuin erillisen infrastruktuurin käyttäminen. Olemme nähneet, että sovellusyritykset tuottavat yli 50 miljoonaa dollaria ARR:ta ja joiden arvo on yli miljardi dollaria ja jotka tarjoavat isännöityjä mallipalveluita konepellin alla.

Kääntöpuolella jotkut startup-yritykset - erityisesti jotka kouluttavat uusia perusmalleja tai rakentavat vertikaalisesti integroituja tekoälysovelluksia – eivät voi välttyä käyttämästä omia mallejaan suoraan GPU:illa. Joko siksi, että malli on tosiasiassa tuote ja tiimi etsii "mallin markkinoille sopivuutta" tai koska tarvitaan tarkkaa koulutusta ja/tai päätelmiä tiettyjen ominaisuuksien saavuttamiseksi tai rajakustannusten pienentämiseksi suuressa mittakaavassa. Joka tapauksessa infrastruktuurin hallinnasta voi tulla kilpailuedun lähde.

Pilvi vs. palvelinkeskus rakennetaan

Useimmissa tapauksissa pilvi on oikea paikka tekoäly-infrastruktuurillesi. Pienemmät alkukustannukset, mahdollisuus skaalata ylös ja alas, alueellinen saatavuus ja vähemmän häiriötekijöitä oman datakeskuksen rakentamisessa ovat houkuttelevia useimmille startupeille ja suuremmille yrityksille.

Mutta tähän sääntöön on muutamia poikkeuksia:

  • Jos toimit erittäin suuressa mittakaavassa, oman datakeskuksen pitäminen voi olla kustannustehokkaampaa. Tarkka hintapiste vaihtelee maantieteellisen sijainnin ja asennuksen mukaan, mutta se vaatii yleensä yli 50 miljoonan dollarin infrastruktuurikuluja vuodessa.
  • Tarvitset erittäin erityisiä laitteita, joita et voi hankkia pilvipalveluntarjoajalta. Esimerkiksi GPU-tyypit, joita ei ole laajalti saatavilla, sekä epätavalliset muisti-, tallennus- tai verkkovaatimukset.
  • Et voi löytää pilvi, joka on hyväksyttävä geopoliittisten näkökohtien perusteella.

Jos haluat rakentaa oman palvelinkeskuksen, GPU:ista on tehty kattava hinta-suorituskykyanalyysi omaa asennusta varten (esim. Tim Dettmerin analyysi). Itse kortin hinnan ja suorituskyvyn lisäksi laitteiston valinta riippuu myös tehosta, tilasta ja jäähdytyksestä. Esimerkiksi kahdella RTX 3080 Ti -kortilla on samanlainen raakalaskentakapasiteetti kuin A100:lla, mutta vastaava virrankulutus on 700 W vs. 300 W. 3,500 0.10 kWh:n tehoero markkinahinnoilla 3080 dollaria/kWh kolmen vuoden elinkaaren aikana nostaa RTX2 Ti:n kustannuksia lähes kaksinkertaiseksi (noin 1,000 XNUMX dollaria).

Kaiken tämän mukaan odotamme, että suurin osa startup-yrityksistä käyttää pilvilaskentaa. 

Pilvipalveluntarjoajien vertailu 

Amazon Web Services (AWS), Microsoft Azure ja Google Cloud Platform (GCP) tarjoavat kaikki GPU-instanssit, mutta uudet palveluntarjoajat näyttävät myös keskittyvän erityisesti tekoälyn työkuormiin. Tässä on kehys, jota monet perustajat ovat käyttäneet valitessaan pilvipalveluntarjoajan:

Hinta: Alla oleva taulukko näyttää useiden suurten ja pienempien erikoispilvien hinnoittelun 7. huhtikuuta 2023. Nämä tiedot ovat vain suuntaa-antavia, koska tapaukset vaihtelevat huomattavasti verkon kaistanleveyden, datan ulosmenokustannusten, suorittimen ja verkon lisäkustannusten suhteen. alennukset ja muut tekijät.

Selvitä AI Compute PlatoBlockchain Data Intelligencen korkeista kustannuksista. Pystysuuntainen haku. Ai.

Tietyn laitteiston laskentakapasiteetti on hyödyke. Naiivisti odotamme melko yhdenmukaisia ​​hintoja, mutta näin ei ole. Ja vaikka pilvien välillä on merkittäviä ominaisuuksien eroja, ne eivät riitä selittämään, että on-demand NVIDIA A100:n hinnat vaihtelevat lähes 4-kertaisesti tarjoajien välillä.

Hinta-asteikon yläpäässä suuret julkiset pilvet veloittavat palkkion, joka perustuu brändin maineeseen, todistettuun luotettavuuteen ja tarpeeseen hallita monenlaisia ​​työkuormia. Pienemmät erikoistuneet tekoälypalveluntarjoajat tarjoavat halvempia hintoja joko käyttämällä tarkoitukseen rakennettuja datakeskuksia (esim. Coreweave) tai sovittelemalla muita pilviä (esim. Lambda Labs).

Käytännössä useimmat suuremmat ostajat neuvottelevat hinnoista suoraan pilvipalveluntarjoajien kanssa ja sitoutuvat usein joihinkin vähimmäiskulutusvaatimuksiin sekä vähimmäisaikasitoumuksiin (olemme nähneet 1-3 vuotta). Pilvien väliset hintaerot pienenevät jonkin verran neuvottelujen jälkeen, mutta olemme nähneet yllä olevan taulukon sijoituksen pysyvän suhteellisen vakaana. On myös tärkeää huomata, että pienemmät yritykset voivat saada aggressiivista hinnoittelua erikoispilvestä ilman suuria kulutussitoumuksia.

Saatavuus: Tehokkaimmista GPU:ista (esim. Nvidia A100:sta) on ollut jatkuvasti pulaa viimeisten 12 kuukauden aikana. 

Olisi loogista ajatella, että kolmen suurimman pilvipalveluntarjoajan saatavuus on paras, kun otetaan huomioon niiden suuri ostovoima ja resurssi. Mutta hieman yllättävää, monet startupit eivät ole havainneet sitä todeksi. Suurilla pilvillä on paljon laitteistoa, mutta niillä on myös suuria asiakkaiden tarpeita – esim. Azure on ChatGPT:n ensisijainen isäntä – ja ne lisäävät/vuokraavat jatkuvasti kapasiteettia vastatakseen kysyntään. Samaan aikaan Nvidia on sitoutunut tarjoamaan laitteistoja laajalti saataville koko teollisuudelle, mukaan lukien uusien erikoistarjoajien allokaatiot. (He tekevät tämän sekä ollakseen oikeudenmukaisia ​​että vähentääkseen riippuvuuttaan muutamista suurista asiakkaista, jotka myös kilpailevat heidän kanssaan.)

Tämän seurauksena monet startup-yritykset löytävät enemmän saatavilla olevia siruja, mukaan lukien huippuluokan Nvidia H100s, pienemmiltä pilvipalveluntarjoajilta. Jos olet valmis työskentelemään uudemman infrastruktuuriyrityksen kanssa, saatat pystyä lyhentämään laitteiston odotusaikoja ja mahdollisesti säästämään rahaa prosessissa.

Laske toimitusmalli: Suuret pilvet tarjoavat nykyään vain esiintymiä omistetuilla GPU:illa, koska GPU-virtualisointi on edelleen ratkaisematon ongelma. Erikoistuneet tekoälypilvet tarjoavat muita malleja, kuten kontteja tai erätöitä, jotka pystyvät käsittelemään yksittäisiä tehtäviä ilman, että niistä aiheutuu esiintymän käynnistys- ja purkamiskustannuksia. Jos olet tyytyväinen tähän malliin, se voi vähentää kustannuksia huomattavasti.

Verkkoliitännät: Erityisesti koulutuksessa verkon kaistanleveys on tärkeä tekijä palveluntarjoajan valinnassa. Tiettyjen suurten mallien kouluttamiseen tarvitaan klustereita, joissa on omat kudokset solmujen välillä, kuten NVLink. Kuvan luonnissa ulosmenoliikennemaksut voivat myös olla merkittävä kustannustekijä.

Asiakaspalvelu: Suuret pilvipalveluntarjoajat palvelevat valtavaa asiakaskuntaa tuhansien SKU:iden kautta. Asiakastuen huomion saaminen tai ongelman korjaaminen voi olla vaikeaa, ellet ole suuri asiakas. Toisaalta monet erikoistuneet tekoälypilvet tarjoavat nopeaa ja reagoivaa tukea myös pienille asiakkaille. Tämä johtuu osittain siitä, että he toimivat pienemmässä mittakaavassa, mutta myös siitä, että heidän työtaakkansa ovat homogeenisempia - joten he ovat enemmän kannustavia keskittymään tekoälykohtaisiin ominaisuuksiin ja virheisiin.

GPU:iden vertailu 

Jos kaikki muu on sama, huippuluokan GPU:t toimivat parhaiten lähes kaikissa työkuormissa. Kuitenkin, kuten alla olevasta taulukosta näkyy, paras laitteisto on myös huomattavasti kalliimpaa. Oikean GPU-tyypin valitseminen tiettyyn sovellukseesi voi vähentää kustannuksia huomattavasti ja saattaa tehdä eron kannattavan ja kannattamattoman liiketoimintamallin välillä.

Selvitä AI Compute PlatoBlockchain Data Intelligencen korkeista kustannuksista. Pystysuuntainen haku. Ai.

Päätös, kuinka pitkälle listassa mennään – toisin sanoen sovelluksesi kustannustehokkaimpien GPU-vaihtoehtojen määrittäminen – on suurelta osin tekninen päätös, joka ei kuulu tämän artikkelin piiriin. Mutta jaamme alla joitain valintakriteereistä, jotka olemme nähneet tärkeimpänä:

Harjoittelu vs. päättely: Kuten yllä olevassa ensimmäisessä osiossa näimme, Transformer-mallin harjoittaminen edellyttää, että tallennamme 8 tavua dataa harjoittelua varten mallin painojen lisäksi. Tämä tarkoittaa, että tyypillistä huippuluokan kuluttaja-GPU:ta, jossa on 12 Gt muistia, voitaisiin tuskin käyttää 4 miljardin parametrin mallin kouluttamiseen. Käytännössä suurten mallien koulutus tehdään koneklustereissa, joissa on mieluiten monta GPU:ta palvelinta kohden, paljon VRAM-muistia ja suuria kaistanleveyksiä palvelimien välillä (eli klustereita, jotka on rakennettu käyttämällä huippuluokan datakeskuksen GPU:ita).

Erityisesti monet mallit ovat kustannustehokkaimpia NVIDIA H100:ssa, mutta nykyään sitä on vaikea löytää, ja se vaatii yleensä pitkäaikaista yli vuoden sitoutumista. NVIDIA A100 suorittaa useimmat mallikoulutukset nykyään; se on helpompi löytää, mutta suurten klustereiden kohdalla se voi vaatia myös pitkäaikaista sitoutumista.

Muistivaatimukset: Suurilla LLM:illä on liian korkea parametrimäärä, jotta se mahtuu mihinkään korttiin. Ne on jaettava useille korteille ja vaativat koulutusta vastaavan asennuksen. Toisin sanoen tarvitset todennäköisesti H100:ita tai A100:ita jopa LLM-johtopäätökseen. Mutta pienemmät mallit (esim. Stable Diffusion) vaativat paljon vähemmän VRAM-muistia. Vaikka A100 on edelleen suosittu, olemme nähneet aloittavien yritysten käyttävän A10-, A40-, A4000-, A5000- ja A6000- tai jopa RTX-kortteja. 

Laitteistotuki: Vaikka suurin osa työkuormista yrityksissä, joiden kanssa olemme keskustelleet, toimivat NVIDIAlla, muutamat ovat alkaneet kokeilla muiden toimittajien kanssa. Yleisin on Google TPU, mutta myös Intelin Gaudi 2 näyttää saavan pitoa. Näiden toimittajien haasteena on, että mallisi suorituskyky riippuu usein suuresti näiden sirujen ohjelmistooptimointien saatavuudesta. Sinun on todennäköisesti tehtävä PoC ymmärtääksesi suorituskykyä.

Latenssivaatimukset: Yleensä vähemmän latenssiherkät työkuormat (esim. erätietojen käsittely tai sovellukset, jotka eivät vaadi interaktiivisia käyttöliittymävastauksia) voivat käyttää vähemmän tehokkaita GPU:ita. Tämä voi vähentää laskentakustannuksia jopa 3–4 kertaa (esim. vertaamalla A100:ita A10:iin AWS:ssä). Käyttäjille suunnatut sovellukset puolestaan ​​tarvitsevat usein huippuluokan kortteja tarjotakseen mukaansatempaavan, reaaliaikaisen käyttökokemuksen. Mallien optimointi on usein tarpeen kustannusten tuomiseksi hallittavalle alueelle.

Piikkyys: Generatiiviset tekoälyyritykset näkevät usein dramaattisia kysynnän piikkejä, koska tekniikka on niin uutta ja jännittävää. Ei ole epätavallista, että pyyntöjen määrä kasvaa 10-kertaiseksi päivässä uuden tuotejulkaisun perusteella tai kasvaa jatkuvasti 50 % viikossa. Näiden piikkien hallinta on usein helpompaa alemmilla GPU:illa, koska enemmän laskentasolmuja on todennäköisesti saatavilla pyynnöstä. Usein on myös järkevää palvella tällaista liikennettä halvemmilla resursseilla – suorituskyvyn kustannuksella – jos se tulee vähemmän sitoutuneilta tai vähemmän pysyviltä käyttäjiltä.

Mallien optimointi ja ajoitus

Ohjelmiston optimoinnit voivat vaikuttaa suuresti mallien käyttöaikaan – ja 10-kertaiset lisäykset eivät ole harvinaisia. Sinun on kuitenkin määritettävä, mitkä menetelmät ovat tehokkaimmat tietyssä mallissasi ja järjestelmässäsi.

Jotkut tekniikat toimivat melko laajalla mallivalikoimalla. Käyttämällä lyhyempiä liukulukuesityksiä (eli FP16 tai FP8 verrattuna alkuperäiseen FP32:een) tai kvantisoinnilla (INT8, INT4, INT2) saavutetaan nopeus, joka on usein lineaarinen bittien vähentämisen kanssa. Tämä vaatii toisinaan mallin muokkaamista, mutta saatavilla on yhä enemmän teknologioita, jotka automatisoivat työskentelyn seka- tai lyhyemmällä tarkkuudella. Neuroverkkojen karsiminen vähentää painojen määrää jättämällä huomiotta painot, joilla on alhainen arvo. Yhdessä tehokkaan harvaan matriisin kertomisen kanssa tämä voi saavuttaa huomattavan nopeuden nykyaikaisissa GPU: issa. Toinen joukko optimointitekniikoita käsittelee muistin kaistanleveyden pullonkaulaa (esim. suoratoistolla mallipainot).

Muut optimoinnit ovat erittäin mallikohtaisia. Esimerkiksi Stable Diffusion on edistynyt merkittävästi päättelyyn tarvittavan VRAM-muistin määrässä. Vielä yksi optimointiluokka on laitteistokohtainen. NVIDIAn TensorML sisältää useita optimointeja, mutta toimii vain NVIDIA-laitteistolla. Viimeisenä, mutta ei vähäisimpänä, tekoälytehtävien ajoittaminen voi aiheuttaa valtavia suorituskyvyn pullonkauloja tai parannuksia. Mallien jakaminen GPU:ille painojen vaihtamisen minimoimiseksi, parhaan GPU:n valitseminen tehtävään, jos niitä on useita, ja seisokkien minimoiminen ryhmittelemällä työkuormia etukäteen ovat yleisiä tekniikoita.

Loppujen lopuksi mallin optimointi on edelleen hieman mustaa taidetta, ja suurin osa aloittavista yrityksistä, joiden kanssa keskustelemme, työskentelee kolmansien osapuolten kanssa auttaakseen joitain näistä ohjelmistonäkökohdista. Usein nämä eivät ole perinteisiä MLops-toimittajia, vaan yrityksiä, jotka ovat erikoistuneet optimointiin tiettyjä generatiivisia malleja varten (esim. OctoML tai SegMind).

Miten tekoälyn infrastruktuurikustannukset kehittyvät?

Viime vuosina olemme nähneet molempien eksponentiaalista kasvua mallin parametrit ja GPU:n laskentateho. On epäselvää, jatkuuko tämä trendi.

Nykyään on yleisesti hyväksyttyä, että parametrien optimaalisen määrän ja harjoitustietojoukon koon välillä on suhde (katso Deepmind's tshintshilla työskentele tästä lisää). Tämän päivän parhaat LLM:t ovat koulutettuja Yleinen indeksointi (4.5 miljardin verkkosivun kokoelma eli noin 10 % kaikista olemassa olevista verkkosivuista). Koulutuskorpukseen kuuluu myös Wikipedia ja kirjakokoelma, vaikka molemmat ovat paljon pienempiä (olemassa olevien kirjojen kokonaismäärän arvioidaan olevan vain noin 100 miljoonaa). Muita ideoita, kuten video- tai äänisisällön transkriptiota, on ehdotettu, mutta mikään niistä ei ole kooltaan lähelläkään. Ei ole selvää, voisimmeko saada ei-synteettisen harjoitustietojoukon, joka on 10 kertaa suurempi kuin jo käytetty.

GPU-suorituskyky kasvaa edelleen, mutta myös hitaammin. Mooren laki on edelleen ennallaan, mikä mahdollistaa enemmän transistoreita ja enemmän ytimiä, mutta teho ja I/O ovat tulossa rajoittavia tekijöitä. Lisäksi monet alhaalla roikkuvista hedelmistä optimointiin on poimittu. 

Tämä ei kuitenkaan tarkoita, että emme odota laskentakapasiteetin kysynnän kasvavan. Vaikka mallien ja koulutussarjojen kasvu hidastuu, tekoälyteollisuuden kasvu ja tekoälykehittäjien määrän kasvu ruokkivat kysyntää entistä nopeammille GPU:ille. Suuren osan GPU-kapasiteetista käyttävät kehittäjät testaamaan mallin kehitysvaiheessa, ja tämä kysyntä skaalautuu lineaarisesti henkilöstömäärän kanssa. Ei ole merkkejä siitä, että GPU-pula, joka meillä on tänään, laantuisi lähitulevaisuudessa.

Luovatko nämä edelleen korkeat tekoälyinfrastruktuurin kustannukset vallihauta, joka tekee uusien tulokkaiden mahdottomaksi saavuttaa hyvin rahoitettuja vakiintuneita operaattoreita? Emme tiedä vielä vastausta tähän kysymykseen. LLM:n koulutuskustannukset saattavat näyttää tänään vallihaudalta, mutta avoimen lähdekoodin mallit, kuten Alpaca tai Stable Diffusion, ovat osoittaneet, että nämä markkinat ovat vielä varhaisia ​​ja voivat muuttua nopeasti. Ajan myötä nousevan tekoälyohjelmistopinon kustannusrakenne (katso edellinen viestimme) saattaa alkaa näyttää enemmän perinteiseltä ohjelmistoteollisuudelta. 

Loppujen lopuksi tämä olisi hyvä asia: historia on osoittanut, että tämä johtaa eläviin ekosysteemeihin, joissa innovaatiot ovat nopeita ja yrittäjyysperustajille tarjotaan paljon mahdollisuuksia.

Kiitos Moin Nadeemille ja Shangda Xulle heidän panoksestaan ​​ja ohjeistaan ​​kirjoitusprosessin aikana.


¹ Tässä intuitio on, että neuroverkon mille tahansa parametrille (eli painolle) päättelyoperaation (eli eteenpäin kulkevan) on suoritettava kaksi liukulukuoperaatiota parametria kohden. Ensin se kertoo hermoverkon tulosolmun arvon parametrilla. Toiseksi se lisää summauksen tuloksen hermoverkon lähtösolmuun. Kooderissa olevia parametreja käytetään kerran tulosanaketta kohden ja dekooderin parametreja käytetään kerran lähtösanaketta kohden. Jos oletetaan, että mallilla on p parametreilla sekä tulolla ja lähdöllä on pituus n rahakkeita, liukulukuoperaatiot ovat yhteensä n * s. Mallissa tapahtuu monia muita toimintoja (esim. normalisointi, upotuksen koodaus/dekoodaus), mutta niiden suorittamiseen kuluva aika on tähän verrattuna pieni. 

² Oppiminen edellyttää ensin eteenpäin kulkemista muuntajan läpi edellä kuvatulla tavalla, jota seuraa taaksepäin siirtyminen, joka sisältää neljä lisätoimintoa parametria kohden gradientin laskemiseksi ja painon säätämiseksi. Huomaa, että gradientin laskeminen edellyttää laskettujen solmuarvojen säilyttämistä eteenpäin siirtymisestä. GPT-3:lle Kielimallit ovat muutaman laukauksen oppijoita keskustelee koulutuskustannuksista.

* * *

Tässä esitetyt näkemykset ovat yksittäisen AH Capital Management, LLC:n ("a16z") lainaaman henkilöstön näkemyksiä, eivätkä ne ole a16z:n tai sen tytäryhtiöiden näkemyksiä. Tietyt tähän sisältyvät tiedot on saatu kolmansien osapuolien lähteistä, mukaan lukien a16z:n hallinnoimien rahastojen kohdeyrityksiltä. Vaikka a16z on otettu luotettaviksi uskotuista lähteistä, se ei ole itsenäisesti tarkistanut tällaisia ​​tietoja eikä esitä tietojen pysyvää tarkkuutta tai sen soveltuvuutta tiettyyn tilanteeseen. Lisäksi tämä sisältö voi sisältää kolmannen osapuolen mainoksia; a16z ei ole tarkistanut tällaisia ​​mainoksia eikä tue mitään niiden sisältämää mainossisältöä.

Tämä sisältö on tarkoitettu vain tiedoksi, eikä siihen tule luottaa lainopillisena, liike-, sijoitus- tai veroneuvona. Näissä asioissa kannattaa kysyä neuvojanne. Viittaukset arvopapereihin tai digitaaliseen omaisuuteen ovat vain havainnollistavia, eivätkä ne ole sijoitussuositus tai tarjous tarjota sijoitusneuvontapalveluita. Lisäksi tämä sisältö ei ole suunnattu eikä tarkoitettu sijoittajien tai mahdollisten sijoittajien käytettäväksi, eikä siihen voida missään olosuhteissa luottaa tehdessään sijoituspäätöstä mihinkään a16z:n hallinnoimaan rahastoon. (A16z-rahastoon sijoitustarjous tehdään vain minkä tahansa tällaisen rahaston suunnatun osakeannin muistion, merkintäsopimuksen ja muiden asiaankuuluvien asiakirjojen perusteella, ja ne tulee lukea kokonaisuudessaan.) Kaikki mainitut sijoitukset tai kohdeyritykset, joihin viitataan, tai kuvatut eivät edusta kaikkia investointeja a16z:n hallinnoimiin ajoneuvoihin, eikä voi olla varmuutta siitä, että investoinnit ovat kannattavia tai että muilla tulevaisuudessa tehtävillä investoinneilla on samanlaisia ​​ominaisuuksia tai tuloksia. Luettelo Andreessen Horowitzin hallinnoimien rahastojen tekemistä sijoituksista (lukuun ottamatta sijoituksia, joiden osalta liikkeeseenlaskija ei ole antanut a16z:lle lupaa julkistaa, sekä ennalta ilmoittamattomat sijoitukset julkisesti noteerattuihin digitaalisiin omaisuuseriin) on saatavilla osoitteessa https://a16z.com/investments /.

Kaaviot ja kaaviot ovat vain tiedoksi, eikä niihin tule luottaa sijoituspäätöstä tehtäessä. Aiempi kehitys ei kerro tulevista tuloksista. Sisältö puhuu vain ilmoitetun päivämäärän mukaan. Kaikki näissä materiaaleissa esitetyt ennusteet, arviot, ennusteet, tavoitteet, näkymät ja/tai mielipiteet voivat muuttua ilman erillistä ilmoitusta ja voivat poiketa tai olla ristiriidassa muiden ilmaisemien mielipiteiden kanssa. Tärkeitä lisätietoja on osoitteessa https://a16z.com/disclosures.

Aikaleima:

Lisää aiheesta Andreessen Horowitz