For den gjennomsnittlige AI-butikken vil sparsomme modeller og billig minne vinne

Publisert av Platon

Følgere: 0

Så overbevisende som de ledende storskala språkmodellene kan være, gjenstår det faktum at bare de største selskapene har ressursene til å faktisk distribuere og trene dem i meningsfull skala.

For bedrifter som er ivrige etter å utnytte AI til et konkurransefortrinn, kan et billigere, redusert alternativ passe bedre, spesielt hvis det kan tilpasses bestemte bransjer eller domener.

Det er der et voksende sett med AI-startups håper å skape en nisje: ved å bygge sparsomme, skreddersydde modeller som kanskje ikke er så kraftige som GPT-3, er gode nok for bedriftsbruk og kjører på maskinvare som fjerner dyrt høybåndbreddeminne (HBM) for vare-DDR.

Den tyske AI-oppstarten Aleph Alpha er et slikt eksempel. Grunnlagt i 2019, det Heidelberg, Tyskland-baserte selskapets Luminous naturlig språkmodell har mange av de samme overskriftstrekkende funksjonene som OpenAIs GPT-3: copywriting, klassifisering, oppsummering og oversettelse, for å nevne noen.

Modellstartupen har slått seg sammen med Graphcore for å utforske og utvikle sparsomme språkmodeller på britene chipmakerens maskinvare.

"Graphcores IPU-er gir en mulighet til å evaluere de avanserte teknologiske tilnærmingene som betinget sparsomhet," sa Aleph Alpha-sjef Jonas Andrulius i en uttalelse. "Disse arkitekturene vil utvilsomt spille en rolle i Aleph Alphas fremtidige forskning."

Graphcores store innsats på sparsomhet

Betinget sparsomme modeller – noen ganger kalt blanding av eksperter eller rutede modeller – behandler kun data mot gjeldende parametere, noe som kan redusere dataressursene som trengs for å kjøre dem betydelig.

For eksempel, hvis en språkmodell ble trent i alle språkene på internett, og deretter blir stilt et spørsmål på russisk, ville det ikke være fornuftig å kjøre disse dataene gjennom hele modellen, bare parametrene knyttet til det russiske språket, forklarte Graphcore CTO Simon Knowles, i et intervju med Registeret.

«Det er helt åpenbart. Dette er hvordan hjernen din fungerer, og det er også hvordan en AI burde fungere, sa han. "Jeg har sagt dette mange ganger, men hvis en kunstig intelligens kan gjøre mange ting, trenger den ikke å ha tilgang til all kunnskapen for å gjøre én ting."

Knowles, hvis selskap bygger akseleratorer skreddersydd for denne typen modeller, tror ikke overraskende at de er fremtiden til AI. "Jeg vil bli overrasket om noen innen neste år bygger tettspråklige modeller," la han til.

HBM-2 dyr? Buffer inn på DDR i stedet

Sparsomme språkmodeller er ikke uten utfordringer. En av de mest presserende, ifølge Knowles, har med hukommelsen å gjøre. HBM-en som brukes i avanserte GPU-er for å oppnå den nødvendige båndbredden og kapasiteten som kreves av disse modellene, er dyr og koblet til en enda dyrere akselerator.

Dette er ikke et problem for tettspråklige modeller der du kanskje trenger all den datamaskinen og minnet, men det utgjør et problem for sparsomme modeller, som favoriserer minne fremfor databehandling, forklarte han.

Interconnect-teknologi, som Nvidias NVLink, kan brukes til å samle minne på tvers av flere GPUer, men hvis modellen ikke krever all den beregningen, kan GPUene bli stående uvirksomme. "Det er en veldig dyr måte å kjøpe minne på," sa Knowles.

Graphcores akseleratorer forsøker å omgå denne utfordringen ved å låne en teknikk like gammel som selve databehandlingen: caching. Hver IPU har en relativt stor SRAM-cache – 1 GB – for å tilfredsstille båndbreddekravene til disse modellene, mens råkapasitet oppnås ved å bruke store bassenger med billig DDR4-minne.

"Jo mer SRAM du har, jo mindre DRAM-båndbredde trenger du, og det er dette som gjør at vi ikke kan bruke HBM," sa Knowles.

Ved å koble minne fra akseleratoren er det langt rimeligere – kostnaden for noen få DDR-moduler – for bedrifter å støtte større AI-modeller.

I tillegg til å støtte billigere minne, hevder Knowles at selskapets IPU-er også har en arkitektonisk fordel fremfor GPU-er, i hvert fall når det kommer til sparsomme modeller.

I stedet for å kjøre på et lite antall store matrisemultiplikatorer - som du finner i en tensor-prosessorenhet - har Graphcores brikker et stort antall mindre matrisematematikkenheter som kan adressere minnet uavhengig.

Dette gir større granularitet for sparsomme modeller, der "du trenger friheten til å hente relevante delsett, og jo mindre enheten du er forpliktet til å hente, jo mer frihet har du," forklarte han.

Dommen er fortsatt ute

Sammen hevder Knowles at denne tilnærmingen gjør det mulig for IPUene deres å trene store AI/ML-modeller med hundrevis av milliarder eller til og med billioner av parametere, til vesentlig lavere kostnader sammenlignet med GPUer.

Enterprise AI-markedet er imidlertid fortsatt i sin spede begynnelse, og Graphcore møter hard konkurranse på dette området fra større, mer etablerte rivaler.

Så selv om utviklingen av svært sparsomme språkmodeller for AI neppe vil avta med det første, gjenstår det å se om det blir Graphcores IPU-er eller andres akselerator som ender opp med å drive bedriftens AI-arbeidsmengder. ®

Tidstempel: Juni 10, 2022Juli 16, 2022

Tidstempel: April 11, 2024

For den gjennomsnittlige AI-butikken vil sparsomme modeller og billig minne vinne

Publisert av Platon

Graphcores store innsats på sparsomhet

HBM-2 dyr? Buffer inn på DDR i stedet

Dommen er fortsatt ute

Mer fra Registeret

Kinesiske nettgiganter går på $5B Nvidia AI shoppingtur

Universiteter tilbød programvare for å snuse opp ChatGPT-skrevne essays

Google lærer roboter å tjene mennesker – med store språkmodeller er nøkkelen

Metas Llama 2 er ikke åpen kildekode

Waymo robo-taxier samler opp en million miles uten å drepe noen

Intervju med Nvidia programvaresjef Kari Briski

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn