For den gennemsnitlige AI-butik vil sparsomme modeller og billig hukommelse vinde

Genudgivet af Platon

Abonnenter: 0

Hvor overbevisende de førende sprogmodeller i stor skala end kan være, er det et faktum, at kun de største virksomheder har ressourcerne til rent faktisk at implementere og træne dem i meningsfuld skala.

For virksomheder, der er ivrige efter at udnytte kunstig intelligens til en konkurrencefordel, kan et billigere, nedtonet alternativ være et bedre valg, især hvis det kan tilpasses til bestemte brancher eller domæner.

Det er her et spirende sæt AI-startups, der håber at skabe en niche: ved at bygge sparsomme, skræddersyede modeller, der måske ikke er så stærke som GPT-3, er gode nok til virksomhedsbrug og kører på hardware, der fjerner dyr højbåndbreddehukommelse (HBM) til råvare-DDR.

Den tyske AI-startup Aleph Alpha er et sådant eksempel. Grundlagt i 2019, den Heidelberg, Tyskland-baserede virksomhed Luminous Natursprog-modellen kan prale af mange af de samme overskriftsgribende funktioner som OpenAI's GPT-3: tekstforfatning, klassificering, opsummering og oversættelse, for at nævne nogle få.

Modelstartup'et er gået sammen med Graphcore for at udforske og udvikle sparsomme sprogmodeller på briterne chipmakerens hardware.

"Graphcores IPU'er giver mulighed for at evaluere de avancerede teknologiske tilgange såsom betinget sparsitet," sagde Aleph Alpha CEO Jonas Andrulius i en erklæring. "Disse arkitekturer vil uden tvivl spille en rolle i Aleph Alphas fremtidige forskning."

Graphcores store satsning på sparsitet

Betinget sparsomme modeller - nogle gange kaldet blanding af eksperter eller routede modeller - behandler kun data mod de relevante parametre, noget der kan reducere de nødvendige beregningsressourcer til at køre dem betydeligt.

For eksempel, hvis en sprogmodel blev trænet i alle sprog på internettet, og derefter stilles et spørgsmål på russisk, ville det ikke give mening at køre disse data gennem hele modellen, kun parametrene relateret til det russiske sprog, forklarede Graphcore CTO Simon Knowles, i et interview med Registret.

”Det er helt indlysende. Sådan fungerer din hjerne, og det er også sådan, en AI burde fungere,” sagde han. "Jeg har sagt det mange gange, men hvis en AI kan mange ting, behøver den ikke at have adgang til al sin viden for at gøre én ting."

Knowles, hvis firma bygger acceleratorer skræddersyet til denne slags modeller, tror ikke overraskende på, at de er fremtiden for kunstig intelligens. "Jeg ville blive overrasket, hvis nogen inden næste år bygger tætte-sprogede modeller," tilføjede han.

HBM-2 dyr? Cache ind på DDR i stedet for

Sparsomme sprogmodeller er ikke uden deres udfordringer. En af de mest presserende har ifølge Knowles at gøre med hukommelsen. Den HBM, der bruges i avancerede GPU'er for at opnå den nødvendige båndbredde og kapacitet, der kræves af disse modeller, er dyr og knyttet til en endnu dyrere accelerator.

Dette er ikke et problem for modeller med tætte sprog, hvor du måske har brug for al den computer og hukommelse, men det udgør et problem for sparsomme modeller, som favoriserer hukommelse frem for computer, forklarede han.

Interconnect-teknologi, ligesom Nvidias NVLink, kan bruges til at samle hukommelse på tværs af flere GPU'er, men hvis modellen ikke kræver al den beregning, kan GPU'erne blive siddende inaktive. "Det er en virkelig dyr måde at købe hukommelse på," sagde Knowles.

Graphcores acceleratorer forsøger at omgå denne udfordring ved at låne en teknik lige så gammel som selve databehandlingen: caching. Hver IPU har en relativt stor SRAM-cache - 1 GB - for at tilfredsstille båndbreddekravene for disse modeller, mens rå kapacitet opnås ved hjælp af store pools af billig DDR4-hukommelse.

"Jo mere SRAM du har, jo mindre DRAM-båndbredde har du brug for, og det er det, der tillader os ikke at bruge HBM," sagde Knowles.

Ved at afkoble hukommelsen fra acceleratoren er det langt billigere - prisen på nogle få DDR-moduler - for virksomheder at understøtte større AI-modeller.

Ud over at understøtte billigere hukommelse, hævder Knowles, at virksomhedens IPU'er også har en arkitektonisk fordel i forhold til GPU'er, i hvert fald når det kommer til sparsomme modeller.

I stedet for at køre på et lille antal store matrix-multiplikatorer - som du finder i en tensor-behandlingsenhed - har Graphcores chips et stort antal mindre matrix-matematikenheder, der kan adressere hukommelsen uafhængigt.

Dette giver større granularitet for sparsomme modeller, hvor "du har brug for friheden til at hente relevante undersæt, og jo mindre enhed du er forpligtet til at hente, jo mere frihed har du," forklarede han.

Dommen er stadig ude

Tilsammen hævder Knowles, at denne tilgang gør det muligt for sine IPU'er at træne store AI/ML-modeller med hundredvis af milliarder eller endda billioner af parametre til væsentligt lavere omkostninger sammenlignet med GPU'er.

Enterprise AI-markedet er dog stadig i sin vorden, og Graphcore står over for hård konkurrence på dette område fra større, mere etablerede rivaler.

Så selvom udviklingen på ultra-spare sprogmodeller til AI ikke vil aftage snart, er det stadig uvist, om det bliver Graphcores IPU'er eller en andens accelerator, der ender med at drive virksomhedens AI-arbejdsbelastninger. ®

Tidsstempel: 10. Juni, 2022Juli 16, 2022

Tidsstempel: April 11, 2024

For den gennemsnitlige AI-butik vil sparsomme modeller og billig hukommelse vinde

Genudgivet af Platon

Graphcores store satsning på sparsitet

HBM-2 dyr? Cache ind på DDR i stedet for

Dommen er stadig ude

Mere fra Registret

Kinesiske webgiganter går på $5B Nvidia AI shoppingtur

Universiteter tilbød software til at opsnuse ChatGPT-skrevne essays

Google lærer robotter at tjene mennesker – med store sprogmodeller er nøglen

Metas Llama 2 er ikke open source

Waymo robo-taxier samler en million miles uden at dræbe nogen

Interview med Nvidia softwarechef Kari Briski

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto