För den genomsnittliga AI-butiken kommer glesa modeller och billigt minne att vinna

Återutgiven av Platon

anhängare: 0

Hur övertygande de ledande storskaliga språkmodellerna än kan vara, kvarstår faktum att endast de största företagen har resurserna att faktiskt implementera och träna dem i meningsfull skala.

För företag som är angelägna om att utnyttja AI till en konkurrensfördel kan ett billigare, förminskat alternativ passa bättre, särskilt om det kan anpassas till särskilda branscher eller domäner.

Det är där en framväxande uppsättning AI-startups som hoppas kunna skapa en nisch: genom att bygga glesa, skräddarsydda modeller som kanske inte är lika kraftfulla som GPT-3, är tillräckligt bra för företagsanvändning och körs på hårdvara som tar bort dyrt högbandbreddsminne (HBM) för handelsvaru-DDR.

Tyska AI-startupen Aleph Alpha är ett sådant exempel. Det Heidelberg, Tyskland-baserade företaget grundades 2019 Luminous naturliga språkmodeller har många av samma rubriker som griper tag i OpenAI:s GPT-3: copywriting, klassificering, sammanfattning och översättning, för att nämna några.

Modellstartupen har slagit sig ihop med Graphcore för att utforska och utveckla glesa språkmodeller på britterna chipmakers hårdvara.

"Graphcores IPU:er erbjuder en möjlighet att utvärdera de avancerade tekniska tillvägagångssätten såsom villkorlig sparsitet," sa Aleph Alphas vd Jonas Andrulius i en meddelandet. "Dessa arkitekturer kommer utan tvekan att spela en roll i Aleph Alphas framtida forskning."

Graphcores stora satsning på sparsitet

Villkorligt sparsamma modeller – ibland kallade blandning av experter eller dirigerade modeller – bearbetar endast data mot tillämpliga parametrar, något som avsevärt kan minska de beräkningsresurser som behövs för att köra dem.

Till exempel, om en språkmodell tränades i alla språk på internet, och sedan ställs en fråga på ryska, skulle det inte vara meningsfullt att köra den informationen genom hela modellen, bara parametrarna relaterade till det ryska språket, förklarade Graphcore CTO Simon Knowles, i en intervju med Registret.

”Det är helt uppenbart. Det är så din hjärna fungerar, och det är också så en AI borde fungera”, sa han. "Jag har sagt det här många gånger, men om en AI kan göra många saker behöver den inte ha tillgång till all sin kunskap för att göra en sak."

Knowles, vars företag bygger acceleratorer skräddarsydda för dessa typer av modeller, tror inte överraskande att de är framtiden för AI. "Jag skulle bli förvånad om någon till nästa år bygger täta språkmodeller," tillade han.

HBM-2 dyr? Cache in på DDR istället

Glesa språkmodeller är inte utan sina utmaningar. En av de mest pressande, enligt Knowles, har med minnet att göra. HBM som används i avancerade GPU:er för att uppnå den nödvändiga bandbredden och kapaciteten som krävs av dessa modeller är dyr och kopplad till en ännu dyrare accelerator.

Detta är inte ett problem för modeller med täta språk där du kan behöva all den beräkningen och minnet, men det utgör ett problem för glesa modeller, som gynnar minne framför beräkning, förklarade han.

Interconnect-teknik, som Nvidias NVLink, kan användas för att poola minne över flera GPU:er, men om modellen inte kräver all den beräkningen, kan GPU:erna lämnas inaktiva. "Det är ett riktigt dyrt sätt att köpa minne," sa Knowles.

Graphcores acceleratorer försöker kringgå denna utmaning genom att låna en teknik lika gammal som själva datorn: cachning. Varje IPU har en relativt stor SRAM-cache - 1 GB - för att tillfredsställa bandbreddskraven för dessa modeller, medan råkapacitet uppnås med hjälp av stora pooler av billigt DDR4-minne.

"Ju mer SRAM du har, desto mindre DRAM-bandbredd behöver du, och det är detta som gör att vi inte kan använda HBM," sa Knowles.

Genom att koppla bort minnet från acceleratorn är det mycket billigare – kostnaden för några DDR-moduler – för företag att stödja större AI-modeller.

Förutom att stödja billigare minne, hävdar Knowles att företagets IPU:er också har en arkitektonisk fördel gentemot GPU:er, åtminstone när det kommer till glesa modeller.

Istället för att köra på ett litet antal stora matrismultiplikatorer - som du hittar i en tensorprocessor - har Graphcores chips ett stort antal mindre matrismatrisenheter som kan adressera minnet oberoende.

Detta ger större granularitet för glesa modeller, där "du behöver friheten att hämta relevanta delmängder, och ju mindre enhet du är skyldig att hämta, desto mer frihet har du", förklarade han.

Domen är fortfarande ute

Sammantaget hävdar Knowles att detta tillvägagångssätt gör det möjligt för dess IPU:er att träna stora AI/ML-modeller med hundratals miljarder eller till och med biljoner parametrar, till avsevärt lägre kostnad jämfört med GPU:er.

Enterprise AI-marknaden är dock fortfarande i sin linda, och Graphcore möter hård konkurrens på detta område från större, mer etablerade rivaler.

Så även om utvecklingen av extremt sparsamma språkmodeller för AI sannolikt inte kommer att avta någon gång snart, återstår det att se om det blir Graphcores IPU:er eller någon annans accelerator som kommer att driva företagets AI-arbetsbelastning. ®

Tidsstämpel: Juni 10, 2022Juli 16, 2022

Tidsstämpel: April 11, 2024

För den genomsnittliga AI-butiken kommer glesa modeller och billigt minne att vinna

Återutgiven av Platon

Graphcores stora satsning på sparsitet

HBM-2 dyr? Cache in på DDR istället

Domen är fortfarande ute

Mer från Registret

Kinesiska webbjättar går på $5 miljarder Nvidia AI shoppingrunda

Universiteten erbjöd programvara för att sniffa upp ChatGPT-skrivna uppsatser

Google lär robotar att tjäna människor – med stora språkmodeller är nyckeln

Metas Llama 2 är inte öppen källkod

Waymo robo-taxibilar tar upp en miljon mil utan att döda någon

Intervju med Nvidia mjukvaruchef Kari Briski

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto