Voor de gemiddelde AI-winkel zullen schaarse modellen en goedkoop geheugen winnen

Heruitgegeven door Plato

volgers: 0

Hoe overtuigend de toonaangevende grootschalige taalmodellen ook mogen zijn, het feit blijft dat alleen de grootste bedrijven de middelen hebben om ze daadwerkelijk op een zinvolle schaal in te zetten en op te leiden.

Voor ondernemingen die AI graag willen gebruiken voor een concurrentievoordeel, kan een goedkoper, uitgekiend alternatief beter passen, vooral als het kan worden afgestemd op bepaalde industrieën of domeinen.

Dat is waar een opkomende reeks AI-startups hoopt een niche te veroveren: door schaarse, op maat gemaakte modellen te bouwen die, misschien niet zo krachtig als GPT-3, zijn goed genoeg voor zakelijke gebruiksscenario's en draaien op hardware die duur geheugen met hoge bandbreedte (HBM) voor standaard DDR overbodig maakt.

De Duitse AI-startup Aleph Alpha is zo'n voorbeeld. Opgericht in 2019, heeft het in Heidelberg, Duitsland gevestigde bedrijf Lichtgevend model in natuurlijke taal beschikt over veel van dezelfde kenmerken die de krantenkoppen halen als OpenAI's GPT-3: copywriting, classificatie, samenvatting en vertaling, om er maar een paar te noemen.

De modelstartup werkt samen met Graphcore om schaarse taalmodellen op de Britse te verkennen en te ontwikkelen hardware van de chipmaker.

"De IPU's van Graphcore bieden een kans om de geavanceerde technologische benaderingen zoals conditionele schaarste te evalueren," zei Jonas Andrulius, CEO van Aleph Alpha in een verklaring. "Deze architecturen zullen ongetwijfeld een rol spelen in het toekomstige onderzoek van Aleph Alpha."

Graphcore's grote gok op schaarste

Voorwaardelijk schaarse modellen - soms een mix van experts of gerouteerde modellen genoemd - verwerken alleen gegevens op basis van de toepasselijke parameters, iets dat de computerbronnen die nodig zijn om ze uit te voeren aanzienlijk kan verminderen.

Als een taalmodel bijvoorbeeld in alle talen op internet is getraind en vervolgens een vraag in het Russisch wordt gesteld, zou het geen zin hebben om die gegevens door het hele model te laten lopen, alleen de parameters met betrekking tot de Russische taal, verklaarde Graphcore CTO Simon Knowles, in een interview met Het register.

“Het is volkomen duidelijk. Dit is hoe je hersenen werken, en het is ook hoe een AI zou moeten werken, "zei hij. "Ik heb dit al vaak gezegd, maar als een AI veel dingen kan, hoeft het niet al zijn kennis te hebben om één ding te doen."

Knowles, wiens bedrijf accelerators bouwt die op maat zijn gemaakt voor dit soort modellen, gelooft niet verwonderlijk dat dit de toekomst van AI is. "Het zou me verbazen als tegen volgend jaar iemand modellen met een dichte taal bouwt", voegde hij eraan toe.

HBM-2 prijzig? Cache in plaats daarvan op DDR

Schaarse taalmodellen zijn niet zonder hun uitdagingen. Een van de meest urgente, volgens Knowles, heeft te maken met het geheugen. De HBM die in high-end GPU's wordt gebruikt om de benodigde bandbreedte en capaciteiten te realiseren die deze modellen nodig hebben, is duur en gekoppeld aan een nog duurdere accelerator.

Dit is geen probleem voor modellen met een dichte taal, waar je misschien al die rekenkracht en geheugen nodig hebt, maar het vormt een probleem voor schaarse modellen, die geheugen prefereren boven rekenkracht, legde hij uit.

Interconnect-technologie, zoals NVLink van Nvidia, kan worden gebruikt om geheugen over meerdere GPU's te poolen, maar als het model niet al die rekenkracht vereist, kunnen de GPU's inactief blijven. "Het is een erg dure manier om geheugen te kopen," zei Knowles.

De versnellers van Graphcore proberen deze uitdaging te omzeilen door een techniek te lenen die zo oud is als de computer zelf: caching. Elke IPU heeft een relatief grote SRAM-cache - 1 GB - om aan de bandbreedtevereisten van deze modellen te voldoen, terwijl de onbewerkte capaciteit wordt bereikt met behulp van grote pools goedkoop DDR4-geheugen.

"Hoe meer SRAM je hebt, hoe minder DRAM-bandbreedte je nodig hebt, en hierdoor kunnen we geen HBM gebruiken," zei Knowles.

Door het geheugen los te koppelen van de accelerator, is het voor bedrijven veel goedkoper - de kosten van een paar standaard DDR-modules - om grotere AI-modellen te ondersteunen.

Naast het ondersteunen van goedkoper geheugen, beweert Knowles dat de IPU's van het bedrijf ook een architectonisch voordeel hebben ten opzichte van GPU's, tenminste als het gaat om schaarse modellen.

In plaats van te draaien op een klein aantal grote matrixvermenigvuldigers - zoals je die aantreft in een tensorverwerkingseenheid - beschikken de chips van Graphcore over een groot aantal kleinere matrix-wiskundige eenheden die het geheugen onafhankelijk kunnen aanspreken.

Dit zorgt voor meer granulariteit voor schaarse modellen, waarbij "je de vrijheid nodig hebt om relevante subsets op te halen, en hoe kleiner de eenheid die je moet ophalen, hoe meer vrijheid je hebt", legde hij uit.

Het vonnis is nog niet bekend

Samengevat stelt Knowles dat deze aanpak zijn IPU's in staat stelt om grote AI/ML-modellen met honderden miljarden of zelfs biljoenen parameters te trainen, tegen aanzienlijk lagere kosten in vergelijking met GPU's.

De enterprise AI-markt staat echter nog in de kinderschoenen en Graphcore heeft op dit gebied te maken met stevige concurrentie van grotere, meer gevestigde rivalen.

Dus hoewel de ontwikkeling van ultradunne, goedkope taalmodellen voor AI waarschijnlijk niet snel zal afnemen, valt nog te bezien of het de IPU's van Graphcore of de accelerator van iemand anders zullen zijn die de AI-workloads van ondernemingen aandrijven. ®

Tijdstempel: 10 June 202216 juli 2022

Tijdstempel: 11-2024-XNUMX

Voor de gemiddelde AI-winkel zullen schaarse modellen en goedkoop geheugen winnen

Heruitgegeven door Plato

Graphcore's grote gok op schaarste

HBM-2 prijzig? Cache in plaats daarvan op DDR

Het vonnis is nog niet bekend

Meer van Het register

Chinese webreuzen gaan $ 5 miljard Nvidia AI shoppen

Universiteiten boden software aan om door ChatGPT geschreven essays op te sporen

Google leert robots om mensen te dienen - met grote taalmodellen de sleutel

Meta's Llama 2 is geen open source

Waymo-robottaxi's leggen miljoenen kilometers af zonder iemand te doden

Interview met Nvidia-softwaredirecteur Kari Briski

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account