Für den durchschnittlichen KI-Shop werden spärliche Modelle und billiger Speicher gewinnen

Neuauflage von Plato

Verfolger: 0

So überzeugend die führenden großen Sprachmodelle auch sein mögen, Tatsache bleibt, dass nur die größten Unternehmen die Ressourcen haben, sie tatsächlich in sinnvollem Umfang einzusetzen und zu trainieren.

Für Unternehmen, die KI zu einem Wettbewerbsvorteil nutzen möchten, kann eine billigere, abgespeckte Alternative besser geeignet sein, insbesondere wenn sie auf bestimmte Branchen oder Bereiche abgestimmt werden kann.

Hier hofft eine aufstrebende Gruppe von KI-Startups, sich eine Nische zu erschließen: indem sie spärliche, maßgeschneiderte Modelle bauen, die vielleicht nicht so leistungsfähig sind wie GPT-3, sind gut genug für Anwendungsfälle in Unternehmen und laufen auf Hardware, die teuren High-Bandwidth-Speicher (HBM) für Standard-DDR überflüssig macht.

Das deutsche KI-Startup Aleph Alpha ist ein solches Beispiel. Das 2019 gegründete Unternehmen mit Sitz in Heidelberg, Deutschland Leuchtend Das natürlichsprachliche Modell bietet viele der gleichen schlagzeilenträchtigen Funktionen wie GPT-3 von OpenAI: Texterstellung, Klassifizierung, Zusammenfassung und Übersetzung, um nur einige zu nennen.

Das Modell-Startup hat sich mit Graphcore zusammengetan, um spärliche Sprachmodelle für die Briten zu erforschen und zu entwickeln Chiphersteller-Hardware.

„Die IPUs von Graphcore bieten eine Gelegenheit, die fortschrittlichen technologischen Ansätze wie bedingte Sparsity zu evaluieren“, sagte Jonas Andrulius, CEO von Aleph Alpha, in a Aussage. „Diese Architekturen werden zweifellos eine Rolle in der zukünftigen Forschung von Aleph Alpha spielen.“

Graphcores große Wette auf Sparsity

Bedingt spärliche Modelle – manchmal auch Mischung von Experten oder geroutete Modelle genannt – verarbeiten Daten nur anhand der anwendbaren Parameter, was die für ihre Ausführung erforderlichen Rechenressourcen erheblich reduzieren kann.

Wenn beispielsweise ein Sprachmodell in allen Sprachen im Internet trainiert wurde und dann eine Frage auf Russisch gestellt wird, wäre es nicht sinnvoll, diese Daten durch das gesamte Modell laufen zu lassen, sondern nur die Parameter, die sich auf die russische Sprache beziehen. erklärte Graphcore CTO Simon Knowles in einem Interview mit Das Register.

„Es ist völlig offensichtlich. So funktioniert Ihr Gehirn, und so sollte auch eine KI funktionieren“, sagte er. „Ich habe das schon oft gesagt, aber wenn eine KI viele Dinge tun kann, muss sie nicht auf ihr gesamtes Wissen zugreifen, um eine Sache zu tun.“

Knowles, dessen Unternehmen Beschleuniger baut, die auf diese Art von Modellen zugeschnitten sind, glaubt wenig überraschend, dass sie die Zukunft der KI sind. „Ich wäre überrascht, wenn bis zum nächsten Jahr irgendjemand Modelle mit dichter Sprache erstellt“, fügte er hinzu.

HBM-2 teuer? Cachen Sie stattdessen auf DDR

Sparse-Sprachmodelle sind nicht ohne Herausforderungen. Eine der dringendsten hat laut Knowles mit der Erinnerung zu tun. Das HBM, das in High-End-GPUs verwendet wird, um die notwendige Bandbreite und Kapazitäten zu erreichen, die von diesen Modellen benötigt werden, ist teuer und an einen noch teureren Beschleuniger angeschlossen.

Dies ist kein Problem für Modelle mit dichter Sprache, bei denen Sie möglicherweise all diese Rechen- und Arbeitsspeicher benötigen, aber es stellt ein Problem für Modelle mit geringer Dichte dar, die den Arbeitsspeicher gegenüber der Rechenleistung bevorzugen, erklärte er.

Interconnect-Technologien wie NVLink von Nvidia können verwendet werden, um Speicher über mehrere GPUs hinweg zu bündeln, aber wenn das Modell nicht all diese Rechenleistung benötigt, könnten die GPUs im Leerlauf bleiben. "Es ist eine wirklich teure Art, Speicher zu kaufen", sagte Knowles.

Die Beschleuniger von Graphcore versuchen, diese Herausforderung zu umgehen, indem sie sich eine Technik ausleihen, die so alt ist wie die Computertechnik selbst: Caching. Jede IPU verfügt über einen relativ großen SRAM-Cache – 1 GB – um die Bandbreitenanforderungen dieser Modelle zu erfüllen, während die Rohkapazität durch große Pools von kostengünstigem DDR4-Speicher erreicht wird.

„Je mehr SRAM Sie haben, desto weniger DRAM-Bandbreite benötigen Sie, und das erlaubt uns, HBM nicht zu verwenden“, sagte Knowles.

Durch die Entkopplung des Speichers vom Beschleuniger ist es für Unternehmen weitaus günstiger – die Kosten einiger handelsüblicher DDR-Module –, größere KI-Modelle zu unterstützen.

Knowles behauptet, dass die IPUs des Unternehmens nicht nur billigeren Speicher unterstützen, sondern auch einen architektonischen Vorteil gegenüber GPUs haben, zumindest wenn es um Sparse-Modelle geht.

Anstatt auf einer kleinen Anzahl großer Matrixmultiplikatoren zu laufen – wie Sie es in einer Tensor-Verarbeitungseinheit finden – verfügen die Chips von Graphcore über eine große Anzahl kleinerer Matrix-Mathematikeinheiten, die den Speicher unabhängig adressieren können.

Dies bietet eine größere Granularität für Sparse-Modelle, bei denen „Sie die Freiheit brauchen, relevante Teilmengen abzurufen, und je kleiner die Einheit ist, die Sie abrufen müssen, desto mehr Freiheit haben Sie“, erklärte er.

Das Urteil steht noch aus

Zusammenfassend argumentiert Knowles, dass dieser Ansatz es seinen IPUs ermöglicht, große KI/ML-Modelle mit Hunderten von Milliarden oder sogar Billionen von Parametern zu wesentlich geringeren Kosten im Vergleich zu GPUs zu trainieren.

Der Markt für Unternehmens-KI steckt jedoch noch in den Kinderschuhen, und Graphcore sieht sich in diesem Bereich einem harten Wettbewerb durch größere, etabliertere Konkurrenten gegenüber.

Während also die Entwicklung von ultrasparsen, preisgünstigen Sprachmodellen für KI wahrscheinlich in absehbarer Zeit nicht nachlassen wird, bleibt abzuwarten, ob es die IPUs von Graphcore oder der Beschleuniger von jemand anderem sein werden, der am Ende die KI-Arbeitslasten von Unternehmen antreibt. ®

Zeitstempel: 10. Juni 202216. Juli 2022

Zeitstempel: 11. April 2024

Für den durchschnittlichen KI-Shop werden spärliche Modelle und billiger Speicher gewinnen

Neuauflage von Plato

Graphcores große Wette auf Sparsity

HBM-2 teuer? Cachen Sie stattdessen auf DDR

Das Urteil steht noch aus

Mehr von Das Register

Chinesische Webgiganten gehen auf Nvidia-KI-Einkaufstour im Wert von 5 Milliarden US-Dollar

Universitäten boten Software an, um von ChatGPT geschriebene Aufsätze auszuspähen

Google bringt Robotern bei, Menschen zu dienen – mit großen Sprachmodellen der Schlüssel

Meta's Llama 2 ist kein Open Source

Waymo-Robo-Taxis legen eine Million Meilen zurück, ohne jemanden zu töten

Interview mit Nvidia-Software-Managerin Kari Briski

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto