Nvidia schafft es nicht? Die neuesten KI-Chips von Google und Amazon sind da: PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Nvidia schneidet es nicht? Die neuesten KI-Chips von Google und Amazon sind da

Das Cloud-basierte KI-Training wurde diese Woche etwas vielfältiger, nachdem Amazon Web Services (AWS) und Google Cloud die allgemeine Verfügbarkeit ihrer neuesten benutzerdefinierten KI-Beschleuniger angekündigt hatten.

Zum Auftakt von Amazon sind die Trainium-Chips des Cloud-Anbieters jetzt allgemein auf AWS verfügbar. Zuerst Vorschau Bei AWS re:Invent im vergangenen Jahr wurden die Trainium-betriebenen Trn1n-Instanzen von Amazon entwickelt, um große maschinelle Lernmodelle zu trainieren, wie sie beispielsweise in der Verarbeitung natürlicher Sprache und der Bilderkennung verwendet werden.

Laut den internen Benchmarks von Amazon behauptet Amazon, dass die Instanzen in BF40- und 250-Bit-TensorFlow-Workloads zwischen 16 und 32 Prozent leistungsstärker sind als seine Nvidia A100-betriebenen P4d-Instanzen. Der Beschleuniger unterstützt auch FP32, FP16, UINT8 und einen konfigurierbaren FP8-Datentyp. FP8 hat berühmt werden in der KI-Welt in den letzten Jahren als Mittel, um Genauigkeit gegen rohe Leistung einzutauschen.

Die Instanzen sind in zwei Größen erhältlich: Amazons trn1.2xlarge paart acht vCPUs mit einem einzigen Trainium-Chip, 64 GB Speicher, der gleichmäßig zwischen CPU und Beschleuniger aufgeteilt ist, 12.5 Gbit/s Netzwerk und 500 GB lokaler SSD-Speicher. Für größere Workloads ist trn1.32xlarge 16-mal größer und bietet 128 vCPUs, 16 Trainium-Chips, 1 TB kombinierten Speicher und 800 Gbit/s Netzwerkbandbreite pro Instanz.

Für das groß angelegte Modelltraining können mehrere trn1.32xlarge-Instanzen mit dem Speicherdienst FSx Lustre von Amazon und nicht blockierenden Top-of-Rack-Switches der „Petabit-Klasse“ geclustert werden.

Der Beschleuniger verwendet das gleiche Neuron SDK wie der zuvor angekündigte Inferentia-Inferenzchip von Amazon, der mit einem Compiler, Framework-Erweiterungen, einer Laufzeitbibliothek und Entwicklertools geliefert wird. Zusammengenommen können Workloads von Amazon, die in gängigen ML-Frameworks wie PyTorch und TensorFlow geschrieben wurden, mit minimalem Refactoring für die Ausführung auf Trainium angepasst werden.

Die Trn1n-Instanzen sind diese Woche in den Amazon-Regionen „USA Ost“ und „USA West“ verfügbar.

Googles TPU v4 jetzt allgemein verfügbar

Google hat diese Woche auf seiner Cloud Next-Veranstaltung auch ein Bündel von Hardware-Updates vorgestellt, darunter die allgemeine Verfügbarkeit seiner Tensor Processing Units (TPU) der vierten Generation.

Die TPU v4-betriebenen virtuellen Maschinen von Google Cloud sind in Konfigurationen erhältlich, die von vier Chips – einem einzelnen TPU-Modul – bis zu einem Pod mit bis zu 4,096 Chips reichen, die alle über ein Hochgeschwindigkeits-Fabric verbunden sind.

Für diejenigen, die nicht damit vertraut sind: Die TPU-Beschleuniger von Google wurden speziell entwickelt, um in der Hardware große maschinelle Lernmodelle zu beschleunigen, wie sie beispielsweise in der Verarbeitung natürlicher Sprache, Empfehlungssystemen und Computer Vision verwendet werden.

Auf hoher Ebene ist der Beschleuniger im Wesentlichen ein Haufen großer bfloat-Matrix-Mathe-Engines namens MXUs, die von einem Speicher mit hoher Bandbreite und einigen CPU-Kernen unterstützt werden, um ihn programmierbar zu machen; Die CPU-Kerne werden angewiesen, die KI-Mathematikoperationen einer Workload für eine Hochgeschwindigkeitsverarbeitung in die MXUs einzuspeisen. Jede TPU-VM besteht aus vier Chips mit jeweils zwei Prozessorkernen und insgesamt 128 GB Arbeitsspeicher.

Für eine vollständige Aufschlüsselung der neuesten TPU-Architektur von Google empfehlen wir Überprüfung unserer Schwesterseite Die nächste Plattform.

Die benutzerdefinierten Beschleuniger wurden entwickelt, um Googles eigene KI-Arbeitslasten zu beschleunigen, wurden aber später für Kunden auf der GCP geöffnet. Wie zu erwarten, unterstützen TPUs eine Vielzahl gängiger ML-Frameworks, darunter JAX, PyTorch und TensorFlow. Und laut Google ist die TPU v4 mehr als doppelt so schnell wie ihr Vorgänger und liefert gleichzeitig eine um 40 Prozent höhere Leistung pro Dollar.

TPU v4-Pod-Slices sind ab sofort in der GCP-Region Oklahoma zu einem Preis zwischen 0.97 und 3.22 USD pro Chip und Stunde verfügbar. Für die kleinste Instanz von Google sind das 5,924 US-Dollar pro Monat bei einer einjährigen Verpflichtung.

Google bietet einen Blick auf Intels CPUs der nächsten Generation, smartNICs

Intels Sapphire-Rapids-CPUs und Mount-Evans-IPUs tauchten diese Woche auch in Google Cloud als private Vorschau auf.

Ausgewählte Kunden können jetzt Intels geben lang verzögert Sapphire-Rapids-CPUs eine Runde drehen, aber die heutige Ankündigung bietet nur wenige Hinweise darauf, was wir von den Mikroprozessoren erwarten können. Stattdessen spielte das Geschäft die Mount Evans IPUs hoch, die es gemeinsam mit Intel entwickelt hatte.

„Als erste ihrer Art in einer öffentlichen Cloud werden C3-VMs Workloads auf skalierbaren Intel Xeon-Prozessoren der 4. Generation ausführen, während sie die programmierbare Paketverarbeitung für die IPUs sicher mit Leitungsraten von 200 Gbit/s freigeben“, Nick McKeown, Leiter des Intel-Netzwerks und Randgruppe, sagte in a Aussage.

Mount Evans – jetzt umbenannt in E2000 – wurde letztes Jahr auf Intels Architecture Day angekündigt und ist Intels erster IPU-ASIC. IPU ist eine Infrastructure Processing Unit, im Grunde ein weiterer Hardwarebeschleuniger für Netzwerk- und Speicheraufgaben.

Der Chip der smartNIC-Klasse wird verwendet, um die Workloads der Cloud-Infrastruktur von Google zu beschleunigen. Einer der ersten wird der Speicher sein. Der Cloud-Anbieter behauptet, dass seine IPU-geboosteten C3-Instanzen 10x höhere IOPS und 4x den Durchsatz seiner ausgehenden C2-Instanzen bieten, wenn sie seine verwenden vor kurzem angekündigt, Hyperdisk-Dienst.

IPUs, Datenverarbeitungseinheiten und SmartNICs sind kaum ein neues Phänomen in der Cloud-Welt. Amazon, Microsoft Azure und Alibaba Cloud verwenden SmartNICs auch, um Infrastrukturaufgaben wie Netzwerk, Speicher und Sicherheit vom Host zu entlasten und dabei CPU-Zyklen für die Nutzung durch Mandanten-Workloads freizugeben.

Intels Sapphire Rapids steckt immer noch in der Cloud

Obwohl die C3-Instanzen als „erste VM in der öffentlichen Cloud“ powered by Sapphire Rapids angepriesen werden, ist „öffentlich“ hier wahrscheinlich das falsche Wort. Die C3-Instanzen von Google bleiben auf ausgewählte Kunden nach Anwendung beschränkt, vermutlich unter einer strengen Geheimhaltungsvereinbarung.

In dieser Woche hat Intel noch keinen Starttermin für seine Sapphire Rapids-Prozessorfamilie bekannt gegeben, die bereits mehr als ein Jahr hinter dem Zeitplan liegt. Mit der für diesen Herbst geplanten Einführung von AMDs Epyc-Prozessoren der vierten Generation scheint Intel jedoch mehr denn je bestrebt zu sein, seine Rechenzentrumschips der nächsten Generation in die Hände einiger Kunden zu bringen – zumindest virtuell.

Google ist nur der neueste Intel-Partner, der Sapphire Rapids-basierte Ressourcen für Kunden in gewisser Weise verfügbar macht. Während Google Cloud-VMs anbietet, Supermicro und Intel bieten jeweils Fernzugriff auf Bare-Metal-Systeme an, um Kunden die Möglichkeit zu geben, die neuen Möglichkeiten der Chips zu erkunden.

Intel hat damit begonnen, Sapphire-Rapids-betriebene skalierbare Xeon-Prozessoren der vierten Generation an einige OEMs, Cloud-Freunde und Regierungsbehörden zu liefern. Es ist jedoch unklar, wie viele Chips der x86-Titan an die Kunden bringen konnte. ®

Zeitstempel:

Mehr von Das Register