Mit KI müssen Sie das Gesamtbild der Hardware und Software sehen

Neuauflage von Plato

Verfolger: 0

Gesponserte Funktion Es ist anderthalb Jahrzehnte her, seit Forscher die Tech-Welt verblüfften, indem sie demonstrierten, dass grafische Verarbeitungseinheiten verwendet werden können, um wichtige KI-Operationen dramatisch zu beschleunigen.

Diese Erkenntnis beflügelt weiterhin die Vorstellungskraft von Unternehmen. IDC hat berichtet, dass GPU-beschleunigte Berechnungen und HPC-ähnliche Skalierung zu den wichtigsten Überlegungen für Technologieführer und Architekten gehören, die ihre KI-Infrastruktur ausbauen möchten, wenn es um Infrastruktur geht.

Aber für all die Organisationen, die KI erfolgreich auf Probleme der realen Welt angewendet haben, haben viele weitere Schwierigkeiten, über die Experimentier- oder Pilotphase hinauszukommen. IDC-Studie 2021 fanden heraus, dass weniger als ein Drittel der Befragten ihre KI-Projekte in die Produktion überführt hatten und nur ein Drittel davon ein „ausgereiftes Produktionsstadium“ erreicht hatte.

Zu den genannten Hürden zählen Probleme bei der Verarbeitung und Aufbereitung von Daten und der Ausbau der Infrastruktur zur Unterstützung von KI auf Unternehmensebene. Unternehmen müssten in „zweckgerichtete Infrastrukturen in der richtigen Größe“ investieren, so IDC.

Was ist hier das KI-Problem?

Was also machen diese Organisationen mit KI falsch? Ein Faktor könnte sein, dass Technologieführer und KI-Spezialisten es versäumen, einen ganzheitlichen Blick auf die breitere KI-Pipeline zu werfen, während sie den GPUs im Vergleich zu anderen Rechenmaschinen, insbesondere der ehrwürdigen CPU, zu viel Aufmerksamkeit schenken.

Denn letztlich geht es nicht darum, CPUs versus GPUs versus ASICs zu unterstützen. Vielmehr geht es darum, den optimalen Weg zum Aufbau einer KI-Pipeline zu finden, die Sie von der Ideen- und Daten- und Modellerstellung bis hin zur Bereitstellung und Inferenz führt. Und das bedeutet, die jeweiligen Stärken verschiedener Prozessorarchitekturen zu schätzen, damit Sie die richtige Compute Engine zum richtigen Zeitpunkt einsetzen können.

Shardul Brahmbhatt, Senior Director, Datacenter AI Strategy and Execution von Intel, erklärt: „Die CPU wurde für Microservices und herkömmliche Recheninstanzen in der Cloud verwendet. Und GPUs wurden für parallele Berechnungen wie Medienstreaming, Spiele und für KI-Workloads verwendet.“

Da Hyperscaler und andere Cloud-Player ihre Aufmerksamkeit auf KI gerichtet haben, ist klar geworden, dass sie dieselben Stärken für unterschiedliche Aufgaben nutzen.

Die Fähigkeiten von GPUs rund um paralleles Rechnen machen sie beispielsweise sehr gut geeignet für das Training von KI-Algorithmen. In der Zwischenzeit haben CPUs einen Vorteil, wenn es um Echtzeit-Inferenz mit geringem Batch und geringer Latenz geht und wenn es darum geht, diese Algorithmen zur Analyse von Live-Daten zu verwenden und Ergebnisse und Vorhersagen zu liefern.

Auch hier gibt es Vorbehalte, erklärt Brahmbhatt: „Es gibt Stellen, an denen Sie mehr Batch-Inferenz durchführen möchten. Und diese Batch-Inferenz wird auch über GPUs oder ASICs durchgeführt.“

Blick in die Pipeline

Aber die KI-Pipeline geht über Training und Inferenz hinaus. Auf der linken Seite der Pipeline müssen Daten vorverarbeitet und Algorithmen entwickelt werden. Die Generalisten-CPU spielt hier eine bedeutende Rolle.

Tatsächlich machen GPUs einen relativ kleinen Anteil der gesamten Prozessoraktivität in der gesamten KI-Pipeline aus, wobei CPU-betriebene „Data Stage“-Workloads laut Intel insgesamt zwei Drittel ausmachen (Sie können einen Solution Brief lesen – Optimieren Sie die Inferenz mit der Intel CPU-Technologie Hier).

Und Brahmbhatt erinnert uns daran, dass die CPU-Architektur andere Vorteile hat, einschließlich der Programmierbarkeit.

„Weil CPUs so weit verbreitet sind, gibt es bereits ein bestehendes Ökosystem von Entwicklern und Anwendungen sowie Tools, die Benutzerfreundlichkeit und Programmierbarkeit für Allzweck-Computing bieten“, sagt er.

„Zweitens bieten CPUs einen schnelleren Zugriff auf den größeren Speicherplatz. Und dann ist die dritte Sache, dass es mehr unstrukturierte Berechnungen im Vergleich zu GPUs gibt, [die] eher parallele Berechnungen durchführen. Aus diesen Gründen fungieren CPUs als Datenbeweger, die die GPUs speisen, und helfen so bei Recommender-Systemmodellen sowie sich entwickelnden Arbeitslasten wie Graph Neural Networks.“

Ein offener Plan für die KI-Entwicklung

Wie sollten wir also die Rollen von CPUs bzw. GPUs betrachten, wenn wir eine KI-Entwicklungspipeline planen, ob vor Ort, in der Cloud oder beides?

GPUs haben die KI-Entwicklung revolutioniert, weil sie eine Beschleunigungsmethode boten, die Operationen von der CPU entlastet. Daraus folgt aber nicht, dass dies für einen bestimmten Job die sinnvollste Option ist.

Sharath Raghava, Architekt der Intel-Plattform, erklärt: „KI-Anwendungen haben vektorisierte Berechnungen. Vektorrechnungen sind parallelisierbar. Um KI-Workloads effizient auszuführen, könnte man die Fähigkeiten von CPUs und GPUs unter Berücksichtigung der Größe der Vektorberechnungen, der Offload-Latenz, der Parallelisierbarkeit und vieler anderer Faktoren nutzen.“ Aber er fährt fort, für eine „kleinere“ Aufgabe werden die „Kosten“ der Auslagerung zu hoch sein, und es macht möglicherweise keinen Sinn, sie auf einer GPU oder einem Beschleuniger auszuführen.

CPUs können auch von einer engeren Integration mit anderen Systemkomponenten profitieren, die es ihnen ermöglichen, die KI-Aufgabe schneller abzuschließen. Den maximalen Nutzen aus KI-Bereitstellungen zu ziehen, erfordert mehr als nur die Ausführung der Modelle selbst – die gesuchten Erkenntnisse hängen von effizienten Vorverarbeitungs-, Inferenz- und Nachverarbeitungsvorgängen ab. Die Vorverarbeitung erfordert, dass Daten so vorbereitet werden, dass sie den Eingabeerwartungen des trainierten Modells entsprechen, bevor sie zur Generierung von Inferenzen eingespeist werden. Die nützlichen Informationen werden dann in der Nachverarbeitungsphase aus den Inferenzergebnissen extrahiert.

Wenn wir beispielsweise an ein Intrusion Detection System (IDS) für Rechenzentren denken, ist es wichtig, auf die Ergebnisse des Modells zu reagieren, um rechtzeitig vor einem Cyberangriff zu schützen und Schäden zu verhindern. Und normalerweise sind Vorverarbeitungs- und Nachverarbeitungsschritte effizienter, wenn sie auf den Hostsystem-CPUs ausgeführt werden, da sie enger mit dem Rest des architektonischen Ökosystems integriert sind.

Leistungssteigerung unter Starterbestellungen

Bedeutet das also, auf die Vorteile der GPU-Beschleunigung ganz zu verzichten? Nicht unbedingt. Intel baut die KI-Beschleunigung seit einigen Jahren in seine skalierbaren Xeon-CPUs ein. Das Sortiment umfasst bereits Deep Learning Boost für Hochleistungs-Inferenzen auf Deep-Learning-Modellen, während Intels Advanced Vector Extensions 512 (AVX 512) und Vector Neural Network Extensions (VNNI) die INT8-Inferenzleistung beschleunigen. Aber DL Boost verwendet auch das Gehirn-Gleitkommaformat (BF16), um die Leistung bei Trainingsbelastungen zu steigern, die kein hohes Maß an Präzision erfordern.

Intels kommende skalierbare Xeon-CPUs der vierten Generation werden Advanced Matrix Multiplication (AMX) hinzufügen. Dies wird Intels Berechnungen zufolge einen weiteren 8-fachen Schub gegenüber den AVX-512 VNNI x86-Erweiterungen geben, die in früheren Prozessoren implementiert wurden, und es den Intel Xeon Scalable-Prozessoren der 4. Generation ermöglichen, „Trainingslasten und DL-Algorithmen wie eine GPU zu handhaben“. Dieselben Beschleuniger können jedoch auch auf die allgemeine CPU-Berechnung für KI- und Nicht-KI-Workloads angewendet werden.

Das bedeutet nicht, dass Intel erwartet, dass KI-Pipelines von Anfang bis Ende x86 sind. Wenn es sinnvoller ist, Trainingsworkloads vollständig zu entlasten, die von der Parallelisierung profitieren, bietet Intel seinen Habana Gaudi AI Training Processor an. Benchmark-Tests deuten darauf hin, dass letztere Amazon EC2 DL1-Instanzen antreiben, die ein bis zu 40 Prozent besseres Preis-Leistungs-Verhältnis bieten können als vergleichbare Nvidia-GPU-basierte Trainingsinstanzen, die ebenfalls in der Cloud gehostet werden.

Gleichzeitig ist Intels Data Center GPU Flex Series auf Workloads und Operationen ausgerichtet, die von Parallelisierung wie KI-Inferenz profitieren, wobei unterschiedliche Implementierungen auf „leichtere“ und komplexere KI-Modelle ausgerichtet sind. Eine weitere Intel® Rechenzentrums-GPU mit dem Codenamen Ponte Vecchio (PVC) wird in Kürze den Aurora-Supercomputer im Argonne National Laboratory mit Strom versorgen.

Können wir von Ende zu Ende gehen?

Potenziell kann Intels Silizium also die gesamte KI-Pipeline untermauern und gleichzeitig die Notwendigkeit minimieren, Daten unnötig zwischen verschiedenen Compute-Engines auszulagern. Die Prozessoren des Unternehmens – ob GPU oder CPU – unterstützen auch ein gemeinsames Softwaremodell, das auf Open-Source-Tools und -Frameworks mit Intel-Optimierungen durch sein OneAPI-Programm basiert.

Als weiteren Vorteil nennt Brahmbhatt Intels Tradition beim Aufbau eines x86-Software-Ökosystems auf Basis von Community und Open Source. „Die Philosophie von Intel lautet … ‚Lasst das Ökosystem die Einführung vorantreiben'. Und wir müssen sicherstellen, dass wir fair und offen für das Ökosystem sind und dass wir dem Ökosystem unsere geheime Sauce zurückgeben.“

„Wir verwenden einen gemeinsamen Software-Stack, um im Grunde sicherzustellen, dass sich Entwickler nicht um die zugrunde liegende Unterscheidung von IP zwischen CPU und GPU für KI kümmern müssen.“

Diese Kombination aus einem gemeinsamen Software-Stack und einem Fokus auf die Verwendung der richtigen Rechenmaschine für die richtige Aufgabe ist in Unternehmen sogar noch wichtiger. Unternehmen verlassen sich auf KI, um einige ihrer dringendsten Probleme zu lösen, unabhängig davon, ob diese in der Cloud oder vor Ort liegen. Aber gemischte Workloads erfordern Software mit vollem Funktionsumfang sowie Wartung und Verwaltung des Systemstapels, um den Code auszuführen, der nicht im Kernel enthalten ist, der sich auf dem Beschleuniger befindet.

Bei der Beantwortung der Frage „Wie bringen wir KI auf Unternehmensebene?“ hängt die Antwort möglicherweise davon ab, einen Blick auf das Gesamtbild zu werfen und sicherzustellen, dass Sie das gesamte Hardware- und Software-Kit nutzen, das Ihnen zur Verfügung steht.

Gesponsert von Intel.

Zeitstempel: 9. November 20229. November 2022

Zeitstempel: 28. Juni 2023

OpenAI öffnet Türen zu DALL-E, nachdem das Pferd nach Midjourney gelaufen ist usw

Quellcluster:

Das Register

Quellknoten: 1703189

Zeitstempel: 28. September 2022

AI wurde während der Telefonkonferenz zu den Ergebnissen des vierten Quartals von Microsoft 175 Mal erwähnt

Quellcluster:

Das Register

Quellknoten: 1866588

Zeitstempel: 26. Juli 2023

Da der OpenAI GPT Store unmittelbar bevorsteht, machen sich Entwickler Sorgen über Nachahmer

Quellcluster:

Das Register

Quellknoten: 1935364

Zeitstempel: Jan 9, 2024

Bei KI müssen Sie das Gesamtbild von Hardware und Software sehen

Neuauflage von Plato

Mehr von Das Register

DARPA sucht ein paar gute KI-Programmierer, um Amerika dabei zu helfen, seine eigenen seltenen Mineralien zu finden

Details zu Googles KI-Updates für die Cloud-Infrastruktur

Nvidia lockt den Chef autonomer Autos vom chinesischen Hersteller Baidu

OpenAI öffnet Türen zu DALL-E, nachdem das Pferd nach Midjourney gelaufen ist usw

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto