Generative KI-Modelle verzeichneten in den letzten Monaten aufgrund ihrer beeindruckenden Fähigkeiten bei der Erstellung realistischer Texte, Bilder, Codes und Audiodaten ein rasantes Wachstum. Unter diesen Modellen zeichnen sich die Stable Diffusion-Modelle durch ihre einzigartige Stärke bei der Erstellung hochwertiger Bilder auf der Grundlage von Textaufforderungen aus. Stable Diffusion kann eine Vielzahl hochwertiger Bilder erzeugen, darunter realistische Porträts, Landschaften und sogar abstrakte Kunst. Und wie andere generative KI-Modelle erfordern Stable Diffusion-Modelle eine leistungsstarke Rechenleistung, um Inferenzen mit geringer Latenz zu ermöglichen.
In diesem Beitrag zeigen wir, wie Sie Stable Diffusion-Modelle ausführen und eine hohe Leistung zu den niedrigsten Kosten erzielen können Amazon Elastic Compute-Cloud (Amazon EC2) verwenden Amazon EC2 Inf2-Instanzen YOGA MODE AWS Inferentia2. Wir betrachten die Architektur eines Stable-Diffusion-Modells und gehen durch die Schritte zum Kompilieren eines Stable-Diffusion-Modells mit AWS-Neuron und Bereitstellung auf einer Inf2-Instanz. Wir diskutieren auch die Optimierungen, die das Neuron SDK automatisch vornimmt, um die Leistung zu verbessern. Sie können sowohl die Versionen Stable Diffusion 2.1 als auch 1.5 kostengünstig auf AWS Inferentia2 ausführen. Abschließend zeigen wir, wie Sie mit ein Stable Diffusion-Modell auf einer Inf2-Instanz bereitstellen können Amazon Sage Maker.
Die Modellgröße von Stable Diffusion 2.1 in Gleitkomma 32 (FP32) beträgt 5 GB und in bfoat2.5 (BF16) 16 GB. Eine einzelne inf2.xlarge-Instanz verfügt über einen AWS Inferentia2-Beschleuniger mit 32 GB HBM-Speicher. Das Stable Diffusion 2.1-Modell passt auf eine einzelne inf2.xlarge-Instanz. Stable Diffusion ist ein Text-zu-Bild-Modell, mit dem Sie Bilder mit unterschiedlichen Stilen und Inhalten erstellen können, indem Sie einfach eine Textaufforderung als Eingabe bereitstellen. Weitere Informationen zur Architektur des Stable Diffusion-Modells finden Sie unter Erstellen Sie hochwertige Bilder mit Stable Diffusion-Modellen und stellen Sie diese kosteneffizient mit Amazon SageMaker bereit.
Wie das Neuron SDK die Leistung der stabilen Diffusion optimiert
Bevor wir das Stable Diffusion 2.1-Modell auf AWS Inferentia2-Instanzen bereitstellen können, müssen wir die Modellkomponenten mithilfe von kompilieren Neuron-SDK. Das Neuron SDK, das einen Deep-Learning-Compiler, eine Laufzeit und Tools umfasst, kompiliert und optimiert automatisch Deep-Learning-Modelle, damit sie effizient auf Inf2-Instanzen ausgeführt werden und die volle Leistung des AWS Inferentia2-Beschleunigers nutzen können. Wir haben Beispiele für das Stable Diffusion 2.1-Modell auf der Website GitHub Repo. Dieses Notebook stellt ein End-to-End-Beispiel dar, wie man ein Stable Diffusion-Modell kompiliert, die kompilierten Neuron-Modelle speichert und es zur Inferenz in die Laufzeit lädt.
Wir verwenden StableDiffusionPipeline
aus dem Hugging Face diffusers
Bibliothek zum Laden und Kompilieren des Modells. Anschließend kompilieren wir alle Komponenten des Modells für Neuron torch_neuronx.trace()
und speichern Sie das optimierte Modell als TorchScript. Kompilierungsvorgänge können sehr speicherintensiv sein und viel RAM erfordern. Um dies zu umgehen, erstellen wir vor der Verfolgung jedes Modells ein deepcopy
des Teils der Pipeline, der verfolgt wird. Anschließend löschen wir das Pipeline-Objekt mit aus dem Speicher del pipe
. Diese Technik ist besonders nützlich beim Kompilieren auf Instanzen mit wenig RAM.
Darüber hinaus führen wir auch Optimierungen an den Stable Diffusion-Modellen durch. UNet enthält den rechenintensivsten Aspekt der Schlussfolgerung. Die UNet-Komponente verarbeitet Eingabetensoren mit einer Stapelgröße von zwei und generiert einen entsprechenden Ausgabetensor ebenfalls mit einer Stapelgröße von zwei, um ein einzelnes Bild zu erzeugen. Die Elemente innerhalb dieser Chargen sind völlig unabhängig voneinander. Wir können dieses Verhalten ausnutzen, um eine optimale Latenz zu erzielen, indem wir auf jedem Neuron-Kern einen Batch ausführen. Wir kompilieren das UNet für einen Batch (indem wir Eingabetensoren mit einem Batch verwenden) und verwenden dann das torch_neuronx.DataParallel
API zum Laden dieses einzelnen Batch-Modells auf jeden Kern. Die Ausgabe dieser API ist ein nahtloses Zwei-Batch-Modul: Wir können die Eingaben von zwei Batches an das UNet übergeben, und es wird eine Zwei-Batch-Ausgabe zurückgegeben, aber intern laufen die beiden Single-Batch-Modelle auf den beiden Neuron-Kernen . Diese Strategie optimiert die Ressourcennutzung und reduziert die Latenz.
Kompilieren Sie ein Stable Diffusion-Modell und stellen Sie es auf einer Inf2 EC2-Instanz bereit
Um das Stable Diffusion-Modell auf einer Inf2 EC2-Instanz zu kompilieren und bereitzustellen, melden Sie sich bei an AWS-Managementkonsole und erstellen Sie eine inf2.8xlarge-Instanz. Beachten Sie, dass eine inf2.8xlarge-Instanz nur für die Kompilierung des Modells erforderlich ist, da für die Kompilierung ein höherer Hostspeicher erforderlich ist. Das Stable Diffusion-Modell kann auf einer inf2.xlarge-Instanz gehostet werden. Sie können die neuesten AMI mit Neuron-Bibliotheken wie folgt finden AWS-Befehlszeilenschnittstelle Befehl (AWS CLI):
Für dieses Beispiel haben wir eine EC2-Instanz mit dem Deep Learning AMI Neuron PyTorch 1.13 (Ubuntu 20.04) erstellt. Anschließend können Sie eine JupyterLab-Laborumgebung erstellen, indem Sie eine Verbindung zur Instanz herstellen und die folgenden Schritte ausführen:
Ein Notebook mit allen Schritten zum Kompilieren und Hosten des Modells befindet sich auf GitHub.
Schauen wir uns die Kompilierungsschritte für einen der Text-Encoder-Blöcke an. Andere Blöcke, die Teil der Stable Diffusion-Pipeline sind, können auf ähnliche Weise kompiliert werden.
Der erste Schritt besteht darin, das vorab trainierte Modell von Hugging Face zu laden. Der StableDiffusionPipeline.from_pretrained
Die Methode lädt das vorab trainierte Modell in unser Pipeline-Objekt. pipe
. Wir erstellen dann eine deepcopy
des Text-Encoders aus unserer Pipeline, wodurch er effektiv geklont wird. Der del pipe
Der Befehl wird dann verwendet, um das ursprüngliche Pipeline-Objekt zu löschen und so den von ihm verbrauchten Speicher freizugeben. Hier quantisieren wir das Modell auf BF16-Gewichte:
Dieser Schritt beinhaltet das Umschließen unseres Text-Encoders mit dem NeuronTextEncoder
Verpackung. Die Ausgabe eines kompilierten Text-Encoder-Moduls ist von dict
. Wir konvertieren es in a list
Geben Sie mit diesem Wrapper Folgendes ein:
Wir initialisieren den PyTorch-Tensor emb
mit einigen Werten. Der emb
Tensor wird als Beispieleingabe für verwendet torch_neuronx.trace
Funktion. Diese Funktion verfolgt unseren Text-Encoder und kompiliert ihn in ein für Neuron optimiertes Format. Der Verzeichnispfad für das kompilierte Modell wird durch Zusammenfügen erstellt COMPILER_WORKDIR_ROOT
mit dem Unterverzeichnis text_encoder
:
Der kompilierte Text-Encoder wird mit gespeichert torch.jit.save
. Es wird unter dem Dateinamen model.pt im gespeichert text_encoder
Verzeichnis des Arbeitsbereichs unseres Compilers:
Das Notizbuch Enthält ähnliche Schritte zum Kompilieren anderer Komponenten des Modells: UNet, VAE-Decoder und VAE post_quant_conv
. Nachdem Sie alle Modelle kompiliert haben, können Sie das Modell wie folgt laden und ausführen:
- Definieren Sie die Pfade für die kompilierten Modelle.
- Laden Sie ein vorab trainiertes
StableDiffusionPipeline
Modell, dessen Konfiguration für die Verwendung des Datentyps bfloat16 angegeben ist. - Laden Sie das UNet-Modell mit auf zwei Neuron-Kerne
torch_neuronx.DataParallel
API. Dadurch kann eine datenparallele Inferenz durchgeführt werden, was die Modellleistung erheblich beschleunigen kann. - Laden Sie die restlichen Teile des Modells (
text_encoder
,decoder
undpost_quant_conv
) auf einen einzelnen Neuronenkern.
Anschließend können Sie die Pipeline ausführen, indem Sie Eingabetext als Eingabeaufforderungen bereitstellen. Im Folgenden sind einige vom Modell für die Eingabeaufforderungen generierte Bilder aufgeführt:
- Porträt von Renaud Sechan, Feder und Tinte, komplizierte Strichzeichnungen, von Craig Mullins, Ruan Jia, Kentaro Miura, Greg Rutkowski, Loundraw
- Porträt eines alten Bergarbeiters aus dem 19. Jahrhundert, wunderschönes Gemälde, mit sehr detaillierter Gesichtsbemalung von Greg Rutkowski
- Ein Schloss mitten im Wald
Hosten Sie Stable Diffusion 2.1 auf AWS Inferentia2 und SageMaker
Das Hosten stabiler Diffusionsmodelle mit SageMaker erfordert auch die Kompilierung mit dem Neuron SDK. Sie können die Kompilierung vorab oder während der Laufzeit mithilfe von LMI-Containern (Large Model Inference) abschließen. Eine vorzeitige Kompilierung ermöglicht schnellere Modellladezeiten und ist die bevorzugte Option.
SageMaker LMI-Container bieten zwei Möglichkeiten zur Bereitstellung des Modells:
- Eine No-Code-Option, bei der wir lediglich eine bereitstellen
serving.properties
Datei mit den erforderlichen Konfigurationen - Bringen Sie Ihr eigenes Inferenzskript mit
Wir schauen uns beide Lösungen an und gehen die Konfigurationen und das Inferenzskript durch (model.py
). In diesem Beitrag demonstrieren wir die Bereitstellung mithilfe eines vorkompilierten Modells, das in einem gespeichert ist Amazon Simple Storage-Service (Amazon S3) Eimer. Sie können dieses vorkompilierte Modell für Ihre Bereitstellungen verwenden.
Konfigurieren Sie das Modell mit einem bereitgestellten Skript
In diesem Abschnitt zeigen wir, wie Sie den LMI-Container zum Hosten der Stable Diffusion-Modelle konfigurieren. Das SD2.1-Notebook ist verfügbar unter GitHub. Der erste Schritt besteht darin, das Modellkonfigurationspaket gemäß der folgenden Verzeichnisstruktur zu erstellen. Unser Ziel ist es, die minimalen Modellkonfigurationen zu verwenden, die zum Hosten des Modells erforderlich sind. Die benötigte Verzeichnisstruktur ist wie folgt:
Als nächstes erstellen wir die dienende.Eigenschaften Datei mit den folgenden Parametern:
Die Parameter legen Folgendes fest:
- option.model_id – Die LMI-Container verwenden s5cmd, um das Modell vom S3-Speicherort zu laden, und daher müssen wir den Speicherort angeben, an dem sich unsere kompilierten Gewichte befinden.
- option.entryPoint – Um die integrierten Handler zu verwenden, geben wir die Klasse „transformers-neuronx“ an. Wenn Sie über ein benutzerdefiniertes Inferenzskript verfügen, müssen Sie stattdessen dieses bereitstellen.
- option.dtype – Dies legt fest, dass die Gewichte in einer bestimmten Größe geladen werden sollen. Für diesen Beitrag verwenden wir BF16, was unseren Speicherbedarf im Vergleich zu FP32 weiter reduziert und dadurch unsere Latenz verringert.
- option.tensor_parallel_degree – Dieser Parameter gibt die Anzahl der Beschleuniger an, die wir für dieses Modell verwenden. Der AWS Inferentia2-Chipbeschleuniger verfügt über zwei Neuron-Kerne. Die Angabe eines Werts von 2 bedeutet also, dass wir einen Beschleuniger (zwei Kerne) verwenden. Das bedeutet, dass wir jetzt mehrere Worker erstellen können, um den Durchsatz des Endpunkts zu erhöhen.
- option.engine – Dies ist auf Python eingestellt, um anzuzeigen, dass wir für dieses Hosting keine anderen Compiler wie DeepSpeed oder Faster Transformer verwenden.
Bringen Sie Ihr eigenes Skript mit
Wenn Sie Ihr eigenes benutzerdefiniertes Inferenzskript mitbringen möchten, müssen Sie das entfernen option.entryPoint
für serving.properties
. Der LMI-Container sucht in diesem Fall nach a model.py
Datei am selben Ort wie die serving.properties
und verwenden Sie dies, um die Inferenz auszuführen.
Erstellen Sie Ihr eigenes Inferenzskript (model.py)
Das Erstellen eines eigenen Inferenzskripts ist mit dem LMI-Container relativ einfach. Der Container erfordert Ihre model.py
Datei, um eine Implementierung der folgenden Methode zu haben:
Lassen Sie uns einige der kritischen Bereiche untersuchen beigefügtes Notizbuch, das die Bring-Your-Own-Script-Funktion demonstriert.
Ersetzen Sie die cross_attention
Modul mit der optimierten Version:
Dies sind die Namen der kompilierten Gewichtungsdatei, die wir beim Erstellen der Zusammenstellungen verwendet haben. Sie können die Dateinamen gerne ändern, aber stellen Sie sicher, dass die Namen Ihrer Gewichtungsdateien mit den hier angegebenen übereinstimmen.
Dann müssen wir sie mit dem Neuron SDK laden und sie auf die tatsächlichen Modellgewichte einstellen. Beachten Sie beim Laden der für UNet optimierten Gewichte, dass wir auch die Anzahl der Neuron-Kerne angeben, auf die wir diese laden müssen. Hier laden wir auf einen einzelnen Beschleuniger mit zwei Kernen:
Das Ausführen der Inferenz mit einer Eingabeaufforderung ruft das Pipe-Objekt auf, um ein Bild zu generieren.
Erstellen Sie den SageMaker-Endpunkt
Wir verwenden Boto3-APIs, um einen SageMaker-Endpunkt zu erstellen. Führen Sie die folgenden Schritte aus:
- Erstellen Sie den Tarball nur mit der Portion und dem optionalen
model.py
Dateien und laden Sie sie auf Amazon S3 hoch. - Erstellen Sie das Modell mithilfe des Bildcontainers und des zuvor hochgeladenen Modell-Tarballs.
- Erstellen Sie die Endpunktkonfiguration mit den folgenden Schlüsselparametern:
- Benutze ein
ml.inf2.xlarge
Beispiel. - Sept
ContainerStartupHealthCheckTimeoutInSeconds
auf 240, um sicherzustellen, dass die Integritätsprüfung nach der Bereitstellung des Modells beginnt. - Sept
VolumeInGB
auf einen größeren Wert, sodass es zum Laden von Modellgewichten mit einer Größe von 32 GB verwendet werden kann.
- Benutze ein
Erstellen Sie ein SageMaker-Modell
Nachdem Sie die Datei „model.tar.gz“ erstellt und auf Amazon S3 hochgeladen haben, müssen wir ein SageMaker-Modell erstellen. Wir verwenden den LMI-Container und das Modellartefakt aus dem vorherigen Schritt, um das SageMaker-Modell zu erstellen. Mit SageMaker können wir verschiedene Umgebungsvariablen anpassen und einfügen. Für diesen Workflow können wir alles als Standard belassen. Siehe den folgenden Code:
Erstellen Sie das Modellobjekt, das im Wesentlichen einen Sperrcontainer erstellt, der auf die Instanz geladen und für Rückschlüsse verwendet wird:
Erstellen Sie einen SageMaker-Endpunkt
In dieser Demo verwenden wir eine ml.inf2.xlarge-Instanz. Wir müssen das einstellen VolumeSizeInGB
Parameter, um den erforderlichen Speicherplatz zum Laden des Modells und der Gewichte bereitzustellen. Dieser Parameter gilt für Instanzen, die das unterstützen Amazon Elastic Block-Shop (Amazon EBS) Volumenanhang. Wir können das Modell-Download-Timeout und die Container-Start-Zustandsprüfung auf einem höheren Wert belassen, was dem Container ausreichend Zeit gibt, die Gewichte von Amazon S3 abzurufen und in die AWS Inferentia2-Beschleuniger zu laden. Weitere Einzelheiten finden Sie unter CreateEndpointConfig.
Zuletzt erstellen wir einen SageMaker-Endpunkt:
Rufen Sie den Modellendpunkt auf
Da es sich um ein generatives Modell handelt, übergeben wir die Eingabeaufforderung, die das Modell zum Generieren des Bildes verwendet. Die Nutzlast ist vom Typ JSON:
Benchmarking des stabilen Diffusionsmodells auf Inf2
Wir haben einige Tests durchgeführt, um das Stable Diffusion-Modell mit dem Datentyp BF 16 auf Inf2 zu vergleichen, und wir sind in der Lage, Latenzzahlen abzuleiten, die mit einigen anderen Beschleunigern für Stable Diffusion mithalten oder diese sogar übertreffen. Dies, gepaart mit den geringeren Kosten der AWS Inferentia2-Chips, macht dies zu einem äußerst wertvollen Angebot.
Die folgenden Zahlen stammen aus dem Stable Diffusion-Modell, das auf einer inf2.xl-Instanz bereitgestellt wird. Weitere Informationen zu den Kosten finden Sie unter Amazon EC2 Inf2-Instanzen.
Modell | Auflösung | Datentyp | Iterationen | P95 Latenz (ms) | Inf2.xl On-Demand-Kosten pro Stunde | Inf2.xl (Kosten pro Bild) |
Stalldiffusion 1.5 | 512/512 | bf16 | 50 | 2,427.4 | $0.76 | $0.0005125 |
Stalldiffusion 1.5 | 768/768 | bf16 | 50 | 8,235.9 | $0.76 | $0.0017387 |
Stalldiffusion 1.5 | 512/512 | bf16 | 30 | 1,456.5 | $0.76 | $0.0003075 |
Stalldiffusion 1.5 | 768/768 | bf16 | 30 | 4,941.6 | $0.76 | $0.0010432 |
Stalldiffusion 2.1 | 512/512 | bf16 | 50 | 1,976.9 | $0.76 | $0.0004174 |
Stalldiffusion 2.1 | 768/768 | bf16 | 50 | 6,836.3 | $0.76 | $0.0014432 |
Stalldiffusion 2.1 | 512/512 | bf16 | 30 | 1,186.2 | $0.76 | $0.0002504 |
Stalldiffusion 2.1 | 768/768 | bf16 | 30 | 4,101.8 | $0.76 | $0.0008659 |
Zusammenfassung
In diesem Beitrag haben wir uns eingehend mit der Kompilierung, Optimierung und Bereitstellung des Stable Diffusion 2.1-Modells mithilfe von Inf2-Instanzen befasst. Wir haben auch den Einsatz stabiler Diffusionsmodelle mit SageMaker demonstriert. Inf2-Instanzen bieten auch ein hervorragendes Preis-Leistungs-Verhältnis für Stable Diffusion 1.5. Weitere Informationen darüber, warum sich Inf2-Instanzen hervorragend für generative KI und große Sprachmodelle eignen, finden Sie unter Amazon EC2 Inf2-Instanzen für kostengünstige, leistungsstarke generative KI-Inferenz sind jetzt allgemein verfügbar. Einzelheiten zur Leistung finden Sie unter Inf2-Leistung. Schauen Sie sich weitere Beispiele an GitHub Repo.
Besonderer Dank geht an Matthew Mcclain, Beni Hegedus, Kamran Khan, Shruti Koparkar und Qing Lan für die Durchsicht und Bereitstellung wertvoller Beiträge.
Über die Autoren
Vivek Gangasani ist Senior Machine Learning Solutions Architect bei Amazon Web Services. Er arbeitet mit Startups für maschinelles Lernen zusammen, um KI/ML-Anwendungen auf AWS zu erstellen und bereitzustellen. Derzeit konzentriert er sich auf die Bereitstellung von Lösungen für MLOps, ML-Inferenz und Low-Code-ML. Er hat an Projekten in verschiedenen Bereichen gearbeitet, darunter Verarbeitung natürlicher Sprache und Computer Vision.
KC Tung ist Senior Solution Architect bei AWS Annapurna Labs. Er ist spezialisiert auf das Training großer Deep-Learning-Modelle und die Bereitstellung in großem Maßstab in der Cloud. Er hat einen Ph.D. in molekularer Biophysik vom University of Texas Southwestern Medical Center in Dallas. Er hat auf AWS Summits und AWS Reinvent gesprochen. Heute hilft er Kunden beim Trainieren und Bereitstellen großer PyTorch- und TensorFlow-Modelle in der AWS-Cloud. Er ist Autor zweier Bücher: Lernen Sie TensorFlow Enterprise kennen und TensorFlow 2 Pocket-Referenz.
Rupinder Grewal ist ein Sr Ai/ML Specialist Solutions Architect bei AWS. Derzeit konzentriert er sich auf die Bereitstellung von Modellen und MLOps auf SageMaker. Vor dieser Funktion hat er als Machine Learning Engineer gearbeitet und Modelle erstellt und gehostet. Außerhalb der Arbeit spielt er gerne Tennis und radelt auf Bergpfaden.
- SEO-gestützte Content- und PR-Distribution. Holen Sie sich noch heute Verstärkung.
- PlatoData.Network Vertikale generative KI. Motiviere dich selbst. Hier zugreifen.
- PlatoAiStream. Web3-Intelligenz. Wissen verstärkt. Hier zugreifen.
- PlatoESG. Automobil / Elektrofahrzeuge, Kohlenstoff, CleanTech, Energie, Umwelt, Solar, Abfallwirtschaft. Hier zugreifen.
- BlockOffsets. Modernisierung des Eigentums an Umweltkompensationen. Hier zugreifen.
- Quelle: https://aws.amazon.com/blogs/machine-learning/maximize-stable-diffusion-performance-and-lower-inference-costs-with-aws-inferentia2/
- :hast
- :Ist
- :nicht
- :Wo
- $UP
- 1
- 10
- 100
- 12
- 13
- 14
- 16
- 20
- 32
- 7
- 8
- 9
- a
- Fähig
- LiveBuzz
- ABSTRACT
- Beschleuniger
- Beschleuniger
- Erreichen
- präsentieren
- Zusätzliche
- Vorteil
- Nach der
- voraus
- AI
- AI / ML
- Ziel
- Alle
- erlaubt
- ebenfalls
- Amazon
- Amazon EC2
- Amazon Web Services
- unter
- Betrag
- an
- und
- Bienen
- APIs
- anwendbar
- Anwendungen
- Architektur
- SIND
- Bereiche
- Kunst
- AS
- Aussehen
- At
- Audio-
- Autor
- Im Prinzip so, wie Sie es von Google Maps kennen.
- verfügbar
- AWS
- basierend
- BE
- schön
- weil
- war
- Bevor
- Verhalten
- Sein
- Benchmark
- Besser
- Biophysik
- Blockieren
- Blockiert
- Bücher
- beide
- bringen
- bauen
- Building
- eingebaut
- aber
- by
- CAN
- Fähigkeiten
- Häuser
- Center
- Jahrhundert
- Übernehmen
- aus der Ferne überprüfen
- Chip
- Pommes frites
- Klasse
- Cloud
- Kohle
- Code
- abschließen
- Komponente
- Komponenten
- Berechnen
- Computer
- Computer Vision
- Computing
- Konfiguration
- Sich zusammenschliessen
- verbraucht
- Container
- Behälter
- Inhalt
- verkaufen
- Kernbereich
- Dazugehörigen
- Kosten
- Kosten
- gekoppelt
- Craig
- erstellen
- erstellt
- schafft
- Erstellen
- kritischem
- Zur Zeit
- Original
- Kunden
- anpassen
- Dallas
- technische Daten
- tief
- tiefe Lernen
- Standard
- Übergeben
- liefern
- Demo
- zeigen
- Synergie
- zeigt
- einsetzen
- Einsatz
- Bereitstellen
- Einsatz
- Implementierungen
- detailliert
- Details
- anders
- Rundfunk
- diskutieren
- Domains
- wo
- herunterladen
- Zeichnungen
- zwei
- im
- jeder
- Früher
- effektiv
- effizient
- Elemente
- End-to-End
- Endpunkt
- Ingenieur
- gewährleisten
- vollständig
- Arbeitsumfeld
- im Wesentlichen
- Sogar
- alles
- untersuchen
- Beispiel
- Beispiele
- überschreiten
- erleben
- Extrakt
- äußerst
- Gesicht
- beschleunigt
- fühlen
- wenige
- Reichen Sie das
- Mappen
- Finden Sie
- Vorname
- passen
- schweben
- konzentriert
- konzentriert
- Folgende
- folgt
- Aussichten für
- Format
- Frei
- für
- voller
- Funktion
- weiter
- allgemein
- erzeugen
- erzeugt
- Erzeugung
- generativ
- Generative KI
- bekommen
- ABSICHT
- Go
- groß
- Wachstum
- Haben
- he
- Gesundheit
- hilft
- hier
- GUTE
- Hohe Leistungsfähigkeit
- hochwertige
- höher
- hoch
- hält
- Gastgeber
- gehostet
- Hosting
- Ultraschall
- Hilfe
- HTML
- http
- HTTPS
- IDX
- if
- Image
- Bilder
- Implementierung
- beeindruckend
- zu unterstützen,
- in
- Dazu gehören
- Einschließlich
- Erhöhung
- unabhängig
- zeigen
- Information
- injizieren
- Varianten des Eingangssignals:
- Eingänge
- installieren
- Instanz
- beantragen müssen
- innen
- in
- ruft auf
- IT
- SEINE
- JIT
- Beitritt
- jpg
- JSON
- nur
- Wesentliche
- Labor
- Labs
- Landschaft
- Sprache
- grosse
- größer
- Latency
- neueste
- LERNEN
- lernen
- Verlassen
- Bibliotheken
- Bibliothek
- Gefällt mir
- Line
- linux
- Belastung
- Laden
- Belastungen
- located
- Standorte
- Standbildaufnahme
- Protokollierung
- aussehen
- Sneaker
- kostengünstig
- senken
- niedrigste
- Maschine
- Maschinelles Lernen
- um
- MACHT
- Management
- Spiel
- Matthew
- Maximieren
- Mittel
- sowie medizinische
- Memory
- Methode
- Mitte
- Bergmann
- minimal
- ML
- MLOps
- Modell
- für
- Modul
- Molekular-
- Monat
- mehr
- vor allem warme
- Mountain
- MS
- mehrere
- Name
- Namen
- Natürliche
- Verarbeitung natürlicher Sprache
- notwendig,
- Need
- erforderlich
- Notizbuch
- jetzt an
- Anzahl
- Zahlen
- Nvidia
- Objekt
- of
- Alt
- on
- On-Demand
- EINEM
- einzige
- auf zu
- arbeitet
- optimal
- Optimierung
- optimiert
- Verbessert
- Option
- or
- Original
- OS
- Andere
- UNSERE
- Möglichkeiten für das Ausgangssignal:
- aussen
- übrig
- besitzen
- Paket
- Malerei
- Parallel
- Parameter
- Parameter
- Teil
- besonders
- Teile
- passieren
- Weg
- für
- Ausführen
- Leistung
- durchgeführt
- Fotos
- Rohr
- Pipeline
- Plato
- Datenintelligenz von Plato
- PlatoData
- spielend
- Points
- Porträts
- Post
- angetriebene
- größte treibende
- bevorzugt
- Geschenke
- früher
- Preis
- Vor
- anpassen
- Verarbeitung
- produziert
- Projekte
- immobilien
- Vorschlag
- die
- vorausgesetzt
- Bereitstellung
- Python
- Pytorch
- RAM
- schnell
- realistisch
- kürzlich
- reduziert
- verhältnismäßig
- verbleibenden
- entfernen
- ersetzen
- erfordern
- falls angefordert
- Voraussetzungen:
- erfordert
- Ressourcen
- Rückgabe
- Überprüfung
- Rival
- Rollen
- Führen Sie
- Laufen
- sagemaker
- gleich
- Speichern
- Skalieren
- Sdk
- nahtlos
- Abschnitt
- sehen
- Senior
- Lösungen
- Dienst
- kompensieren
- erklären
- Schild
- signifikant
- bedeutend
- ähnlich
- Ähnlich
- Einfacher
- einfach
- Single
- Größe
- So
- Lösung
- Lösungen
- einige
- Quelle
- Raumfahrt
- Spezialist
- spezialisiert
- spezifisch
- angegeben
- Geschwindigkeit
- gesprochen
- stabil
- Stand
- beginnt
- Anfang
- Startups
- Schritt
- Shritte
- Lagerung
- gelagert
- einfach
- Strategie
- Stärke
- Struktur
- Summits
- Unterstützung
- sicher
- Nehmen
- Tensorfluss
- Tests
- Texas
- Vielen Dank
- zur Verbesserung der Gesundheitsgerechtigkeit
- Das
- ihr
- Sie
- dann
- deswegen
- Diese
- vom Nutzer definierten
- fehlen uns die Worte.
- Durch
- Durchsatz
- Zeit
- mal
- zu
- heute
- Werkzeuge
- Fackel
- Tracing
- Training
- Ausbildung
- Transformator
- XNUMX
- tippe
- Ubuntu
- für
- einzigartiges
- Universität
- hochgeladen
- us
- -
- benutzt
- verwendet
- Verwendung von
- wertvoll
- Wert
- Werte
- Vielfalt
- verschiedene
- Version
- Versionen
- Seh-
- Volumen
- vs
- wollen
- wurde
- Wege
- we
- Netz
- Web-Services
- Was
- wann
- welche
- warum
- breit
- werden wir
- mit
- .
- Arbeiten
- gearbeitet
- Arbeiter
- Arbeitsablauf.
- Werk
- Du
- Ihr
- Zephyrnet