Wir stellen das Amazon SageMaker Serverless Inference Benchmarking Toolkit vor

Neuauflage von Plato

Verfolger: 0

Serverlose Amazon SageMaker-Inferenz ist eine speziell entwickelte Inferenzoption, mit der Sie Modelle für maschinelles Lernen (ML) einfach bereitstellen und skalieren können. Es bietet ein Pay-per-Use-Modell, das sich ideal für Dienste eignet, bei denen Endpunktaufrufe selten und unvorhersehbar sind. Im Gegensatz zu einem Echtzeit-Hosting-Endpunkt, der von einer langlebigen Instanz unterstützt wird, werden Rechenressourcen für serverlose Endpunkte nach Bedarf bereitgestellt, wodurch die Notwendigkeit entfällt, Instanztypen auszuwählen oder Skalierungsrichtlinien zu verwalten.

Die folgende allgemeine Architektur veranschaulicht, wie ein serverloser Endpunkt funktioniert. Ein Client ruft einen Endpunkt auf, der von einer von AWS verwalteten Infrastruktur unterstützt wird.

Serverlose Endpunkte sind jedoch anfällig für Kaltstarts im Sekundenbereich und eignen sich daher besser für intermittierende oder unvorhersehbare Workloads.

Um festzustellen, ob ein serverloser Endpunkt aus Kosten- und Leistungssicht die richtige Bereitstellungsoption ist, haben wir die entwickelt SageMaker Serverless Inference Benchmarking Toolkit, das verschiedene Endpunktkonfigurationen testet und die optimalste mit einer vergleichbaren Echtzeit-Hosting-Instanz vergleicht.

In diesem Beitrag stellen wir das Toolkit vor und geben einen Überblick über dessen Konfiguration und Outputs.

Lösungsüberblick

Sie können das Toolkit von herunterladen und installieren GitHub Repo. Der Einstieg ist einfach: Installieren Sie einfach die Bibliothek, erstellen Sie eine SageMaker-Modell, und geben Sie den Namen Ihres Modells zusammen mit einer Datei im JSON-Zeilenformat an, die einen Beispielsatz von Aufrufparametern enthält, einschließlich des Nutzlasttexts und des Inhaltstyps. Eine Komfortfunktion wird bereitgestellt, um eine Liste von Beispielaufrufargumenten in eine JSON-Zeilendatei oder eine Pickle-Datei für binäre Nutzlasten wie Bilder, Video oder Audio zu konvertieren.

Installieren Sie das Toolkit

Installieren Sie zuerst die Benchmarking-Bibliothek mit pip in Ihrer Python-Umgebung:

pip install sm-serverless-benchmarking

Sie können den folgenden Code von einer ausführen Amazon SageMaker-Studio Beispiel, SageMaker-Notebook-Instanz, oder jede Instanz mit Programmgesteuerter Zugriff zu AWS und den entsprechenden AWS Identity and Access Management and (IAM)-Berechtigungen. Die erforderlichen IAM-Berechtigungen sind in dokumentiert GitHub Repo. Weitere Anleitungen und Beispielrichtlinien für IAM finden Sie unter So funktioniert Amazon SageMaker mit IAM. Dieser Code führt einen Benchmark mit einem Standardsatz von Parametern auf einem Modell aus, das eine CSV-Eingabe mit zwei Beispieldatensätzen erwartet. Es empfiehlt sich, einen repräsentativen Satz von Beispielen bereitzustellen, um zu analysieren, wie der Endpunkt mit verschiedenen Eingabenutzlasten funktioniert.

from sm_serverless_benchmarking import benchmark
from sm_serverless_benchmarking.utils import convert_invoke_args_to_jsonl
model_name = ""
example_invoke_args = [
        {'Body': '1,2,3,4,5', "ContentType": "text/csv"},
        {'Body': '6,7,8,9,10', "ContentType": "text/csv"}
        ]
example_args_file = convert_invoke_args_to_jsonl(example_invoke_args,
output_path=".")
r = benchmark.run_serverless_benchmarks(model_name, example_args_file)

Darüber hinaus können Sie den Benchmark als SageMaker-Verarbeitungsjob ausführen, was eine zuverlässigere Option für länger laufende Benchmarks mit einer großen Anzahl von Aufrufen sein kann. Siehe folgenden Code:

from sm_serverless_benchmarking.sagemaker_runner import run_as_sagemaker_job
run_as_sagemaker_job(
                    role="",
                    model_name="",
                    invoke_args_examples_file="",
                    )

Beachten Sie, dass dies zusätzliche Kosten für die Ausführung einer ml.m5.large SageMaker-Verarbeitungsinstanz für die Dauer des Benchmarks verursacht.

Beide Methoden akzeptieren eine Reihe von zu konfigurierenden Parametern, z. B. eine Liste von Speicherkonfigurationen zum Benchmarken und die Häufigkeit, mit der jede Konfiguration aufgerufen wird. In den meisten Fällen sollten die Standardoptionen als Ausgangspunkt ausreichen, aber beziehen Sie sich auf die GitHub Repo für eine vollständige Liste und Beschreibungen der einzelnen Parameter.

Benchmarking-Konfiguration

Bevor Sie sich damit befassen, was der Benchmark tut und welche Ergebnisse er erzeugt, ist es wichtig, einige Schlüsselkonzepte zu verstehen, wenn es um die Konfiguration serverloser Endpunkte geht.

Es gibt zwei wichtige Konfigurationsoptionen: MemorySizeInMB und MaxConcurrency. MemorySizeInMB konfiguriert die Speichermenge, die der Instanz zugewiesen wird, und kann 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB oder 6144 MB betragen. Die Anzahl der vCPUs skaliert auch proportional zur Menge des zugewiesenen Arbeitsspeichers. Das MaxConcurrency Der Parameter passt an, wie viele gleichzeitige Anfragen ein Endpunkt bedienen kann. Mit einer MaxConcurrency von 1 kann ein serverloser Endpunkt jeweils nur eine einzige Anfrage verarbeiten.

Zusammenfassend lässt sich sagen, dass die MemorySizeInMB Der Parameter stellt einen Mechanismus für die vertikale Skalierbarkeit bereit, mit dem Sie Arbeitsspeicher und Rechenressourcen anpassen können, um größere Modelle zu bedienen MaxConcurrency bietet einen Mechanismus für horizontale Skalierbarkeit, der es Ihrem Endpunkt ermöglicht, mehr gleichzeitige Anforderungen zu verarbeiten.

Die Kosten für den Betrieb eines Endpunkts werden weitgehend durch die Speichergröße bestimmt, und es fallen keine Kosten im Zusammenhang mit der Erhöhung der maximalen Parallelität an. Es gibt jedoch ein Kontolimit pro Region für maximale Parallelität über alle Endpunkte hinweg. Beziehen auf SageMaker-Endpunkte und Kontingente für die neuesten Grenzwerte.

Benchmarking-Ergebnisse

Vor diesem Hintergrund besteht das Ziel des Benchmarkings eines serverlosen Endpunkts darin, die kostengünstigste und zuverlässigste Speichergrößeneinstellung und die minimale maximale Parallelität zu ermitteln, die Ihre erwarteten Datenverkehrsmuster verarbeiten kann.

Standardmäßig führt das Tool zwei Benchmarks aus. Der erste ist ein Stabilitäts-Benchmark, der einen Endpunkt für jede der angegebenen Speicherkonfigurationen bereitstellt und jeden Endpunkt mit den bereitgestellten Beispielnutzlasten aufruft. Das Ziel dieses Benchmarks ist es, die effektivste und stabilste MemorySizeInMB-Einstellung zu ermitteln. Der Benchmark erfasst die Aufruflatenzen und berechnet die erwarteten Kosten pro Aufruf für jeden Endpunkt. Anschließend werden die Kosten mit denen einer ähnlichen Echtzeit-Hosting-Instanz verglichen.

Wenn das Benchmarking abgeschlossen ist, generiert das Tool mehrere Ausgaben in der angegebenen result_save_path Verzeichnis mit folgender Verzeichnisstruktur:

├── benchmarking_report
├── concurrency_benchmark_raw_results
├── concurrency_benchmark_summary_results
├── cost_analysis_summary_results
├── stability_benchmark_raw_results
├── stability_benchmark_summary_results

Das benchmarking_report Verzeichnis enthält einen konsolidierten Bericht mit allen zusammenfassenden Ergebnissen, die wir in diesem Beitrag skizzieren. Zusätzliche Verzeichnisse enthalten Roh- und Zwischenausgaben, die Sie für zusätzliche Analysen verwenden können. Beziehen Sie sich auf die GitHub Repo für eine detailliertere Beschreibung jedes Ausgabeartefakts.

Sehen wir uns einige tatsächliche Benchmarking-Ergebnisse für einen Endpunkt an, der ein MobileNetV2-TensorFlow-Modell für maschinelles Sehen bedient. Wenn Sie dieses Beispiel reproduzieren möchten, lesen Sie die Beispiel Notizbücher Verzeichnis im GitHub-Repo.

Die erste Ausgabe innerhalb des konsolidierten Berichts ist eine zusammenfassende Tabelle, die jeweils die minimale, mittlere, mittlere und maximale Latenzmetrik enthält MemorySizeInMB erfolgreiche Konfiguration der Speichergröße. Wie in der folgenden Tabelle gezeigt, beträgt die durchschnittliche Aufruflatenz (invocation_latency_mean) verbesserte sich weiter, als die Speicherkonfiguration auf 3072 MB erhöht wurde, verbesserte sich danach jedoch nicht mehr.