Introduktion af Amazon SageMaker Serverless Inference Benchmarking Toolkit

Genudgivet af Platon

Abonnenter: 0

Amazon SageMaker Serverless Inference er en specialbygget inferensindstilling, der gør det nemt for dig at implementere og skalere maskinlæringsmodeller (ML). Det giver en betal-per-brug-model, som er ideel til tjenester, hvor endpoint-ankaldelser er sjældne og uforudsigelige. I modsætning til et hosting-slutpunkt i realtid, som understøttes af en langvarig instans, leveres computerressourcer til serverløse endepunkter efter behov, hvilket eliminerer behovet for at vælge instanstyper eller administrere skaleringspolitikker.

Følgende højniveauarkitektur illustrerer, hvordan et serverløst slutpunkt fungerer. En klient kalder et slutpunkt, som er understøttet af AWS-administreret infrastruktur.

Serverløse endepunkter er dog tilbøjelige til koldstart i størrelsesordenen sekunder og er derfor mere velegnet til intermitterende eller uforudsigelige arbejdsbelastninger.

For at hjælpe med at afgøre, om et serverløst slutpunkt er den rigtige implementeringsmulighed ud fra et omkostnings- og ydeevneperspektiv, har vi udviklet SageMaker Serverless Inference Benchmarking Toolkit, som tester forskellige slutpunktskonfigurationer og sammenligner den mest optimale med en sammenlignelig realtidshostinginstans.

I dette indlæg introducerer vi værktøjssættet og giver et overblik over dets konfiguration og output.

Løsningsoversigt

Du kan downloade værktøjssættet og installere det fra GitHub repo. Det er nemt at komme i gang: Installer blot biblioteket, opret en SageMaker model, og angiv navnet på din model sammen med en JSON-linjeformateret fil, der indeholder et eksempelsæt af invokationsparametre, inklusive nyttelastens krop og indholdstype. En bekvemmelighedsfunktion er tilvejebragt til at konvertere en liste over prøvekaldsargumenter til en JSON-linjefil eller en pickle-fil til binære nyttelaster såsom billeder, video eller lyd.

Installer værktøjssættet

Installer først benchmarking-biblioteket i dit Python-miljø ved hjælp af pip:

pip install sm-serverless-benchmarking

Du kan køre følgende kode fra en Amazon SageMaker Studio eksempel, SageMaker notebook-forekomst, eller enhver instans med programmatisk adgang til AWS og de relevante AWS identitets- og adgangsstyring (IAM) tilladelser. De nødvendige IAM-tilladelser er dokumenteret i GitHub repo. For yderligere vejledning og eksempler på politikker for IAM henvises til Sådan fungerer Amazon SageMaker med IAM. Denne kode kører et benchmark med et standardsæt af parametre på en model, der forventer et CSV-input med to eksempelposter. Det er en god praksis at give et repræsentativt sæt eksempler til at analysere, hvordan endepunktet klarer sig med forskellige input-nyttelaster.

from sm_serverless_benchmarking import benchmark
from sm_serverless_benchmarking.utils import convert_invoke_args_to_jsonl
model_name = ""
example_invoke_args = [
        {'Body': '1,2,3,4,5', "ContentType": "text/csv"},
        {'Body': '6,7,8,9,10', "ContentType": "text/csv"}
        ]
example_args_file = convert_invoke_args_to_jsonl(example_invoke_args,
output_path=".")
r = benchmark.run_serverless_benchmarks(model_name, example_args_file)

Derudover kan du køre benchmark som et SageMaker Processing-job, hvilket kan være en mere pålidelig mulighed for længerevarende benchmarks med et stort antal påkaldelser. Se følgende kode:

from sm_serverless_benchmarking.sagemaker_runner import run_as_sagemaker_job
run_as_sagemaker_job(
                    role="",
                    model_name="",
                    invoke_args_examples_file="",
                    )

Bemærk, at dette vil medføre yderligere omkostninger ved at køre en ml.m5.large SageMaker Processing-instans i hele benchmarkens varighed.

Begge metoder accepterer en række parametre, der skal konfigureres, såsom en liste over hukommelseskonfigurationer, der skal benchmarkes, og antallet af gange, hver konfiguration vil blive aktiveret. I de fleste tilfælde bør standardindstillingerne være tilstrækkelige som udgangspunkt, men henvis til GitHub repo for en komplet liste og beskrivelser af hver parameter.

Benchmarking konfiguration

Før du dykker ned i, hvad benchmark gør, og hvilke output det producerer, er det vigtigt at forstå nogle få nøglebegreber, når det kommer til konfiguration af serverløse slutpunkter.

Der er to vigtige konfigurationsmuligheder: MemorySizeInMB , MaxConcurrency. MemorySizeInMB konfigurerer mængden af hukommelse, der er allokeret til instansen, og kan være 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB eller 6144 MB. Antallet af vCPU'er skaleres også proportionalt med mængden af allokeret hukommelse. Det MaxConcurrency parameter justerer, hvor mange samtidige anmodninger et slutpunkt er i stand til at betjene. Med en MaxConcurrency af 1, kan et serverløst slutpunkt kun behandle en enkelt anmodning ad gangen.

For at opsummere: MemorySizeInMB parameter giver en mekanisme til vertikal skalerbarhed, så du kan justere hukommelse og beregne ressourcer til at betjene større modeller, mens MaxConcurrency giver en mekanisme til horisontal skalerbarhed, hvilket giver dit slutpunkt mulighed for at behandle flere samtidige anmodninger.

Omkostningerne ved at betjene et endepunkt bestemmes i høj grad af hukommelsesstørrelsen, og der er ingen omkostninger forbundet med at øge den maksimale samtidighed. Der er dog en kontogrænse pr. region for maksimal samtidighed på tværs af alle endepunkter. Henvise til SageMaker-endepunkter og kvoter for de seneste grænser.

Benchmarking af output

Givet dette er målet med benchmarking af et serverløst slutpunkt at bestemme den mest omkostningseffektive og pålidelige hukommelsesstørrelsesindstilling og den minimale maksimale samtidighed, der kan håndtere dine forventede trafikmønstre.

Som standard kører værktøjet to benchmarks. Den første er et stabilitetsbenchmark, som implementerer et slutpunkt for hver af de angivne hukommelseskonfigurationer og påberåber hvert slutpunkt med de medfølgende prøvedata. Målet med dette benchmark er at bestemme den mest effektive og stabile MemorySizeInMB-indstilling. Benchmark fanger kaldforsinkelserne og beregner de forventede omkostninger pr. kald for hvert endepunkt. Det sammenligner derefter omkostningerne med en lignende hosting-instans i realtid.

Når benchmarkingen er fuldført, genererer værktøjet flere output i det angivne result_save_path mappe med følgende mappestruktur:

├── benchmarking_report
├── concurrency_benchmark_raw_results
├── concurrency_benchmark_summary_results
├── cost_analysis_summary_results
├── stability_benchmark_raw_results
├── stability_benchmark_summary_results

benchmarking_report bibliotek indeholder en konsolideret rapport med alle de sammenfattende output, som vi skitserer i dette indlæg. Yderligere mapper indeholder rå- og mellemoutput, som du kan bruge til yderligere analyser. Der henvises til GitHub repo for en mere detaljeret beskrivelse af hver output-artefakt.

Lad os undersøge et par faktiske benchmarking-output for et slutpunkt, der tjener en computervision MobileNetV2 TensorFlow-model. Hvis du gerne vil gengive dette eksempel, skal du se eksempel notesbøger mappe i GitHub-repoen.

Det første output i den konsoliderede rapport er en oversigtstabel, der giver minimums-, middel-, middel- og maksimumsforsinkelses-metrics for hver MemorySizeInMB vellykket konfiguration af hukommelsesstørrelse. Som vist i nedenstående tabel er den gennemsnitlige påkaldelsesforsinkelse (invocation_latency_mean) fortsatte med at forbedre, da hukommelseskonfigurationen blev øget til 3072 MB, men stoppede med at forbedres derefter.