Przedstawiamy zestaw narzędzi do analizy porównawczej wnioskowania bezserwerowego Amazon SageMaker

Opublikowane ponownie przez Plato

Obserwuje: 0

Wnioskowanie bezserwerowe Amazon SageMaker to specjalnie opracowana opcja wnioskowania, która ułatwia wdrażanie i skalowanie modeli uczenia maszynowego (ML). Zapewnia model płatności za użycie, który jest idealny dla usług, w których wywołania punktów końcowych są rzadkie i nieprzewidywalne. W przeciwieństwie do punktu końcowego hostingu w czasie rzeczywistym, który jest wspierany przez długotrwałe wystąpienie, zasoby obliczeniowe dla bezserwerowych punktów końcowych są udostępniane na żądanie, eliminując w ten sposób potrzebę wybierania typów wystąpień lub zarządzania zasadami skalowania.

Poniższa architektura wysokiego poziomu ilustruje sposób działania bezserwerowego punktu końcowego. Klient wywołuje punkt końcowy, który jest obsługiwany przez infrastrukturę zarządzaną AWS.

Jednak bezserwerowe punkty końcowe są podatne na zimny start w ciągu kilku sekund i dlatego są bardziej odpowiednie dla sporadycznych lub nieprzewidywalnych obciążeń.

Aby pomóc w ustaleniu, czy bezserwerowy punkt końcowy jest właściwą opcją wdrożenia z punktu widzenia kosztów i wydajności, opracowaliśmy: SageMaker Bezserwerowy zestaw narzędzi do analizy porównawczej wnioskowania, który testuje różne konfiguracje punktów końcowych i porównuje najbardziej optymalną z porównywalnym wystąpieniem hostingu w czasie rzeczywistym.

W tym poście przedstawiamy zestaw narzędzi i przedstawiamy przegląd jego konfiguracji i wyników.

Omówienie rozwiązania

Możesz pobrać zestaw narzędzi i zainstalować go z GitHub repo. Rozpoczęcie pracy jest łatwe: po prostu zainstaluj bibliotekę, utwórz Model SageMakerai podaj nazwę modelu wraz z plikiem w formacie JSON zawierającym przykładowy zestaw parametrów wywołania, w tym treść ładunku i typ zawartości. Dostępna jest funkcja ułatwiająca konwersję listy przykładowych argumentów wywołania na plik wierszy JSON lub plik marynowany dla ładunków binarnych, takich jak obrazy, wideo lub audio.

Zainstaluj zestaw narzędzi

Najpierw zainstaluj bibliotekę benchmarkingową w swoim środowisku Pythona za pomocą pip:

pip install sm-serverless-benchmarking

Możesz uruchomić następujący kod z Studio Amazon SageMaker instancja, Instancja notebooka SageMaker, lub dowolna instancja z dostęp programowy do AWS i odpowiednich AWS Zarządzanie tożsamością i dostępem (IAM) uprawnienia. Wymagane uprawnienia IAM są udokumentowane w GitHub repo. Aby uzyskać dodatkowe wskazówki i przykładowe zasady dotyczące uprawnień, zobacz Jak Amazon SageMaker współpracuje z IAM. Ten kod uruchamia test porównawczy z domyślnym zestawem parametrów w modelu, który oczekuje danych wejściowych w formacie CSV z dwoma przykładowymi rekordami. Dobrą praktyką jest dostarczenie reprezentatywnego zestawu przykładów do analizy, jak punkt końcowy działa z różnymi ładunkami wejściowymi.

from sm_serverless_benchmarking import benchmark
from sm_serverless_benchmarking.utils import convert_invoke_args_to_jsonl
model_name = ""
example_invoke_args = [
        {'Body': '1,2,3,4,5', "ContentType": "text/csv"},
        {'Body': '6,7,8,9,10', "ContentType": "text/csv"}
        ]
example_args_file = convert_invoke_args_to_jsonl(example_invoke_args,
output_path=".")
r = benchmark.run_serverless_benchmarks(model_name, example_args_file)

Ponadto test porównawczy można uruchomić jako zadanie przetwarzania SageMaker, co może być bardziej niezawodną opcją w przypadku dłuższych testów porównawczych z dużą liczbą wywołań. Zobacz następujący kod:

from sm_serverless_benchmarking.sagemaker_runner import run_as_sagemaker_job
run_as_sagemaker_job(
                    role="",
                    model_name="",
                    invoke_args_examples_file="",
                    )

Należy pamiętać, że spowoduje to nałożenie dodatkowych kosztów uruchamiania instancji przetwarzania ml.m5.large SageMaker w czasie trwania testu porównawczego.

Obie metody akceptują szereg parametrów do skonfigurowania, takich jak lista konfiguracji pamięci do testu porównawczego oraz liczba wywołań każdej konfiguracji. W większości przypadków opcje domyślne powinny wystarczyć jako punkt wyjścia, ale należy zapoznać się z GitHub repo aby uzyskać pełną listę i opisy każdego parametru.

Konfiguracja benchmarkingu

Przed zagłębieniem się w to, co robi test porównawczy i jakie dane wyjściowe generuje, ważne jest, aby zrozumieć kilka kluczowych pojęć, jeśli chodzi o konfigurowanie bezserwerowych punktów końcowych.

Tam są dwie kluczowe opcje konfiguracji: MemorySizeInMB i MaxConcurrency. MemorySizeInMB konfiguruje ilość pamięci przydzielonej do wystąpienia i może wynosić 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB lub 6144 MB. Liczba procesorów wirtualnych również skaluje się proporcjonalnie do ilości przydzielonej pamięci. The MaxConcurrency parametr dostosowuje liczbę jednoczesnych żądań, które punkt końcowy może obsłużyć. Z MaxConcurrency 1, bezserwerowy punkt końcowy może przetwarzać tylko jedno żądanie na raz.

Podsumowując, plik MemorySizeInMB zapewnia mechanizm skalowalności pionowej, co pozwala dostosować pamięć i zasoby obliczeniowe do obsługi większych modeli, podczas gdy MaxConcurrency zapewnia mechanizm skalowalności poziomej, umożliwiając punktowi końcowemu przetwarzanie większej liczby jednoczesnych żądań.

Koszt obsługi punktu końcowego w dużej mierze zależy od rozmiaru pamięci i nie ma żadnych kosztów związanych ze zwiększaniem maksymalnej współbieżności. Istnieje jednak limit kont na region dla maksymalnej współbieżności we wszystkich punktach końcowych. Odnosić się do Punkty końcowe i limity SageMaker dla najnowszych limitów.

Wyniki benchmarkingu

Biorąc to pod uwagę, celem testu porównawczego bezserwerowego punktu końcowego jest określenie najbardziej opłacalnego i niezawodnego ustawienia rozmiaru pamięci oraz minimalnej maksymalnej współbieżności, która może obsłużyć oczekiwane wzorce ruchu.

Domyślnie narzędzie uruchamia dwa testy porównawcze. Pierwszy to test porównawczy stabilności, który wdraża punkt końcowy dla każdej z określonych konfiguracji pamięci i wywołuje każdy punkt końcowy z dostarczonymi przykładowymi ładunkami. Celem tego testu porównawczego jest określenie najbardziej efektywnego i stabilnego ustawienia MemorySizeInMB. Test porównawczy przechwytuje opóźnienia wywołań i oblicza oczekiwany koszt wywołania dla każdego punktu końcowego. Następnie porównuje koszt z podobną instancją hostingu w czasie rzeczywistym.

Po zakończeniu benchmarkingu narzędzie generuje kilka wyników w określonych result_save_path katalog o następującej strukturze katalogów:

├── benchmarking_report
├── concurrency_benchmark_raw_results
├── concurrency_benchmark_summary_results
├── cost_analysis_summary_results
├── stability_benchmark_raw_results
├── stability_benchmark_summary_results

Połączenia benchmarking_report katalog zawiera skonsolidowany raport ze wszystkimi wynikami podsumowania, które przedstawiamy w tym poście. Dodatkowe katalogi zawierają surowe i pośrednie dane wyjściowe, które można wykorzystać do dodatkowych analiz. Zapoznaj się z GitHub repo aby uzyskać bardziej szczegółowy opis każdego artefaktu wyjściowego.

Przyjrzyjmy się kilku rzeczywistym wynikom testów porównawczych dla punktu końcowego obsługującego model wizji komputerowej MobileNetV2 TensorFlow. Jeśli chcesz odtworzyć ten przykład, zapoznaj się z przykładowe zeszyty katalog w repozytorium GitHub.

Pierwszym wynikiem raportu skonsolidowanego jest tabela podsumowująca, która zawiera dane o minimalnym, średnim, średnim i maksymalnym czasie oczekiwania dla każdego MemorySizeInMB pomyślna konfiguracja rozmiaru pamięci. Jak pokazano w poniższej tabeli, średnie opóźnienie wywołania (invocation_latency_mean) nadal ulegała poprawie, ponieważ konfiguracja pamięci została zwiększona do 3072 MB, ale od tego czasu przestała się poprawiać.