Zmniejsz koszty wnioskowania Amazon SageMaker dzięki AWS Graviton

Opublikowane ponownie przez Plato

Obserwuje: 0

Amazon Sage Maker zapewnia szeroki wybór infrastruktury uczenia maszynowego (ML) i opcji wdrażania modeli, aby pomóc spełnić Twoje potrzeby wnioskowania ML. Jest to w pełni zarządzana usługa, która integruje się z narzędziami MLOps, dzięki czemu możesz skalować wdrożenie modelu, zmniejszać koszty wnioskowania, wydajniej zarządzać modelami w produkcji i zmniejszać obciążenia operacyjne. SageMaker zapewnia wiele opcje wnioskowania dzięki czemu możesz wybrać opcję, która najlepiej pasuje do Twojego obciążenia pracą.

Nowe generacje procesorów oferują znaczną poprawę wydajności wnioskowania ML dzięki wyspecjalizowanym wbudowanym instrukcjom. W tym poście skupimy się na tym, jak możesz skorzystać z Grawiton AWS3oparta na Amazon Elastic Compute Cloud (EC2) Instancje C7g aby pomóc zredukować koszty wnioskowania nawet o 50% w porównaniu z porównywalnymi instancjami EC2 dla wnioskowanie w czasie rzeczywistym na Amazon SageMaker. Pokazujemy, jak można ocenić wydajność wnioskowania i przełączyć obciążenia ML na instancje AWS Graviton w zaledwie kilku krokach.

Aby objąć popularny i szeroki zakres aplikacji klienckich, w tym poście omawiamy wydajność wnioskowania platform PyTorch, TensorFlow, XGBoost i scikit-learn. Obejmujemy scenariusze widzenia komputerowego (CV), przetwarzania języka naturalnego (NLP), klasyfikacji i rankingu dla modeli oraz instancji ml.c6g, ml.c7g, ml.c5 i ml.c6i SageMaker do testów porównawczych.

Wyniki analizy porównawczej

Dla porównania użyliśmy czterech różnych typów instancji:

Wszystkie cztery instancje mają 16 procesorów wirtualnych i 32 GiB pamięci.

Na poniższym wykresie zmierzyliśmy wnioskowanie o koszcie na milion dla czterech typów instancji. Następnie znormalizowaliśmy koszt na milion wyników wnioskowania do wystąpienia c5.4xlarge, które jest mierzone jako 1 na osi Y wykresu. Jak widać, dla modeli XGBoost wnioskowanie o koszcie na milion dla c7g.4xlarge (AWS Graviton3) wynosi około 50% c5.4xlarge i 40% c6i.4xlarge; w przypadku modeli PyTorch NLP oszczędności kosztów wynoszą około 30–50% w porównaniu z instancjami c5 i c6i.4xlarge. W przypadku innych modeli i platform zmierzyliśmy co najmniej 30% oszczędności kosztów w porównaniu z instancjami c5 i c6i.4xlarge.

Zmniejsz koszty wnioskowania Amazon SageMaker dzięki AWS Graviton PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Podobnie jak w przypadku poprzedniego wykresu porównania kosztów wnioskowania, poniższy wykres przedstawia opóźnienie modelu p90 dla tych samych czterech typów wystąpień. Następnie znormalizowaliśmy wyniki opóźnienia do instancji c5.4xlarge, która jest mierzona jako 1 na osi Y wykresu. Opóźnienie wnioskowania modelu c7g.4xlarge (AWS Graviton3) jest do 50% lepsze niż opóźnienia zmierzone na c5.4xlarge i c6i.4xlarge.

Zmniejsz koszty wnioskowania Amazon SageMaker dzięki AWS Graviton PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

Migruj do instancji AWS Graviton

Aby wdrożyć swoje modele w instancjach AWS Graviton, możesz użyć Kontenery AWS Deep Learning (DLC) lub przynieść własne pojemniki które są kompatybilne z architekturą ARMv8.2.

Migracja (lub nowe wdrożenie) twoich modeli do instancji AWS Graviton jest prosta, ponieważ AWS nie tylko zapewnia kontenery do hostowania modeli z PyTorch, TensorFlow, scikit-learn i XGBoost, ale modele są również niezależne od architektury. Możesz także przynieść własne biblioteki, ale upewnij się, że Twój kontener jest zbudowany w środowisku obsługującym architekturę ARMv8.2. Aby uzyskać więcej informacji, zobacz Budowanie własnego kontenera algorytmów.

Aby wdrożyć model, musisz wykonać trzy kroki:

Utwórz model SageMaker. Będzie to zawierało między innymi informacje o lokalizacji pliku modelu, kontenerze, który zostanie użyty do wdrożenia oraz lokalizacji skryptu wnioskowania. (Jeśli masz już wdrożony istniejący model w wystąpieniu wnioskowania zoptymalizowanym pod kątem obliczeń, możesz pominąć ten krok).
Utwórz konfigurację punktu końcowego. Będzie to zawierało informacje o typie instancji dla punktu końcowego (na przykład ml.c7g.xlarge dla AWS Graviton3), nazwę modelu utworzonego w poprzednim kroku oraz liczbę instancji na punkt końcowy.
Uruchom punkt końcowy z konfiguracją punktu końcowego utworzoną w poprzednim kroku.

Aby uzyskać szczegółowe instrukcje, zobacz Uruchamiaj obciążenia wnioskowania uczenia maszynowego w instancjach opartych na AWS Graviton za pomocą Amazon SageMaker

Metodologia benchmarkingu

Użyliśmy Polecający wnioskowanie Amazon SageMaker do automatyzacji testów porównawczych wydajności w różnych instancjach. Ta usługa porównuje wydajność Twojego modelu ML pod względem opóźnień i kosztów w różnych instancjach oraz zaleca instancję i konfigurację, która zapewnia najlepszą wydajność przy najniższych kosztach. Zebraliśmy wyżej wymienione dane dotyczące wydajności za pomocą narzędzia Rekomendujący wnioskowanie. Aby uzyskać więcej informacji, zapoznaj się z GitHub repo.

Możesz użyć przykładowy notatnik przeprowadzać testy porównawcze i odtwarzać wyniki. Do analizy porównawczej wykorzystaliśmy następujące modele:

Wnioski

AWS zmierzył do 50% oszczędności kosztów dla wnioskowania o modelach PyTorch, TensorFlow, XGBoost i scikit-learn z instancjami EC3 C2g opartymi na AWS Graviton7 w porównaniu z porównywalnymi instancjami EC2 na Amazon SageMaker. Możesz przeprowadzić migrację istniejących przypadków użycia wnioskowania lub wdrożyć nowe modele ML w AWS Graviton, wykonując czynności opisane w tym poście. Możesz również odnieść się do Przewodnik techniczny AWS Graviton, która zawiera listę zoptymalizowanych bibliotek i najlepszych praktyk, które pomogą Ci osiągnąć korzyści kosztowe z instancjami AWS Graviton przy różnych obciążeniach.

Jeśli znajdziesz przypadki użycia, w których podobny wzrost wydajności nie jest obserwowany w AWS Graviton, skontaktuj się z nami. Będziemy nadal dodawać więcej ulepszeń wydajności, aby uczynić AWS Graviton najbardziej opłacalnym i wydajnym procesorem ogólnego przeznaczenia do wnioskowania ML.

O autorach

Zmniejsz koszty wnioskowania Amazon SageMaker dzięki AWS Graviton PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Sunita Nadampalli jest Software Development Managerem w AWS. Prowadzi optymalizację wydajności oprogramowania Graviton pod kątem uczenia maszynowego, HPC i obciążeń multimedialnych. Jest pasjonatką rozwoju open source i dostarczania opłacalnych rozwiązań programowych z ARM SoC.

Zmniejsz koszty wnioskowania Amazon SageMaker dzięki AWS Graviton PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Jaymina Desai jest inżynierem ds. rozwoju oprogramowania w zespole Amazon SageMaker Inference. Pasjonuje go upowszechnianie sztucznej inteligencji i zwiększanie użyteczności najnowocześniejszych zasobów sztucznej inteligencji poprzez przekształcanie ich w funkcje i usługi. W wolnym czasie lubi odkrywać muzykę i podróżować.

Zmniejsz koszty wnioskowania Amazon SageMaker dzięki AWS Graviton PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Mike'a Schneidera jest programistą systemów z siedzibą w Phoenix AZ. Jest członkiem kontenerów Deep Learning, obsługujących różne obrazy kontenerów Framework, w tym Graviton Inference. Zajmuje się wydajnością i stabilnością infrastruktury.

Mohana Gandhiego jest starszym inżynierem oprogramowania w AWS. Jest związany z AWS od 10 lat i pracował nad różnymi usługami AWS, takimi jak EMR, EFA i RDS. Obecnie koncentruje się na ulepszaniu SageMaker Inference Experience. W wolnym czasie lubi spacery i maratony.

Zmniejsz koszty wnioskowania Amazon SageMaker dzięki AWS Graviton PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. Qingwei Li jest specjalistą ds. uczenia maszynowego w Amazon Web Services. Otrzymał stopień doktora. w badaniach operacyjnych po tym, jak złamał konto grantu naukowego swojego doradcy i nie przekazał obiecanej nagrody Nobla. Obecnie pomaga klientom z branży usług finansowych i ubezpieczeniowych budować rozwiązania machine learning na platformie AWS. W wolnym czasie lubi czytać i uczyć.

Wayne’a Toha jest Specjalistycznym Architektem Rozwiązań dla Graviton w AWS. Koncentruje się na pomaganiu klientom we wdrażaniu architektury ARM do obsługi kontenerów na dużą skalę. Przed dołączeniem do AWS Wayne pracował dla kilku dużych dostawców oprogramowania, w tym IBM i Red Hat.

Lauren Mullennex jest architektem rozwiązań z siedzibą w Denver w stanie Kolorado. Pracuje z klientami, pomagając im w projektowaniu rozwiązań w AWS. W wolnym czasie lubi chodzić po górach i gotować kuchnię hawajską.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoAiStream. Analiza danych Web3. Wiedza wzmocniona. Dostęp tutaj.
Wybijanie przyszłości w Adryenn Ashley. Dostęp tutaj.
Kupuj i sprzedawaj akcje spółek PRE-IPO z PREIPO®. Dostęp tutaj.
Źródło: https://aws.amazon.com/blogs/machine-learning/reduce-amazon-sagemaker-inference-cost-with-aws-graviton/

Znak czasu: 10 maja 2023 r.

Znak czasu: Grudnia 8, 2022

Zmniejsz koszty wnioskowania Amazon SageMaker dzięki AWS Graviton

Opublikowane ponownie przez Plato

Wyniki analizy porównawczej

Migruj do instancji AWS Graviton

Metodologia benchmarkingu

Wnioski

O autorach

Więcej z Uczenie maszynowe AWS

Zoptymalizuj hiperparametry za pomocą automatycznego dostrajania modelu Amazon SageMaker

Przeprowadź wnioskowanie na dużą skalę dla OpenFold, opartego na PyTorch modelu ML zwijania białek przy użyciu Amazon EKS

Włącz w pełni homomorficzne szyfrowanie z punktami końcowymi Amazon SageMaker w celu bezpiecznego wnioskowania w czasie rzeczywistym

Amazon SageMaker Autopilot obsługuje teraz dane szeregów czasowych

Przygotuj dane z Amazon EMR do uczenia maszynowego za pomocą Amazon SageMaker Data Wrangler

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto