Reduce Amazon SageMaker Inference Cost With AWS Graviton

Újra kiadta Platón

Követő: 0

Amazon SageMaker a gépi tanulási (ML) infrastruktúra és modelltelepítési lehetőségek széles választékát kínálja, hogy megfeleljen az ML következtetési igényeinek. Ez egy teljesen felügyelt szolgáltatás, és az MLOps eszközökkel integrálható, így Ön a modell üzembe helyezésének méretezésére, a következtetési költségek csökkentésére, a modellek hatékonyabb kezelésére a termelésben és a működési terhek csökkentésén dolgozik. A SageMaker többféle lehetőséget kínál következtetési lehetőségek így kiválaszthatja a munkaterhelésének leginkább megfelelő lehetőséget.

A CPU-k új generációi a speciális beépített utasításoknak köszönhetően jelentős teljesítménynövekedést kínálnak az ML következtetések terén. Ebben a bejegyzésben arra összpontosítunk, hogyan használhatod ki a AWS Graviton3alapú Amazon Elastic Compute Cloud (EC2) C7g példányok a következtetések költségeinek akár 50%-os csökkentését a hasonló EC2 példányokhoz képest valós idejű következtetés az Amazon SageMakeren. Megmutatjuk, hogyan értékelheti ki a következtetési teljesítményt, és hogyan válthatja át az ML munkaterhelését az AWS Graviton példányokra néhány lépésben.

Az ügyfélalkalmazások népszerű és széles körének lefedése érdekében ebben a bejegyzésben a PyTorch, TensorFlow, XGBoost és a scikit-learn keretrendszerek következtetési teljesítményét tárgyaljuk. Lefedjük a számítógépes látást (CV), a természetes nyelvi feldolgozást (NLP), az osztályozást és a rangsorolási forgatókönyveket a modellekhez, valamint az ml.c6g, ml.c7g, ml.c5 és ml.c6i SageMaker példányokat a teljesítményértékeléshez.

Benchmarking eredmények

Összehasonlításképpen négy különböző példánytípust használtunk:

Mind a négy példány 16 vCPU-val és 32 GiB memóriával rendelkezik.

A következő grafikonon a négy példánytípus millióra eső költségét mértük. Tovább normalizáltuk az egymillióankénti költséget egy c5.4xlarge példányra, amely a diagram Y tengelyén 1-ként van mérve. Látható, hogy az XGBoost modelleknél a c7g.4xlarge (AWS Graviton3) millióra jutó költsége a c50xlarge körülbelül 5.4%-a és a c40i.6xlarge 4%-a; a PyTorch NLP modellek esetében a költségmegtakarítás körülbelül 30–50% a c5 és c6i.4xlarge példányokhoz képest. Más modelleknél és keretrendszereknél legalább 30%-os költségmegtakarítást mértünk a c5 és c6i.4xlarge példányokhoz képest.

Reduce Amazon SageMaker inference cost with AWS Graviton PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Az előző következtetési költség-összehasonlítási grafikonhoz hasonlóan a következő grafikon a p90 modell késleltetését mutatja ugyanazon négy példánytípusra. Tovább normalizáltuk a késleltetési eredményeket a c5.4xlarge példányra, amelyet 1-ben mérünk a diagram Y tengelyén. A c7g.4xlarge (AWS Graviton3) modell következtetési késleltetése akár 50%-kal jobb, mint a c5.4xlarge és c6i.4xlarge modelleken mért késések.

Reduce Amazon SageMaker inference cost with AWS Graviton PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Migráció az AWS Graviton példányokra

A modellek AWS Graviton példányokra való üzembe helyezéséhez használhatja bármelyiket AWS Deep Learning Containers (DLC-k) ill hozza a saját konténereit amelyek kompatibilisek az ARMv8.2 architektúrával.

A modellek áttelepítése (vagy új telepítése) az AWS Graviton-példányokra egyszerű, mert az AWS nemcsak konténereket biztosít a PyTorch, TensorFlow, scikit-learn és XGBoost-modellek számára, hanem a modellek építészetileg agnosztikusak is. Saját könyvtárakat is hozhat, de ügyeljen arra, hogy a tároló olyan környezettel készüljön, amely támogatja az ARMv8.2 architektúrát. További információkért lásd Saját algoritmustároló építése.

A modell üzembe helyezéséhez három lépést kell végrehajtania:

Hozzon létre egy SageMaker modellt. Ez többek között tartalmazza a modellfájl helyére, a telepítéshez használt tárolóra és a következtetési parancsfájl helyére vonatkozó információkat. (Ha egy számításra optimalizált következtetéspéldányban már telepített egy létező modellt, akkor ezt a lépést kihagyhatja.)
Hozzon létre egy végpont konfigurációt. Ez információkat tartalmaz a végponthoz kívánt példány típusáról (például ml.c7g.xlarge az AWS Graviton3 esetében), az előző lépésben létrehozott modell nevéről és a végpontonkénti példányok számáról.
Indítsa el a végpontot az előző lépésben létrehozott végpont-konfigurációval.

A részletes utasításokért lásd: Futtasson gépi tanulási következtetési munkaterheléseket AWS Graviton alapú példányokon az Amazon SageMaker segítségével

Benchmarking módszertana

Használtuk Amazon SageMaker Inference Recommender a teljesítmény-benchmarking automatizálása a különböző példányokon. Ez a szolgáltatás összehasonlítja az Ön ML-modelljének teljesítményét a késleltetés és a költségek tekintetében a különböző példányokon, és azt a példányt és konfigurációt ajánlja, amely a legjobb teljesítményt nyújtja a legalacsonyabb költség mellett. A fent említett teljesítményadatokat az Inference Recommender segítségével gyűjtöttük össze. További részletekért lásd a GitHub repo.

Használhatja a mintafüzet a benchmarkok futtatásához és az eredmények reprodukálásához. A benchmarkinghoz a következő modelleket használtuk:

Következtetés

Az AWS 50%-os költségmegtakarítást mért a PyTorch, TensorFlow, XGBoost és a scikit-learn modellkövetkeztetések esetén az AWS Graviton3-alapú EC2 C7g példányokkal az Amazon SageMaker hasonló EC2 példányaihoz képest. A jelen bejegyzésben ismertetett lépéseket követve migrálhatja meglévő következtetési használati eseteit, vagy telepíthet új ML-modelleket az AWS Gravitonon. Arra is hivatkozhat AWS Graviton műszaki útmutató, amely az optimalizált könyvtárak és a bevált gyakorlatok listáját tartalmazza, amelyek segítenek költségelőnyök elérésében az AWS Graviton-példányokkal különböző munkaterheléseken.

Ha olyan használati eseteket talál, amikor az AWS Graviton nem tapasztal hasonló teljesítménynövekedést, forduljon hozzánk. Továbbra is további teljesítményjavításokat fogunk végezni, hogy az AWS Graviton a legköltséghatékonyabb és leghatékonyabb általános célú processzor legyen az ML következtetésekhez.

A szerzőkről

Reduce Amazon SageMaker inference cost with AWS Graviton PlatoBlockchain Data Intelligence. Vertical Search. Ai. Sunita Nadampalli az AWS szoftverfejlesztési menedzsere. Ő vezeti a Graviton szoftverek teljesítményoptimalizálását a gépi tanuláshoz, a HPC-hez és a multimédiás munkaterhelésekhez. Szenvedélye a nyílt forráskódú fejlesztés és költséghatékony szoftvermegoldások szállítása az Arm SoC-kkel.

Reduce Amazon SageMaker inference cost with AWS Graviton PlatoBlockchain Data Intelligence. Vertical Search. Ai. Jaymin Desai szoftverfejlesztő mérnök az Amazon SageMaker Inference csapatánál. Szenvedélyesen törekszik a mesterséges intelligencia tömegekhez való eljuttatására és a legmodernebb mesterségesintelligencia-eszközök használhatóságának javítására azáltal, hogy azokat funkciókká és szolgáltatásokká alakítja. Szabadidejében szeret zenélni és utazni.

Reduce Amazon SageMaker inference cost with AWS Graviton PlatoBlockchain Data Intelligence. Vertical Search. Ai. Mike Schneider rendszerfejlesztő, székhelye Phoenix AZ. Tagja a Deep Learning konténereknek, támogatva a különböző Framework konténerképeket, beleértve a Graviton Inference-t is. Az infrastruktúra hatékonyságának és stabilitásának elkötelezettje.

Mohan Gandhi az AWS vezető szoftvermérnöke. Az elmúlt 10 évben az AWS-nél dolgozott, és különféle AWS-szolgáltatásokon dolgozott, mint például az EMR, az EFA és az RDS. Jelenleg a SageMaker Inference Experience fejlesztésére összpontosít. Szabadidejében szeret túrázni és maratonozni.

Reduce Amazon SageMaker inference cost with AWS Graviton PlatoBlockchain Data Intelligence. Vertical Search. Ai. Qingwei Li az Amazon Web Services gépi tanulási szakértője. Ph.D fokozatot szerzett. az Operations Researchben, miután feltörte tanácsadója kutatási támogatási számláját, és nem teljesítette az ígért Nobel-díjat. Jelenleg a pénzügyi szolgáltatások és a biztosítási ágazat ügyfelei számára segít gépi tanulási megoldások kiépítésében az AWS-en. Szabadidejében szeret olvasni és tanítani.

Wayne Toh a Graviton megoldások specialistája az AWS-nél. Arra összpontosít, hogy segítse az ügyfeleket az ARM architektúra átvételében a nagyméretű konténermunka során. Mielőtt csatlakozott az AWS-hez, Wayne több nagy szoftvergyártónál dolgozott, köztük az IBM-nél és a Red Hatnél.

Lauren Mullennex Megoldástervezőként dolgozik Denverben, CO. Ügyfelekkel dolgozik, hogy segítsen nekik megoldásokat készíteni az AWS-en. Szabadidejében szeret túrázni és hawaii konyhát főzni.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoAiStream. Web3 adatintelligencia. Felerősített tudás. Hozzáférés itt.
A jövő pénzverése – Adryenn Ashley. Hozzáférés itt.
Részvények vásárlása és eladása PRE-IPO társaságokban a PREIPO® segítségével. Hozzáférés itt.
Forrás: https://aws.amazon.com/blogs/machine-learning/reduce-amazon-sagemaker-inference-cost-with-aws-graviton/

Időbélyeg: May 10, 2023

Időbélyeg: 5. április 2022.

Csökkentse az Amazon SageMaker következtetési költségeit az AWS Graviton segítségével

Újra kiadta Platón

Benchmarking eredmények

Migráció az AWS Graviton példányokra

Benchmarking módszertana

Következtetés

A szerzőkről

Még több AWS gépi tanulás

AWS Cloud technológia a szív-rendellenességek közel valós idejű észleléséhez hordható eszközökről származó adatok felhasználásával

Építsen, képezzen és telepítsen Amazon Lookout for Equipment modelleket a Python Toolbox segítségével

Javítsa a keresési pontosságot az Amazon Kendra Helyesírás-ellenőrzőjével

Három új NVIDIA GPU-alapú Amazon EC2 példány bemutatása | Amazon webszolgáltatások

Az Amazon EC2 DL2q példánya a költséghatékony, nagy teljesítményű mesterséges intelligencia következtetésekhez már általánosan elérhető | Amazon webszolgáltatások

Testreszabhatja az Amazon SageMaker XGBoost algoritmus tárolóját

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók