Analyze Amazon SageMaker Spend And Determine Cost Optimization Opportunities Based On Usage, Part 5: Hosting

Újra kiadta Platón

Követő: 0

2021-ben elindítottuk Az AWS Proaktív szolgáltatások támogatása részeként AWS vállalati támogatás terv. Bevezetése óta ügyfeleink százainak segítettünk optimalizálni a munkaterhelésüket, felállítani a korlátokat, és javítani a gépi tanulási (ML) munkaterheléseik költségeinek és használatának láthatóságát.

Ebben a bejegyzéssorozatban megosztjuk a költségek optimalizálásával kapcsolatos tanulságokat Amazon SageMaker. -ban rész 1, megmutattuk, hogyan kezdjük el használni AWS Cost Explorer hogy azonosítsa a költségoptimalizálási lehetőségeket a SageMakerben. Ebben a bejegyzésben a SageMaker következtetési környezetekre összpontosítunk: valós idejű következtetésre, kötegelt átalakításra, aszinkron következtetésre és szerver nélküli következtetésre.

SageMaker többféle következtetési lehetőséget kínál munkaterhelési követelményei alapján a következők közül választhat:

Valós idejű következtetés online, alacsony késleltetésű vagy nagy áteresztőképességű követelményekhez
Kötegelt átalakítás offline, ütemezett feldolgozáshoz, és amikor nincs szüksége állandó végpontra
Aszinkron következtetés ha nagy rakományokkal rendelkezik hosszú feldolgozási idővel, és sorba szeretné helyezni a kéréseket
Szerver nélküli következtetés ha szaggatott vagy kiszámíthatatlan forgalommal rendelkezik, és elviseli a hidegindítást

A következő szakaszokban az egyes következtetési lehetőségeket részletesebben tárgyaljuk.

SageMaker valós idejű következtetés

Amikor létrehoz egy végpontot, a SageMaker csatol egy Amazon Elastic Block Store (Amazon EBS) tárolási mennyiséget a Amazon rugalmas számítási felhő (Amazon EC2) példány, amely a végpontot tárolja. Ez minden olyan példánytípusra igaz, amelyhez nem tartozik SSD-tároló. Mivel a d* példánytípusok NVMe SSD-tárolóval rendelkeznek, a SageMaker nem csatol EBS-tárkötetet ezekhez az ML számítási példányokhoz. Hivatkozni Gazdapéldány tárolási kötetei a SageMaker által az egyes példánytípusokhoz egyetlen végponthoz és több modellből álló végponthoz csatolt tárolókötetek méretéhez.

A SageMaker valós idejű végpontok költsége az egyes példányokhoz felhasznált példányórákon alapul, amíg a végpont fut, a GB-hónapos kiépített tárhely (EBS-kötet), valamint a feldolgozott GB-adatokon és kifelé. pontban leírtak szerint Amazon SageMaker árképzés. A Költségböngészőben valós idejű végpontköltségeket tekinthet meg, ha szűrőt alkalmaz a használati típusra. Ezeknek a használati típusoknak a neve a következőképpen épül fel:

REGION-Host:instanceType (például, USE1-Host:ml.c5.9xlarge)
REGION-Host:VolumeUsage.gp2 (például, USE1-Host:VolumeUsage.gp2)
REGION-Hst:Data-Bytes-Out (például, USE2-Hst:Data-Bytes-In)
REGION-Hst:Data-Bytes-Out (például, USW2-Hst:Data-Bytes-Out)

A következő képernyőképen látható módon, szűrés a használati típus szerint Host: megjeleníti a valós idejű tárhelyhasználati típusok listáját egy fiókban.

Kiválaszthat konkrét felhasználási típusokat, vagy kiválaszthat Az összes kijelölése És válasszon alkalmaz a SageMaker valós idejű tárhelyhasználat költségbontásának megjelenítéséhez. Ha látni szeretné a költségek és a használati bontást példányórák szerint, törölnie kell az összes kijelölést REGION-Host:VolumeUsage.gp2 felhasználási típusokat a használati típus szűrő alkalmazása előtt. További szűrőket is alkalmazhat, például számlaszámot, EC2 példánytípust, költségelosztási címkét, régiót és több. A következő képernyőképen a kiválasztott tárhelyhasználati típusok költség- és használati grafikonjai láthatók.

Ezen túlmenően az egy vagy több tárhelypéldányhoz kapcsolódó költségeket is megtekintheti a Példánytípus szűrő. A következő képernyőkép az ml.p2.xlarge tárhely-példány költség- és használati bontását mutatja.

Hasonlóképpen, a GB-ban feldolgozott és feldolgozott adatok költsége megjeleníthető a kapcsolódó használati típusok alkalmazott szűrőként történő kiválasztásával, amint az a következő képernyőképen látható.

Miután elérte a kívánt eredményeket a szűrőkkel és csoportosításokkal, a kiválasztással letöltheti az eredményeket Letöltés CSV-ként vagy válassza a jelentést Mentés a jelentéskönyvtárba. A Cost Explorer használatára vonatkozó általános útmutatásért lásd: Az AWS Cost Explorer új megjelenése és általános használati esetei.

Opcionálisan engedélyezheti AWS költség- és használati jelentések (AWS CUR), hogy betekintést nyerjen fiókjai költség- és használati adataiba. Az AWS CUR óránkénti AWS-fogyasztási adatokat tartalmaz. Benne van tárolva Amazon egyszerű tárolási szolgáltatás (Amazon S3) a fizetői fiókban, amely az összes kapcsolt fiók adatait konszolidálja. Lekérdezéseket futtathat a használati trendek elemzéséhez, és megteheti a megfelelő lépéseket a költségek optimalizálása érdekében. Amazon Athéné egy kiszolgáló nélküli lekérdezési szolgáltatás, amellyel elemezheti az AWS CUR adatait az Amazon S3-ban szabványos SQL használatával. További információk és példalekérdezések találhatók a AWS CUR lekérdezési könyvtár.

Az AWS CUR-adatokat is betáplálhatja Amazon QuickSight, ahol tetszés szerint szeletelheti és felkockázhatja jelentéskészítési vagy megjelenítési célból. Az utasításokat lásd Hogyan tölthetem be és jeleníthetem meg az AWS költség- és használati jelentést (CUR) az Amazon QuickSightban?.

Az AWS CUR-ból erőforrás-szintű információkat szerezhet be, például a végpont ARN-jét, a végpontpéldánytípusokat, az óránkénti példányszámot, a napi használati órákat és egyebeket. Költségelosztási címkéket is beilleszthet a lekérdezésbe a további részletességi szint érdekében. A következő példalekérdezés valós idejű tárhely-erőforrás-használatot ad vissza az elmúlt 3 hónapban az adott fizetői fiókhoz:

SELECT bill_payer_account_id, line_item_usage_account_id, line_item_resource_id AS endpoint_arn, line_item_usage_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d') AS day_line_item_usage_start_date, SUM(CAST(line_item_usage_amount AS DOUBLE)) AS sum_line_item_usage_amount, line_item_unblended_rate, SUM(CAST(line_item_unblended_cost AS DECIMAL(16,8))) AS sum_line_item_unblended_cost, line_item_blended_rate, SUM(CAST(line_item_blended_cost AS DECIMAL(16,8))) AS sum_line_item_blended_cost, line_item_line_item_description, line_item_line_item_type FROM customer_all WHERE line_item_usage_start_date >= date_trunc('month',current_date - interval '3' month) AND line_item_product_code = 'AmazonSageMaker' AND line_item_line_item_type IN ('DiscountedUsage', 'Usage', 'SavingsPlanCoveredUsage') AND line_item_usage_type like '%Host%' AND line_item_operation = 'RunInstance' AND bill_payer_account_id = 'xxxxxxxxxxxx' GROUP BY bill_payer_account_id, line_item_usage_account_id, line_item_resource_id, line_item_usage_type, line_item_unblended_rate, line_item_blended_rate, line_item_line_item_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d'), line_item_line_item_description ORDER BY line_item_resource_id, day_line_item_usage_start_date

A következő képernyőképen a lekérdezés Athena használatával kapott eredményeket láthatjuk. További információkért lásd: Költség- és használati jelentések lekérdezése az Amazon Athena használatával.

A lekérdezés eredménye azt a végpontot mutatja mme-xgboost-housing Az ml.x4.xlarge példány 24 órás futási időt jelent több egymást követő napon. A példánydíj 0.24 USD/óra, a 24 órás üzemeltetés napi költsége pedig 5.76 USD.

Az AWS CUR eredményei segíthetnek azonosítani az egymást követő napon keresztül futó végpontok mintáit az egyes összekapcsolt fiókokban, valamint a legmagasabb havi költségű végpontokat. Ez segíthet annak eldöntésében is, hogy a nem éles fiókok végpontjai törölhetők-e a költségek megtakarítása érdekében.

A valós idejű végpontok költségeinek optimalizálása

Költségkezelés szempontjából fontos azonosítani az alulkihasznált (vagy túlméretezett) példányokat, és szükség esetén a példányméretet és a számokat összhangba hozni a munkaterhelési követelményekkel. A rendszer olyan általános mérőszámokat ír, mint a CPU/GPU kihasználtság és a memóriahasználat amazonfelhőóra minden tárhely-példányhoz. A valós idejű végpontokhoz a SageMaker számos további mérőszámot tesz elérhetővé a CloudWatchban. A gyakran megfigyelt mérőszámok közé tartozik a hívások száma és a 4xx/5xx hívási hibák. A mutatók teljes listáját lásd: Az Amazon SageMaker monitorozása az Amazon CloudWatch segítségével.

A mérőszám CPUUtilization az egyes CPU magok kihasználtságának összegét adja meg. Az egyes magtartományok CPU-kihasználása 0–100. Például, ha négy CPU van, a CPUUtilization tartomány 0-400%. A mérőszám MemoryUtilization a memória százalékos aránya, amelyet egy példány tárolói használnak. Ez az értéktartomány 0-100%. A következő képernyőképen egy példa látható a CloudWatch mérőszámaira CPUUtilization és a MemoryUtilization egy ml.m4.10xlarge végpontpéldányhoz, amely 40 vCPU-val és 160 GiB memóriával érkezik.

Ezek a metrikus grafikonok körülbelül 3,000%-os maximális CPU-kihasználást mutatnak, ami 30 vCPU-nak felel meg. Ez azt jelenti, hogy ez a végpont legfeljebb 30 vCPU-t használ a 40 vCPU teljes kapacitásából. Hasonlóképpen, a memória kihasználtsága 6% alatti. Ezen információk felhasználásával kísérletezhet egy kisebb példánysal, amely megfelel ennek az erőforrásigénynek. Továbbá a CPUUtilization metrika a periodikusan magas és alacsony CPU-igény klasszikus mintáját mutatja, ami miatt ez a végpont jó jelölt az automatikus skálázáshoz. Kezdheti egy kisebb példánysal, és először méretezheti a számítási igény változásával. További információkért lásd Automatikusan méretezheti az Amazon SageMaker modelleket.

A SageMaker kiválóan alkalmas új modellek tesztelésére, mert egyszerűen telepítheti őket A/B tesztelési környezetbe gyártási változatok, és csak azért fizet, amit használ. Minden éles változat a saját számítási példányán fut, és a változat futása során az egyes példányok által felhasznált példányóránként kell fizetnie.

A SageMaker is támogatja árnyékváltozatok, amelyek ugyanazokkal az összetevőkkel rendelkeznek, mint egy éles változat, és saját számítási példányukon futnak. Az árnyékváltozatokkal a SageMaker automatikusan telepíti a modellt egy tesztkörnyezetben, valós időben továbbítja az éles modell által kapott következtetési kérések másolatát a tesztmodellhez, és összegyűjti a teljesítménymutatókat, például a késleltetést és az átviteli sebességet. Ez lehetővé teszi a modell-szolgáltatási verem bármely új jelölt komponensének érvényesítését, mielőtt élesre terelné.

Ha végzett a tesztekkel, és már nem használja széles körben a végpontot vagy a változatokat, a költségek megtakarítása érdekében törölje azt. Mivel a modell az Amazon S3-ban van tárolva, szükség szerint újra létrehozhatja. Automatikusan észlelheti ezeket a végpontokat, és korrekciós műveleteket hajthat végre (például törölheti őket) a használatával Amazon CloudWatch események és a AWS Lambda funkciókat. Használhatja például a Invocations metrika a modell végponthoz küldött kérések teljes számának lekéréséhez, majd annak észleléséhez, hogy a végpontok tétlenek voltak-e az elmúlt órákban (egy bizonyos időszakon keresztül, például 24 órán keresztül nem történt meghívás).

Ha több alulkihasznált végpontpéldánya van, fontolja meg a hosztolási lehetőségeket, mint például több modellből álló végpontok (MME), több tárolóból álló végpontok (MCE), és soros következtetési csővezetékek a használat konszolidálása kevesebb végpontpéldányra.

A valós idejű és aszinkron következtetési modell telepítéséhez optimalizálhatja a költségeket és a teljesítményt, ha modelleket telepít a SageMakeren a AWS Graviton. Az AWS Graviton az AWS által tervezett processzorcsalád, amely a legjobb árteljesítményt nyújtja, és energiatakarékosabb, mint x86-os társaik. Az ML-modell AWS Graviton-alapú példányokra történő telepítésével kapcsolatos útmutatásért, valamint az ár-teljesítmény előnyeivel kapcsolatos részletekért lásd: Futtasson gépi tanulási következtetési munkaterheléseket AWS Graviton alapú példányokon az Amazon SageMaker segítségével. A SageMaker is támogatja AWS Inferentia gyorsítók révén a ml.inf2 példánycsalád az ML modellek telepítéséhez valós idejű és aszinkron következtetésekhez. Használhatja ezeket a példányokat a SageMakerben, hogy alacsony költséggel magas teljesítményt érjen el a generatív mesterséges intelligencia (AI) modelljeinél, beleértve a nagy nyelvi modelleket (LLM) és a látástranszformátorokat.

Ezen kívül használhatja Amazon SageMaker Inference Recommender terhelési tesztek futtatásához és a modell ezeken a példányokon történő telepítésének ár-teljesítmény előnyeinek értékeléséhez. További útmutatásért a tétlen SageMaker végpontok automatikus észleléséhez, valamint a példány megfelelő méretéhez és a SageMaker végpontok automatikus skálázásához lásd: Hatékony számítási erőforrások biztosítása az Amazon SageMakeren.

SageMaker kötegelt transzformáció

Batch következtetés, ill offline következtetés, a megfigyelések kötegére vonatkozó előrejelzések generálásának folyamata. Az offline előrejelzések nagyobb adatkészletekhez és olyan esetekben alkalmasak, amikor megengedheti magának, hogy néhány percet vagy órát várjon a válaszra.

A SageMaker kötegelt átalakítás költsége a kötegelt átalakítási feladat futása során az egyes példányokhoz felhasznált példányórákon alapul, amint azt a Amazon SageMaker árképzés. A Költségkezelőben a kötegelt átalakítás költségeit fedezheti fel, ha szűrőt alkalmaz a használati típusra. Ennek a használati típusnak a neve a következőképpen épül fel REGION-Tsform:instanceType (például, USE1-Tsform:ml.c5.9xlarge).

Ahogy a következő képernyőképen látható, szűrés használati típus szerint Tsform: megjeleníti a SageMaker kötegelt átalakítás használati típusainak listáját egy fiókban.

Analyze Amazon SageMaker spend and determine cost optimization opportunities based on usage, Part 5: Hosting | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Kiválaszthat konkrét felhasználási típusokat, vagy kiválaszthat Az összes kijelölése És válasszon alkalmaz a kiválasztott típusok kötegelt átalakítási példányhasználatának költségbontásának megjelenítéséhez. Mint korábban említettük, további szűrőket is alkalmazhat. A következő képernyőkép a kiválasztott kötegelt átalakítási felhasználási típusokhoz tartozó költség- és használati grafikonokat mutatja.

A kötegelt átalakítás költségeinek optimalizálása

A SageMaker kötegelt átalakítása csak a feladatok futása közben használt példányokért számít fel. Ha az adatok már az Amazon S3-ban vannak, akkor nincs költség az Amazon S3 bemeneti adatainak kiolvasásáért és a kimeneti adatok Amazon S3-ba írásáért. Minden kimeneti objektumot megpróbálunk feltölteni az Amazon S3-ra. Ha mindegyik sikeres, akkor a kötegelt átalakítási feladat befejezettként lesz megjelölve. Ha egy vagy több objektum meghiúsul, a kötegelt átalakítási feladat sikertelenként lesz megjelölve.

A kötegelt átalakítási feladatok díjai a következő forgatókönyvekben érvényesek:

A munka sikeres
Hiba miatt ClientError a modelltároló pedig a SageMaker ill egy SageMaker által felügyelt keretrendszer
Hiba miatt AlgorithmError or ClientError és a modelltároló a saját egyéni tárolója (BYOC)

Az alábbiakban bemutatunk néhány bevált módszert a SageMaker kötegelt átalakítási feladatok optimalizálásához. Ezek az ajánlások csökkenthetik a kötegelt átalakítási feladat teljes futási idejét, ezáltal csökkentve a költségeket:

Készlet BatchStrategy nak nek MultiRecord és a SplitType nak nek Line ha a kötegelt átalakítási feladatra van szüksége mini kötegek készítéséhez a bemeneti fájlból. Ha nem tudja automatikusan felosztani az adatkészletet mini kötegekre, akkor feloszthatja mini kötegekre úgy, hogy minden köteget külön bemeneti fájlba helyez, amelyet az adatforrás S3 tárolójában helyez el.
Győződjön meg arról, hogy a köteg mérete belefér a memóriába. A SageMaker ezt általában automatikusan kezeli; a kötegek kézi felosztásánál azonban ezt a memória alapján kell hangolni.
A kötegelt transzformáció felosztja az S3 objektumokat a bemenetben kulccsal, és leképezi ezeket az objektumokat példányokra. Ha több fájlja van, előfordulhat, hogy egy példány feldolgozza input1.csv, és egy másik példány feldolgozhatja input2.csv. Ha egy bemeneti fájlja van, de több számítási példányt inicializál, akkor csak egy példány dolgozza fel a bemeneti fájlt, a többi példány pedig tétlen. Győződjön meg arról, hogy a fájlok száma egyenlő vagy nagyobb, mint a példányok száma.
Ha sok kis fájllal rendelkezik, előnyös lehet több fájlt néhány nagyobb fájlba kombinálni, hogy csökkentse az Amazon S3 interakciós idejét.
Ha a CreateTransformJob API segítségével csökkentheti a kötegelt átalakítási feladatok végrehajtásához szükséges időt azáltal, hogy optimális értékeket használ olyan paraméterekhez, mint pl MaxPayloadInMB, MaxConcurrentTransformsvagy BatchStrategy:
- MaxConcurrentTransforms jelzi a párhuzamos kérések maximális számát, amelyek egy átalakítási feladat egyes példányaihoz küldhetők. Ideális érték MaxConcurrentTransforms egyenlő a példányban lévő vCPU magok számával.
- MaxPayloadInMB a hasznos teher maximális megengedett mérete MB-ban. Az érték benn MaxPayloadInMB nagyobbnak vagy egyenlőnek kell lennie egyetlen rekord méretével. Ha meg szeretné becsülni a rekord méretét MB-ban, ossza el az adatkészlet méretét a rekordok számával. Annak érdekében, hogy a rekordok beleférjenek a maximális hasznos adatméretbe, valamivel nagyobb értéket javasolunk. Az alapértelmezett érték 6 MB.
- MaxPayloadInMB nem lehet nagyobb 100 MB-nál. Ha megadja az opcionális MaxConcurrentTransforms paramétert, majd a (MaxConcurrentTransforms * MaxPayloadInMB) szintén nem haladhatja meg a 100 MB-ot.
- Azokban az esetekben, amikor a hasznos terhelés tetszőlegesen nagy lehet, és HTTP csonka kódolással továbbítják, állítsa a MaxPayloadInMB értéket 0-ra. Ez a szolgáltatás csak támogatott algoritmusoknál működik. Jelenleg a SageMaker beépített algoritmusai nem támogatják a HTTP darabolt kódolást.
A kötegelt következtetési feladatok általában jó jelöltek a vízszintes méretezéshez. A fürt minden dolgozója az adatok különböző részhalmazán dolgozhat anélkül, hogy információt kellene cserélnie más dolgozókkal. Az AWS többféle tárolási és számítási lehetőséget kínál, amelyek lehetővé teszik a vízszintes méretezést. Ha egyetlen példány nem elegendő a teljesítménykövetelmények teljesítéséhez, fontolja meg több példány párhuzamos használatát a munkaterhelés elosztásához. A kötegelt átalakítási feladatok tervezésével kapcsolatos legfontosabb szempontokért lásd: Kötegelt következtetés az Amazon SageMaker segítségével.
Folyamatosan figyelje a SageMaker kötegelt átalakítási munkáinak teljesítménymutatóit a CloudWatch segítségével. Keresse meg a szűk keresztmetszeteket, például a magas CPU- vagy GPU-kihasználást, memóriahasználatot vagy hálózati átviteli sebességet, hogy megállapítsa, szükség van-e a példányméretek vagy konfigurációk módosítására.
A SageMaker az Amazon S3-at használja többrészes feltöltési API egy kötegelt átalakítási feladat eredményeinek feltöltéséhez az Amazon S3-ba. Ha hiba történik, a feltöltött eredmények eltávolítódnak az Amazon S3-ból. Egyes esetekben, például hálózati kimaradás esetén, egy hiányos többrészes feltöltés maradhat az Amazon S3-ban. A tárolási költségek elkerülése érdekében javasoljuk, hogy adja hozzá a S3 vödör szabályzat az S3 vödör életciklus szabályaihoz. Ez a házirend törli a hiányos többrészes feltöltéseket, amelyek esetleg az S3 tárolóban tárolódnak. További információkért lásd A tárolási életciklus kezelése.

SageMaker aszinkron következtetés

Az aszinkron következtetés kiváló választás költségérzékeny munkaterhelésekhez, nagy hasznos terhelésekkel és sorozatos forgalommal. A kérelmek feldolgozása akár 1 órát is igénybe vehet, a hasznos adatok mérete pedig legfeljebb 1 GB, így jobban megfelel az enyhe késleltetési követelményeket támasztó munkaterhelésekhez.

Az aszinkron végpontok meghívása eltér a valós idejű végpontoktól. Ahelyett, hogy a kéréssel szinkronban továbbítaná a hasznos terhet, töltse fel a hasznos terhet az Amazon S3-ba, és a kérelem részeként adja át az S3 URI-t. Belsőleg a SageMaker egy sort tart fenn ezekkel a kérésekkel, és feldolgozza azokat. A végpont létrehozása során opcionálisan megadhat egy Amazon Simple Notification Service (Amazon SNS) témakörben, hogy siker- vagy hibaértesítéseket kapjon. Amikor megkapja az értesítést, hogy következtetési kérelmét sikeresen feldolgozták, elérheti az eredményt az Amazon S3 kimeneti helyén.

Az aszinkron következtetés költsége az egyes példányokhoz felhasznált példányórákon alapul, miközben a végpont fut, a GB-hónapos kiépített tárhely költségén, valamint a végpontpéldányban feldolgozott és onnan kívül feldolgozott GB-adatokon, amint azt a Amazon SageMaker árképzés. A Költségböngészőben szűrheti az aszinkron következtetési költségeket, ha szűrőt alkalmaz a használati típusra. Ennek a használati típusnak a neve a következőképpen épül fel REGION-AsyncInf:instanceType (például, USE1-AsyncInf:ml.c5.9xlarge). Vegye figyelembe, hogy a GB mennyiség és a GB feldolgozott adatok felhasználási típusai megegyeznek a valós idejű végpontokkal, amint azt ebben a bejegyzésben korábban említettük.

A következő képernyőképen látható módon, szűrés a használati típus szerint AsyncInf: a Költségkezelőben a költségek aszinkron végpont-használati típusok szerinti lebontását jeleníti meg.

Ha látni szeretné a költségek és a használati bontást példányórák szerint, törölnie kell az összes kijelölést REGION-Host:VolumeUsage.gp2 felhasználási típusokat a használati típus szűrő alkalmazása előtt. További szűrőket is alkalmazhat. Az erőforrás-szintű információk, például a végpont ARN, a végpont-példánytípusok, az óránkénti példánydíj és a napi használati órák az AWS CUR-ból szerezhetők be. A következő példa egy AWS CUR-lekérdezésre, amely az elmúlt 3 hónap aszinkron tárhely-erőforrás-használatát kapja meg:

SELECT bill_payer_account_id, line_item_usage_account_id, line_item_resource_id AS endpoint_arn, line_item_usage_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d') AS day_line_item_usage_start_date, SUM(CAST(line_item_usage_amount AS DOUBLE)) AS sum_line_item_usage_amount, line_item_unblended_rate, SUM(CAST(line_item_unblended_cost AS DECIMAL(16,8))) AS sum_line_item_unblended_cost, line_item_blended_rate, SUM(CAST(line_item_blended_cost AS DECIMAL(16,8))) AS sum_line_item_blended_cost, line_item_line_item_description, line_item_line_item_type FROM customer_all WHERE line_item_usage_start_date >= date_trunc('month',current_date - interval '3' month) AND line_item_product_code = 'AmazonSageMaker' AND line_item_line_item_type IN ('DiscountedUsage', 'Usage', 'SavingsPlanCoveredUsage') AND line_item_usage_type like '%AsyncInf%' AND line_item_operation = 'RunInstance' GROUP BY bill_payer_account_id, line_item_usage_account_id, line_item_resource_id, line_item_usage_type, line_item_unblended_rate, line_item_blended_rate, line_item_line_item_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d'), line_item_line_item_description ORDER BY line_item_resource_id, day_line_item_usage_start_date

A következő képernyőkép az AWS CUR lekérdezés Athena használatával végzett futtatásával kapott eredményeket mutatja.

A lekérdezés eredménye azt a végpontot mutatja sagemaker-abc-model-5 Az ml.m5.xlarge példány 24 órás futási időt jelent több egymást követő napon. A példánydíj 0.23 USD/óra, a 24 órás működés napi költsége pedig 5.52 USD.

Amint azt korábban említettük, az AWS CUR eredményei segíthetnek azonosítani az egymást követő napon keresztül futó végpontok mintáit, valamint a legmagasabb havi költségű végpontokat. Ez segíthet annak eldöntésében is, hogy a nem éles fiókok végpontjai törölhetők-e a költségek megtakarítása érdekében.

Optimalizálja az aszinkron következtetés költségeit

A valós idejű végpontokhoz hasonlóan az aszinkron végpontok költsége is a példánytípus használatán alapul. Ezért fontos azonosítani az alulhasznált példányokat, és átméretezni őket a munkaterhelési követelmények alapján. Az aszinkron végpontok figyelése érdekében a SageMaker készít több mutató mint például ApproximateBacklogSize, HasBacklogWithoutCapacity, és még sok más érhető el a CloudWatchban. Ezek a mérőszámok kéréseket jeleníthetnek meg egy példányhoz tartozó sorban, és használhatók egy végpont automatikus skálázására. A SageMaker aszinkron következtetése gazdagépszintű mérőszámokat is tartalmaz. A gazdagépszintű mérőszámokkal kapcsolatos információkért lásd: SageMaker munkák és végponti mérőszámok. Ezek a mérőszámok megmutathatják az erőforrás-kihasználást, ami segíthet a példány megfelelő méretében.

A SageMaker támogatja automatikus méretezés aszinkron végpontokhoz. A valós idejű hosztolt végpontokkal ellentétben az aszinkron következtetési végpontok támogatják a példányok nullára kicsinyítését a minimális kapacitás nullára állításával. Aszinkron végpontok esetén a SageMaker nyomatékosan javasolja, hogy hozzon létre egy házirend-konfigurációt a célkövetés skálázásához egy telepített modellhez (változathoz). Meg kell határoznia a méretezési házirendet, amely a skálán méretezett ApproximateBacklogPerInstance egyéni mérőszámot, és állítsa be a MinCapacity értéke nullára.

Az aszinkron következtetés lehetővé teszi a költségek megtakarítását azáltal, hogy automatikusan nullára skálázza a példányszámot, amikor nincs feldolgozandó kérés, így csak akkor kell fizetnie, ha a végpont kéréseket dolgoz fel. A nulla példányszám esetén kapott kérések a végpont felskálázása után feldolgozásra kerülnek. Ezért azoknál a használati eseteknél, amelyek elviselik a néhány perces hidegindítási büntetést, opcionálisan lecsökkentheti a végpontpéldányok számát nullára, ha nincs függő kérés, és visszaléptetheti az új kérelmek érkezésekor. A hidegindítási idő attól függ, hogy mennyi időre van szükség egy új végpont elindításához. Továbbá, ha maga a modell nagy, akkor az idő hosszabb lehet. Ha a munkája várhatóan tovább tart, mint az 1 órás feldolgozási idő, érdemes lehet a SageMaker kötegelt átalakítását megfontolni.

Ezenkívül figyelembe veheti a kérés sorban állási idejét a feldolgozási idővel kombinálva a példánytípus kiválasztásához. Ha például az Ön használati esete többórás várakozási időt is elvisel, költségmegtakarítás érdekében választhat egy kisebb példányt.

További útmutatásért a példányok megfelelő méretezéséről és a SageMaker végpontok automatikus méretezéséről lásd: Hatékony számítási erőforrások biztosítása az Amazon SageMakeren.

Szerver nélküli következtetés

A kiszolgáló nélküli következtetés lehetővé teszi az ML modellek telepítését a következtetések levonásához anélkül, hogy konfigurálnia vagy kezelnie kellene az alapul szolgáló infrastruktúrát. A modell által kapott következtetési kérelmek mennyisége alapján a SageMaker kiszolgáló nélküli következtetései automatikusan létrehozzák, méretezik és kikapcsolják a számítási kapacitást. Ennek eredményeként csak a következtetési kód futtatásához szükséges számítási időért és a feldolgozott adatok mennyiségéért kell fizetnie, a tétlenségért nem. Kiszolgáló nélküli végpontok esetén a példányok kiépítése nem szükséges. Meg kell adnia a memóriaméret és maximális párhuzamosság. Mivel a kiszolgáló nélküli végpontok kiépítése igény szerint számítja ki az erőforrásokat, a végpont néhány további másodperces késleltetést (hidegindítás) tapasztalhat a tétlenségi időszak utáni első híváskor. Fizetni kell a következtetési kérelmek feldolgozásához használt számítási kapacitásért, amely ezredmásodpercenként, GB-hónapnyi kiépített tárhelyen van számlázva, valamint a feldolgozott adatok mennyiségéért. A számítási díj a választott memóriakonfigurációtól függ.

A Költségkezelőben szűrheti a kiszolgáló nélküli végpontok költségeit, ha szűrőt alkalmaz a használati típusra. Ennek a használati típusnak a neve a következőképpen épül fel REGION-ServerlessInf:Mem-MemorySize (például, USE2-ServerlessInf:Mem-4GB). Vegye figyelembe, hogy a GB mennyiség és a GB feldolgozott adatok felhasználási típusai megegyeznek a valós idejű végpontokkal.

A költségek lebontását további szűrők, például számlaszám, példánytípus, régió és egyebek alkalmazásával tekintheti meg. A következő képernyőkép a költségek lebontását mutatja a kiszolgáló nélküli következtetés használati típusához szűrők alkalmazásával.

A költségek optimalizálása a szerver nélküli következtetésekhez

A kiszolgáló nélküli végpont konfigurálásakor megadhatja a memória méretét és az egyidejű hívások maximális számát. A SageMaker szerver nélküli következtetés automatikusan hozzárendeli a számítási erőforrásokat a kiválasztott memóriával arányosan. Ha nagyobb memóriaméretet választ, a tároló több vCPU-hoz fér hozzá. A kiszolgáló nélküli következtetéssel csak a következtetési kérelmek feldolgozásához használt számítási kapacitásért kell fizetni, amelyet ezredmásodpercenként számlázunk ki, valamint a feldolgozott adatok mennyiségét. A számítási díj a választott memóriakonfigurációtól függ. A választható memóriaméretek: 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB és 6144 MB. Az ár a memória méretének növekedésével növekszik, amint azt a cikkben kifejtjük Amazon SageMaker árképzés, ezért fontos a megfelelő memóriaméret kiválasztása. Általános szabály, hogy a memória méretének legalább akkorának kell lennie, mint a modell mérete. Jó gyakorlat azonban a memóriahasználatra hivatkozni a végponti memória méretének meghatározásakor, a modellméret mellett.

Általános bevált gyakorlatok a SageMaker következtetési költségeinek optimalizálásához

A hosting költségek optimalizálása nem egyszeri esemény. Ez egy folyamatos folyamat a telepített infrastruktúra, a használati minták és a teljesítmény figyelésére, valamint az AWS által kiadott új innovatív megoldásokra, amelyek hatással lehetnek a költségekre. Fontolja meg a következő bevált gyakorlatokat:

Válassza ki a megfelelő példánytípust – A SageMaker több példánytípust támogat, amelyek mindegyike a CPU, a GPU, a memória és a tárolókapacitás különböző kombinációival rendelkezik. A modell erőforrásigényei alapján válasszon olyan példánytípust, amely túlzott kiépítés nélkül biztosítja a szükséges erőforrásokat. Az elérhető SageMaker-példánytípusokról, azok specifikációiról, valamint a megfelelő példány kiválasztásához szükséges útmutatásért tekintse meg a következőt: Hatékony számítási erőforrások biztosítása az Amazon SageMakeren.
Teszt helyi módban – A hibák észlelése és a gyorsabb hibakeresés érdekében javasolt a kód és a tároló tesztelése (BYOC esetén) helyi mód mielőtt futtatná a következtetési munkaterhelést a távoli SageMaker-példányon. A helyi mód nagyszerű módja annak, hogy tesztelje a szkripteket, mielőtt futtatná őket egy SageMaker felügyelt tárhelykörnyezetben.
Optimalizálja a modelleket a nagyobb teljesítmény érdekében – Az optimalizálatlan modellek hosszabb futási időt és több erőforrást igényelhetnek. Választhat, hogy több vagy nagyobb példányt használ-e a teljesítmény javítása érdekében; ez azonban magasabb költségekhez vezet. Ha a modelleket nagyobb teljesítményre optimalizálja, csökkentheti a költségeket, ha kevesebb vagy kisebb példányt használ, miközben megtartja ugyanazokat vagy jobb teljesítményjellemzőket. Te tudod használni Amazon SageMaker Neo SageMaker következtetéssel a modellek automatikus optimalizálásához. További részletekért és mintákért lásd Optimalizálja a modell teljesítményét a Neo segítségével.
Használjon címkéket és költségkezelési eszközöket – A következtetési munkaterhelések láthatóságának megőrzése érdekében ajánlott címkéket, valamint AWS-költségkezelő eszközöket használni, mint pl. AWS költségvetések, a AWS Számlázási konzolés a Cost Explorer előrejelzési funkciója. A SageMaker megtakarítási terveket rugalmas árazási modellként is felfedezheti. Ezekről a lehetőségekről további információért lásd: rész 1 ennek a sorozatnak.

Következtetés

Ebben a bejegyzésben útmutatást adtunk a költségelemzéshez és a bevált gyakorlatokhoz a SageMaker következtetési opcióihoz. Mivel a gépi tanulás hatékony eszközzé válik az iparágakban, az ML modellek képzésének és üzemeltetésének költséghatékonynak kell maradnia. A SageMaker széles és mély funkciókészletet kínál az ML folyamat minden egyes lépésének megkönnyítésére, és költségoptimalizálási lehetőségeket kínál a teljesítmény vagy a gyorsaság befolyásolása nélkül. Forduljon AWS-csapatához a SageMaker munkaterhelésével kapcsolatos költségekkel kapcsolatos útmutatásért.

A szerzőkről

Deepali Rajale az AWS vezető AI/ML specialistája. Vállalati ügyfelekkel dolgozik, technikai útmutatást adva az AI/ML-megoldások AWS-ökoszisztémában való bevezetéséhez és karbantartásához szükséges bevált gyakorlatokról. Szervezetek széles skálájával dolgozott együtt különböző mély tanulási felhasználási eseteken, beleértve az NLP-t és a számítógépes látást. Szenvedélyesen törekszik arra, hogy a szervezeteket felhatalmazza a generatív mesterséges intelligencia hasznosítására, hogy javítsák használati élményüket. Szabadidejében szereti a filmeket, a zenét és az irodalmat.

Uri Rosenberg az európai, a közel-keleti és afrikai AI és ML szakértő műszaki menedzsere. Az izraeli székhelyű Uri azon munkálkodik, hogy a vállalati ügyfeleket minden ML-ben lehetővé tegye a nagyszabású tervezéshez, építéshez és üzemeltetéshez. Szabadidejében szeret kerékpározni, túrázni és rock and roll mászni.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoAiStream. Web3 adatintelligencia. Felerősített tudás. Hozzáférés itt.
A jövő pénzverése – Adryenn Ashley. Hozzáférés itt.
Részvények vásárlása és eladása PRE-IPO társaságokban a PREIPO® segítségével. Hozzáférés itt.
Forrás: https://aws.amazon.com/blogs/machine-learning/part-5-analyze-amazon-sagemaker-spend-and-determine-cost-optimization-opportunities-based-on-usage-part-5-hosting/

Időbélyeg: May 30, 2023

Időbélyeg: 6. január 2023.

Újra kiadta Platón

Fordítsa le a dokumentumokat valós időben az Amazon Translate | segítségével Amazon webszolgáltatások

A Getir teljes körű munkaerő-menedzsment: Amazon Forecast és AWS Step Functions | Amazon webszolgáltatások

Hogyan épített fel a VMware egy MLOps csővezetéket a semmiből a GitLab, az Amazon MWAA és az Amazon SageMaker segítségével

Az Amazon SageMaker modell párhuzamos könyvtára akár 20%-kal is felgyorsítja a PyTorch FSDP munkaterhelését | Amazon webszolgáltatások

Nagy nyelvi modellek értékelése a minőség és a felelősség szempontjából | Amazon webszolgáltatások

Elosztott képzés az Amazon EKS és a Torch Distributed Elastic segítségével

Teljesítményre vonatkozó ajánlások és keresés IMDb tudásgráf segítségével – 3. rész

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók