Model Hosting Patterns In Amazon SageMaker, Part 1: Common Design Patterns For Building ML Applications On Amazon SageMaker

Újra kiadta Platón

Követő: 0

A gépi tanulási (ML) alkalmazások telepítése bonyolult, és gyakran nagy méretezési képességet igényelnek, rendkívül alacsony késleltetési követelményekkel és szigorú költségkerettel rendelkeznek. Az olyan felhasználási esetek, mint a csalásészlelés, a termékajánlások és a forgalom előrejelzése, olyan példák, ahol az ezredmásodpercek számítanak, és kritikusak az üzleti sikerhez. Szigorú szolgáltatási szintű megállapodásokat (SLA-k) kell teljesíteni, és egy tipikus kérés több lépést is igényelhet, például előfeldolgozást, adatátalakítást, szolgáltatástervezést, modellkiválasztási logikát, modell-aggregációt és utófeldolgozást.

Az ML-modellek méretarányos üzembe helyezése optimalizált költségekkel és számítási hatékonysággal ijesztő és nehézkes feladat lehet. Minden modellnek megvannak a saját előnyei és függőségei a külső adatforrások, valamint a futási környezet, például az alapul szolgáló számítási erőforrások CPU/GPU teljesítménye alapján. Egy alkalmazásnak több ML modellre lehet szüksége egyetlen következtetési kérelem kiszolgálásához. Bizonyos forgatókönyvek esetén egy kérés több modellen is áthaladhat. Nincs mindenkire érvényes megközelítés, és fontos, hogy az ML gyakorlói keressenek kipróbált és bevált módszereket a visszatérő ML hosting kihívások kezelésére. Ez az ML modell hosting tervezési mintáinak fejlődéséhez vezetett.

Ebben a bejegyzésben az ML alkalmazások építésének általános tervezési mintáit vizsgáljuk meg Amazon SageMaker.

Tervezési minták ML alkalmazások építéséhez

Nézzük meg a következő tervezési mintákat az ML alkalmazások tárolására.

Egymodell alapú ML alkalmazások

Ez egy nagyszerű lehetőség, ha az ML használati eset egyetlen modellt igényel a kérés kiszolgálásához. A modell egy dedikált számítási infrastruktúrán van telepítve, amely a bemeneti forgalom alapján méretezhető. Ez a beállítás akkor is ideális, ha az ügyfélalkalmazásnak alacsony késleltetésű (ezredmásodpercek vagy másodpercek nagyságrendjében) a következtetési követelménye van.

Több modell alapú ML alkalmazások

A költséghatékonyabb üzemeltetés érdekében ez a tervezési minta lehetővé teszi több modell tárolását ugyanazon a bérlői infrastruktúrán. Több ML-modell megoszthatja a gazdagép- vagy konténer-erőforrásokat, beleértve a leggyakrabban használt ML-modellek gyorsítótárazását a memóriában, ami a memória és a számítási erőforrások jobb kihasználását eredményezi. Attól függően, hogy milyen típusokat választott a telepítésre, a modelltárs üzemeltetés a következő módszereket használhatja:

Több modell hosting – Ez a beállítás lehetővé teszi több modell hosztolását egy megosztott kiszolgálási tároló használatával egyetlen végponton. Ez a funkció akkor ideális, ha sok hasonló modellel rendelkezik, amelyeket megosztott kiszolgálókonténeren keresztül is kiszolgálhat, és nem kell egyszerre hozzáférnie az összes modellhez.
Több konténer hosting – Ez a lehetőség akkor ideális, ha több modell fut különböző kiszolgálóvermen, hasonló erőforrásigényekkel, és ha az egyes modellek nem rendelkeznek elegendő forgalommal a végpontpéldányok teljes kapacitásának kihasználásához. A többtárolós hosting lehetővé teszi több olyan tároló telepítését, amelyek különböző modelleket vagy keretrendszereket használnak egyetlen végponton. A modellek lehetnek teljesen heterogének, saját, független tálalókészlettel.
Modellegyüttesek – Sok termelési felhasználási esetben gyakran előfordulhat, hogy sok upstream modell táplálja be a bemeneteket egy adott downstream modellhez. Itt hasznosak az együttesek. Az együttes minták egy vagy több alapmodell kimenetének keverését jelentik, hogy csökkentsék a általánosítási hiba az előrejelzésről. Az alapmodellek sokfélék lehetnek, és különböző algoritmusokkal taníthatók. A modellegyüttesek felülmúlhatják az egyedi modelleket, mivel a modell előrejelzési hibája csökken az együttes megközelítés alkalmazásakor.

Az alábbiakban az együttes minták és a hozzájuk tartozó tervezési minták általános használati esetei találhatók:

Szór-gyűjt – A szóródás-gyűjtő mintában a következtetéskérést számos modellhez irányítják. Ezután egy aggregátort használnak a válaszok összegyűjtésére, és egyetlen következtetési válaszként történő desztillálására. Például egy képbesorolás használati esete három különböző modellt használhat a feladat végrehajtásához. A szóródás-gyűjtő minta lehetővé teszi a három különböző modellen futtatott következtetések eredményeinek kombinálását, és a legvalószínűbb osztályozási modell kiválasztását.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Modell aggregátum – Az összesítési mintában több modell kimeneteit átlagolják. Az osztályozási modellek esetében a rendszer több modell előrejelzését értékeli, hogy meghatározza azt az osztályt, amelyik a legtöbb szavazatot kapta, és az együttes végső kimeneteként kezeli. Például egy kétosztályos osztályozási feladatban egy gyümölcskészlet narancs vagy alma osztályozására, ha két modell egy narancsra, egy modell pedig egy almára szavaz, akkor az összesített kimenet egy narancs lesz. Az összesítés segít leküzdeni az egyes modellek pontatlanságait, és pontosabbá teszi a kimenetet.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Dinamikus kiválasztás – Az ensemble modellek másik mintája a modellválasztás dinamikus végrehajtása az adott bemeneti attribútumokhoz. Például a gyümölcsök képeinek adott bemeneténél, ha a bemenet narancsot tartalmaz, az A modell kerül felhasználásra, mivel az a narancsra specializálódott. Ha a bemenet almát tartalmaz, a B modell kerül felhasználásra, mivel az almára specializálódott.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Soros következtetés ML alkalmazások – A soros következtetési mintával, más néven következtetési folyamattal, a használati eseteknek meg kell felelniük a bejövő adatok előfeldolgozásának, mielőtt egy előre betanított ML-modellt meghívnának következtetések generálására. Ezenkívül bizonyos esetekben előfordulhat, hogy a generált következtetéseket tovább kell feldolgozni, hogy a későbbi alkalmazások könnyen felhasználhassák azokat. A következtetési folyamat lehetővé teszi, hogy ugyanazt az előfeldolgozási kódot használja fel, amelyet a modell betanítása során használt az előrejelzésekhez használt következtetéskérési adatok feldolgozásához.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Üzleti logika – Az ML gyártása mindig üzleti logikát tartalmaz. Az üzleti logikai minták mindent tartalmaznak, ami egy olyan ML feladat végrehajtásához szükséges, amely nem ML modell következtetés. Ez magában foglalja a modell betöltését innen Amazon egyszerű tárolási szolgáltatás (Amazon S3), például adatbázis-keresések a bemenet érvényesítésére, előre kiszámított szolgáltatások beszerzése a szolgáltatástárolóból stb. Ezen üzleti logikai lépések befejezése után a bemenetek átkerülnek az ML modellekhez.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

ML következtetési lehetőségek

A modell üzembe helyezéséhez fontos, hogy a használati esettől visszafelé dolgozzon. Mekkora az előrejelzés gyakorisága? Élő forgalomra számít az alkalmazására, és valós idejű választ az ügyfeleknek? Sok modellje van, amelyek az adatok különböző részhalmazaira vannak kiképezve ugyanarra a felhasználási esetre? Ingadozik az előrejelzési forgalom? Aggályos a következtetés késleltetése? Ezen részletek alapján az összes előző tervezési minta megvalósítható a következő telepítési lehetőségek használatával:

Valós idejű következtetés – A valós idejű következtetés ideális olyan következtetési munkaterhelésekhez, ahol valós idejű, interaktív, alacsony késleltetésű követelmények vannak. A valós idejű ML-következtetési munkaterhelések tartalmazhatnak egy modell alapú ML-alkalmazást, ahol egy alkalmazásnak egyetlen kérés kiszolgálásához csak egy ML-modellre van szüksége, vagy egy többmodell-alapú ML-alkalmazást, ahol egy alkalmazásnak több ML-modellre van szüksége egyetlen kérelem kiszolgálásához. kérés.
Közel valós idejű (aszinkron) következtetés – A közel valós idejű következtetés segítségével sorba állíthatja a bejövő kéréseket. Ez felhasználható következtetések futtatására több száz MB-os bemeneteken. Szinte valós időben működik, és lehetővé teszi a felhasználók számára, hogy a bemenetet következtetésekre használják, és a végpont kimenetét egy S3 vödörből olvassák ki. Különösen hasznos lehet NLP és számítógépes látás esetén, ahol nagy rakományok vannak, amelyek hosszabb előfeldolgozási időt igényelnek.
Kötegelt következtetés – A kötegelt következtetés felhasználható a következtetések offline futtatására egy nagy adatkészleten. Mivel offline fut, a kötegelt következtetés nem kínálja a legalacsonyabb késleltetést. Itt a következtetési kérelmet egy kötegelt következtetési feladat ütemezett vagy eseményalapú triggerével dolgozza fel.
Szerver nélküli következtetés – A kiszolgáló nélküli következtetés ideális olyan munkaterhelésekhez, amelyeknél a forgalmi ugrások között üresjárati időszakok vannak, és elviselnek néhány extra másodperces késleltetést (hidegindítás) a tétlenségi időszak utáni első híváskor. Például egy chatbot-szolgáltatás vagy egy űrlapok feldolgozására vagy dokumentumokból származó adatok elemzésére szolgáló alkalmazás. Ebben az esetben érdemes lehet egy olyan online következtetési beállításra, amely képes a számítási kapacitás automatikus kiépítésére és méretezésére a következtetési kérelmek mennyisége alapján. Az üresjárati idő alatt pedig képesnek kell lennie arra, hogy teljesen kikapcsolja a számítási kapacitást, hogy ne töltődjön fel. A kiszolgáló nélküli következtetés megszünteti a kiszolgálók kiválasztásával és kezelésével járó megkülönböztethetetlenül nehéz terheket azáltal, hogy automatikusan elindítja a számítási erőforrásokat, és a forgalomtól függően be- és kicsinyíti azokat.

Használja a fitnesz függvényeket a megfelelő ML következtetési opció kiválasztásához

A megfelelő tárhelyválasztási lehetőség kiválasztása fontos, mert ez hatással van az alkalmazások által megjelenített végfelhasználókra. Ebből a célból kölcsönvesszük a fogalmat fitnesz funkciók, amelyet Neal Ford és az AWS Partner ThoughtWorks munkatársai alkottak meg munkájuk során Evolúciós építészet építése. A fitneszfunkciók az ügyfél céljai alapján előírható értékelést adnak a különféle hosting lehetőségekről. A fitnesz funkciók segítenek megszerezni a szükséges adatokat az architektúra tervezett fejlesztéséhez. Mérhető értékeket állítanak fel annak felmérésére, milyen közel áll az Ön megoldása a kitűzött célok eléréséhez. A fitnesz funkciókat az architektúra fejlődésével lehet és kell is adaptálni, hogy irányítsák a kívánt változási folyamatot. Ez olyan eszközt biztosít az építészek számára, amelyek irányíthatják csapataikat, miközben megőrzik a csapat autonómiáját.

Öt fő fitneszfunkció van, amelyekkel az ügyfelek fontosak, amikor a megfelelő ML következtetési opciót választják ML modelljeik és alkalmazásaik tárolására.

Fitness funkció	Leírás
Költség	Az ML-modell és az ML-alkalmazások méretezhető keretrendszeren történő üzembe helyezése és karbantartása kritikus üzleti folyamat, és a költségek nagymértékben változhatnak attól függően, hogy milyen döntéseket hoztak a modell hosting infrastruktúrájával, tárhelyszolgáltatásával, az ML keretrendszerekkel, az ML-modell jellemzőivel, az optimalizálásokkal, a méretezési szabályzattal, és több. A munkaterheléseknek optimálisan kell kihasználniuk a hardver infrastruktúrát, hogy biztosítsák a költségek ellenőrzését. Ez a fitnesz funkció kifejezetten az infrastruktúra költségére vonatkozik, amely a teljes birtoklási költség (TCO) részét képezi. Az infrastruktúra költségei a tárolás, a hálózat és a számítási költségek együttes költségei. Ugyancsak kritikus fontosságú a TCO egyéb összetevőinek megértése, beleértve a működési költségeket, valamint a biztonsági és megfelelőségi költségeket. A működési költségek az ML infrastruktúra üzemeltetésének, felügyeletének és karbantartásának együttes költségei. A működési költségeket az egyes forgatókönyvek alapján szükséges mérnökök száma és a mérnökök éves fizetése alapján számítják ki, egy adott időszakra összesítve. Saját kezelésű ML megoldásokat használó ügyfelek Amazon rugalmas számítási felhő (Amazon EC2), Amazon Elastic Container Service (Amazon ECS), és Amazon Elastic Kubernetes szolgáltatás (Amazon EKS) maguknak kell kiépíteniük az operatív eszközöket. A SageMakert használó ügyfeleknek lényegesen kevesebb TCO-t kell fizetniük. A SageMaker következtetés egy teljesen felügyelt szolgáltatás, és már a beépített képességeket biztosítja az ML modellek következtetések levonásához. Nincs szükség példányok kiépítésére, példány állapotának figyelésére, biztonsági frissítések vagy javítások kezelésére, működési metrikák kibocsátására, vagy felügyeleti kiépítésre az ML következtetési munkaterheléseihez. Beépített képességekkel rendelkezik a magas rendelkezésre állás és rugalmasság biztosítása érdekében. A SageMaker támogatja a biztonságot a végpontok közötti titkosítással nyugalmi állapotban és szállítás közben, beleértve a gyökérkötet és a Amazon Elastic Block Store (Amazon EBS) hangerő, Amazon Virtual Private Cloud (Amazon VPC) támogatás, AWS PrivateLink, ügyfél által kezelt kulcsok, AWS Identity and Access Management (IAM) finomszemcsés hozzáférés-vezérlés, AWS CloudTrail auditok, csomópontok közötti titkosítás a betanításhoz, címke alapú hozzáférés-vezérlés, hálózati leválasztás és interaktív alkalmazásproxy. Mindezek a biztonsági funkciók a SageMaker dobozából állnak, és a vállalkozások több tíz hónapnyi fejlesztési erőfeszítést takaríthatnak meg egy 3 éves időszak alatt. A SageMaker egy HIPAA-kompatibilis szolgáltatás, és PCI, SOC, GDPR és ISO tanúsítvánnyal rendelkezik. A SageMaker a FIPS végpontokat is támogatja. A TCO-val kapcsolatos további információkért lásd: Az Amazon SageMaker teljes tulajdonlási költsége.
Következtetési késleltetés	Sok ML-modell és alkalmazás késleltetési kritikus, amelyben a következtetési késleltetésnek a szolgáltatási szintű célkitűzés által meghatározott határokon belül kell lennie. A következtetés késleltetése számos tényezőtől függ, beleértve a modell méretét és összetettségét, a hardverplatformot, a szoftverkörnyezetet és a hálózati architektúrát. Például a nagyobb és összetettebb modelleknél tovább tarthat a következtetés futtatása.
Átbocsátóképesség (tranzakciók másodpercenként)	A modellkövetkeztetéshez az átviteli sebesség optimalizálása kulcsfontosságú a teljesítmény hangolása és az ML alkalmazás üzleti céljainak elérése szempontjából. Mivel továbbra is gyorsan fejlődünk az ML minden aspektusában, beleértve a matematikai műveletek alacsony szintű megvalósítását a chiptervezésben, a hardver-specifikus könyvtárak nagyobb szerepet játszanak a teljesítményoptimalizálásban. Különféle tényezők, mint például a hasznos terhelés mérete, a hálózati ugrások, az ugrások természete, a modell gráf jellemzői, a modell operátorai, valamint a tároló példányok CPU, GPU és memóriaprofilja befolyásolják az ML modell átviteli sebességét.
A méretezési konfiguráció összetettsége	Kulcsfontosságú, hogy az ML modellek vagy alkalmazások olyan méretezhető keretrendszeren fussanak, amely képes kezelni a változó forgalom igényeit. Ezenkívül lehetővé teszi a CPU és GPU erőforrások maximális kihasználását, és megakadályozza a számítási erőforrások túlzott kiépítését.
Várható forgalom	Az ML-modellek vagy alkalmazások eltérő forgalmi mintázattal rendelkezhetnek, a folyamatos valós idejű élő forgalomtól a másodpercenkénti több ezer kérés időszakos csúcsaiig, valamint a ritka, előre nem látható kérésmintáktól a nagyobb adatkészletek offline kötegelt kéréséig. Javasoljuk, hogy a várható forgalmi mintától visszafelé dolgozzon, hogy kiválassza a megfelelő tárhely-beállítást az ML-modellhez.

Modellek telepítése a SageMakerrel

SageMaker egy teljesen felügyelt AWS-szolgáltatás, amely minden fejlesztőnek és adattudósnak lehetőséget biztosít az ML-modellek gyors felépítésére, betanítására és nagyszabású üzembe helyezésére. A SageMaker következtetéssel üzembe helyezheti ML modelljeit a hosztolt végpontokon, és következtetési eredményeket kaphat. A SageMaker hardverek és szolgáltatások széles választékát kínálja a munkaterhelési követelményeknek megfelelően, lehetővé téve több mint 70 példánytípus kiválasztását hardveres gyorsítással. A SageMaker a SageMaker Inference Recommender nevű új szolgáltatás segítségével következtetési példánytípusokat is javasolhat arra az esetre, ha nem biztos abban, hogy melyik lenne a legoptimálisabb az Ön munkaterheléséhez.

Kiválaszthatja a felhasználási eseteinek legjobban megfelelő telepítési beállításokat, például valós idejű következtetést, aszinkron, kötegelt és akár kiszolgáló nélküli végpontokat is. Ezenkívül a SageMaker különféle telepítési stratégiákat kínál, mint például a kanári, kékeszöld, árnyék, és A/B tesztelés a modell üzembe helyezéséhez, valamint költséghatékony üzembe helyezés többmodelles, többtárolós végpontokkal és rugalmas skálázással. A SageMaker következtetés segítségével megtekintheti a végpontjainak teljesítménymutatóit amazonfelhőóra, automatikusan skálázza a végpontokat forgalom alapján, és frissítse modelljeit éles állapotban anélkül, hogy elveszítené a rendelkezésre állást.

A SageMaker négy lehetőséget kínál a modell üzembe helyezésére, így elkezdhet jóslatokat készíteni:

Valós idejű következtetés – Ez ezredmásodperces késleltetési követelményekkel, legfeljebb 6 MB hasznos adatmérettel és 60 másodperces feldolgozási idővel rendelkező munkaterhelésekhez alkalmas.
Kötegelt átalakítás – Ideális offline előrejelzésekhez nagy mennyiségű, előzetesen rendelkezésre álló adatra vonatkozóan.
Aszinkron következtetés – Ezt olyan munkaterhelésekhez tervezték, amelyek nem igényelnek másodperc alatti késleltetést, 1 GB-ig terjedő hasznos adatok mérete és 15 perces feldolgozási idő.
Szerver nélküli következtetés – A kiszolgáló nélküli következtetéssel gyorsan telepíthet ML-modelleket a következtetések levonására anélkül, hogy be kellene állítania vagy kezelnie kellene az alapul szolgáló infrastruktúrát. Ezenkívül csak a következtetési kérések feldolgozásához használt számítási kapacitásért kell fizetnie, ami ideális időszakos munkaterhelésekhez.

A következő diagram segíthet megérteni a SageMaker tárhelymodell telepítési lehetőségeit, valamint a kapcsolódó fitneszfunkciók értékelését.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Vizsgáljuk meg részletesebben az egyes telepítési lehetőségeket.

Valós idejű következtetés a SageMakerben

A SageMaker valós idejű következtetést akkor javasoljuk, ha folyamatos forgalommal rendelkezik, és alacsonyabb és állandó késleltetésre van szüksége a legfeljebb 6 MB hasznos adatmérettel és legfeljebb 60 másodperces feldolgozási idővel kapcsolatos kéréseihez. Telepíti a modellt a SageMaker hosting szolgáltatásokban, és kap egy végpontot, amelyből következtetéseket lehet levonni. Ezek a végpontok teljes mértékben felügyeltek, és támogatják az automatikus méretezést. A valós idejű következtetés népszerű olyan használati esetekben, amikor alacsony késleltetésű, szinkron választ vár előre megjósolható forgalmi mintákkal, például személyre szabott javaslatokat a termékekre és szolgáltatásokra vagy a tranzakciós csalások észlelésére vonatkozó használati esetekre.

Általában egy ügyfélalkalmazás kéréseket küld a SageMaker HTTPS-végpontnak, hogy következtetéseket vonjon le a telepített modellből. Egy modell több változatát is telepítheti ugyanarra a SageMaker HTTPS-végpontra. Ez hasznos egy modell változatainak teszteléséhez a gyártás során. Az automatikus méretezés lehetővé teszi, hogy dinamikusan módosítsa a modellhez kiépített példányok számát a munkaterhelés változásaira válaszul.

Az alábbi táblázat útmutatást ad a SageMaker valós idejű következtetéseinek kiértékeléséhez a fitnesz függvények alapján.

Fitness funkció	Leírás
Költség	A valós idejű végpontok szinkron választ adnak a következtetési kérésekre. Mivel a végpont mindig fut, és elérhető a valós idejű szinkron következtetési válasz biztosításához, fizetnie kell a példány használatáért. A költségek gyorsan összeadódnak, ha több végpontot telepít, különösen akkor, ha a végpontok nem használják ki teljesen az alapul szolgáló példányokat. A megfelelő példány kiválasztása a modellhez segít abban, hogy a legteljesítményesebb példányt kapja a legalacsonyabb költség mellett. Az automatikus méretezés javasolt a kapacitás dinamikus, forgalomtól függő beállításához, hogy a lehető legalacsonyabb költség mellett állandó és kiszámítható teljesítményt biztosítson. A SageMaker kiterjeszti a hozzáférést a Graviton2 és Graviton3 alapú ML példánycsaládokhoz. AWS Graviton A processzorokat az Amazon Web Services egyedileg építette 64 bites Arm Neoverse magok felhasználásával, hogy a legjobb árteljesítményt nyújtsák az Amazon EC2-n futó felhőalapú munkaterhelésekhez. A Graviton-alapú példányokkal több lehetőség áll rendelkezésére a költségek és a teljesítmény optimalizálására, amikor telepíti az ML-modelleket a SageMakeren. A SageMaker is támogatja Inf1 példányok, amely nagy teljesítményű és költséghatékony ML következtetést biztosít. Az 1–16 AWS Inferentia chipek Az Inf1 példányok teljesítménye skálázható, és akár háromszor nagyobb átviteli sebességet és akár 50%-kal alacsonyabb következtetésenkénti költséget biztosíthat az AWS GPU-alapú példányokhoz képest. Az Inf1 példányok SageMakerben való használatához a betanított modelleket a segítségével fordíthatja le Amazon SageMaker Neo és válassza ki az Inf1-példányokat a lefordított modell SageMakeren való üzembe helyezéséhez. Azt is felfedezheti Megtakarítási tervek a SageMaker számára akár 64%-os költségmegtakarítást is élvezhet az igény szerinti árhoz képest. Amikor létrehoz egy végpontot, a SageMaker egy EBS-tárolókötetet csatol minden egyes ML számítási példányhoz, amely a végpontot tárolja. A tárolókötet mérete a példány típusától függ. A valós idejű végpontok további költsége magában foglalja a GB-os kiépített tárhely költségét, valamint a végpontpéldányban feldolgozott GB-os adatokat és a GB-nyi adatfeldolgozást.
Következtetési késleltetés	A valós idejű következtetés ideális, ha állandó végpontra van szüksége ezredmásodperces késleltetési követelményekkel. Támogatja a 6 MB-ig terjedő hasznos adatméretet és akár 60 másodperces feldolgozási időt.
áteresztőképesség	A következtetési teljesítmény ideális értéke olyan tényezőktől függ, mint a modell, a modell bemeneti mérete, a köteg mérete és a végpontpéldány típusa. Bevált gyakorlatként tekintse át a CloudWatch mérőszámait a bemeneti kérelmekre és az erőforrás-felhasználásra vonatkozóan, és válassza ki a megfelelő példánytípust az optimális átviteli sebesség eléréséhez. Egy üzleti alkalmazás lehet optimalizált teljesítmény vagy késleltetés optimalizálva. Például a dinamikus kötegelés valós idejű következtetés segítségével növelheti a várakozási időre érzékeny alkalmazások átviteli sebességét. A köteg méretének azonban vannak korlátai, amelyek nélkül a következtetési késleltetés befolyásolható. A következtetési késleltetés nőni fog, ahogy növeli a köteg méretét az átviteli sebesség javítása érdekében. Ezért a valós idejű következtetés ideális lehetőség a késleltetésre érzékeny alkalmazásokhoz. A SageMaker aszinkron következtetési és kötegelt átalakítási lehetőségeket kínál, amelyek úgy vannak optimalizálva, hogy nagyobb átviteli sebességet adjanak a valós idejű következtetéshez képest, ha az üzleti alkalmazások valamivel magasabb késleltetést tudnak elviselni.
A méretezési konfiguráció összetettsége	A SageMaker valós idejű végpontok támogatása automatikus méretezés ki a dobozból. Amikor a munkaterhelés növekszik, az automatikus méretezés több példányt tesz elérhetővé. Amikor a munkaterhelés csökken, az automatikus méretezés eltávolítja a szükségtelen példányokat, és segít csökkenteni a számítási költségeket. Automatikus méretezés nélkül gondoskodnia kell a csúcsforgalomról vagy a kockázati modell elérhetetlenségéről. Hacsak a modell forgalma nem egyenletes a nap folyamán, több kihasználatlan kapacitás lesz. Ez alacsony kihasználtsághoz és erőforrás-pazarláshoz vezet. A SageMaker segítségével különböző méretezési beállításokat konfigurálhat a várható forgalmi minta alapján. Az egyszerű méretezés vagy a célkövetés skálázása ideális, ha egy adott CloudWatch-mutató alapján szeretne skálázni. Ezt egy adott mérőszám kiválasztásával és küszöbértékek beállításával teheti meg. Ehhez a beállításhoz az ajánlott mutatók átlagosak `CPUUtilization` or `SageMakerVariantInvocationsPerInstance`. Ha speciális konfigurációra van szüksége, beállíthat egy lépéses skálázási szabályzatot, amely dinamikusan állítja be a skálázandó példányok számát a riasztási megsértés mértéke alapján. Ez segít agresszívabb reakció konfigurálásában, amikor a kereslet elér egy bizonyos szintet. Használhat ütemezett skálázási beállítást, ha tudja, hogy a kereslet egy adott ütemezést követ a napon, héten, hónapban vagy évben. Ez segít meghatározni egy egyszeri ütemezést, ismétlődő ütemezést vagy cron kifejezéseket a kezdési és befejezési időpontokkal együtt, amelyek meghatározzák az automatikus skálázási művelet indulásának és leállásának határait. További részletek: Automatikus skálázási következtetési végpontok konfigurálása az Amazon SageMakerben és a Betöltési teszt és Amazon SageMaker végpont optimalizálása automatikus méretezéssel.
Forgalmi kör	A valós idejű következtetés ideális a folyamatos vagy rendszeres forgalmi mintázatú munkaterhelésekhez.

Aszinkron következtetés a SageMakerben

A SageMaker aszinkron következtetés a SageMaker új képessége, amely sorba állítja és aszinkron módon feldolgozza a bejövő kéréseket. Ez az opció ideális nagy hasznos adatmennyiséggel (akár 1 GB), hosszú feldolgozási időkkel (akár 15 perc) és közel valós idejű késleltetési követelményekkel kapcsolatos kérésekhez. Az aszinkron következtetések például az egészségügyi vállalatok, amelyek nagy felbontású orvosbiológiai képeket vagy videókat, például echokardiogramot dolgoznak fel az anomáliák kimutatására. Ezek az alkalmazások a nap különböző időpontjaiban fogadják a bejövő forgalmat, és közel valós idejű feldolgozást igényelnek alacsony költséggel. Ezeknek a kéréseknek a feldolgozási ideje percekig terjedhet, így nincs szükség valós idejű következtetés lefuttatására. Ehelyett a bemeneti hasznos terhek aszinkron módon feldolgozhatók egy objektumtárolóból, például az Amazon S3-ból, automatikus sorbanállással és előre meghatározott párhuzamossági küszöbértékkel. A feldolgozás során a SageMaker a következtetési választ a korábban visszaadott Amazon S3 helyre helyezi. Opcionálisan kiválaszthatja, hogy a következőn keresztül szeretne-e siker- vagy hibaértesítéseket kapni Amazon Simple Notification Service (Amazon SNS).

Az alábbi táblázat útmutatást ad a SageMaker aszinkron következtetéseinek a fitnesz függvények alapján történő kiértékeléséhez.

Fitness funkció	Leírás
Költség	Az aszinkron következtetés kiváló választás költségérzékeny munkaterhelésekhez, nagy hasznos terhelésekkel és sorozatos forgalommal. Az aszinkron következtetés lehetővé teszi a költségek megtakarítását azáltal, hogy automatikusan nullára skálázza a példányszámot, amikor nincs feldolgozandó kérés, így csak akkor kell fizetnie, ha a végpont kéréseket dolgoz fel. A nulla példányszám esetén kapott kérések a végpont felskálázása után feldolgozásra kerülnek.
Következtetési késleltetés	Az aszinkron következtetés ideális a közel valós idejű késleltetési követelményekhez. A kérelmek sorba kerülnek, és feldolgozásra kerülnek, amint a számítás elérhető. Ez általában több tíz ezredmásodperces késleltetést eredményez.
áteresztőképesség	Az aszinkron következtetés ideális nem késleltetésre érzékeny használati esetekben, mivel az alkalmazásoknak nem kell kompromisszumot kötniük az átviteli sebesség terén. A kéréseket a rendszer nem veti el a forgalmi csúcsok során, mert az aszinkron következtetési végpont a kéréseket sorba állítja, nem pedig eldobja őket.
A méretezési konfiguráció összetettsége	A SageMaker támogatja automatikus méretezés aszinkron végponthoz. A valós idejű hosztolt végpontokkal ellentétben az aszinkron következtetési végpontok támogatják a példányok nullára kicsinyítését a minimális kapacitás nullára állításával. Aszinkron végpontok esetén a SageMaker nyomatékosan javasolja, hogy hozzon létre egy házirend-konfigurációt a célkövetés skálázásához egy telepített modellhez (változathoz). Azoknál a felhasználási eseteknél, amelyek elviselik a néhány perces hidegindítási büntetést, opcionálisan lecsökkentheti a végpont példányok számát nullára, ha nincsenek függőben lévő kérések, és visszaléptetheti az új kérések érkezésekor, így csak a végpontok aktívan feldolgozzák a kéréseket.
Forgalmi kör	Az aszinkron végpontok sorba állítják a bejövő kéréseket, és aszinkron módon dolgozzák fel azokat. Jó választás időszakos vagy ritka forgalmi minták esetén.

Batch következtetés a SageMakerben

A SageMaker kötegelt transzformációja ideális offline előrejelzésekhez nagy mennyiségű, előre elérhető adatköteg esetén. A kötegelt átalakítás funkció egy nagy teljesítményű és nagy áteresztőképességű módszer az adatok átalakítására és következtetések generálására. Ideális olyan forgatókönyvekhez, ahol nagy adatkötegekkel van dolgunk, nincs szükség másodperc alatti késleltetésre, vagy egyszerre kell előfeldolgozni és átalakítani a betanítási adatokat. Bizonyos területeken, például a reklámozásban, a marketingben vagy az egészségügyben az ügyfeleknek gyakran offline előrejelzéseket kell készíteniük a hiperskálás adatkészleteken, ahol gyakran a nagy átviteli sebesség a használati eset célja, és a késleltetés nem aggodalomra ad okot.

Amikor egy kötegelt átalakítási feladat elindul, a SageMaker inicializálja a számítási példányokat, és elosztja közöttük a következtetési munkaterhelést. Felszabadítja az erőforrásokat, amikor a munkák befejeződtek, így Ön csak azért fizet, amit a munkája során felhasznált. Amikor a feladat befejeződött, a SageMaker elmenti az előrejelzési eredményeket egy Ön által megadott S3 tárolóba. A kötegelt következtetési feladatok általában jó jelöltek a vízszintes méretezéshez. A fürt minden dolgozója az adatok különböző részhalmazán dolgozhat anélkül, hogy információt kellene cserélnie más dolgozókkal. Az AWS többféle tárolási és számítási lehetőséget kínál, amelyek lehetővé teszik a vízszintes méretezést. A SageMaker kötegelt átalakítás példái közé tartoznak az offline alkalmazások, például a banki alkalmazások az ügyfelek lemorzsolódásának előrejelzésére, ahol időközönként ütemezhető egy offline feladat.

A következő táblázat útmutatást ad a SageMaker kötegelt transzformációjának a fitnesz függvények alapján történő kiértékeléséhez.

Fitness funkció	Leírás
Költség	A SageMaker kötegelt átalakítás lehetővé teszi előrejelzések futtatását nagy vagy kis kötegelt adatkészleteken. A választott példánytípusért kell fizetnie, a használat időtartama alapján. A SageMaker a feladat elején kezeli az erőforrások kiépítését, és felszabadítja azokat, amikor a feladat befejeződik. Nincs további adatfeldolgozási költség.
Következtetési késleltetés	Használhat eseményalapú vagy ütemezett hívást. A késleltetés a következtetési adatok méretétől, a feladatok egyidejűségétől, a modell összetettségétől és a számítási példány kapacitásától függően változhat.
áteresztőképesség	A kötegelt átalakítási feladatok számos adatkészleten elvégezhetők, a petabájtoktól a nagyon kis adatkészletekig. Nincs szükség a nagyobb adatkészletek kis adattömbökre való átméretezésére. Felgyorsíthatja a kötegelt átalakítási feladatokat, ha optimális értékeket használ olyan paraméterekhez, mint pl MaxPayloadInMB, MaxConcurrentTransformsvagy BatchStrategy. Ideális érték `MaxConcurrentTransforms` egyenlő a kötegelt átalakítási feladat számítási dolgozóinak számával. A kötegelt feldolgozás növelheti az átviteli sebességet és optimalizálhatja az erőforrásokat, mivel segít bizonyos időn belül nagyobb számú következtetés végrehajtásában a késleltetés rovására. A nagyobb átviteli sebesség érdekében a modell üzembe helyezésének optimalizálása érdekében az általános irányelv a köteg méretének növelése, amíg az átviteli sebesség csökken.
A méretezési konfiguráció összetettsége	A SageMaker kötegelt transzformációt olyan offline következtetésekhez használják, amelyek nem érzékenyek a késleltetésre.
Forgalmi kör	Az offline következtetéshez egy kötegelt átalakítási feladat ütemezése vagy eseményalapú trigger használatával indul el.

Szerver nélküli következtetés a SageMakerben

A SageMaker kiszolgáló nélküli következtetés lehetővé teszi az ML modellek telepítését a következtetések levonásához anélkül, hogy konfigurálnia vagy felügyelnie kellene az alapul szolgáló infrastruktúrát. A modell által kapott következtetési kérelmek mennyisége alapján a SageMaker kiszolgáló nélküli következtetései automatikusan létrehozzák, méretezik és kikapcsolják a számítási kapacitást. Ennek eredményeként csak a következtetési kód futtatásához szükséges számítási időért és a feldolgozott adatok mennyiségéért kell fizetnie, a tétlenségért nem. Használhatja a SageMaker beépített algoritmusait és az ML-keretrendszer-kiszolgáló tárolókat, hogy telepítse a modellt egy kiszolgáló nélküli következtetési végpontra, vagy dönthet úgy, hogy hozza saját tárolóját. Ha a forgalom kiszámíthatóvá és stabillá válik, könnyedén frissíthet egy kiszolgáló nélküli következtetési végpontról egy valós idejű SageMaker végpontra anélkül, hogy módosítania kellene a tárolóképet. A kiszolgáló nélküli következtetéssel a SageMaker egyéb funkcióiból is profitálhat, beleértve a beépített mérőszámokat, például a hívások számát, a hibákat, a késleltetést, a gazdagép mérőszámait és a CloudWatch hibáit.

Az alábbi táblázat útmutatást ad a SageMaker kiszolgáló nélküli következtetéseinek a fitnesz függvények alapján történő kiértékeléséhez.

Fitness funkció	Leírás
Költség	A felosztó-kirovó modellben a kiszolgáló nélküli következtetés költséghatékony megoldás, ha ritka vagy időszakos forgalmi mintázatokkal rendelkezik. Csak addig az időtartamig kell fizetnie, ameddig a végpont feldolgozza a kérést, és ezért költséget takaríthat meg, ha a forgalmi minta szakaszos.
Következtetési késleltetés	A kiszolgáló nélküli végpontok alacsony következtetési késleltetést kínálnak (ezredmásodperctől másodpercig terjedő nagyságrendben), és a használati minták alapján másodperceken belül azonnal skálázhatók tízről több ezer következtetésre, így ideálisak a szakaszos vagy kiszámíthatatlan forgalommal rendelkező ML alkalmazásokhoz. Mivel a kiszolgáló nélküli végpontok kiépítése igény szerint számítja ki az erőforrásokat, a végpont néhány további másodperces késleltetést (hidegindítás) tapasztalhat a tétlenségi időszak utáni első híváskor. A hidegindítási idő a modell méretétől, a modell letöltésének időtartamától és a tároló indítási idejétől függ.
áteresztőképesség	A kiszolgáló nélküli végpont konfigurálásakor megadhatja a memória méretét és az egyidejű hívások maximális számát. A SageMaker szerver nélküli következtetés automatikusan hozzárendeli a számítási erőforrásokat a kiválasztott memóriával arányosan. Ha nagyobb memóriaméretet választ, a tároló több vCPU-hoz fér hozzá. Általános szabály, hogy a memória méretének legalább akkorának kell lennie, mint a modell mérete. A választható memóriaméretek: 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB és 6144 MB. A választott memória méretétől függetlenül a kiszolgáló nélküli végpontok 5 GB átmeneti lemeztárral rendelkeznek.
A méretezési konfiguráció összetettsége	A kiszolgáló nélküli végpontok automatikusan elindítják a számítási erőforrásokat, és a forgalomtól függően be- és kicsinyítik azokat, így nincs szükség a példánytípusok kiválasztására vagy a méretezési házirendek kezelésére. Ez csökkenti a kiszolgálók kiválasztásával és kezelésével járó, megkülönböztethetetlenül nehéz terheket.
Forgalmi kör	A kiszolgáló nélküli következtetés ideális olyan munkaterhelésekhez, amelyekben ritkán vagy időszakos forgalmi mintázatok jelentkeznek.

Modelltárhely tervezési minták a SageMakerben

A SageMaker következtetési végpontok Docker-tárolókat használnak az ML-modellek tárolására. A konténerek lehetővé teszik a szoftverek szabványos egységekbe történő csomagolását, amelyek konzisztensen futnak bármely, a Dockert támogató platformon. Ez biztosítja a platformok közötti hordozhatóságot, változtathatatlan infrastruktúra-telepítéseket, valamint egyszerűbb változáskezelést és CI/CD implementációkat. A SageMaker előre beépített felügyelt konténereket biztosít olyan népszerű keretrendszerekhez, mint az Apache MXNet, TensorFlow, PyTorch, Sklearn és Hugging Face. Az elérhető SageMaker tárolóképek teljes listáját lásd: Elérhető Deep Learning Containers képek. Abban az esetben, ha a SageMaker nem rendelkezik támogatott tárolóval, saját tárolót (BYOC) is készíthet, és saját egyéni lemezképet küldhet, telepítve a modellhez szükséges függőségeket.

Egy modell SageMakeren való üzembe helyezéséhez szüksége van egy tárolóra (SageMaker által felügyelt keretrendszer-tárolók vagy BYOC) és egy számítási példányra a tároló hosztolásához. A SageMaker számos speciális beállítást támogat a gyakori ML-modell-tárhely-tervezési mintákhoz, ahol a modellek egyetlen tárolón vagy közösen egy megosztott tárolón tárolhatók.

Egy valós idejű ML-alkalmazás egyetlen vagy több modellt is használhat egyetlen előrejelzési kérés kiszolgálására. A következő diagram különböző következtetési forgatókönyveket mutat be egy ML-alkalmazáshoz.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Fedezze fel a megfelelő SageMaker tárhely opciót az előző következtetési forgatókönyvek mindegyikéhez. A fitneszfunkciók segítségével felmérheti, hogy az adott használati esetnek megfelelő-e.

Egymodell alapú ML alkalmazás tárolása

A telepítési forgatókönyvtől függően számos lehetőség kínálkozik az egymodell alapú ML-alkalmazások üzemeltetésére a SageMaker hosting szolgáltatások használatával.

Egymodell végpont

A SageMaker egymodelles végpontjai lehetővé teszik, hogy egy modellt tároljon egy dedikált példányokon tárolt tárolóban az alacsony késleltetés és a nagy átvitel érdekében. Ezek a végpontok teljes mértékben felügyeltek, és támogatják az automatikus méretezést. Az egymodelles végpontot beállíthatja kiépített végpontként, ahol átadja a végpont infrastruktúra konfigurációját, például a példány típusát és számát, vagy kiszolgáló nélküli végpontként, ahol a SageMaker automatikusan elindítja a számítási erőforrásokat, és a forgalomtól függően be- és kicsinyíti azokat, így nincs szükség rá. példánytípusok kiválasztásához vagy méretezési házirendek kezeléséhez. A kiszolgáló nélküli végpontok időszakos vagy előre nem látható forgalmú alkalmazásokhoz valók.

A következő diagram egymodell végpont-következtetési forgatókönyveket mutat be.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

A következő táblázat útmutatást ad egy kiépített egymodell végpont alkalmassági függvényeinek értékeléséhez. A kiszolgáló nélküli végpont alkalmassági funkcióinak értékeléséhez tekintse meg a kiszolgáló nélküli végpont szakaszt ebben a bejegyzésben.

Fitness funkció	Leírás
Költség	A választott példánytípus használatáért díjat kell fizetnie. Mivel a végpont mindig fut és elérhető, a költségek gyorsan összeadódnak. A megfelelő példány kiválasztása a modellhez segít abban, hogy a legteljesítményesebb példányt kapja a legalacsonyabb költség mellett. Az automatikus méretezés javasolt a kapacitás dinamikus, forgalomtól függő beállításához, hogy a lehető legalacsonyabb költség mellett állandó és kiszámítható teljesítményt biztosítson.
Következtetési késleltetés	Az egymodellű végpont valós idejű, interaktív, szinkron következtetést biztosít ezredmásodperces késleltetési követelményekkel.
áteresztőképesség	Az átviteli teljesítményt számos tényező befolyásolhatja, például a modell bemeneti mérete, a köteg mérete, a végpontpéldány típusa és így tovább. Javasoljuk, hogy tekintse át a CloudWatch mérőszámait a bemeneti kérések és az erőforrás-kihasználás tekintetében, és válassza ki a megfelelő példánytípust az optimális átviteli sebesség elérése érdekében. A SageMaker szolgáltatásokat kínál az erőforrások kezelésére és a következtetési teljesítmény optimalizálására az ML modellek telepítésekor. tudsz optimalizálja a modell teljesítményét a Neo segítségével, vagy használjon Inf1-példányokat a SageMaker által üzemeltetett modellek jobb átviteléhez, a végponthoz GPU-példány használatával.
A méretezési konfiguráció összetettsége	Az automatikus méretezés már a dobozból is támogatott. A SageMaker azt javasolja, hogy válasszon megfelelőt méretezési konfiguráció előadásával terhelési tesztek.
Forgalmi kör	Az egymodellű végpont ideális a kiszámítható forgalmi mintákkal rendelkező munkaterhelésekhez.

Több modell közös üzemeltetése

Ha nagyszámú modellel van dolgunk, mindegyiknek egy külön végponton, dedikált tárolóval és példánysal történő üzembe helyezése jelentős költségnövekedést eredményezhet. Ezen túlmenően az is megnehezíti a gyártásban lévő sok modell kezelését, különösen akkor, ha nem kell egyszerre meghívnia az összes modellt, de mindig elérhetőnek kell lennie. Több modell együttes üzemeltetése ugyanazon a mögöttes számítási erőforráson megkönnyíti az ML-telepítések nagyarányú kezelését, és csökkenti a hosztolási költségeket a végpont és a mögöttes számítási erőforrások fokozottabb használatának köszönhetően. A SageMaker támogatja a fejlett modelltársítási lehetőségeket, mint például a multi-model endpoint (MME) a homogén modelleknél és a multi-container endpoint (MCE) a heterogén modelleknél. A homogén modellek ugyanazt az ML keretrendszert használják egy megosztott szolgáltatási tárolón, míg a heterogén modellek lehetővé teszik több olyan kiszolgáló tároló telepítését, amelyek különböző modelleket vagy keretrendszereket használnak egyetlen végponton.

A következő diagram a SageMaker segítségével történő modelltárs üzemeltetési lehetőségeket mutatja be.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

SageMaker többmodell végpontok

SageMaker MME-k lehetővé teszi több modell hosztolását egy megosztott kiszolgáló tároló használatával egyetlen végponton. Ez egy méretezhető és költséghatékony megoldás nagyszámú olyan modell telepítéséhez, amelyek ugyanazt a használati esetet, keretrendszert vagy következtetési logikát szolgálják. Az MME-k dinamikusan tudnak kiszolgálni kéréseket a hívó által meghívott modell alapján. Csökkenti a telepítési többletköltséget is, mivel a SageMaker kezeli a modellek betöltését a memóriába, és a hozzájuk érkező forgalmi minták alapján méretezi azokat. Ez a funkció akkor ideális, ha sok hasonló modellel rendelkezik, amelyeket megosztott kiszolgálókonténeren keresztül is kiszolgálhat, és nem kell egyszerre hozzáférnie az összes modellhez. A több modellből álló végpontok lehetővé teszik a memória-erőforrások időmegosztását is a modellek között. Ez akkor működik a legjobban, ha a modellek mérete és hívási késleltetése meglehetősen hasonló, így az MME-k hatékonyan használhatják a példányokat az összes modellben. A SageMaker MME-k támogatják a CPU és a GPU által támogatott modellek tárolását is. A GPU-támogatott modellek használatával csökkentheti a modell üzembe helyezési költségeit a végpont és a mögöttes gyorsított számítási példányok fokozottabb használatán keresztül. Az MME-k valós használatához lásd: A gépi tanulási következtetések méretezése több-bérlős SaaS-használati esetekhez.

Az alábbi táblázat útmutatást ad az MME-k fitneszfunkcióinak értékeléséhez.

Fitness funkció	Leírás
Költség	Az MME-k lehetővé teszik egy megosztott kiszolgáló tároló használatát több ezer modell egyetlen végponton történő tárolására. Ez jelentősen csökkenti az üzemeltetési költségeket a végpontok kihasználtságának javításával az egymodell végpontok használatához képest. Például, ha 10 modellt kell telepítenie egy ml.c5.large példány használatával, amely alapján SageMaker árképzés, a 10 egymodellből álló állandó végpont költsége: 10 * 0.102 USD = 1.02 USD óránként. Míg egy MME-vel, amely a 10 modellt tárolja, tízszeres költségmegtakarítást érünk el: 10 * 1 USD = 0.102 USD óránként.
Következtetési késleltetés	Alapértelmezés szerint az MME-k gyorsítótárazzák a gyakran használt modelleket a memóriában és a lemezen, hogy alacsony késleltetésű következtetéseket lehessen levonni. A gyorsítótárazott modellek csak akkor töltődnek ki vagy törlődnek a lemezről, ha egy tárolóban elfogy a memória vagy a lemezterület egy újonnan megcélzott modellhez. Az MME-k lehetővé teszik a modellek lusta betöltését, ami azt jelenti, hogy a modellek az első meghíváskor betöltődnek a memóriába. Ez optimalizálja a memória kihasználtságát; azonban az első terhelésnél megugrik a válaszidő, ami hidegindítási problémát okoz. Ezért az MME-k jól illeszkednek olyan forgatókönyvekhez is, amelyek elviselik az alkalmi hidegindítással kapcsolatos késleltetési büntetéseket, amelyek ritkán használt modellek meghívásakor jelentkeznek. Az ML-alkalmazások késleltetési és átviteli céljainak teljesítése érdekében a GPU-példányokat részesítik előnyben a CPU-példányokkal szemben (a GPU-k által kínált számítási teljesítmény miatt). A GPU MME-támogatásával több ezer mély tanulási modellt telepíthet egyetlen SageMaker-végpont mögé. Az MME-k több modellt is futtathatnak egy GPU-magon, megoszthatják a GPU-példányokat egy végpont mögött több modell között, és dinamikusan betölthetik és törölhetik a modelleket a bejövő forgalom alapján. Ezzel jelentősen megtakaríthatja a költségeket és a legjobb árteljesítményt érheti el. Ha az Ön használati esete lényegesen magasabb másodpercenkénti tranzakciókat (TPS) vagy késleltetési követelményeket igényel, javasoljuk, hogy a modelleket dedikált végpontokon tárolja.
áteresztőképesség	Az MME-következtetési átvitel ideális értéke olyan tényezőktől függ, mint a modell, a hasznos adat mérete és a végpontpéldány típusa. A nagyobb mennyiségű példánymemória lehetővé teszi, hogy több modell legyen betöltve, és készen álljon a következtetési kérések kiszolgálására. Nem kell időt pazarolnia a modell betöltésére. A nagyobb számú vCPU lehetővé teszi több egyedi modell egyidejű meghívását. Az MME-k dinamikusan betöltik és kirakják a modellt a példánymemóriába és onnan, ami befolyásolhatja az I/O teljesítményt. A SageMaker MME-k GPU-val működnek NVIDIA Triton következtetés szerver, amely egy nyílt forráskódú következtetést kiszolgáló szoftver, amely leegyszerűsíti a következtetések kiszolgálásának folyamatát, és magas következtetési teljesítményt biztosít. A SageMaker betölti a modellt az NVIDIA Triton tároló memóriájába egy GPU-gyorsított példányon, és kiszolgálja a következtetési kérést. A GPU magot egy példányban lévő összes modell megosztja. Ha a modell már be van töltve a tárolómemóriába, a következő kérések gyorsabban kerülnek kiszolgálásra, mivel a SageMakernek nem kell letöltenie és újra betöltenie. A sikeres éles telepítéseknél megfelelő teljesítményteszt és -elemzés javasolt. A SageMaker CloudWatch mérőszámokat biztosít a többmodelles végpontokhoz, így meghatározhatja a végponthasználatot és a gyorsítótár találati arányát a végpont optimalizálása érdekében.
A méretezési konfiguráció összetettsége	A SageMaker többmodelles végpontjai teljes mértékben támogatják az automatikus méretezést, amely a modellek replikáit kezeli, hogy biztosítsa a modellek forgalmi mintákon alapuló méretezését. A végpont automatikus skálázásához szükséges példányok optimális méretének meghatározásához azonban megfelelő terhelési tesztelés javasolt. Az MME flotta megfelelő méretezése fontos, hogy elkerüljük a túl sok modell kirakodását. Ha több száz modellt tölt be néhány nagyobb példányra, akkor bizonyos esetekben szabályozás léphet fel, és előnyösebb lehet több és kisebb példány használata. A SageMaker automatizált modellméretezésének előnyeinek kihasználásához győződjön meg arról, hogy rendelkezik példány automatikus skálázás beállítása további példánykapacitás biztosítására. Állítsa be a végpont-szintű skálázási szabályzatot egyéni paraméterekkel vagy percenkénti hívásokkal (ajánlott), hogy további példányokat adjon a végpontflottához. Az automatikus skálázási esemény kiváltására használt hívási arányok a végpont által kiszolgált modellek teljes készletére vonatkozó előrejelzések összesített halmazán alapulnak.
Forgalmi kör	Az MME-k ideálisak, ha sok hasonló méretű modellel rendelkezik, amelyeket megosztott kiszolgálókonténeren keresztül tud kiszolgálni, és nem kell egyszerre hozzáférnie az összes modellhez.

SageMaker többtárolós végpontok

SageMaker MCE-k támogatja akár 15 olyan tároló telepítését, amelyek különböző modelleket vagy keretrendszereket használnak egyetlen végponton, és ezek önállóan vagy egymás után történő meghívását az alacsony késleltetésű következtetések és a költségmegtakarítás érdekében. A modellek lehetnek teljesen heterogének, saját, független tálalókészlettel. Ha több modellt biztonságosan tárol különböző keretrendszerekből egyetlen példányon, akkor akár 90%-ot is megtakaríthat a költségeken.

Az MCE-hívási minták a következők:

Következtetési csővezetékek – Az MME-ben lévő tárolók lineáris sorozatban hívhatók meg, más néven a soros következtetési csővezeték. Általában az előfeldolgozás, a modellkövetkeztetés és az utófeldolgozás független tárolókba történő szétválasztására szolgálnak. Az aktuális tároló kimenete bemenetként kerül átadásra a következőhöz. A SageMakerben egyetlen folyamatmodellként jelennek meg. Egy következtetési folyamat MME-ként telepíthető, ahol a folyamatban lévő egyik tároló dinamikusan tud kiszolgálni kéréseket a meghívott modell alapján.
Közvetlen felszólítás - Val vel közvetlen felszólítás, a kérés elküldhető egy MCE-n tárolt konkrét következtetési tárolóhoz.

Az alábbi táblázat útmutatást ad az MCE-k fitneszfunkcióinak értékeléséhez.

Fitness funkció	Leírás
Költség	Az MCE-k lehetővé teszik akár 15 különböző ML-tároló futtatását egyetlen végponton, és ezek egymástól függetlenül történő meghívását, ezáltal költséget takaríthat meg. Ez a beállítás akkor ideális, ha több modell fut különböző kiszolgálóvermen, hasonló erőforrásigényekkel, és ha az egyes modellek nem rendelkeznek elegendő forgalommal a végpontpéldányok teljes kapacitásának kihasználásához. Az MCE-k ezért költséghatékonyabbak, mint az egymodelles végpontok. Az MCE-k szinkron következtetési választ kínálnak, ami azt jelenti, hogy a végpont mindig elérhető, és fizetni kell a példány üzemidejéért. A költségek a példányok számától és típusától függően növekedhetnek.
Következtetési késleltetés	Az MCE-k ideálisak olyan ML-alkalmazások futtatásához, amelyek mindegyik modellhez eltérő ML-keretrendszerrel és algoritmusokkal rendelkeznek, amelyek ritkán érhetők el, de még mindig alacsony késleltetésű következtetést igényelnek. A modellek mindig rendelkezésre állnak az alacsony késleltetésű következtetésekhez, és nincs hidegindítási probléma.
áteresztőképesség	Az MCE-k legfeljebb 15 tárolót tartalmazhatnak egy több tárolóból álló végponton, és a GPU-következtetés nem támogatott az erőforrások versengése miatt. A közvetlen meghívási módot használó többtárolós végpontok esetén a SageMaker nemcsak példányszintű mérőszámokat biztosít, mint más gyakori végpontoknál, hanem támogatja a tárolónkénti mérőszámokat is. Bevált gyakorlatként tekintse át a CloudWatch mérőszámait a bemeneti kérelmekre és az erőforrás-felhasználásra vonatkozóan, és válassza ki a megfelelő példánytípust az optimális átviteli sebesség elérése érdekében.
A méretezési konfiguráció összetettsége	Az MCE-k támogatják az automatikus skálázást. Az automatikus méretezés konfigurálásához azonban azt javasoljuk, hogy az egyes tárolókban lévő modellek hasonló CPU-használatot és késleltetést mutassanak minden következtetési kérésnél. Ez azért javasolt, mert ha a többtárolós végpontra irányuló forgalom alacsony CPU-kihasználású modellről magas CPU-kihasználtságú modellre tolódik el, de a teljes hívásmennyiség változatlan marad, a végpont nem skálázódik ki, és előfordulhat, hogy nincs elég példány. hogy kezelje a magas CPU kihasználtságú modellhez intézett összes kérést.
Forgalmi kör	Az MCE-k ideálisak a folyamatos vagy rendszeres forgalmi mintákkal járó munkaterhelésekhez, olyan modellek üzemeltetéséhez különböző keretrendszereken (például TensorFlow, PyTorch vagy Sklearn), amelyek esetleg nem rendelkeznek elegendő forgalommal egy végpontpéldány teljes kapacitásának telítéséhez.

Több modell alapú ML alkalmazás tárolása

Sok üzleti alkalmazásnak több ML-modellt kell használnia ahhoz, hogy egyetlen előrejelzési kérést szolgáltasson ki fogyasztóinak. Például egy kiskereskedelmi vállalat, amely ajánlásokat kíván nyújtani felhasználóinak. Az ML alkalmazás ebben a használati esetben különböző egyéni modelleket szeretne használni a különböző termékkategóriák ajánlásához. Ha a cég egyéni felhasználói adatok felhasználásával szeretné személyre szabni az ajánlásokat, tovább nő az egyedi modellek száma. Az egyes egyedi modellek külön számítási példányon való tárolása nemcsak költséges, hanem a tárhely-erőforrások alulkihasználásához is vezet, ha nem minden modellt gyakran használnak. A SageMaker hatékony tárhely-lehetőségeket kínál többmodell alapú ML alkalmazásokhoz.

A következő diagram a SageMaker-t használó egyetlen végpont többmodell-tárhely-lehetőségeit mutatja be.

Model hosting patterns in Amazon SageMaker, Part 1: Common design patterns for building ML applications on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Soros következtetési folyamat

A következtetési folyamat egy SageMaker modell, amely 2–15 tárolóból álló lineáris sorozatból áll, amelyek feldolgozzák az adatokra vonatkozó következtetési kéréseket. Következtetési folyamatot használ az előre betanított SageMaker beépített algoritmusok és a Docker-tárolókba csomagolt saját egyéni algoritmusok bármilyen kombinációjának meghatározására és üzembe helyezésére. Következtetési folyamat segítségével kombinálhatja az előfeldolgozási, előrejelzési és utófeldolgozási adattudományi feladatokat. Az egyik tároló kimenete bemenetként kerül átadásra a következőbe. Egy folyamatmodell tárolóinak meghatározásakor meg kell adni a tárolók futtatásának sorrendjét is. A SageMakerben egyetlen folyamatmodellként jelennek meg. A következtetési folyamat MME-ként telepíthető, ahol a folyamatban lévő egyik tároló dinamikusan kiszolgálhatja a kéréseket a meghívott modell alapján. Azt is futtathatja a kötegelt átalakítás feladat egy következtetési csővezetékkel. A következtetési csővezetékek teljes körűen kezelhetők.

Az alábbi táblázat útmutatást ad az ML-modell-tárhely alkalmassági függvényeinek kiértékeléséhez soros következtetési folyamat segítségével.

Fitness funkció	Leírás
Költség	A soros következtetési folyamat lehetővé teszi akár 15 különböző ML-tároló futtatását egyetlen végponton, ami a következtetési tárolók üzemeltetésének költséghatékonyságát eredményezi. A funkció használata nem jár további költségekkel. Csak a végponton futó példányokért kell fizetnie. A költségek a példányok számától és típusától függően növekedhetnek.
Következtetési késleltetés	Ha egy ML-alkalmazás következtetési folyamatként van üzembe helyezve, a különböző modellek közötti adatok nem hagyják el a tárolóteret. A szolgáltatásfeldolgozás és a következtetések alacsony késleltetéssel futnak, mivel a tárolók ugyanazon az EC2-példányon találhatók.
áteresztőképesség	Egy következtetési folyamatmodellben a SageMaker a meghívásokat HTTP-kérések sorozataként kezeli. A csővezeték első tárolója kezeli a kezdeti kérést, majd a közbenső választ kérésként küldi el a második tárolónak, és így tovább, a folyamatban lévő minden egyes tárolóhoz. A SageMaker visszaküldi a végső választ az ügyfélnek. Az átviteli sebesség olyan tényezőktől függ, mint a modell, a modell bemeneti mérete, a köteg mérete és a végpontpéldány típusa. Bevált gyakorlatként tekintse át a CloudWatch mérőszámait a bemeneti kérelmekre és az erőforrás-felhasználásra vonatkozóan, és válassza ki a megfelelő példánytípust az optimális átviteli sebesség eléréséhez.
A méretezési konfiguráció összetettsége	A soros következtetési folyamatok támogatják az automatikus skálázást. Az automatikus méretezés konfigurálásához azonban azt javasoljuk, hogy az egyes tárolókban lévő modellek hasonló CPU-használatot és késleltetést mutassanak minden következtetési kérésnél. Ez azért ajánlott, mert ha a több tárolóból álló végpontra irányuló forgalom alacsony CPU kihasználtságú modellről magas CPU kihasználtságú modellre tolódik el, de a teljes hívásmennyiség változatlan marad, akkor a végpont nem skálázódik ki, és előfordulhat, hogy nem lesz elegendő példány kezeli az összes kérést a magas CPU kihasználtságú modellhez.
Forgalmi kör	A soros következtetési folyamatok ideálisak kiszámítható forgalmi mintákhoz olyan modellekkel, amelyek szekvenciálisan futnak ugyanazon a végponton.

Modell-együttesek telepítése (Triton DAG):

A SageMaker integrációt kínál NVIDIA Triton következtetés szerver keresztül Triton Inference Server tárolók. Ezek a tárolók magukban foglalják az NVIDIA Triton Inference Servert, a közös ML keretrendszerek támogatását és a hasznos környezeti változókat, amelyek lehetővé teszik a SageMaker teljesítményének optimalizálását. Az NVIDIA Triton konténerképekkel könnyedén kiszolgálhatja az ML modelleket, és kihasználhatja az NVIDIA Triton által biztosított teljesítményoptimalizálást, dinamikus kötegelést és több keretrendszert is. A Triton segít maximalizálni a GPU és a CPU kihasználtságát, tovább csökkentve a következtetések költségeit.

Az olyan üzleti felhasználási esetekben, amikor az ML-alkalmazások több modellt használnak egy előrejelzési kérés kiszolgálására, és ha mindegyik modell más keretrendszert használ, vagy külön példányon tárolják, az megnövekedett munkaterheléshez és költségekhez, valamint a teljes várakozási idő növekedéséhez vezethet. A SageMaker NVIDIA Triton Inference Server támogatja az összes főbb keretrendszerből származó modellek telepítését, mint például a TensorFlow GraphDef, TensorFlow SavedModel, ONNX, PyTorch TorchScript, TensorRT és Python/C++ modellformátumok stb. A Triton modellegyüttes egy vagy több modellből vagy elő- és utófeldolgozási logikából álló csővezetéket, valamint a köztük lévő bemeneti és kimeneti tenzorok kapcsolatát reprezentálja. Egy együtteshez intézett egyetlen következtetési kérés elindítja a teljes folyamat futtatását. A Triton több beépített ütemező és kötegelő algoritmussal is rendelkezik, amelyek egyesítik az egyedi következtetési kéréseket a következtetések átviteli sebességének javítása érdekében. Ezek az ütemezési és kötegelési döntések átláthatóak a következtetést kérő ügyfél számára. A modellek CPU-n vagy GPU-n is futtathatók a maximális rugalmasság és a heterogén számítási követelmények támogatása érdekében.

Több GPU-támogatott modell tárolása több modelles végpontokon keresztül támogatott SageMaker Triton következtetési kiszolgáló. Az NVIDIA Triton Inference Server kibővült egy MME API szerződés, az MME-kkel való integrációhoz. Használhatja az NVIDIA Triton Inference Servert, amely modelltár-konfigurációt hoz létre a különböző keretrendszer-háttérrendszerekhez, hogy telepítsen egy MME-t automatikus skálázással. Ez a funkció lehetővé teszi több száz hiper-személyre szabott modell skálázását, amelyek finomhangolása az AI-alkalmazások egyedi végfelhasználói élményeinek megfelelő. Ezt a funkciót arra is használhatja, hogy töredékes GPU-kat használva megfelelő árteljesítményt érjen el a következtetési alkalmazás számára. További információért lásd: Futtasson több mély tanulási modellt GPU-n az Amazon SageMaker többmodell végpontjaival.

A következő táblázat útmutatást ad az ML-modell-tárhely alkalmassági funkcióinak értékeléséhez GPU-támogatással rendelkező MME-ket használó Triton következtetési tárolókon. Az egymodelles végpontok és a kiszolgáló nélküli végpontok alkalmassági függvényeinek értékeléséhez tekintse meg a bejegyzés korábbi szakaszait.

Fitness funkció	Leírás
Költség	A Triton Inference Servert használó GPU-támogatással rendelkező SageMaker MME-k méretezhető és költséghatékony módot kínálnak nagyszámú mély tanulási modell telepítésére egy SageMaker-végpont mögé. Az MME-kkel több modell is megosztja a GPU-példányt egy végpont mögött. Ez lehetővé teszi, hogy megtörje a több modell hosztolásának lineárisan növekvő költségeit, és az infrastruktúrát az összes modellben újra felhasználja. Fizetni kell a példány üzemidejéért.
Következtetési késleltetés	A Triton Inference Serverrel rendelkező SageMaker kifejezetten az átviteli sebesség és a hardver kihasználtságának maximalizálására készült, rendkívül alacsony (egy számjegyű ezredmásodperces) következtetési késleltetéssel. Támogatott ML keretrendszerek (többek között TensorFlow, PyTorch, ONNX, XGBoost és NVIDIA TensorRT) és infrastruktúra-háttérrendszerek széles skálájával rendelkezik, beleértve az NVIDIA GPU-kat, CPU-kat és AWS Inferentia. A SageMaker Triton Inference Servert használó GPU MME támogatásával több ezer mély tanulási modellt telepíthet egyetlen SageMaker végpont mögé. A SageMaker betölti a modellt az NVIDIA Triton tároló memóriájába egy GPU-gyorsított példányon, és kiszolgálja a következtetési kérést. A GPU magot egy példányban lévő összes modell megosztja. Ha a modell már be van töltve a tárolómemóriába, a következő kérések gyorsabban kerülnek kiszolgálásra, mivel a SageMakernek nem kell letöltenie és újra betöltenie.
áteresztőképesség	Az MME-k több mély tanulási vagy ML modell egyidejű futtatását kínálják a GPU-n a Triton Inference Server segítségével. Ez lehetővé teszi az NVIDIA Triton több keretrendszerű, nagy teljesítményű következtetési szolgáltatás egyszerű használatát a SageMaker teljes körűen felügyelt modellelhelyezésével. A Triton támogatja az összes NVIDIA GPU-, x86-, Arm® CPU- és AWS Inferentia-alapú következtetést. Dinamikus kötegelést, párhuzamos futtatásokat, optimális modellkonfigurációt, modellegyüttest, valamint streaming audio- és videobemeneteket kínál az átviteli sebesség és a kihasználtság maximalizálása érdekében. Más tényezők, például a hálózat és a hasznos teher mérete minimális szerepet játszhatnak a következtetéshez kapcsolódó többletterhelésben.
A méretezési konfiguráció összetettsége	Az MME-k vízszintesen méretezhetnek egy automatikus skálázási házirend segítségével, és további GPU-számítási példányokat biztosíthatnak olyan metrikák alapján, mint pl. `InvocationsPerInstance` és a `GPUUtilization` az MME-végpontok felé irányuló forgalomnövekedés kiszolgálására. A Triton következtetési kiszolgálóval egyszerűen létrehozhat egy egyedi tárolót, amely tartalmazza a modelljét a Tritonnal, és átviheti a SageMakerbe. A SageMaker Inference kezeli a kéréseket, és automatikusan méretezi a tárolót a használat növekedésével, megkönnyítve a modellek telepítését a Triton segítségével az AWS-en.
Forgalmi kör	Az MME-k ideálisak kiszámítható forgalmi mintákhoz, ahol a modellek DAG-ként futnak ugyanazon a végponton. A SageMaker gondoskodik az MME végpont felé irányuló forgalom alakításáról, és optimális modellpéldányokat tart fenn a GPU-példányokon a legjobb árteljesítmény érdekében. Továbbra is arra a példányra irányítja a forgalmat, ahol a modell betöltődik. Ha a példányerőforrások a magas kihasználtság miatt elérik a kapacitást, a SageMaker kirakja a legkevésbé használt modelleket a tárolóból, hogy erőforrásokat szabadítson fel a gyakrabban használt modellek betöltéséhez.

Legjobb gyakorlatok

Fontolja meg a következő bevált gyakorlatokat:

Magas kohézió és alacsony csatolás a modellek között – A modelleket ugyanabban a tárolóban helyezze el, amely nagy kohéziót biztosít (egyes üzleti funkcionalitást biztosít), és zárja össze őket a frissítés és a kezelhetőség megkönnyítése érdekében. Ugyanakkor válassza le ezeket a modelleket egymástól (különböző tárolókban tárolja őket), hogy könnyedén frissíthesse az egyik modellt anélkül, hogy ez más modelleket érintene. Hozzon létre több olyan modellt, amelyek egy végpont mögött különböző tárolókat használnak, majd önállóan hívják meg, vagy adjon hozzá modell-előfeldolgozási és utófeldolgozási logikát soros következtetési folyamatként.
Következtetési késleltetés – Csoportosítsa azokat a modelleket, amelyek egy üzleti funkció által vezéreltek, és egyetlen tárolóban tárolja őket, hogy minimalizálja az ugrások számát, és ezáltal minimalizálja a teljes várakozási időt. Vannak más figyelmeztetések is, például ha a csoportosított modellek több keretrendszert használnak; dönthet úgy is, hogy több tárolóban tárolja, de ugyanazon a gazdagépen fut a késleltetés csökkentése és a költségek minimalizálása érdekében.
Logikusan csoportosítsa az ML modelleket nagy kohézióval – A logikai csoport homogének (például az összes XGBoost modell) vagy heterogének (például néhány XGBoost és néhány BERT) modellekből állhat. Ez állhat olyan modellekből, amelyek több üzleti funkcióra oszthatók, vagy csak egy üzleti funkció teljesítésére vonatkozhatnak.
- Megosztott modellek – Ha a logikai csoport megosztott modellekből áll, akkor a modellek egyszerű frissítése és a késleltetés nagy szerepet játszik a SageMaker végpontok felépítésében. Például, ha a késleltetés prioritást élvez, jobb, ha az összes modellt egyetlen tárolóban helyezi el egyetlen SageMaker-végpont mögé, hogy elkerülje a többszöri ugrást. A hátránya az, hogy ha valamelyik modellt frissíteni kell, az a modellt kiszolgáló összes releváns SageMaker végpont frissítését eredményezi.
- Nem megosztott modellek – Ha a logikai csoport csak üzleti jellemzőkre jellemző modellekből áll, és nincs megosztva más csoportokkal, akkor kulcsfontosságú lesz a csomagolás összetettsége és késleltetése. Célszerű ezeket a modelleket egyetlen tárolóban, egyetlen SageMaker-végpont mögött tárolni.
Hatékony hardverhasználat (CPU, GPU) – Csoportosítsa a CPU-alapú modelleket, és ugyanazon a gazdagépen tárolja őket, hogy hatékonyan tudja használni a CPU-t. Hasonlóképpen csoportosítsa a GPU-alapú modelleket, hogy hatékonyan használhassa és méretezhesse őket. Vannak hibrid munkaterhelések, amelyekhez CPU és GPU is szükséges ugyanazon a gazdagépen. A csak CPU-t és csak GPU-t használó modellek ugyanazon a gazdagépen való tárolását a magas kohéziós és alkalmazási késleltetési követelményeknek kell vezérelniük. Ezen túlmenően a költség, a méretezési képesség és a robbanási sugár meghibásodás esetén a legfontosabb szempontok, amelyeket figyelembe kell venni.
Fitness funkciók – Használja a fitnesz funkciókat iránymutatásként az ML hosting opció kiválasztásához.

Következtetés

Ami az ML-tárhelyet illeti, nincs egy mindenkire érvényes megközelítés. Az ML gyakorlóknak ki kell választaniuk a megfelelő tervezési mintát, hogy megbirkózzanak az ML hosting kihívásaikkal. A fitneszfunkciók értékelése előíró útmutatást ad a megfelelő ML-tárhely kiválasztásához.

Az egyes tárhelyszolgáltatási lehetőségekről további részletekért tekintse meg a sorozat következő bejegyzéseit:

A szerzőkről

Dhawal Patel az AWS vezető gépi tanulási építésze. Az elosztott számítástechnikával és a mesterséges intelligenciával kapcsolatos problémákon a nagyvállalatoktól a közepes méretű induló vállalkozásokig szervezetekkel dolgozott együtt. A mély tanulásra összpontosít, beleértve az NLP és a Computer Vision tartományokat. Segít az ügyfeleknek abban, hogy a SageMaker-en nagy teljesítményű modellkövetkeztetést érjenek el.

Deepali Rajale az Amazon Web Services mesterséges intelligenciára/ML-re szakosodott ügyfélmenedzsere. Vállalati ügyfelekkel dolgozik, műszaki útmutatást adva a gépi tanulási megoldások bevált gyakorlatokkal történő megvalósításához. Szabadidejében szeret túrázni, filmezni és családjával és barátaival lógni.

Saurabh Trikande az Amazon SageMaker Inference vezető termékmenedzsere. Szenvedélyesen dolgozik az ügyfelekkel, és a gépi tanulás demokratizálásának célja motiválja. A komplex ML-alkalmazások telepítésével, a több bérlős ML-modellekkel, a költségoptimalizálással és a mély tanulási modellek bevezetésének elérhetőbbé tételével kapcsolatos alapvető kihívásokra összpontosít. Szabadidejében Saurabh szeret túrázni, innovatív technológiákat tanulni, követi a TechCrunch-ot és a családjával tölt időt.