Scale Foundation Model Következtetés több száz modellre az Amazon SageMaker segítségével – 1. rész

Újra kiadta Platón

Követő: 0

Ahogy az alapmodellek (FM-ek) demokratizálódása egyre elterjedtebbé válik, és az AI-val kiegészített szolgáltatások iránti kereslet növekszik, a szoftver, mint szolgáltatás (SaaS) szolgáltatói olyan gépi tanulási (ML) platformokat kívánnak használni, amelyek több bérlőt is támogatnak – a szervezetükön belüli adattudósok számára. és külső ügyfelek. Egyre több vállalat ismeri fel az FM-ek használatának értékét, hogy rendkívül személyre szabott és hatékony tartalmat állítsanak elő ügyfeleik számára. Az FM-ek saját adataira történő finomhangolása jelentősen növelheti a modell pontosságát az Ön konkrét felhasználási esetére, legyen szó értékesítési e-mail generálásról oldallátogatási kontextus használatával, a vállalat szolgáltatásaira szabott keresési válaszok generálásával vagy az ügyfélszolgálat automatizálásával a történeti beszélgetésekre vonatkozó képzéssel.

A generatív mesterségesintelligencia-modell-tárhely szolgáltatásként történő biztosítása lehetővé teszi bármely szervezet számára, hogy költséghatékony módon, házon belüli mesterségesintelligencia-szakértelem nélkül könnyedén integrálja, tesztelje és telepítse az FM-eket. Ez lehetővé teszi a vállalatok számára, hogy kísérletezzenek olyan mesterséges intelligencia felhasználási esetekkel, mint a hiperszemélyre szabott értékesítési és marketingtartalom, az intelligens keresés és a testreszabott ügyfélszolgálati munkafolyamatok. A megbízható ügyféladatokon finomhangolt, tárolt generatív modellek használatával a vállalkozások a személyre szabott és hatékony AI-alkalmazások következő szintjét biztosíthatják ügyfeleik jobb bevonása és kiszolgálása érdekében.

Amazon SageMaker különböző ML következtetési lehetőségeket kínál, beleértve a valós idejű, aszinkron és kötegelt transzformációt. Ez a bejegyzés arra összpontosít, hogy előíró útmutatást adjon az FM-ek költséghatékony, nagy léptékű hosztolásához. Konkrétan a valós idejű következtetések gyors és reagáló világát tárgyaljuk, és megvizsgáljuk az FM-ek valós idejű következtetéseinek különböző lehetőségeit.

A következtetések levonásához a több bérlős AI/ML architektúráknak figyelembe kell venniük az adatokra és modellekre vonatkozó követelményeket, valamint azokat a számítási erőforrásokat, amelyek szükségesek ahhoz, hogy ezekből a modellekből következtetéseket lehessen levonni. Fontos figyelembe venni a több bérlős AI/ML modellek telepítését – ideális esetben a CPU-k és GPU-k optimális kihasználása érdekében képesnek kell lennie olyan következtetési megoldás kidolgozására, amely javíthatja a kiszolgálási átviteli sebességet és csökkentheti a költségeket a modellek elosztásának biztosításával. hatékony módon a számítási infrastruktúrán keresztül. Ezen túlmenően az ügyfelek olyan megoldásokat keresnek, amelyek segítenek nekik egy bevált gyakorlati következtetési architektúrát telepíteni anélkül, hogy mindent a nulláról kellene létrehozniuk.

A SageMaker Inference egy teljesen felügyelt ML hosting szolgáltatás. Támogatja a generatív AI-alkalmazások készítését, miközben megfelel a szabályozási szabványoknak, például a FedRAMP-nak. A SageMaker költséghatékony skálázást tesz lehetővé a nagy áteresztőképességű következtetési munkaterhelésekhez. Támogatja a különféle munkaterheléseket, beleértve a valós idejű, aszinkron és kötegelt következtetéseket olyan hardvereken, mint az AWS Inferentia, az AWS Graviton, az NVIDIA GPU-k és az Intel CPU-k. A SageMaker teljes ellenőrzést biztosít az optimalizálás, a munkaterhelés elkülönítése és a konténerezés felett. Lehetővé teszi generatív mesterséges intelligencia létrehozását, mint szolgáltatási megoldást, a többmodelles és több konténeres telepítések támogatásával.

Az alapítványi modellek méretarányos tárolásának kihívásai

Az alábbiakban felsorolunk néhány kihívást az FM-ek fogadása során, hogy nagyarányú következtetéseket lehessen levonni:

Nagy memóriaterület – A több tíz- vagy százmilliárd modellparaméterrel rendelkező FM-ek gyakran meghaladják egyetlen gyorsítólapka memóriakapacitását.
A transzformátorok lassúak – Az autoregresszív dekódolás FM-ekben, különösen hosszú bemeneti és kimeneti szekvenciák esetén, súlyosbítja a memória I/O műveleteit. Ez elfogadhatatlan késleltetési időszakokban csúcsosodik ki, ami hátrányosan befolyásolja a valós idejű következtetést.
Költség – Az FM-ekhez ML-gyorsítókra van szükség, amelyek nagy memóriát és nagy számítási teljesítményt is biztosítanak. A nagy átviteli sebesség és az alacsony késleltetés elérése anélkül, hogy feláldozná őket, speciális feladat, amely megköveteli a hardver-szoftver gyorsítás együttes optimalizálásának mély megértését.
Hosszabb piacra kerülési idő – Az FM-ek optimális teljesítménye szigorú hangolást igényel. Ez a speciális hangolási folyamat az infrastruktúra-kezelés bonyolultságával párosulva meghosszabbítja a piacra jutási időt.
Munkaterhelés elkülönítése – Az FM-ek nagyarányú tárolása kihívásokat jelent a robbanási sugár minimalizálásában és a zajos szomszédok kezelésében. Az egyes FM-ek méretezése a modell-specifikus forgalmi mintáknak megfelelően nehéz emelést igényel.
Méretezés több száz FM-re – Több száz FM egyidejű működtetése jelentős működési többletköltséggel jár. A hatékony végpontkezelés, a megfelelő szeletelés és gyorsító kiosztás, valamint a modellspecifikus méretezés olyan feladatok, amelyek összetettebbé válnak, ahogy egyre több modell kerül üzembe.

Fitness funkciók

A megfelelő tárhelyválasztási lehetőség kiválasztása fontos, mert ez hatással van az alkalmazások által megjelenített végfelhasználókra. Ebből a célból kölcsönvesszük a fogalmat fitnesz funkciók, amelyet Neal Ford és az AWS Partner Thought Works munkatársai alkottak meg munkájuk során Evolúciós építészet építése. A fitneszfunkciók az Ön céljai alapján előíró értékelést nyújtanak a különféle hosting lehetőségekről. A fitnesz funkciók segítenek megszerezni a szükséges adatokat az architektúra tervezett fejlesztéséhez. Mérhető értékeket állítanak fel annak felmérésére, milyen közel áll az Ön megoldása a kitűzött célok eléréséhez. A fitnesz funkciókat az architektúra fejlődésével lehet és kell is adaptálni, hogy irányítsák a kívánt változási folyamatot. Ez olyan eszközt biztosít az építészek számára, amelyek irányíthatják csapataikat, miközben megőrzik a csapat autonómiáját.

A megfelelő FM-következtetési opció méretarányos és költséghatékony kiválasztásához javasoljuk a következő fitneszfunkciók figyelembevételét:

Alapítvány modell mérete – Az FM-ek transzformátorokon alapulnak. A transzformátorok lassúak és memóriaéhesek a hosszú szövegsorozatok generálására a modellek óriási mérete miatt. A nagy nyelvi modellek (LLM) az FM egy olyan típusa, amelyet szövegsorozatok generálására használnak, és óriási számítási teljesítményt igényelnek, és nehezen férnek hozzá a rendelkezésre álló nagy sávszélességű memóriához (HBM) és a számítási kapacitáshoz. Ennek az az oka, hogy a rendelkezésre álló memória sávszélességének nagy részét a modell paramétereinek betöltése és a autoregresszív dekódolási folyamat. Ennek eredményeként az FM-eket még hatalmas számítási teljesítmény mellett is korlátozzák a memória I/O és számítási korlátai. Ezért a modell mérete számos döntést meghatároz, például azt, hogy a modell egyetlen gyorsítóra illeszkedik-e, vagy több ML-gyorsítóra van szüksége a példányon a modell felosztását használva, hogy a következtetést nagyobb átviteli sebességen lehessen futtatni. A 3 milliárdnál több paraméterrel rendelkező modellek általában több ML-gyorsítót igényelnek, mert előfordulhat, hogy a modell nem fér bele egyetlen gyorsítóeszközbe.
Teljesítmény és FM következtetési késleltetés – Számos ML-modell és alkalmazás késleltetéskritikus, amelyekben a következtetési késleltetésnek a szolgáltatási szintű célkitűzés által meghatározott határokon belül kell lennie. Az FM következtetési késleltetés számos tényezőtől függ, többek között:
- FM modell mérete – A modell mérete, beleértve a futásidejű kvantálást.
- hardver – Számítás (TFLOPS), HBM méret és sávszélesség, hálózati sávszélesség, példányon belüli összekapcsolási sebesség és tárolási sávszélesség.
- Szoftverkörnyezet – Modellszerver, modell párhuzamos könyvtár, modelloptimalizáló motor, kollektív kommunikációs teljesítmény, modell hálózati architektúra, kvantálás és ML keretrendszer.
- Gyors – Bemeneti és kimeneti hossz és hiperparaméterek.
- Méretezési késleltetés – A forgalomra reagáló méretezési idő.
- Hidegindítási késleltetés – Az olyan funkciók, mint a modellterhelés előmelegítése csökkenthetik a hidegindítási késleltetést az FM betöltésekor.
Munkaterhelés elkülönítése – Ez a munkaterhelés elkülönítési követelményeire vonatkozik szabályozási és megfelelési szempontból, ideértve az AI-modellek és algoritmusok titkosságának és integritásának védelmét, az adatok titkosságát a mesterséges intelligencia következtetése során, valamint a mesterséges intellektuális tulajdon (IP) védelmét a jogosulatlan hozzáféréstől vagy kockázatkezelési szempontból. Például csökkentheti egy biztonsági esemény hatását a robbanás sugarának szándékos csökkentésével vagy a zajos szomszédok megakadályozásával.
Költséghatékonyság – Az FM-modell és az ML-alkalmazások méretezhető keretrendszeren történő telepítése és karbantartása kritikus üzleti folyamat, és a költségek nagymértékben változhatnak a modell hosting infrastruktúrával, a tárhely opcióval, az ML-keretrendszerekkel, az ML-modell jellemzőivel, az optimalizálásokkal és a méretezési szabályzattal kapcsolatos döntésektől függően. , és több. A munkaterheléseknek optimálisan kell kihasználniuk a hardver infrastruktúrát, hogy biztosítsák a költségek ellenőrzését. Ez a fitnesz funkció kifejezetten az infrastruktúra költségére vonatkozik, amely a teljes birtoklási költség (TCO) részét képezi. Az infrastruktúra költségei a tárolás, a hálózat és a számítási költségek együttes költségei. Ugyancsak kritikus fontosságú a TCO egyéb összetevőinek megértése, beleértve a működési költségeket, valamint a biztonsági és megfelelőségi költségeket. A működési költségek az ML infrastruktúra üzemeltetésének, felügyeletének és karbantartásának együttes költségei. A működési költségeket az egyes forgatókönyvek alapján szükséges mérnökök száma és a mérnökök éves fizetése alapján számítják ki, egy adott időszakra összesítve. A költségek megtakarítása érdekében automatikusan nullára skálázódnak modellenként, ha nincs forgalom.
skálázhatóság - Ebbe beletartozik:
- Működési többletköltségek több száz FM-ek kezelésében, hogy következtetéseket lehessen levonni egy több bérlős platformon.
- Több FM becsomagolása egyetlen végpontba és modellenkénti méretarányba.
- Példányszintű és modelltároló szintű skálázás engedélyezése a munkaterhelési minták alapján.
- Végpontonként több száz FM-re méretezés támogatása.
- A modellek flottában való kezdeti elhelyezésének és az elégtelen gyorsítók kezelésének támogatása.

A méretek ábrázolása a fitnesz függvényekben

Pókdiagramot használunk, amelyet néha radardiagramnak is neveznek, hogy ábrázoljuk a méreteket a fitnesz függvényekben. Pókdiagramot gyakran használnak, ha több egyedi dimenzióban kíván adatokat megjeleníteni. Ezek a méretek általában mennyiségiek, és általában nullától a maximális értékig terjednek. Minden dimenzió tartománya egymáshoz normalizálva van, így amikor a pókdiagramunkat rajzoljuk, a nullától a dimenzió maximális értékéig tartó vonal hossza minden dimenziónál azonos lesz.

Az alábbi táblázat szemlélteti a döntéshozatali folyamatot, amikor az architektúrát választja a SageMakeren. A pókdiagram minden egyes sugara azon fitneszfunkciók egyike, amelyeket prioritásként fog kezelni a következtetési megoldás elkészítésekor.

Az alapmodell-következtetés skálázása több száz modellre az Amazon SageMaker segítségével – 1. rész | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

Ideális esetben olyan alakzatot szeretne, amely minden oldalon egyenlő oldalú (egy ötszög). Ez azt mutatja, hogy képes optimalizálni az összes fitneszfunkciót. De a valóság az, hogy nehéz lesz elérni ezt a formát – ahogy az egyik fitneszfunkciót prioritásként kezeli, az hatással lesz a másik sugár vonalaira is. Ez azt jelenti, hogy mindig lesznek kompromisszumok attól függően, hogy mi a legfontosabb az Ön generatív AI-alkalmazása számára, és egy adott sugár felé ferde grafikonja lesz. Ezek azok a kritériumok, amelyek mellett hajlandó lehet a prioritások megszüntetésére a többi javára, attól függően, hogyan tekint az egyes funkciókra. A diagramon az egyes fitneszfüggvények metrikus súlyát így határozzuk meg – minél alacsonyabb az érték, annál kevésbé optimális az adott fitneszfüggvényhez (kivéve a modellméretet, amely esetben minél nagyobb az érték, annál nagyobb a modell).

Vegyünk például egy használati esetet, amikor egy nagy összegzési modellt (például az Anthropic Claude-ot) szeretne használni a szolgáltatási esetek és az ügyfelek elköteleződéseinek munkaösszefoglalóinak létrehozásához az esetadatok és az ügyfélelőzmények alapján. A következő póktáblázatunk van.

Az alapmodell-következtetés skálázása több száz modellre az Amazon SageMaker segítségével – 1. rész | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

Mivel ez érzékeny ügyféladatokat is tartalmazhat, úgy dönt, hogy elkülöníti ezt a munkaterhelést más modellektől, és egyetlen modelles végponton tárolja, ami kihívást jelenthet a méretezésben, mivel minden FM-hez külön végpontokat kell felpörgetnie és kezelnie. A modellt használó generatív AI-alkalmazást a szervizügynökök valós időben használják, ezért a késleltetés és az átviteli sebesség prioritást élvez, ezért nagyobb példánytípusok, például P4De használatára van szükség. Ebben a helyzetben előfordulhat, hogy a költségnek magasabbnak kell lennie, mert a prioritás az izoláció, a késleltetés és az átviteli sebesség.

Egy másik felhasználási eset egy olyan szolgáltató szervezet, amely egy Q&A chatbot alkalmazást épít, amely nagyszámú ügyfél számára van testreszabva. A következő pókdiagram a prioritásaikat tükrözi.

Az alapmodell-következtetés skálázása több száz modellre az Amazon SageMaker segítségével – 1. rész | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

Előfordulhat, hogy minden chatbot-élményt minden egyes ügyfélhez kell szabni. A használt modellek viszonylag kisebbek lehetnek (FLAN-T5-XXL, Llama 7B és k-NN), és minden chatbot minden nap különböző időzónákban meghatározott órákban működik. A megoldásban a Retrieval Augmented Generation (RAG) is beépíthető egy olyan adatbázisba, amely tartalmazza a valós idejű következtetésekhez használható tudásbáziselemeket. Ezen a chatboton keresztül nem cserélnek ügyfélspecifikus adatokat. A hidegindítási késések elviselhetők, mivel a chatbotok meghatározott ütemezés szerint működnek. Ebben a felhasználási esetben választhat egy több modellből álló végpont architektúrát, és minimálisra csökkentheti a költségeket kisebb példánytípusok (például egy G5) használatával, és potenciálisan csökkentheti a működési többletköltséget, ha több modellt tárol minden végponton méretben. A munkaterhelés elkülönítése kivételével a fitnesz funkciók ebben a használati esetben egyenletesebb prioritást élvezhetnek, és a kompromisszumok bizonyos mértékig minimálisak.

Egy utolsó példa egy képgeneráló alkalmazás, amely olyan modellt használ, mint a Stable Diffusion 2.0, amely egy 3.5 milliárd paraméterű modell. Pókdiagramunk a következő.

Az alapmodell-következtetés skálázása több száz modellre az Amazon SageMaker segítségével – 1. rész | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai.

Ez egy előfizetésen alapuló alkalmazás, amely FM-ek és ügyfelek ezreit szolgálja ki. A válaszidőnek gyorsnak kell lennie, mert minden ügyfél a képkimenetek gyors átfutására számít. Az áteresztőképesség azért is kritikus, mert egy adott másodpercben több százezer kérés érkezik, ezért a példánytípusnak nagyobb példánytípusnak kell lennie, például egy P4D-nek, amely elegendő GPU-val és memóriával rendelkezik. Ehhez fontolóra veheti egy többtárolóból álló végpont felépítését, amely a modell több példányát tárolja, hogy az egyik kéréskészletből a másikba történő képgenerálás zajtalanítsa. Ebben a használati esetben a várakozási idő és az átviteli sebesség prioritása, valamint a felhasználói igények kielégítése érdekében a számítási költségek és a munkaterhelés elkülönítése lesz a kompromisszum.

Fitness funkciók alkalmazása az FM-tárhely opció kiválasztásához

Ebben a részben bemutatjuk, hogyan alkalmazhatja az előző fitneszfunkciókat a megfelelő FM-tárhely kiválasztásához a SageMaker FM-eken.

SageMaker egymodell végpontok

A SageMaker egymodelles végpontjai lehetővé teszik egy FM tárolását egy dedikált példányokon tárolt tárolón az alacsony késleltetés és a nagy átvitel érdekében. Ezek a végpontok teljes mértékben felügyeltek, és támogatják az automatikus méretezést. Beállíthatja az egymodellű végpontot kiépített végpontként, ahol átadja a végpont-infrastruktúra-konfigurációt, például a példánytípust és a számlálást, ahol a SageMaker automatikusan elindítja a számítási erőforrásokat, és az automatikus méretezési házirendtől függően ki- és beépíti azokat. Több száz modell hosztolására méretezhet több egymodell végpont használatával, és alkalmazhat a sejt alapú architektúra a nagyobb rugalmasság és a csökkentett robbanási sugár érdekében.

Egy kiépített egymodell végpont alkalmassági függvényeinek értékelésekor vegye figyelembe a következőket:

Alapítvány modell mérete – Ez akkor megfelelő, ha olyan modelljei vannak, amelyek nem férnek el egyetlen ML-gyorsító memóriájába, és ezért több gyorsítóra van szükségük egy példányban.
Teljesítmény és FM következtetési késleltetés – Ez a késleltetéskritikus generatív AI-alkalmazásokra vonatkozik.
Munkaterhelés elkülönítése – Az alkalmazásának szüksége lehet Amazon rugalmas számítási felhő (Amazon EC2) példány szintű elkülönítés biztonsági megfelelőségi okok miatt. Minden FM külön következtetési végpontot kap, és nem osztja meg az EC2 példányt egy másik modellel. Például elkülöníthet egy HIPAA-val kapcsolatos modellkövetkeztetési munkaterhelést (például egy PHI-észlelési modellt) egy külön végpontban, dedikált biztonsági csoport konfigurációval, hálózati elkülönítéssel. A Nitro-alapú EC2-példányok, például a p4dn alapján elkülönítheti GPU-alapú modellkövetkeztetési munkaterhelését másoktól, hogy elkülönítse őket a kevésbé megbízható munkaterhelésektől. A Nitro System-alapú EC2 példányok egyedülálló megközelítést kínálnak a virtualizációhoz és az elkülönítéshez, lehetővé téve az érzékeny adatfeldolgozás biztonságossá tételét és elkülönítését az AWS kezelőitől és szoftvereitől mindenkor. Ez adja a legfontosabb dimenziót bizalmas számítástechnika mint a rendszerszoftver és a felhő üzemeltetői által biztosított belső, alapértelmezett védelemkészlet. Ez az opció támogatja a harmadik fél modellszolgáltatók által biztosított AWS Marketplace modellek telepítését is a SageMakeren.

SageMaker többmodell végpontok

SageMaker több modellből álló végpontok (MME) lehetővé teszik több modell társüzemeltetését egy GPU magon, GPU-példányok megosztását egy végpont mögött több modell között, valamint a modellek dinamikus betöltését és eltávolítását a bejövő forgalom alapján. Ezzel jelentősen megtakaríthatja a költségeket, és a legjobb ár-érték arányt érheti el.

Az MME-k a legjobb választás, ha kisebb modelleket kell tárolnia, amelyek mindegyike elfér egyetlen példányon lévő ML-gyorsítóban. Ezt a stratégiát érdemes megfontolni, ha sok (akár több ezer) hasonló méretű (1 milliárd paraméternél kevesebb) modellel rendelkezik, amelyeket egy példányon belül megosztott tárolón keresztül tud kiszolgálni, és nem kell hozzáférnie az összes modellhez Ugyanakkor. Betöltheti a használni kívánt modellt, majd kirakhatja egy másik modellhez.

Az MME-ket olyan modellek társhosztolására is tervezték, amelyek ugyanazt az ML keretrendszert használják, mivel a megosztott tárolót használják több modell betöltésére. Ezért, ha a modellflottában ML keretrendszerek keveréke (például PyTorch és TensorFlow) van, egy SageMaker végpont InferenceComponents jobb választás. Megbeszéljük InferenceComponents bővebben később ebben a bejegyzésben.

Végül, az MME-k alkalmasak olyan alkalmazásokhoz, amelyek elviselik az alkalmi hidegindítási késleltetést, mivel a ritkán használt modellek tehermentesíthetők a gyakran meghívott modellek javára. Ha sok ritkán elérhető modellje van, egy többmodellből álló végpont hatékonyan tudja kiszolgálni ezt a forgalmat, és jelentős költségmegtakarítást tesz lehetővé.

Vegye figyelembe a következőket az MME használatának értékelése során:

Alapítvány modell mérete – Lehetnek olyan modelljei, amelyek egy példányon egyetlen ML-gyorsító HBM-be illeszkednek, és ezért nincs szükségük több gyorsítóra.
Teljesítmény és FM következtetési késleltetés – Lehetnek olyan generatív mesterséges intelligencia alkalmazásai, amelyek elviselik a hidegindítási késleltetést, amikor a modell kérésre kerül, és nincs a memóriában.
Munkaterhelés elkülönítése – Fontolja meg, hogy az összes modell ugyanazt a tárolót használja.
skálázhatóság - Tekintsük a következő:
- Több modellt is csomagolhat egyetlen végpontba, és modellenként és ML-példányonként skálázható.
- Engedélyezheti a példányszintű automatikus méretezést a munkaterhelési minták alapján.
- Az MME-k végpontonként több ezer modellre skálázást támogatnak. Nincs szükség modellenkénti automatikus méretezési és telepítési konfiguráció karbantartására.
- A gyors üzembe helyezést bármikor használhatja, amikor a modellt a következtetési kérelem kéri.
- A modelleket dinamikusan betöltheti a következtetési kérésnek megfelelően, és a memória nyomására válaszul törölheti.
- Időben megoszthatja a mögöttes erőforrásokat a modellekkel.
Költséghatékonyság – Fontolja meg az erőforrások időmegosztását a modellek között a modellek dinamikus be- és kirakodásával, ami költségmegtakarítást eredményez.

SageMaker következtetési végpont az InferenceComponents segítségével

Az új SageMaker következtetési végpont ezzel InferenceComponents skálázható megközelítést biztosít több FM egyetlen végponton történő tárolására és modellenkénti méretezésre. Finom vezérlést biztosít az erőforrások (gyorsítók, memória, CPU) kiosztásához és az automatikus skálázási házirendek modellenkénti beállításához, hogy garantált átviteli sebességet és kiszámítható teljesítményt érjen el, valamint egyenként kezelheti a számítások felhasználását több modellben. Ha sok különböző méretű és forgalmi mintájú modellje van, amelyeket tárolnia kell, és a modellméretek miatt nem férnek el egyetlen gyorsító memóriájába, ez a legjobb megoldás. A költségek megtakarítása érdekében lehetővé teszi a nullára skálázást is, de az alkalmazás késleltetési követelményeinek elég rugalmasnak kell lenniük ahhoz, hogy figyelembe vegyék a modellek hidegindítási idejét. Ez az opció lehetővé teszi a legnagyobb rugalmasságot a számítások felhasználásában, mindaddig, amíg a konténer szintű elkülönítés ügyfélenként vagy FM-enként elegendő. Az új SageMaker-végpontról további részletekért InferenceComponents, lásd a részletes bejegyzést Az Amazon SageMaker legújabb funkcióival átlagosan 50%-kal csökkentheti a modell telepítési költségeit.

Vegye figyelembe a következőket, amikor meghatározza, hogy mikor kell végpontot használnia InferenceComponents:

Alapítvány modell mérete – Ez olyan modellekhez alkalmas, amelyek nem férnek el egyetlen ML-gyorsító memóriájába, és ezért egy példányon belül több gyorsítóra van szükségük.
Teljesítmény és FM következtetési késleltetés – Ez alkalmas késleltetéskritikus generatív AI-alkalmazásokhoz.
Munkaterhelés elkülönítése – Lehetnek olyan alkalmazásai, ahol elegendő a konténerszintű leválasztás.
skálázhatóság - Tekintsük a következő:
- Több FM-et is csomagolhat egyetlen végpontba és méretben modellenként.
- Engedélyezheti a példányszintű és a modelltároló szintű skálázást a munkaterhelési minták alapján.
- Ez a módszer támogatja a több száz FM-re skálázást végpontonként. Nem kell minden modellhez vagy tárolóhoz konfigurálnia az automatikus méretezési szabályzatot.
- Támogatja a modellek kezdeti elhelyezését a flottában és az elégtelen gyorsítók kezelését.
Költséghatékonyság – A költségek megtakarítása érdekében modellenként nullára méretezheti, ha nincs forgalom.

Több FM csomagolása ugyanazon a végponton: Modellcsoportosítás

Annak meghatározása, hogy milyen következtetési architektúra stratégiát alkalmaz a SageMakerben, az alkalmazás prioritásaitól és követelményeitől függ. Egyes SaaS-szolgáltatók olyan szabályozott környezetekben értékesítenek, amelyek szigorú elkülönítési követelményeket írnak elő – olyan opcióval kell rendelkezniük, amely lehetővé teszi számukra, hogy egyes vagy az összes FM-jüknek felajánlhassák a dedikált modellben történő telepítés lehetőségét. A költségek optimalizálása és a méretgazdaságosság elérése érdekében azonban a SaaS-szolgáltatóknak több bérlős környezettel is rendelkezniük kell, ahol több FM-et is üzemeltetnek egy megosztott SageMaker-erőforráson keresztül. A legtöbb szervezet valószínűleg hibrid tárhelykörnyezetet használ, ahol a SageMaker architektúrájának részeként egymodell végpontok és többmodellből vagy több tárolóból álló végpontok is találhatók.

Ennek az elosztott következtetési környezetnek az építésekor el kell végeznie egy kritikus gyakorlatot, hogy csoportosítsa a modelleket az egyes architektúratípusokhoz, amelyeket be kell állítania a SageMaker végpontjaiban. Az első döntés, amelyet meg kell hoznia, a munkaterhelés elkülönítési követelményeivel kapcsolatos – el kell szigetelnie azokat az FM-eket, amelyeknek saját dedikált végpontjaikban kell lenniük, akár biztonsági okokból, akár a robbanási sugár csökkentése és a zajos szomszéd kockázatának csökkentése, akár a megfelelés miatt. szigorú SLA-k a késleltetésre.

Másodszor, meg kell határoznia, hogy az FM-ek egyetlen ML-gyorsítóba illeszkednek-e, vagy több gyorsítóra van szükségük, mik a modellek méretei és milyen forgalmi mintáik vannak. A hasonló méretű modellek, amelyek együttesen egy központi funkció támogatását szolgálják, logikusan csoportosíthatók több modell együttes üzemeltetésével egy végponton, mivel ezek egyetlen üzleti alkalmazás részét képeznék, amelyet egy központi csapat kezel. Egyazon végponton több modell együttes üzemeltetéséhez egy csoportosítási gyakorlatot kell végrehajtani annak meghatározására, hogy mely modellek férnek el egyetlen példányban, egyetlen tárolóban vagy több tárolóban.

A modellek csoportosítása MME-k számára

Az MME-k a legalkalmasabbak a kisebb modellekhez (kevesebb mint 1 milliárd paraméter, amelyek egyetlen gyorsítóba férnek el), és hasonló méretűek és hívási késleltetések. Elfogadható némi eltérés a modell méretében; például, Zendesk A modellek 10–50 MB méretűek, ami jól működik, de a 10-szeres, 50-szeres vagy 100-szoros méretváltozatok nem megfelelőek. A nagyobb modellek nagyobb számú be- és kirakodást okozhatnak a kisebb modelleknél, hogy elegendő memóriaterületet tudjunk biztosítani, ami a végponton megnövekedett késleltetést eredményezhet. A nagyobb modellek teljesítményjellemzőiben mutatkozó különbségek az erőforrásokat, például a CPU-t is egyenlőtlenül fogyaszthatják, ami hatással lehet a példány többi modelljére.

Az MME-n csoportosított modelleknek lépcsőzetes forgalmi mintákkal kell rendelkezniük, hogy lehetővé tegyék a számítások megosztását a modellek között a következtetések levonásához. A hozzáférési mintáknak és a következtetési késleltetésnek is lehetővé kell tennie bizonyos hidegindítási időt a modellek közötti váltás során.

Az alábbiakban felsorolunk néhány javasolt kritériumot a modellek MME-k csoportosításához:

Kisebb modellek – 1 milliárdnál kevesebb paraméterrel rendelkező modelleket használjon
Modellméret – Csoportosítsa a hasonló méretű modelleket, és társgazdaként működtesse ugyanazt a végpontot
Meghívási késleltetés – Csoportosítsunk hasonló hívási késleltetési követelményekkel rendelkező modelleket, amelyek elviselik a hidegindítást
hardver – Csoportosítsa a modelleket ugyanazzal az alapul szolgáló EC2 példánytípussal

Végpont modelljeinek csoportosítása az InferenceComponents segítségével

A SageMaker végpont InferenceComponents a legalkalmasabb nagyobb FM-ek fogadására (több mint 1 milliárd paraméter) olyan léptékben, amelyek több ML-gyorsítót vagy eszközt igényelnek egy EC2 példányban. Ez a beállítás késleltetésérzékeny munkaterhelésekhez és alkalmazásokhoz alkalmas, ahol elegendő a tárolószintű elkülönítés. Az alábbiakban felsorolunk néhány javasolt kritériumot a többes végpont modelljeinek csoportosításához InferenceComponents:

hardver – Csoportosítsa a modelleket ugyanazzal az alapul szolgáló EC2 példánytípussal
Modellméret – A modell méret szerinti csoportosítása javasolt, de nem kötelező

Összegzésként

Ebben a bejegyzésben három valós idejű ML következtetési lehetőséget vizsgáltunk (egy végpontok, többmodell végpontok és végpontok InferenceComponents) a SageMakerben, hogy hatékonyan és költséghatékonyan tárolja az FM-eket. Az öt fitneszfunkció segítségével kiválaszthatja a megfelelő SageMaker tárhelyet a nagyszabású FM-ek számára. Csoportosítsa az FM-eket, és közösen tárolja őket a SageMaker következtetési végpontjain az ajánlott csoportosítási feltételek segítségével. Az általunk tárgyalt fitneszfunkciókon kívül a következő táblázat segítségével eldöntheti, hogy melyik megosztott SageMaker tárhelyszolgáltatás a legjobb az Ön használati esetéhez. A SageMaker egyes FM-tárhelyszolgáltatásaihoz kódmintákat találhat a következő GitHub-tárhelyeken: egyetlen SageMaker végpont, többmodell végpontés InferenceComponents végpont.

.	Egymodell végpont	Többmodell végpont	Végpont InferenceComponents-szel
A modell életciklusa	API kezeléshez	Dinamikus az Amazon S3 útvonalon keresztül	API kezeléshez
Támogatott példánytípusok	CPU, egy és több GPU, AWS Inferentia alapú példányok	CPU, egyetlen GPU alapú példányok	CPU, egy és több GPU, AWS Inferentia alapú példányok
Metrikus részletesség	Endpoint	Endpoint	Végpont és tároló
Méretezési részletesség	ML példány	ML példány	Konténer
Méretezési viselkedés	Független ML példányméretezés	A modellek be- és kirakodása a memóriából történik	Független konténer méretezés
Modell rögzítés	.	A modellek memória alapján kirakhatók	Minden konténer beállítható úgy, hogy mindig be- vagy kirakodjon
Tartálykövetelmények	Előre beépített SageMaker, SageMaker-kompatibilis Hozd el a saját tartályodat (BYOC)	MMS, Triton, BYOC MME szerződésekkel	SageMaker előre beépített, SageMaker kompatibilis BYOC
Útválasztási lehetőségek	Véletlenszerű vagy legkisebb kapcsolat	Véletlenszerű, ragadós népszerűségi ablakkal	Véletlenszerű vagy legkisebb kapcsolat
Hardver hozzárendelése a modellhez	Egyedi modellnek ajánlott	Közös	Minden tartályhoz dedikált
Támogatott modellek száma	egyetlen	Ezrek	Több száz
Válasz streaming	Támogatott	Nem támogatott	Támogatott
Adatgyűjtés	Támogatott	Nem támogatott	Nem támogatott
Árnyék tesztelés	Támogatott	Nem támogatott	Nem támogatott
Több változat	Támogatott	Nem alkalmazható	Nem támogatott
AWS Marketplace modellek	Támogatott	Nem alkalmazható	Nem támogatott

A szerzőkről

Dhawal Patel az AWS vezető gépi tanulási építésze. Az elosztott számítástechnikával és a mesterséges intelligenciával kapcsolatos problémákon a nagyvállalatoktól a közepes méretű induló vállalkozásokig szervezetekkel dolgozott együtt. A mély tanulásra összpontosít, beleértve az NLP és a Computer Vision tartományokat. Segít az ügyfeleknek abban, hogy a SageMaker-en nagy teljesítményű modellkövetkeztetést érjenek el.

Az alapmodell-következtetés skálázása több száz modellre az Amazon SageMaker segítségével – 1. rész | Amazon Web Services PlatoBlockchain Data Intelligence. Függőleges keresés. Ai. Rielah DeJesus az AWS vezető megoldások építésze, aki sikeresen segített különböző nagyvállalati ügyfeleknek DC, Maryland és Virginia térségében a felhőre való átállásban. Ügyvédként és műszaki tanácsadóként olyan szervezeteket segít, mint a Heroku/Salesforce, hogy sikereket érjenek el az AWS platformon. A Women in IT elkötelezett híve, és nagyon szenvedélyesen keresi a módszereket a technológia és az adatok kreatív felhasználására a mindennapi kihívások megoldására.