A generatív mesterséges intelligencia-alkalmazások gyors elterjedésével szükség van arra, hogy ezek az alkalmazások időben reagáljanak, hogy csökkentsék az észlelt késleltetést nagyobb átviteli sebesség mellett. Az alapmodellek (FM-ek) gyakran előképzettek hatalmas adathalmazokra, amelyek paraméterei millióktól milliárdokig terjednek, vagy még tovább. A nagy nyelvi modellek (LLM) olyan FM-típusok, amelyek szöveget generálnak a felhasználói következtetés válaszaként. Ezeknek a modelleknek a következtetési paraméterek eltérő konfigurációjával történő következtetése inkonzisztens késésekhez vezethet. Az inkonzisztenciát a modelltől várt választokenek változó száma vagy a gyorsító típusa okozhatja, amelyen a modell telepítve van.
Mindkét esetben ahelyett, hogy megvárná a teljes választ, a következtetésekhez alkalmazhatja a válaszfolyamok megközelítését, amely azonnal visszaküldi az információdarabokat, amint azok létrejöttek. Ez interaktív élményt biztosít azáltal, hogy lehetővé teszi a részleges válaszok valós időben történő megtekintését a késleltetett teljes válasz helyett.
A hivatalos bejelentéssel, hogy Az Amazon SageMaker valós idejű következtetése mostantól támogatja a válaszfolyamatokat, mostantól folyamatosan visszaküldheti a következtetési válaszokat az ügyfélnek a használat során Amazon SageMaker valós idejű következtetés válaszfolyamattal. Ez a megoldás segít interaktív élmények kialakításában különféle generatív AI-alkalmazásokhoz, például chatbotokhoz, virtuális asszisztensekhez és zenegenerátorokhoz. Ez a bejegyzés bemutatja, hogyan valósíthat meg gyorsabb válaszidőt a Time to First Byte (TTFB) formájában, és hogyan csökkentheti az általános észlelt késleltetést, miközben a Llama 2 modellekre következtet.
A megoldás megvalósításához egy teljesen felügyelt SageMaker szolgáltatást használunk adatok előkészítésére, valamint gépi tanulási (ML) modellek készítésére, betanítására és üzembe helyezésére minden felhasználási esetre, teljesen felügyelt infrastruktúrával, eszközökkel és munkafolyamatokkal. A SageMaker által biztosított különféle telepítési lehetőségekről további információért tekintse meg a következőt: Amazon SageMaker Model Hosting GYIK. Nézzük meg, hogyan kezelhetjük a késleltetési problémákat valós idejű következtetések és válaszfolyamok segítségével.
Megoldás áttekintése
Mivel foglalkozni akarunk a fent említett, az LLM-ekkel kapcsolatos valós idejű következtetésekhez kapcsolódó késleltetésekkel, először is értsük meg, hogyan használhatjuk a válaszfolyam-támogatást a Llama 2 valós idejű következtetéseihez. Azonban bármely LLM kihasználhatja a válaszfolyam-támogatás előnyeit valós kapcsolattal. - időbeli következtetés.
A Llama 2 előre betanított és finomhangolt generatív szövegmodellek gyűjteménye 7 milliárdtól 70 milliárdig terjedő skálán. A Llama 2 modellek autoregresszív modellek csak dekóder architektúrával. Ha prompt és következtetési paraméterekkel látják el, a Llama 2 modellek képesek szöveges válaszokat generálni. Ezek a modellek fordításra, összegzésre, kérdések megválaszolására és chatre használhatók.
Ehhez a bejegyzéshez a Llama 2 Chat modellt alkalmazzuk meta-llama/Llama-2-13b-chat-hf
a SageMakeren, hogy valós idejű következtetéseket lehessen levonni a válaszok streamelésével.
Amikor a modellek SageMaker-végpontokon történő üzembe helyezéséről van szó, konténerbe helyezheti a modelleket speciális használatával AWS Deep Learning Container (DLC) képek elérhetők a népszerű nyílt forráskódú könyvtárakhoz. A Llama 2 modellek szöveggeneráló modellek; használhatod akár a Hugging Face LLM következtetéstárolók a SageMakeren a Hugging Face hajtotta Szöveggenerálási következtetés (TGI) vagy AWS DLC-k számára Nagy modellkövetkeztetés (LMI).
Ebben a bejegyzésben a Llama 2 13B Chat modellt vezetjük be a SageMaker Hosting DLC-jeivel, hogy valós idejű következtetéseket lehessen levonni a G5-példányokkal. A G5-példányok nagy teljesítményű GPU-alapú példányok nagy grafikai igényű alkalmazásokhoz és ML következtetésekhez. A támogatott p4d, p3, g5 és g4dn példánytípusokat is használhatja a megfelelő változtatásokkal a példány konfigurációjának megfelelően.
Előfeltételek
A megoldás megvalósításához a következőkre van szükség:
- Egy AWS-fiók egy AWS Identity and Access Management (IAM) szerepkör a megoldás részeként létrehozott erőforrások kezeléséhez szükséges engedélyekkel.
- Ha most először dolgozik vele Amazon SageMaker Studio, először létre kell hoznia a SageMaker domain.
- Egy Hugging Face fiók. Regisztrálj e-mail címével, ha még nem rendelkezik fiókkal.
- A Hugging Face-en elérhető modellek zökkenőmentes eléréséhez, különösen a kapuzott modellekhez, mint például a Llama, finomhangolási és következtetési célból, Hugging Face fiókkal kell rendelkeznie az olvasási hozzáférési token megszerzéséhez. Miután regisztráltál Hugging Face fiókodra, jelentkezzen be meglátogatni https://huggingface.co/settings/tokens olvasási hozzáférési token létrehozásához.
- Hozzáférés a Llama 2-hez, ugyanazzal az e-mail-azonosítóval, amelyet a Hugging Face szolgáltatásra való feliratkozáskor használt.
- A Hugging Face-en keresztül elérhető Llama 2 modellek zárt modellek. A Llama modell használatát a Meta licenc szabályozza. A modellsúlyok és a tokenizátor letöltéséhez kérjen hozzáférést Lámához és elfogadják az engedélyüket.
- Miután megkapta a hozzáférést (általában néhány napon belül), visszaigazoló e-mailt kap. Ebben a példában a modellt használjuk
Llama-2-13b-chat-hf
, de más változatokhoz is hozzá kell férnie.
1. megközelítés: átölelő arc TGI
Ebben a részben bemutatjuk, hogyan telepítheti a meta-llama/Llama-2-13b-chat-hf
modellt egy SageMaker valós idejű végpontra, válasz streameléssel Hugging Face TGI használatával. Az alábbi táblázat felvázolja ennek a telepítésnek a specifikációit.
Leírás | Érték |
Konténer | Átölelő arc TGI |
Modell neve | meta-láma/Llama-2-13b-chat-hf |
ML példány | ml.g5.12xnagy |
Következtetés | Valós idejű válaszfolyamattal |
Telepítse a modellt
Először is le kell kérnie az alaplemezképet a telepítendő LLM számára. Ezután az alapképre építi a modellt. Végül telepítse a modellt a SageMaker Hosting ML-példányára a valós idejű következtetés érdekében.
Nézzük meg, hogyan lehet programozottan megvalósítani a telepítést. A rövidség kedvéért ebben a részben csak azt a kódot tárgyaljuk, amely segít a telepítési lépésekben. A központi telepítés teljes forráskódja elérhető a notebookban llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.
Töltse le a legújabb Hugging Face LLM DLC-t, amelyet TGI hajt előre beépítetten SageMaker DLC-k. Ezzel a képpel telepítheti a meta-llama/Llama-2-13b-chat-hf
modell a SageMakeren. Lásd a következő kódot:
Határozza meg a modell környezetét az alábbiak szerint meghatározott konfigurációs paraméterekkel:
Cserélje <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
a konfigurációs paraméterhez HUGGING_FACE_HUB_TOKEN
a Hugging Face profilodból nyert token értékével, a jelen bejegyzés előfeltételek részében részletezettek szerint. A konfigurációban a modell replikánként használt GPU-k számát 4-re kell megadnia SM_NUM_GPUS
. Ezután telepítheti a meta-llama/Llama-2-13b-chat-hf
modell egy ml.g5.12xlarge példányon, amely 4 GPU-val érkezik.
Most elkészítheti a példányt HuggingFaceModel
a fent említett környezetkonfigurációval:
Végül telepítse a modellt úgy, hogy argumentumokat ad meg a modellen elérhető telepítési metódushoz különféle paraméterértékekkel, például endpoint_name
, initial_instance_count
és instance_type
:
Végezzen következtetést
A Hugging Face TGI DLC képes a válaszok streamelésére a modell testreszabása vagy kódmódosítása nélkül. Te tudod használni invoke_endpoint_with_response_stream ha Boto3 vagy InvokeEndpointWithResponseStream amikor a SageMaker Python SDK-val programozunk.
A InvokeEndpointWithResponseStream
A SageMaker API-ja lehetővé teszi a fejlesztők számára, hogy visszaküldjék a SageMaker modellekből származó válaszokat, ami az észlelt késleltetés csökkentésével javíthatja az ügyfelek elégedettségét. Ez különösen fontos a generatív mesterséges intelligencia modellekkel épített alkalmazásoknál, ahol az azonnali feldolgozás fontosabb, mint a teljes válasz megvárása.
Ebben a példában a Boto3-at használjuk a modell kikövetkeztetésére, és a SageMaker API-t használjuk invoke_endpoint_with_response_stream
az alábbiak szerint:
A vita CustomAttributes
értékre van állítva accept_eula=false
. A accept_eula
paramétert értékre kell állítani true
hogy sikeresen megkapja a választ a Llama 2 modellektől. A sikeres meghívás után a segítségével invoke_endpoint_with_response_stream
, a metódus bájtokból álló válaszfolyamot ad vissza.
A következő diagram ezt a munkafolyamatot mutatja be.
Szüksége van egy iterátorra, amely a bájtok folyamán áthalad, és olvasható szöveggé elemzi azokat. A LineIterator
megvalósítása a címen található llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Most készen áll a prompt és az utasítások elkészítésére, hogy hasznos teherként használhassa őket a modell következtetése során.
Készítsen felszólítást és utasításokat
Ebben a lépésben elkészíti a promptot és az utasításokat az LLM számára. A Llama 2 kéréséhez a következő prompt sablonnal kell rendelkeznie:
A metódusban programozottan meghatározott prompt sablont kell létrehozni build_llama2_prompt
, amely igazodik a fent említett prompt sablonhoz. Ezután meghatározza az utasításokat a használati esetnek megfelelően. Ebben az esetben arra utasítjuk a modellt, hogy hozzon létre egy e-mailt egy marketingkampányhoz, amint az a get_instructions
módszer. Ezeknek a módszereknek a kódja a llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb jegyzetfüzet. Építse fel az utasítást az elvégzendő feladattal kombinálva a részletben leírtak szerint user_ask_1
az alábbiak szerint:
Átadjuk az utasításokat a prompt létrehozásához a build_llama2_prompt által generált prompt sablon szerint.
A következtetési paramétereket a kulccsal együtt a prompttal együtt összekeverjük stream
az értékkel True
végső hasznos teher kialakításához. Küldje el a hasznos terhet get_realtime_response_stream
, amely egy végpont meghívására lesz használva válaszfolyammal:
Az LLM-ből generált szöveg streamelésre kerül a kimenetre, ahogy az a következő animáción látható.
2. megközelítés: LMI DJL kiszolgálással
Ebben a részben bemutatjuk, hogyan kell telepíteni a meta-llama/Llama-2-13b-chat-hf
modellt egy SageMaker valós idejű végpontra válasz streameléssel LMI és DJL szolgáltatás használatával. Az alábbi táblázat felvázolja ennek a telepítésnek a specifikációit.
Leírás | Érték |
Konténer | LMI konténerkép DJL kiszolgálással |
Modell neve | meta-láma/Llama-2-13b-chat-hf |
ML példány | ml.g5.12xnagy |
Következtetés | Valós idejű válaszfolyamattal |
Először töltse le a modellt, és tárolja Amazon egyszerű tárolási szolgáltatás (Amazon S3). Ezután adja meg az S3 URI-t, amely a modell S3 előtagját jelzi a serving.properties
fájlt. Ezután le kell kérnie az alaplemezképet a telepítendő LLM számára. Ezután az alapképre építi a modellt. Végül telepítse a modellt a SageMaker Hosting ML-példányára a valós idejű következtetés érdekében.
Nézzük meg, hogyan érhetjük el programozottan a fent említett telepítési lépéseket. A rövidség kedvéért ebben a szakaszban csak a telepítési lépéseket segítő kódot részletezzük. A telepítés teljes forráskódja elérhető a notebookban llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.
Töltse le a modell pillanatfelvételét a Hugging Face webhelyről, és töltse fel a modell műtermékeit az Amazon S3-ra
A fent említett előfeltételekkel töltse le a modellt a SageMaker notebook példányra, majd töltse fel az S3 tárolóba további telepítéshez:
Vegye figyelembe, hogy bár nem ad meg érvényes hozzáférési tokent, a modell letöltődik. De ha telepít egy ilyen modellt, a modellszolgáltatás nem fog sikerülni. Ezért javasolt a csere <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
az érveléshez token
a Hugging Face profilodból nyert token értékével, az előfeltételekben részletezettek szerint. Ebben a bejegyzésben megadjuk a Llama 2 hivatalos modellnevét, ahogyan az Hugging Face-en az értékkel azonosítjuk meta-llama/Llama-2-13b-chat-hf
. A tömörítetlen modell a következő helyre lesz letöltve local_model_path
a fent említett kód futtatásának eredményeként.
Töltse fel a fájlokat az Amazon S3-ra, és szerezze be az URI-t, amelyet később felhasználni fog serving.properties
.
Ön fogja csomagolni a meta-llama/Llama-2-13b-chat-hf
modell az LMI konténerképen DJL-szolgáltatással a következőn megadott konfiguráció használatával serving.properties
. Ezután telepítse a modellt a SageMaker ML példány ml.g5.12xlarge tárolóképére csomagolt modelltermékekkel együtt. Ezt az ML-példányt ezután a SageMaker Hostinghoz használja a valós idejű következtetésekhez.
Készítsen modelltermékeket a DJL-szolgáltatáshoz
Készítse elő a modell műtermékeit a létrehozásával serving.properties
konfigurációs fájl:
Ebben a konfigurációs fájlban a következő beállításokat használjuk:
- motor – Ez határozza meg a DJL által használandó futásidejű motort. A lehetséges értékek közé tartozik
Python
,DeepSpeed
,FasterTransformer
ésMPI
. Ebben az esetben azt állítjuk beMPI
. A Model Parallelization and Inference (MPI) megkönnyíti a modell particionálását az összes elérhető GPU között, és ezáltal felgyorsítja a következtetést. - option.entryPoint – Ez az opció meghatározza, hogy a DJL Serving által kínált kezelőt melyiket szeretné használni. A lehetséges értékek a következők
djl_python.huggingface
,djl_python.deepspeed
ésdjl_python.stable-diffusion
. Használunkdjl_python.huggingface
a Hugging Face Accelerate számára. - opció.tensor_parallel_degree – Ez az opció határozza meg a modellen végrehajtott tenzoros párhuzamos partíciók számát. Beállíthatja, hogy hány GPU-eszközön kell az Accelerate-nak particionálnia a modellt. Ez a paraméter azt is szabályozza, hogy a DJL-kiszolgálás futásakor a modellenkénti dolgozók száma hányan indul el. Például, ha van egy 4 GPU-s gépünk és négy partíciót hozunk létre, akkor modellenként egy dolgozónk lesz a kérések kiszolgálására.
- option.low_cpu_mem_usage – Ez csökkenti a CPU memóriahasználatát a modellek betöltésekor. Javasoljuk, hogy ezt állítsa be
TRUE
. - option.rolling_batch – Ez lehetővé teszi az iterációs szintű kötegelést a támogatott stratégiák egyikével. Az értékek közé tartozik
auto
,scheduler
éslmi-dist
. Használunklmi-dist
a folyamatos adagolás bekapcsolásához a Llama 2-nél. - opció.max_rolling_batch_size – Ez korlátozza az egyidejű kérések számát a folyamatos kötegben. Az alapértelmezett érték 32.
- option.model_id - Cserélned kellene
{{model_id}}
egy előre betanított modell modellazonosítójával, amely a modelltár a Hugging Face-n vagy S3 elérési útja a modell műtermékekhez.
További konfigurációs lehetőségeket itt találhat Konfigurációk és beállítások.
Mivel a DJL Serving elvárja, hogy a modellműtermékeket .tar fájlba csomagolják és formázzák, futtassa a következő kódrészletet a .tar fájl tömörítéséhez és feltöltéséhez az Amazon S3-ba:
Töltse le a legújabb LMI-tárolóképet a DJL szolgáltatással
Ezután használja a SageMaker for LMI-hez elérhető DLC-ket a modell üzembe helyezéséhez. Kérje le a SageMaker kép URI-jét a djl-deepspeed
tároló programozottan a következő kód használatával:
Használhatja a fent említett képet a telepítéshez meta-llama/Llama-2-13b-chat-hf
modell a SageMakeren. Most folytathatja a modell létrehozását.
Készítse el a modellt
Létrehozhatja azt a modellt, amelynek tárolója a következővel épül fel inference_image_uri
és az S3 URI-n található modellkiszolgáló kódot, amelyet jelöl s3_code_artifact:
Most létrehozhatja a modell konfigurációját a végpont konfigurációjának minden részletével.
Hozza létre a modell konfigurációját
A következő kóddal hozzon létre egy modellkonfigurációt a által azonosított modellhez model_name
:
A modell konfigurációja a ProductionVariants
paraméter InstanceType
az ML példányhoz ml.g5.12xlarge. Ön is biztosítja a ModelName
ugyanazt a nevet használja, amelyet az előző lépésben a modell létrehozásához használt, ezzel kapcsolatot létesítve a modell és a végpont konfigurációja között.
Most, hogy meghatározta a modellt és a modell konfigurációját, létrehozhatja a SageMaker végpontot.
Hozza létre a SageMaker végpontot
A következő kódrészlet segítségével hozza létre a végpontot a modell üzembe helyezéséhez:
A telepítés előrehaladását a következő kódrészlet segítségével tekintheti meg:
A sikeres üzembe helyezés után a végpont állapota a következő lesz InService
. Most, hogy a végpont készen áll, hajtsunk végre következtetést a válaszfolyamokkal.
Valós idejű következtetés válaszfolyamattal
Amint azt a Hugging Face TGI korábbi megközelítésében leírtuk, ugyanazt a módszert használhatja get_realtime_response_stream
válaszfolyam meghívásához a SageMaker végpontról. Az LMI megközelítést használó következtetés kódja a llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb jegyzetfüzet. A LineIterator
a megvalósítás található llama-2-lmi/utils/LineIterator.py. Vegye figyelembe, hogy a LineIterator
az LMI tárolón telepített Llama 2 Chat modell esetében eltér a LineIterator
hivatkozik Hugging Face TGI szakaszban. A LineIterator
hurkok a bájtfolyamon a Llama 2 Chat modellekből, amelyek az LMI tárolóból következtetnek djl-deepspeed
0.25.0 verzió. A következő segítő funkció elemzi a következőn keresztül küldött következtetési kérésből kapott válaszfolyamot invoke_endpoint_with_response_stream
API-k:
Az előző módszer kiírja a beolvasott adatfolyamot LineIterator
ember által olvasható formátumban.
Fedezzük fel, hogyan készítsük elő a promptot és az utasításokat, hogy hasznos teherként használhassuk őket a modell következtetése során.
Mivel a Hugging Face TGI-ben és az LMI-ben is ugyanarra a modellre következtet, a felszólítás és az utasítások elkészítésének folyamata ugyanaz. Ezért használhatja a módszereket get_instructions
és a build_llama2_prompt
következtetéshez.
A get_instructions
metódus visszaadja az utasításokat. Építsd össze az utasításokat az elvégzendő feladattal kombinálva a részletben leírtak szerint user_ask_2
az alábbiak szerint:
Adja át az utasításokat a prompt létrehozásához a által generált prompt sablon szerint build_llama2_prompt:
A következtetési paramétereket a prompttal együtt a végső hasznos terhelés kialakításához kötjük össze. Ezután elküldi a rakományt a címre get_realtime_response_stream,
amely egy végpont meghívására szolgál válaszfolyammal:
Az LLM-ből generált szöveg streamelésre kerül a kimenetre, ahogy az a következő animáción látható.
Tisztítsuk meg
A felesleges költségek elkerülése érdekében használja a AWS felügyeleti konzol a végpontok és a hozzájuk tartozó erőforrások törléséhez, amelyek a bejegyzésben említett megközelítések futtatása közben jöttek létre. Mindkét telepítési megközelítéshez hajtsa végre a következő tisztítási rutint:
Cserélje <SageMaker_Real-time_Endpoint_Name>
változóhoz endpoint_name
a tényleges végponttal.
A második megközelítéshez a modell- és kódtermékeket az Amazon S3-on tároltuk. Az S3 vödröt a következő kóddal tisztíthatja meg:
Következtetés
Ebben a bejegyzésben megvitattuk, hogy a változó számú válaszjogkivonat vagy a következtetési paraméterek eltérő halmaza hogyan befolyásolhatja az LLM-ekhez társított késéseket. Megmutattuk, hogyan lehet megoldani a problémát válaszfolyam segítségével. Ezután két megközelítést azonosítottunk a Llama 2 Chat modellek AWS DLC-k használatával történő üzembe helyezésére és következtetésére: LMI és Hugging Face TGI.
Most már meg kell értenie a streamelési válasz fontosságát, és azt, hogy hogyan csökkentheti az észlelt késleltetést. A streamelési válasz javíthatja a felhasználói élményt, ami egyébként arra késztetné, hogy megvárja, amíg az LLM felépíti a teljes választ. Ezenkívül a Llama 2 Chat modellek válaszfolyamatokkal történő telepítése javítja a felhasználói élményt, és boldoggá teszi ügyfeleit.
Hivatkozhat a hivatalos aws-mintákra amazon-sagemaker-llama2-response-streaming-receptek amely magában foglalja a Llama 2 modellváltozatok telepítését.
Referenciák
A szerzőkről
Pavan Kumar Rao Navule az Amazon Web Services megoldástervezője. Indiában ISV-kkel dolgozik, hogy segítsen nekik az AWS-re vonatkozó innovációban. A „Getting Started with V Programming” című könyv megjelent szerzője. Az Indiai Technológiai Intézetben (IIT), Hyderabadban szerzett Executive M.Tech fokozatot adattudományból. Emellett Executive MBA fokozatot szerzett informatikai szakirányon az Indian School of Business Management and Administration-ben, és B.Tech diplomát szerzett elektronikai és kommunikációs mérnökökből a Vaagdevi Institute of Technology and Science-en. Pavan egy AWS Certified Solutions Architect Professional, és más minősítésekkel is rendelkezik, mint például az AWS Certified Machine Learning Specialty, a Microsoft Certified Professional (MCP) és a Microsoft Certified Technology Specialist (MCTS) minősítéssel. Ő is a nyílt forráskód rajongója. Szabadidejében szívesen hallgatja Sia és Rihanna nagyszerű varázslatos hangját.
Sudhanshu Gyűlölet az AWS fő AI/ML specialistája, és az ügyfelekkel együttműködve tanácsot ad nekik MLOp-jukkal és generatív AI-útjukkal kapcsolatban. Korábbi, az Amazon előtti beosztásában ötleteket fogalmazott meg, alkotott és csapatokat vezetett, amelyek nyílt forráskódú mesterséges intelligencia- és játékplatformokat építettek fel, és több mint 100 ügyféllel sikeresen kereskedelmi forgalomba hozta. Sudhanshu érdeme néhány szabadalmat, írt két könyvet és számos közleményt és blogot, és ismertette álláspontját különböző technikai fórumokon. Gondolatvezető és előadó volt, és közel 25 éve dolgozik a szakmában. Dolgozott a Fortune 1000 ügyfeleivel szerte a világon, legutóbb pedig digitális natív ügyfelekkel Indiában.
- SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
- PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
- PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
- PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
- PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
- Forrás: https://aws.amazon.com/blogs/machine-learning/inference-llama-2-models-with-real-time-response-streaming-using-amazon-sagemaker/
- :van
- :is
- :ahol
- $ UP
- 1
- 10
- 100
- 11
- 12
- 14
- 15%
- 150
- 16
- 19
- 1.
- 25
- 32
- 385
- 50
- 7
- 70
- 8
- 9
- a
- képesség
- Képes
- Rólunk
- gyorsul
- gyorsul
- gázpedál
- Elfogad!
- hozzáférés
- Fiók
- Elérése
- át
- Akció
- tényleges
- Ezen kívül
- cím
- igazgatás
- elfogadja
- Örökbefogadás
- Előny
- tanácsot ad
- érint
- Után
- AI
- AI modellek
- AI / ML
- alice
- Igazítás
- Minden termék
- lehetővé téve
- lehetővé teszi, hogy
- mentén
- már
- Is
- amazon
- Amazon SageMaker
- Az Amazon Web Services
- an
- és a
- animáció
- bejelentés
- Közlemény
- bármilyen
- api
- alkalmazások
- megközelítés
- megközelít
- megfelelő
- építészeti
- építészet
- VANNAK
- érv
- érvek
- AS
- asszisztensek
- társult
- At
- szerző
- elérhető
- elkerülése érdekében
- AWS
- vissza
- bázis
- adagoló
- BE
- mert
- óta
- előtt
- között
- Túl
- Billió
- milliárd
- BIN
- blogok
- test
- könyv
- Könyvek
- mindkét
- épít
- épít
- épült
- üzleti
- de
- by
- hívás
- Kampány
- TUD
- képes
- eset
- tanúsítványok
- Vizsgázott
- Változások
- díjak
- csevegés
- chatbots
- ragadozó ölyv
- vásárló
- ügyfél részére
- klub
- kód
- gyűjtemény
- COM
- kombinált
- jön
- közlés
- egyidejű
- Configuration
- megerősítés
- Konténer
- Konténerek
- folyamatos
- folyamatosan
- ellenőrzések
- tudott
- Pár
- kupon
- fedett
- Covers
- teremt
- készítette
- teremt
- létrehozása
- hitel
- vevő
- Vevői elégedettség
- Ügyfelek
- dátum
- adat-tudomány
- Nap
- mély
- mély tanulás
- alapértelmezett
- meghatározott
- meghatározott
- Késik
- bizonyítani
- telepíteni
- telepített
- bevezetéséhez
- bevetés
- részletes
- részletek
- fejlesztők
- Eszközök
- különböző
- digitális
- tárgyalt
- ne
- letöltés
- alatt
- Korábban
- bármelyik
- Elektronika
- lehetővé teszi
- Endpoint
- Motor
- Mérnöki
- rajongó
- Egész
- Környezet
- különösen
- létrehozó
- Még
- példa
- végrehajtó
- vár
- elvárja
- tapasztalat
- Tapasztalatok
- feltárása
- Arc
- megkönnyíti
- hamis
- gyorsabb
- filé
- Fájlok
- utolsó
- Végül
- vezetéknév
- első
- következő
- következik
- A
- forma
- formátum
- Szerencse
- fórumok
- talált
- Alapítvány
- négy
- Ingyenes
- ból ből
- Tele
- teljesen
- funkció
- további
- Gamification
- kapuzott
- generál
- generált
- generáló
- generáció
- nemző
- Generatív AI
- generátorok
- kap
- gif
- földgolyó
- Go
- szabályozott
- GPU
- GPU
- megadott
- nagy
- boldog
- gyűlölet
- Legyen
- he
- segít
- segít
- nagy teljesítményű
- <p></p>
- övé
- tart
- házigazdája
- tárhely
- Hogyan
- How To
- azonban
- HTML
- http
- HTTPS
- HuggingFace
- ember által olvasható
- ID
- azonosított
- Identitás
- if
- illusztrálja
- kép
- képek
- azonnali
- végre
- végrehajtás
- importál
- fontosság
- fontos
- javul
- javítja
- in
- tartalmaz
- Beleértve
- India
- indián
- jelzett
- ipar
- információ
- Infrastruktúra
- újít
- bemenet
- bemenet
- belső
- példa
- helyette
- Intézet
- utasítás
- interaktív
- Internet
- kérdések
- IT
- ITS
- utazás
- json
- Kulcs
- Kumar
- nyelv
- nagy
- Késleltetés
- késleltetési problémák
- a későbbiekben
- legutolsó
- indít
- vezet
- vezető
- tanulás
- Led
- Hossz
- könyvtárak
- Engedély
- mint
- határértékek
- vonal
- hallgat
- Láma
- LLM
- betöltés
- található
- szeret
- gép
- gépi tanulás
- készült
- csinál
- KÉSZÍT
- kezelése
- sikerült
- vezetés
- Marketing
- max
- Lehet..
- MCP
- Memory design
- említett
- meta
- módszer
- mód
- microsoft
- Több millió
- ML
- MLOps
- modell
- modellek
- hónap
- több
- a legtöbb
- zene
- kell
- név
- Nevezett
- bennszülött
- közel
- Szükség
- igények
- Új
- következő
- megjegyezni
- jegyzetfüzet
- Most
- szám
- objektumok
- megfigyelni
- szerez
- kapott
- of
- felajánlott
- hivatalos
- gyakran
- on
- ONE
- csak
- nyitva
- nyílt forráskódú
- opció
- Opciók
- or
- Más
- másképp
- körvonalak
- teljesítmény
- felett
- átfogó
- becsomagolt
- csomagolás
- papírok
- Párhuzamos
- paraméter
- paraméterek
- rész
- elhalad
- Szabadalmak
- ösvény
- mert
- érzékelt
- Teljesít
- teljesített
- engedélyek
- Platformok
- Plató
- Platón adatintelligencia
- PlatoData
- pont
- Népszerű
- lehetséges
- állás
- powered
- megelőző
- Készít
- előkészítése
- előfeltételek
- bemutatott
- előző
- Fő
- Plakátok
- Probléma
- folytassa
- folyamat
- Feldolgozott
- feldolgozás
- Termékek
- termék bevezetés
- szakmai
- profil
- Programozás
- Haladás
- ingatlanait
- ad
- feltéve,
- biztosít
- amely
- közzétett
- célokra
- Piton
- pytorch
- kérdés
- kezdve
- gyors
- Inkább
- Olvass
- kész
- igazi
- real-time
- észre
- kap
- kapott
- nemrég
- ajánl
- ajánlott
- csökkenteni
- csökkenti
- csökkentő
- utal
- kapcsolat
- cserélni
- válasz
- raktár
- kérni
- kéri
- Tudástár
- Reagálni
- válasz
- válaszok
- eredményez
- visszatérés
- Visszatér
- Szerep
- rutin
- futás
- futás
- fut
- futásidejű
- sagemaker
- azonos
- elégedettség
- Skála
- Iskola
- Tudomány
- sdk
- zökkenőmentes
- Második
- Rész
- lát
- küld
- küld
- szolgál
- szolgáltatás
- Szolgáltatások
- szolgáló
- készlet
- beállítások
- számos
- rövid
- kellene
- előadás
- kimutatta,
- mutatott
- Műsorok
- <p></p>
- Egyszerű
- Pillanatkép
- töredék
- megoldások
- Megoldások
- nemsokára
- forrás
- forráskód
- Hangszóró
- szakember
- specializált
- Különlegesség
- specifikációk
- meghatározott
- kezdődött
- Állapot
- Lépés
- Lépései
- megáll
- tárolás
- tárolni
- memorizált
- stratégiák
- folyam
- áramlott
- folyó
- Streaming szolgáltatás
- sikerül
- sikeres
- sikeresen
- ilyen
- támogatás
- Támogatott
- Támogatja
- táblázat
- Vesz
- Feladat
- csapat
- tech
- Műszaki
- Technológia
- sablon
- szöveg
- mint
- hogy
- A
- azok
- Őket
- akkor
- Ott.
- ezáltal
- ebből adódóan
- Ezek
- ők
- ezt
- bár?
- gondoltam
- áteresztőképesség
- idő
- alkalommal
- nak nek
- jelképes
- tokenek
- szerszámok
- Vonat
- Fordítás
- igaz
- Turning
- kettő
- típus
- típusok
- jellemzően
- megért
- felesleges
- -ig
- Használat
- használ
- használati eset
- használt
- használó
- User Experience
- segítségével
- érvényes
- érték
- Értékek
- változó
- különféle
- változó
- Hatalmas
- változat
- keresztül
- Megnézem
- Tényleges
- Látogat
- HANGOK
- várjon
- Várakozás
- akar
- we
- háló
- webes szolgáltatások
- JÓL
- voltak
- amikor
- ami
- míg
- egész
- akinek
- lesz
- val vel
- belül
- nélkül
- dolgozott
- munkás
- dolgozók
- munkafolyamat
- munkafolyamatok
- dolgozó
- művek
- lenne
- ír
- írott
- év
- te
- A te
- zephyrnet