Med det snabba antagandet av generativa AI-applikationer finns det ett behov för dessa applikationer att svara i tid för att minska den upplevda latensen med högre genomströmning. Grundmodeller (FM) är ofta förtränade på stora datakorpora med parametrar som sträcker sig i skala från miljoner till miljarder och däröver. Stora språkmodeller (LLM) är en typ av FM som genererar text som ett svar på användarens slutledning. Att dra slutledning av dessa modeller med olika konfigurationer av inferensparametrar kan leda till inkonsekventa latenser. Inkonsekvensen kan bero på det varierande antalet svarstokens du förväntar dig av modellen eller typen av accelerator som modellen är utplacerad på.
I båda fallen, snarare än att vänta på det fullständiga svaret, kan du använda metoden för svarsströmning för dina slutsatser, vilket skickar tillbaka bitar av information så snart de genereras. Detta skapar en interaktiv upplevelse genom att du kan se partiella svar streamade i realtid istället för ett fördröjt fullständigt svar.
Med det officiella tillkännagivandet att Amazon SageMaker realtidsinferens stöder nu responsströmning, kan du nu kontinuerligt strömma slutledningssvar tillbaka till klienten när du använder Amazon SageMaker slutledning i realtid med responsströmning. Den här lösningen hjälper dig att bygga interaktiva upplevelser för olika generativa AI-applikationer som chatbots, virtuella assistenter och musikgeneratorer. Det här inlägget visar dig hur du realiserar snabbare svarstider i form av Time to First Byte (TTFB) och minskar den totala upplevda latensen samtidigt som du drar slutsatser om Llama 2-modeller.
För att implementera lösningen använder vi SageMaker, en helt hanterad tjänst för att förbereda data och bygga, träna och distribuera modeller för maskininlärning (ML) för alla användningsfall med helt hanterad infrastruktur, verktyg och arbetsflöden. För mer information om de olika distributionsalternativen som SageMaker tillhandahåller, se Vanliga frågor om Amazon SageMaker Model Hosting. Låt oss förstå hur vi kan ta itu med latensproblemen med hjälp av slutledning i realtid med svarsströmning.
Lösningsöversikt
Eftersom vi vill ta itu med de tidigare nämnda latenserna som är förknippade med realtidsinferens med LLM:er, låt oss först förstå hur vi kan använda responsströmningsstödet för realtidsinferencing för Llama 2. Men vilken LLM som helst kan dra fördel av responsströmningsstöd med verklig -tidsinferens.
Llama 2 är en samling förtränade och finjusterade generativa textmodeller som sträcker sig i skala från 7 miljarder till 70 miljarder parametrar. Llama 2-modeller är autoregressiva modeller med enbart dekoderarkitektur. När de är försedda med en prompt och inferensparametrar kan Llama 2-modeller generera textsvar. Dessa modeller kan användas för översättning, sammanfattning, svar på frågor och chatt.
För det här inlägget distribuerar vi Llama 2 Chat-modellen meta-llama/Llama-2-13b-chat-hf
på SageMaker för slutledning i realtid med responsströmning.
När det gäller att distribuera modeller på SageMaker-slutpunkter kan du behålla modellerna med hjälp av specialiserade AWS Deep Learning Container (DLC)-bilder tillgängliga för populära bibliotek med öppen källkod. Llama 2-modeller är textgenereringsmodeller; du kan använda antingen Hugging Face LLM slutledningsbehållare på SageMaker drivs av Hugging Face Textgenerering slutledning (TGI) eller AWS DLC:er för Stor modell slutledning (LMI).
I det här inlägget distribuerar vi Llama 2 13B Chat-modellen med hjälp av DLC:er på SageMaker Hosting för realtidsslutningar som drivs av G5-instanser. G5-instanser är en högpresterande GPU-baserad instans för grafikintensiva applikationer och ML-inferens. Du kan också använda instanstyper som stöds p4d, p3, g5 och g4dn med lämpliga ändringar enligt instanskonfigurationen.
Förutsättningar
För att implementera denna lösning bör du ha följande:
- Ett AWS-konto med ett AWS identitets- och åtkomsthantering (IAM) roll med behörighet att hantera resurser skapade som en del av lösningen.
- Om det här är första gången du arbetar med Amazon SageMaker Studio, måste du först skapa en SageMaker-domän.
- Ett Hugging Face-konto. Registrera dig med din e-post om du inte redan har ett konto.
- För sömlös åtkomst av modellerna som är tillgängliga på Hugging Face, särskilt gated modeller som Llama, för finjustering och slutledningssyfte, bör du ha ett Hugging Face-konto för att få en läsbehörighet. När du har registrerat dig för ditt Hugging Face-konto, logga in att besöka https://huggingface.co/settings/tokens för att skapa en läsbehörighetstoken.
- Tillgång till Llama 2 med samma e-post-ID som du använde för att registrera dig för Hugging Face.
- Llama 2-modellerna som finns tillgängliga via Hugging Face är gated-modeller. Användningen av Llama-modellen styrs av Meta-licensen. För att ladda ner modellvikter och tokenizer, begära tillgång till Lama och acceptera deras licens.
- När du har beviljats åtkomst (vanligtvis inom ett par dagar) får du en e-postbekräftelse. För det här exemplet använder vi modellen
Llama-2-13b-chat-hf
, men du bör kunna komma åt andra varianter också.
Tillvägagångssätt 1: Hugging Face TGI
I det här avsnittet visar vi dig hur du distribuerar meta-llama/Llama-2-13b-chat-hf
modell till en SageMaker-slutpunkt i realtid med responsströmning med Hugging Face TGI. Följande tabell beskriver specifikationerna för denna distribution.
Specifikation | Värde |
Behållare | Kramande ansikte TGI |
Modellnamn | meta-llama/Llama-2-13b-chat-hf |
ML-instans | ml.g5.12xlarge |
Slutledning | Realtid med responsströmning |
Distribuera modellen
Först hämtar du basbilden för LLM som ska distribueras. Du bygger sedan modellen på basbilden. Slutligen distribuerar du modellen till ML-instansen för SageMaker Hosting för slutledning i realtid.
Låt oss observera hur man uppnår implementeringen programmatiskt. För korthetens skull diskuteras endast koden som hjälper till med installationsstegen i det här avsnittet. Den fullständiga källkoden för distribution finns tillgänglig i anteckningsboken llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.
Hämta den senaste Hugging Face LLM DLC som drivs av TGI via förbyggd SageMaker DLC:er. Du använder den här bilden för att distribuera meta-llama/Llama-2-13b-chat-hf
modell på SageMaker. Se följande kod:
Definiera miljön för modellen med konfigurationsparametrarna definierade enligt följande:
ersätta <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
för config-parametern HUGGING_FACE_HUB_TOKEN
med värdet av token som erhållits från din Hugging Face-profil enligt beskrivningen i avsnittet om förutsättningar i det här inlägget. I konfigurationen definierar du antalet GPU:er som används per replika av en modell som 4 för SM_NUM_GPUS
. Sedan kan du distribuera meta-llama/Llama-2-13b-chat-hf
modell på en ml.g5.12xlarge instans som kommer med 4 GPU:er.
Nu kan du bygga instansen av HuggingFaceModel
med ovannämnda miljökonfiguration:
Till sist, distribuera modellen genom att tillhandahålla argument till distributionsmetoden som är tillgänglig på modellen med olika parametervärden som t.ex endpoint_name
, initial_instance_count
och instance_type
:
Utför slutledning
Hugging Face TGI DLC kommer med möjligheten att streama svar utan några anpassningar eller kodändringar av modellen. Du kan använda invoke_endpoint_with_response_stream om du använder Boto3 eller InvokeEndpointWithResponseStream vid programmering med SageMaker Python SDK.
Smakämnen InvokeEndpointWithResponseStream
SageMakers API tillåter utvecklare att streama svar tillbaka från SageMaker-modeller, vilket kan hjälpa till att förbättra kundnöjdheten genom att minska den upplevda latensen. Detta är särskilt viktigt för applikationer byggda med generativa AI-modeller, där omedelbar bearbetning är viktigare än att vänta på hela svaret.
I det här exemplet använder vi Boto3 för att härleda modellen och använder SageMaker API invoke_endpoint_with_response_stream
enligt följande:
Argumentet CustomAttributes
är inställd på värdet accept_eula=false
. Smakämnen accept_eula
parameter måste ställas in på true
för att framgångsrikt få svar från Llama 2-modellerna. Efter den framgångsrika anropet med hjälp av invoke_endpoint_with_response_stream
, kommer metoden att returnera en svarsström av byte.
Följande diagram illustrerar detta arbetsflöde.
Du behöver en iterator som går över strömmen av byte och analyserar dem till läsbar text. De LineIterator
implementering finns på llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Nu är du redo att förbereda uppmaningen och instruktionerna för att använda dem som nyttolast samtidigt som du drar slutsatser om modellen.
Förbered en uppmaning och instruktioner
I det här steget förbereder du uppmaningen och instruktionerna för din LLM. För att fråga Llama 2 bör du ha följande promptmall:
Du bygger promptmallen som definieras programmatiskt i metoden build_llama2_prompt
, som överensstämmer med den tidigare nämnda promptmallen. Du definierar sedan instruktionerna enligt användningsfallet. I det här fallet instruerar vi modellen att generera ett e-postmeddelande för en marknadsföringskampanj som beskrivs i get_instructions
metod. Koden för dessa metoder finns i llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb anteckningsbok. Bygg instruktionen i kombination med uppgiften som ska utföras enligt beskrivning i user_ask_1
enligt följande:
Vi skickar instruktionerna för att bygga prompten enligt promptmallen som genereras av build_llama2_prompt.
Vi klubbar inferensparametrarna tillsammans med prompt med nyckeln stream
med värdet True
för att bilda en slutgiltig nyttolast. Skicka nyttolasten till get_realtime_response_stream
, som kommer att användas för att anropa en slutpunkt med svarsströmning:
Den genererade texten från LLM kommer att strömmas till utgången som visas i följande animation.
Tillvägagångssätt 2: LMI med DJL-servering
I det här avsnittet visar vi hur man distribuerar meta-llama/Llama-2-13b-chat-hf
modell till en SageMaker-slutpunkt i realtid med responsströmning med hjälp av LMI med DJL-servering. Följande tabell beskriver specifikationerna för denna distribution.
Specifikation | Värde |
Behållare | LMI-containerbild med DJL Serving |
Modellnamn | meta-llama/Llama-2-13b-chat-hf |
ML-instans | ml.g5.12xlarge |
Slutledning | Realtid med responsströmning |
Du laddar först ner modellen och lagrar den i Amazon enkel lagringstjänst (Amazon S3). Du anger sedan S3 URI som anger S3-prefixet för modellen i serving.properties
fil. Därefter hämtar du basbilden för LLM som ska distribueras. Du bygger sedan modellen på basbilden. Slutligen distribuerar du modellen till ML-instansen för SageMaker Hosting för slutledning i realtid.
Låt oss observera hur man uppnår de ovan nämnda implementeringsstegen programmatiskt. För korthetens skull beskrivs endast koden som hjälper till med installationsstegen i det här avsnittet. Den fullständiga källkoden för denna distribution finns tillgänglig i anteckningsboken llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.
Ladda ner modellens ögonblicksbild från Hugging Face och ladda upp modellartefakterna på Amazon S3
Med de ovannämnda förutsättningarna, ladda ner modellen på SageMaker notebook-instansen och ladda sedan upp den till S3-hinken för vidare distribution:
Observera att även om du inte tillhandahåller en giltig åtkomsttoken kommer modellen att laddas ner. Men när du distribuerar en sådan modell kommer modellvisningen inte att lyckas. Därför rekommenderas att byta ut <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
för argumentet token
med värdet av token som erhållits från din Hugging Face-profil enligt beskrivningen i förutsättningarna. För det här inlägget anger vi den officiella modellens namn för Llama 2 som identifierats på Hugging Face med värdet meta-llama/Llama-2-13b-chat-hf
. Den okomprimerade modellen kommer att laddas ner till local_model_path
som ett resultat av att köra ovannämnda kod.
Ladda upp filerna till Amazon S3 och skaffa URI:n, som senare kommer att användas i serving.properties
.
Du kommer att paketera meta-llama/Llama-2-13b-chat-hf
modell på LMI-behållarbilden med DJL Serving med den konfiguration som anges via serving.properties
. Sedan distribuerar du modellen tillsammans med modellartefakter paketerade på behållarbilden på SageMaker ML-instansen ml.g5.12xlarge. Du använder sedan denna ML-instans för SageMaker Hosting för slutledning i realtid.
Förbered modellartefakter för DJL-servering
Förbered dina modellartefakter genom att skapa en serving.properties
konfigurationsfil:
Vi använder följande inställningar i den här konfigurationsfilen:
- motor – Detta anger körtidsmotorn som DJL ska använda. De möjliga värdena inkluderar
Python
,DeepSpeed
,FasterTransformer
ochMPI
. I det här fallet ställer vi in det påMPI
. Model Parallelization and Inference (MPI) underlättar uppdelningen av modellen över alla tillgängliga GPU:er och påskyndar därför slutledning. - option.entryPoint – Det här alternativet anger vilken hanterare som erbjuds av DJL Serving du vill använda. De möjliga värdena är
djl_python.huggingface
,djl_python.deepspeed
ochdjl_python.stable-diffusion
. Vi använderdjl_python.huggingface
för Hugging Face Accelerate. - option.tensor_parallel_degree – Det här alternativet anger antalet tensorparallella partitioner som utförs på modellen. Du kan ställa in antalet GPU-enheter som Accelerate behöver för att partitionera modellen. Den här parametern styr också antalet arbetare per modell som kommer att startas när DJL-serveringen körs. Till exempel, om vi har en 4 GPU-maskin och vi skapar fyra partitioner, kommer vi att ha en arbetare per modell för att betjäna förfrågningarna.
- option.low_cpu_mem_usage – Detta minskar CPU-minnesanvändningen vid laddning av modeller. Vi rekommenderar att du ställer in detta till
TRUE
. - option.rolling_batch – Detta möjliggör batchning på iterationsnivå med en av de strategier som stöds. Värdena inkluderar
auto
,scheduler
ochlmi-dist
. Vi använderlmi-dist
för att slå på kontinuerlig batchning för Llama 2. - option.max_rolling_batch_size – Detta begränsar antalet samtidiga förfrågningar i den kontinuerliga batchen. Värdet är som standard 32.
- option.model_id – Du bör byta ut
{{model_id}}
med modell-ID för en förutbildad modell värd inuti en modellförråd på Hugging Face eller S3 sökväg till modellartefakterna.
Fler konfigurationsalternativ finns i Konfigurationer och inställningar.
Eftersom DJL Serving förväntar sig att modellartefakterna ska paketeras och formateras i en .tar-fil, kör följande kodavsnitt för att komprimera och ladda upp .tar-filen till Amazon S3:
Hämta den senaste LMI-containerbilden med DJL Serving
Därefter använder du DLC:erna som finns tillgängliga med SageMaker för LMI för att distribuera modellen. Hämta SageMaker-bild-URI för djl-deepspeed
behållare programmatiskt med följande kod:
Du kan använda den tidigare nämnda bilden för att distribuera meta-llama/Llama-2-13b-chat-hf
modell på SageMaker. Nu kan du fortsätta att skapa modellen.
Skapa modellen
Du kan skapa modellen vars behållare är byggd med hjälp av inference_image_uri
och modellserveringskoden som finns vid S3 URI:n som anges av s3_code_artifact:
Nu kan du skapa modellkonfigurationen med alla detaljer för slutpunktskonfigurationen.
Skapa modellkonfigurationen
Använd följande kod för att skapa en modellkonfiguration för modellen som identifieras av model_name
:
Modellkonfigurationen är definierad för ProductionVariants
parameter InstanceType
för ML-instansen ml.g5.12xlarge. Du tillhandahåller också ModelName
med samma namn som du använde för att skapa modellen i det tidigare steget, och därigenom etablera en relation mellan modellen och slutpunktskonfigurationen.
Nu när du har definierat modellen och modellkonfigurationen kan du skapa SageMaker-slutpunkten.
Skapa SageMaker-slutpunkten
Skapa slutpunkten för att distribuera modellen med hjälp av följande kodavsnitt:
Du kan se förloppet för distributionen med hjälp av följande kodavsnitt:
Efter att implementeringen har lyckats kommer slutpunktsstatus att vara InService
. Nu när slutpunkten är klar, låt oss göra slutledning med svarsströmning.
Realtids slutledning med responsströmning
Som vi behandlade i den tidigare metoden för Hugging Face TGI, kan du använda samma metod get_realtime_response_stream
för att anropa svarsströmning från SageMaker-slutpunkten. Koden för slutledning med LMI-metoden finns i llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb anteckningsbok. De LineIterator
implementeringen ligger i llama-2-lmi/utils/LineIterator.py. Observera att LineIterator
för Llama 2 Chat-modellen som används på LMI-behållaren skiljer sig från LineIterator
hänvisas till i avsnittet Hugging Face TGI. De LineIterator
loopar över byteströmmen från Llama 2 Chat-modeller infererade med LMI-behållaren med djl-deepspeed
version 0.25.0. Följande hjälpfunktion kommer att analysera svarsströmmen som tas emot från slutledningsbegäran som görs via invoke_endpoint_with_response_stream
API:
Den föregående metoden skriver ut dataströmmen som läses av LineIterator
i ett mänskligt läsbart format.
Låt oss undersöka hur man förbereder uppmaningen och instruktionerna för att använda dem som nyttolast samtidigt som man drar slutsatser om modellen.
Eftersom du drar slutsatser om samma modell i både Hugging Face TGI och LMI, är processen för att förbereda uppmaningen och instruktionerna densamma. Därför kan du använda metoderna get_instructions
och build_llama2_prompt
för slutledning.
Smakämnen get_instructions
metod returnerar instruktionerna. Bygg instruktionerna i kombination med uppgiften som ska utföras enligt beskrivning i user_ask_2
enligt följande:
Skicka instruktionerna för att skapa prompten enligt promptmallen som genereras av build_llama2_prompt:
Vi klubbar inferensparametrarna tillsammans med uppmaningen för att bilda en slutgiltig nyttolast. Sedan skickar du nyttolasten till get_realtime_response_stream,
som används för att anropa en slutpunkt med svarsströmning:
Den genererade texten från LLM kommer att strömmas till utgången som visas i följande animation.
Städa upp
För att undvika onödiga avgifter, använd AWS Management Console för att ta bort endpoints och dess associerade resurser som skapades när du körde de metoder som nämns i inlägget. Utför följande rensningsrutin för båda distributionsmetoderna:
ersätta <SageMaker_Real-time_Endpoint_Name>
för variabel endpoint_name
med den faktiska slutpunkten.
För det andra tillvägagångssättet lagrade vi modellen och kodartefakterna på Amazon S3. Du kan rensa upp S3-hinken med följande kod:
Slutsats
I det här inlägget diskuterade vi hur ett varierande antal svarstokens eller en annan uppsättning inferensparametrar kan påverka latenserna som är associerade med LLM. Vi visade hur man åtgärdar problemet med hjälp av responsströmning. Vi identifierade sedan två tillvägagångssätt för att distribuera och sluta Llama 2 Chat-modeller med hjälp av AWS DLC:er – LMI och Hugging Face TGI.
Du bör nu förstå vikten av streamingsvar och hur det kan minska upplevd latens. Strömmande svar kan förbättra användarupplevelsen, vilket annars skulle få dig att vänta tills LLM bygger hela svaret. Att implementera Llama 2 Chat-modeller med responsströmning förbättrar dessutom användarupplevelsen och gör dina kunder nöjda.
Du kan hänvisa till de officiella aws-proverna amazon-sagemaker-llama2-response-streaming-recept som täcker driftsättning för andra Llama 2-modellvarianter.
Referensprojekt
Om författarna
Pavan Kumar Rao Navule är en lösningsarkitekt på Amazon Web Services. Han arbetar med ISV:er i Indien för att hjälpa dem att förnya sig på AWS. Han är en publicerad författare till boken "Kom igång med V-programmering." Han tog en Executive M.Tech i datavetenskap från Indian Institute of Technology (IIT), Hyderabad. Han tog också en Executive MBA i IT-specialisering från Indian School of Business Management and Administration, och har en B.Tech i Electronics and Communication Engineering från Vaagdevi Institute of Technology and Science. Pavan är en AWS Certified Solutions Architect Professional och har andra certifieringar som AWS Certified Machine Learning Specialty, Microsoft Certified Professional (MCP) och Microsoft Certified Technology Specialist (MCTS). Han är också en öppen källkod-entusiast. På fritiden älskar han att lyssna på Sia och Rihannas magiska röster.
Sudhanshu hatar är främsta AI/ML-specialist med AWS och arbetar med kunder för att ge dem råd om deras MLOps och generativa AI-resa. I sin tidigare roll före Amazon konceptualiserade, skapade och ledde han team för att bygga grundbaserade plattformar för AI och gamification med öppen källkod, och framgångsrikt kommersialiserade det med över 100 kunder. Sudhanshu till hans ära ett par patent, har skrivit två böcker och flera tidningar och bloggar, och har presenterat sina synpunkter i olika tekniska forum. Han har varit en tankeledare och talare och har varit i branschen i nästan 25 år. Han har arbetat med Fortune 1000-kunder över hela världen och senast med digitala infödda kunder i Indien.
- SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
- PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
- PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
- Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
- PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
- Källa: https://aws.amazon.com/blogs/machine-learning/inference-llama-2-models-with-real-time-response-streaming-using-amazon-sagemaker/
- : har
- :är
- :var
- $UPP
- 1
- 10
- 100
- 11
- 12
- 14
- 15%
- 150
- 16
- 19
- 1
- 25
- 32
- 385
- 50
- 7
- 70
- 8
- 9
- a
- förmåga
- Able
- Om oss
- accelerera
- accelererar
- accelerator
- Acceptera
- tillgång
- Konto
- Uppnå
- tvärs
- Handling
- faktiska
- Dessutom
- adress
- administrering
- anta
- Antagande
- Fördel
- råda
- påverka
- Efter
- AI
- AI-modeller
- AI / ML
- skott
- Justerar
- Alla
- tillåta
- tillåter
- längs
- redan
- också
- amason
- Amazon SageMaker
- Amazon Web Services
- an
- och
- animering
- meddelade
- Tillkännagivande
- vilken som helst
- api
- tillämpningar
- tillvägagångssätt
- tillvägagångssätt
- lämpligt
- arkitektoniska
- arkitektur
- ÄR
- Argumentet
- argument
- AS
- assistenter
- associerad
- At
- Författaren
- tillgänglig
- undvika
- AWS
- tillbaka
- bas
- dosering
- BE
- därför att
- varit
- innan
- mellan
- Bortom
- Miljarder
- miljarder
- SOPTUNNA
- bloggar
- kropp
- boken
- Böcker
- båda
- SLUTRESULTAT
- bygger
- byggt
- företag
- men
- by
- Ring
- Kampanj
- KAN
- kapabel
- Vid
- certifieringar
- Certifierad
- Förändringar
- avgifter
- chatt
- chatbots
- rena
- klient
- klienter
- klubb
- koda
- samling
- COM
- kombinerad
- kommer
- Kommunikation
- konkurrent
- konfiguration
- bekräftelse
- Behållare
- Behållare
- kontinuerlig
- kontinuerligt
- kontroller
- kunde
- Par
- kupong
- omfattas
- Täcker
- skapa
- skapas
- skapar
- Skapa
- kredit
- kund
- Kundnöjdhet
- Kunder
- datum
- datavetenskap
- Dagar
- djup
- djupt lärande
- defaults
- definiera
- definierade
- Försenad
- demonstrera
- distribuera
- utplacerade
- utplacera
- utplacering
- detaljerad
- detaljer
- utvecklare
- enheter
- olika
- digital
- diskuteras
- inte
- ladda ner
- under
- Tidigare
- antingen
- Elektronik
- möjliggör
- Slutpunkt
- Motor
- Teknik
- entusiast
- Hela
- Miljö
- speciellt
- upprättandet
- Även
- exempel
- verkställande
- väntar
- förväntar
- erfarenhet
- Erfarenheter
- utforska
- Ansikte
- underlättar
- falsk
- snabbare
- Fil
- Filer
- slutlig
- Slutligen
- Förnamn
- första gången
- efter
- följer
- För
- formen
- format
- Förmögenhet
- forum
- hittade
- fundament
- fyra
- Fri
- från
- full
- fullständigt
- fungera
- ytterligare
- spelifiering
- gated
- generera
- genereras
- generera
- generering
- generativ
- Generativ AI
- generatorer
- skaffa sig
- gif
- globen
- Go
- regleras
- GPU
- GPUs
- beviljats
- stor
- lyckligt
- hatar
- Har
- he
- hjälpa
- hjälper
- högpresterande
- högre
- hans
- innehar
- värd
- värd
- Hur ser din drömresa ut
- How To
- Men
- html
- http
- HTTPS
- Kramar ansikte
- läsbar
- ID
- identifierade
- Identitet
- if
- illustrerar
- bild
- bilder
- omedelbar
- genomföra
- genomförande
- importera
- vikt
- med Esport
- förbättra
- förbättrar
- in
- innefattar
- Inklusive
- indien
- indisk
- indikerade
- industrin
- informationen
- Infrastruktur
- förnya
- ingång
- ingångar
- inuti
- exempel
- istället
- Institute
- instruktioner
- interaktiva
- Internet
- problem
- IT
- DESS
- resa
- json
- Nyckel
- kumar
- språk
- Large
- Latens
- latensproblem
- senare
- senaste
- lansera
- leda
- ledare
- inlärning
- Led
- Längd
- bibliotek
- Licens
- tycka om
- gränser
- linje
- lyssna
- Lama
- LLM
- läser in
- belägen
- älskar
- Maskinen
- maskininlärning
- gjord
- göra
- GÖR
- hantera
- förvaltade
- ledning
- Marknadsföring
- max
- Maj..
- MCP
- Minne
- nämnts
- meta
- metod
- metoder
- Microsoft
- miljoner
- ML
- MLOps
- modell
- modeller
- månader
- mer
- mest
- Musik
- måste
- namn
- Som heter
- nativ
- nästan
- Behöver
- behov
- Nya
- Nästa
- Notera
- anteckningsbok
- nu
- antal
- objekt
- observera
- få
- erhållna
- of
- erbjuds
- tjänsteman
- Ofta
- on
- ONE
- endast
- öppet
- öppen källkod
- Alternativet
- Tillbehör
- or
- Övriga
- annat
- konturer
- produktion
- över
- övergripande
- förpackade
- förpackning
- papper
- Parallell
- parameter
- parametrar
- del
- passera
- Patent
- bana
- för
- uppfattas
- Utföra
- utfört
- behörigheter
- Plattformar
- plato
- Platon Data Intelligence
- PlatonData
- poäng
- Populära
- möjlig
- Inlägg
- drivs
- föregående
- Förbered
- förbereda
- förutsättningar
- presenteras
- föregående
- Principal
- utskrifter
- Problem
- Fortsätt
- process
- Bearbetad
- bearbetning
- Produkt
- produktlansering
- professionell
- Profil
- Programmering
- Framsteg
- egenskaper
- ge
- förutsatt
- ger
- tillhandahålla
- publicerade
- syfte
- Python
- pytorch
- fråga
- som sträcker sig
- snabb
- snarare
- Läsa
- redo
- verklig
- realtid
- inser
- motta
- mottagna
- nyligen
- rekommenderar
- rekommenderas
- minska
- minskar
- reducerande
- hänvisa
- förhållande
- ersätta
- svara
- Repository
- begära
- förfrågningar
- Resurser
- Svara
- respons
- svar
- resultera
- avkastning
- återgår
- Roll
- rutin
- Körning
- rinnande
- kör
- runtime
- sagemaker
- Samma
- tillfredsställande
- Skala
- Skola
- Vetenskap
- sDK
- sömlös
- Andra
- §
- se
- sända
- sänder
- tjänar
- service
- Tjänster
- portion
- in
- inställningar
- flera
- Kort
- skall
- show
- visade
- visas
- Visar
- signera
- Enkelt
- Snapshot
- kodavsnitt
- lösning
- Lösningar
- snart
- Källa
- källkod
- Högtalare
- specialist
- specialiserad
- Specialitet
- specifikationer
- specificerade
- igång
- status
- Steg
- Steg
- Sluta
- förvaring
- lagra
- lagras
- strategier
- ström
- strömmas
- streaming
- streaming service
- lyckas
- framgångsrik
- Framgångsrikt
- sådana
- stödja
- Som stöds
- Stöder
- bord
- Ta
- uppgift
- lag
- tech
- Teknisk
- Teknologi
- mall
- text
- än
- den där
- Smakämnen
- deras
- Dem
- sedan
- Där.
- vari
- därför
- Dessa
- de
- detta
- fastän?
- trodde
- genomströmning
- tid
- gånger
- till
- token
- tokens
- verktyg
- Tåg
- Översättning
- sann
- Vrida
- två
- Typ
- typer
- typiskt
- förstå
- onödig
- tills
- Användning
- användning
- användningsfall
- Begagnade
- Användare
- Användarupplevelse
- med hjälp av
- giltigt
- värde
- Värden
- variabel
- olika
- varierande
- Omfattande
- version
- via
- utsikt
- Virtuell
- Besök
- RÖSTER
- vänta
- väntar
- vill
- we
- webb
- webbservice
- VÄL
- były
- när
- som
- medan
- Hela
- vars
- kommer
- med
- inom
- utan
- arbetade
- arbetstagaren
- arbetare
- arbetsflöde
- arbetsflöden
- arbetssätt
- fungerar
- skulle
- skriva
- skriven
- år
- Om er
- Din
- zephyrnet