Med den hurtige indførelse af generative AI-applikationer er der behov for, at disse applikationer reagerer i tide for at reducere den opfattede latens med højere gennemløb. Fundamentmodeller (FM'er) er ofte fortrænede på store datakorpora med parametre, der strækker sig i skala fra millioner til milliarder og derover. Store sprogmodeller (LLM'er) er en type FM, der genererer tekst som et svar på brugerinferensen. Udledning af disse modeller med varierende konfigurationer af inferensparametre kan føre til inkonsistente latenstider. Inkonsekvensen kan skyldes det varierende antal svar-tokens, du forventer af modellen, eller typen af accelerator, som modellen er installeret på.
I begge tilfælde, i stedet for at vente på det fulde svar, kan du bruge tilgangen til svarstreaming for dine konklusioner, som sender bidder af information tilbage, så snart de er genereret. Dette skaber en interaktiv oplevelse ved at give dig mulighed for at se delvise svar streamet i realtid i stedet for et forsinket fuldt svar.
Med den officielle meddelelse, at Amazon SageMaker-inferens i realtid understøtter nu responsstreaming, kan du nu løbende streame inferenssvar tilbage til klienten, når du bruger Amazon SageMaker inferens i realtid med responsstreaming. Denne løsning hjælper dig med at bygge interaktive oplevelser til forskellige generative AI-applikationer såsom chatbots, virtuelle assistenter og musikgeneratorer. Dette indlæg viser dig, hvordan du realiserer hurtigere responstider i form af Time to First Byte (TTFB) og reducerer den overordnede opfattede latenstid, mens du udleder Llama 2-modeller.
Til at implementere løsningen bruger vi SageMaker, en fuldt administreret service til at forberede data og bygge, træne og implementere maskinlæringsmodeller (ML) til enhver brugssituation med fuldt administreret infrastruktur, værktøjer og arbejdsgange. For mere information om de forskellige implementeringsmuligheder, SageMaker tilbyder, se Ofte stillede spørgsmål om Amazon SageMaker Model Hosting. Lad os forstå, hvordan vi kan løse forsinkelsesproblemerne ved hjælp af realtidsslutning med responsstreaming.
Løsningsoversigt
Fordi vi ønsker at adressere de førnævnte forsinkelser forbundet med realtidsinferens med LLM'er, lad os først forstå, hvordan vi kan bruge respons-streaming-understøttelsen til real-time inferencing for Llama 2. Men enhver LLM kan drage fordel af respons-streaming-support med reel -tidsinferencing.
Llama 2 er en samling af fortrænede og finjusterede generative tekstmodeller i en skala fra 7 milliarder til 70 milliarder parametre. Llama 2-modeller er autoregressive modeller med kun dekoder-arkitektur. Når de er forsynet med en prompt og slutningsparametre, er Llama 2-modeller i stand til at generere tekstsvar. Disse modeller kan bruges til oversættelse, opsummering, besvarelse af spørgsmål og chat.
Til dette indlæg implementerer vi Llama 2 Chat-modellen meta-llama/Llama-2-13b-chat-hf
på SageMaker for inferencing i realtid med responsstreaming.
Når det kommer til at implementere modeller på SageMaker-slutpunkter, kan du containerisere modellerne ved hjælp af specialiserede AWS Deep Learning Container (DLC) billeder tilgængelige for populære open source-biblioteker. Llama 2-modeller er tekstgenereringsmodeller; du kan bruge enten Hugging Face LLM-slutningsbeholdere på SageMaker drevet af Hugging Face Tekstgenereringsinferens (TGI) eller AWS DLC'er til Stor modelslutning (LMI).
I dette indlæg implementerer vi Llama 2 13B Chat-modellen ved hjælp af DLC'er på SageMaker Hosting til realtidsslutning drevet af G5-instanser. G5-instanser er en højtydende GPU-baseret instans til grafikintensive applikationer og ML-inferens. Du kan også bruge understøttede instanstyper p4d, p3, g5 og g4dn med passende ændringer i henhold til instanskonfigurationen.
Forudsætninger
For at implementere denne løsning skal du have følgende:
- En AWS-konto med en AWS identitets- og adgangsstyring (IAM) rolle med tilladelser til at administrere ressourcer oprettet som en del af løsningen.
- Hvis det er første gang, du arbejder med Amazon SageMaker Studio, skal du først oprette en SageMaker domæne.
- En Hugging Face-konto. Tilmeld dig med din e-mail, hvis du ikke allerede har en konto.
- For problemfri adgang til modellerne, der er tilgængelige på Hugging Face, især gated-modeller som Llama, til finjustering og konklusioner, bør du have en Hugging Face-konto for at få et læseadgangstoken. Når du har tilmeldt dig din Hugging Face-konto, logge ind at besøge https://huggingface.co/settings/tokens for at oprette et læseadgangstoken.
- Adgang til Llama 2 ved at bruge det samme e-mail-id, som du brugte til at tilmelde dig Hugging Face.
- Llama 2-modellerne, der er tilgængelige via Hugging Face, er gated-modeller. Brugen af Llama-modellen er underlagt Meta-licensen. For at downloade modelvægte og tokenizer, anmode om adgang til Llama og acceptere deres licens.
- Når du har fået adgang (typisk inden for et par dage), modtager du en e-mailbekræftelse. Til dette eksempel bruger vi modellen
Llama-2-13b-chat-hf
, men du burde også kunne få adgang til andre varianter.
Fremgangsmåde 1: Hugging Face TGI
I dette afsnit viser vi dig, hvordan du implementerer meta-llama/Llama-2-13b-chat-hf
model til et SageMaker-endepunkt i realtid med responsstreaming ved hjælp af Hugging Face TGI. Følgende tabel skitserer specifikationerne for denne installation.
Specification | Værdi |
Container | Knusende ansigt TGI |
Modelnavn | meta-llama/Llama-2-13b-chat-hf |
ML Forekomst | ml.g5.12xlarge |
Inferens | Realtid med responsstreaming |
Implementer modellen
Først henter du basisbilledet for LLM, der skal implementeres. Du bygger derefter modellen på basisbilledet. Til sidst implementerer du modellen til ML-instansen for SageMaker Hosting til realtidsslutning.
Lad os se, hvordan du opnår implementeringen programmatisk. For kortheds skyld diskuteres kun den kode, der hjælper med implementeringstrinnene, i dette afsnit. Den fulde kildekode til implementering er tilgængelig i notesbogen llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.
Hent den seneste Hugging Face LLM DLC drevet af TGI via forudbygget SageMaker DLC'er. Du bruger dette billede til at implementere meta-llama/Llama-2-13b-chat-hf
model på SageMaker. Se følgende kode:
Definer miljøet for modellen med konfigurationsparametrene defineret som følger:
udskifte <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
for konfigurationsparameteren HUGGING_FACE_HUB_TOKEN
med værdien af tokenet, der er opnået fra din Hugging Face-profil som beskrevet i afsnittet om forudsætninger i dette indlæg. I konfigurationen definerer du antallet af brugte GPU'er pr. replika af en model som 4 for SM_NUM_GPUS
. Så kan du implementere meta-llama/Llama-2-13b-chat-hf
model på en ml.g5.12xlarge instans, der kommer med 4 GPU'er.
Nu kan du bygge instansen af HuggingFaceModel
med den førnævnte miljøkonfiguration:
Til sidst skal du implementere modellen ved at give argumenter til den implementeringsmetode, der er tilgængelig på modellen med forskellige parameterværdier som f.eks endpoint_name
, initial_instance_count
og instance_type
:
Udfør inferens
Hugging Face TGI DLC kommer med muligheden for at streame svar uden nogen tilpasninger eller kodeændringer til modellen. Du kan bruge invoke_endpoint_with_response_stream hvis du bruger Boto3 eller InvokeEndpointWithResponseStream ved programmering med SageMaker Python SDK.
InvokeEndpointWithResponseStream
API fra SageMaker giver udviklere mulighed for at streame svar tilbage fra SageMaker-modeller, hvilket kan hjælpe med at forbedre kundetilfredsheden ved at reducere den opfattede latenstid. Dette er især vigtigt for applikationer bygget med generative AI-modeller, hvor øjeblikkelig behandling er vigtigere end at vente på hele svaret.
I dette eksempel bruger vi Boto3 til at udlede modellen og bruge SageMaker API invoke_endpoint_with_response_stream
som følger:
Argumentet CustomAttributes
er indstillet til værdien accept_eula=false
. accept_eula
parameter skal indstilles til true
at opnå respons fra Llama 2-modellerne. Efter den vellykkede påkaldelse ved hjælp af invoke_endpoint_with_response_stream
, vil metoden returnere en svarstrøm af bytes.
Følgende diagram illustrerer denne arbejdsgang.
Du har brug for en iterator, der går over strømmen af bytes og analyserer dem til læsbar tekst. Det LineIterator
implementering kan findes på llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Nu er du klar til at forberede prompten og instruktionerne til at bruge dem som en nyttelast, mens du udleder modellen.
Forbered en prompt og instruktioner
I dette trin forbereder du prompten og instruktionerne til din LLM. For at bede Llama 2 skal du have følgende promptskabelon:
Du bygger den promptskabelon, der er programmeret defineret i metoden build_llama2_prompt
, som stemmer overens med den førnævnte promptskabelon. Du definerer derefter instruktionerne i henhold til brugssagen. I dette tilfælde instruerer vi modellen i at generere en e-mail til en marketingkampagne som dækket af get_instructions
metode. Koden til disse metoder er i llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb notesbog. Byg instruktionen kombineret med den opgave, der skal udføres som beskrevet i user_ask_1
som følger:
Vi videregiver instruktionerne til at bygge prompten i henhold til promptskabelonen genereret af build_llama2_prompt.
Vi klubber slutningsparametrene sammen med prompt med tasten stream
med værdien True
at danne en endelig nyttelast. Send nyttelasten til get_realtime_response_stream
, som vil blive brugt til at kalde et slutpunkt med responsstreaming:
Den genererede tekst fra LLM vil blive streamet til output som vist i den følgende animation.
Fremgangsmåde 2: LMI med DJL Servering
I dette afsnit viser vi, hvordan du implementerer meta-llama/Llama-2-13b-chat-hf
model til et SageMaker-endepunkt i realtid med responsstreaming ved hjælp af LMI med DJL-servering. Følgende tabel skitserer specifikationerne for denne installation.
Specification | Værdi |
Container | LMI container billede med DJL Servering |
Modelnavn | meta-llama/Llama-2-13b-chat-hf |
ML Forekomst | ml.g5.12xlarge |
Inferens | Realtid med responsstreaming |
Du downloader først modellen og gemmer den i Amazon Simple Storage Service (Amazon S3). Du angiver derefter S3 URI'en, der angiver S3-præfikset for modellen i serving.properties
fil. Derefter henter du basisbilledet til LLM, der skal implementeres. Du bygger derefter modellen på basisbilledet. Til sidst implementerer du modellen til ML-instansen for SageMaker Hosting til realtidsslutning.
Lad os se, hvordan man opnår de førnævnte implementeringstrin programmatisk. For kortheds skyld er kun den kode, der hjælper med implementeringstrinnene, der er beskrevet i dette afsnit. Den fulde kildekode til denne implementering er tilgængelig i notesbogen llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.
Download model-øjebliksbilledet fra Hugging Face og upload modelartefakter på Amazon S3
Med de førnævnte forudsætninger skal du downloade modellen på SageMaker notebook-instansen og derefter uploade den til S3-bøtten for yderligere implementering:
Bemærk, at selvom du ikke angiver et gyldigt adgangstoken, vil modellen downloades. Men når du implementerer en sådan model, vil modelserveringen ikke lykkes. Derfor anbefales det at udskifte <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
for argumentet token
med værdien af tokenet fra din Hugging Face-profil som beskrevet i forudsætningerne. Til dette indlæg angiver vi den officielle models navn for Llama 2 som identificeret på Hugging Face med værdien meta-llama/Llama-2-13b-chat-hf
. Den ukomprimerede model vil blive downloadet til local_model_path
som et resultat af at køre den førnævnte kode.
Upload filerne til Amazon S3 og få URI'en, som senere vil blive brugt i serving.properties
.
Du skal pakke meta-llama/Llama-2-13b-chat-hf
model på LMI-containerbilledet med DJL Serving ved hjælp af den konfiguration, der er angivet via serving.properties
. Derefter implementerer du modellen sammen med modelartefakter pakket på containerbilledet på SageMaker ML-instansen ml.g5.12xlarge. Du bruger derefter denne ML-instans til SageMaker Hosting til realtidsinferencing.
Forbered modelartefakter til DJL-servering
Forbered dine modelartefakter ved at skabe en serving.properties
konfigurationsfil:
Vi bruger følgende indstillinger i denne konfigurationsfil:
- motor – Dette angiver runtime-motoren, som DJL skal bruge. De mulige værdier omfatter
Python
,DeepSpeed
,FasterTransformer
ogMPI
. I dette tilfælde indstiller vi det tilMPI
. Model Parallelization and Inference (MPI) letter opdelingen af modellen på tværs af alle tilgængelige GPU'er og fremskynder derfor inferens. - option.entryPoint – Denne mulighed angiver, hvilken handler, der tilbydes af DJL Serving, du gerne vil bruge. De mulige værdier er
djl_python.huggingface
,djl_python.deepspeed
ogdjl_python.stable-diffusion
. Vi brugerdjl_python.huggingface
til Hugging Face Accelerate. - option.tensor_parallel_degree – Denne indstilling angiver antallet af tensor-parallelle partitioner, der udføres på modellen. Du kan indstille til antallet af GPU-enheder, som Accelerate skal bruge for at partitionere modellen. Denne parameter styrer også antallet af arbejdere pr. model, der vil blive startet op, når DJL-servering kører. For eksempel, hvis vi har en 4 GPU-maskine, og vi opretter fire partitioner, vil vi have en arbejder pr. model til at betjene anmodningerne.
- option.low_cpu_mem_usage – Dette reducerer CPU-hukommelsesbrug, når modeller indlæses. Vi anbefaler, at du indstiller dette til
TRUE
. - option.rolling_batch – Dette muliggør batching på iterationsniveau ved hjælp af en af de understøttede strategier. Værdier inkluderer
auto
,scheduler
oglmi-dist
. Vi brugerlmi-dist
for at aktivere kontinuerlig batching for Llama 2. - option.max_rolling_batch_size – Dette begrænser antallet af samtidige anmodninger i den kontinuerlige batch. Værdien er som standard 32.
- option.model_id – Du bør udskifte
{{model_id}}
med model-id'et for en fortrænet model, der er hostet inde i en modelopbevaring på Hugging Face eller S3-sti til modelartefakter.
Flere konfigurationsmuligheder kan findes i Konfigurationer og indstillinger.
Fordi DJL Serving forventer, at modelartefakter er pakket og formateret i en .tar-fil, skal du køre følgende kodestykke for at komprimere og uploade .tar-filen til Amazon S3:
Hent det seneste LMI-containerbillede med DJL Serving
Dernæst bruger du de DLC'er, der er tilgængelige med SageMaker til LMI, til at implementere modellen. Hent SageMaker billed-URI for djl-deepspeed
container programmatisk ved hjælp af følgende kode:
Du kan bruge det førnævnte billede til at implementere meta-llama/Llama-2-13b-chat-hf
model på SageMaker. Nu kan du fortsætte med at oprette modellen.
Opret modellen
Du kan oprette den model, hvis container er bygget ved hjælp af inference_image_uri
og modelserveringskoden placeret ved S3 URI angivet ved s3_code_artifact:
Nu kan du oprette modelkonfigurationen med alle detaljer for slutpunktskonfigurationen.
Opret modelkonfigurationen
Brug følgende kode til at oprette en modelkonfiguration for modellen identificeret af model_name
:
Modelkonfigurationen er defineret for ProductionVariants
parameter InstanceType
for ML-forekomsten ml.g5.12xlarge. Du giver også ModelName
ved at bruge det samme navn, som du brugte til at oprette modellen i det tidligere trin, og derved etablere en relation mellem modellen og slutpunktskonfigurationen.
Nu hvor du har defineret modellen og modelkonfigurationen, kan du oprette SageMaker-slutpunktet.
Opret SageMaker-slutpunktet
Opret slutpunktet for at implementere modellen ved hjælp af følgende kodestykke:
Du kan se status for implementeringen ved hjælp af følgende kodestykke:
Når implementeringen er vellykket, vil slutpunktets status være InService
. Nu hvor endepunktet er klar, lad os udføre inferens med responsstreaming.
Realtidsslutning med responsstreaming
Som vi dækkede i den tidligere tilgang til Hugging Face TGI, kan du bruge den samme metode get_realtime_response_stream
at påkalde svarstreaming fra SageMaker-slutpunktet. Koden til at konkludere ved hjælp af LMI-tilgangen er i llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb notesbog. Det LineIterator
implementering er placeret i llama-2-lmi/utils/LineIterator.py. Bemærk, at LineIterator
for Llama 2 Chat-modellen, der er installeret på LMI-beholderen, er forskellig fra LineIterator
refereret i Hugging Face TGI-sektionen. Det LineIterator
sløjfer over bytestrømmen fra Llama 2 Chat-modeller infereret med LMI-beholderen med djl-deepspeed
version 0.25.0. Følgende hjælpefunktion vil analysere den svarstrøm, der er modtaget fra slutningsanmodningen foretaget via invoke_endpoint_with_response_stream
API'er:
Den foregående metode udskriver strømmen af data læst af LineIterator
i et menneskelæsbart format.
Lad os undersøge, hvordan du forbereder prompten og instruktionerne til at bruge dem som en nyttelast, mens vi udleder modellen.
Fordi du udleder den samme model i både Hugging Face TGI og LMI, er processen med at forberede prompten og instruktionerne den samme. Derfor kan du bruge metoderne get_instructions
, build_llama2_prompt
for at konkludere.
get_instructions
metoden returnerer instruktionerne. Byg instruktionerne kombineret med den opgave, der skal udføres som beskrevet i user_ask_2
som følger:
Send instruktionerne til at bygge prompten i henhold til promptskabelonen genereret af build_llama2_prompt:
Vi klubber slutningsparametrene sammen med prompten for at danne en endelig nyttelast. Så sender du nyttelasten til get_realtime_response_stream,
som bruges til at kalde et slutpunkt med responsstreaming:
Den genererede tekst fra LLM vil blive streamet til output som vist i den følgende animation.
Ryd op
For at undgå unødvendige gebyrer skal du bruge AWS Management Console for at slette de endepunkter og dets tilknyttede ressourcer, der blev oprettet under kørsel af fremgangsmåderne nævnt i indlægget. For begge implementeringstilgange skal du udføre følgende oprydningsrutine:
udskifte <SageMaker_Real-time_Endpoint_Name>
for variabel endpoint_name
med det faktiske endepunkt.
Til den anden tilgang gemte vi modellen og kodeartefakter på Amazon S3. Du kan rydde op i S3-spanden ved at bruge følgende kode:
Konklusion
I dette indlæg diskuterede vi, hvordan et varierende antal svartokens eller et andet sæt af inferensparametre kan påvirke latenserne forbundet med LLM'er. Vi viste, hvordan man løser problemet ved hjælp af responsstreaming. Derefter identificerede vi to tilgange til at implementere og udlede Llama 2 Chat-modeller ved hjælp af AWS DLC'er - LMI og Hugging Face TGI.
Du bør nu forstå vigtigheden af streamingsvar, og hvordan det kan reducere opfattet latenstid. Streamingsvar kan forbedre brugeroplevelsen, hvilket ellers ville få dig til at vente, indtil LLM'en bygger hele svaret. Derudover forbedrer implementering af Llama 2 Chat-modeller med responsstreaming brugeroplevelsen og gør dine kunder glade.
Du kan henvise til de officielle aws-eksempler amazon-sagemaker-llama2-response-streaming-opskrifter der dækker implementering for andre Llama 2-modelvarianter.
Referencer
Om forfatterne
Pavan Kumar Rao Navule er Solutions Architect hos Amazon Web Services. Han arbejder med ISV'er i Indien for at hjælpe dem med at innovere på AWS. Han er udgivet forfatter til bogen "Kom i gang med V-programmering." Han forfulgte en Executive M.Tech i Data Science fra Indian Institute of Technology (IIT), Hyderabad. Han forfulgte også en Executive MBA i IT-specialisering fra Indian School of Business Management and Administration og har en B.Tech i Electronics and Communication Engineering fra Vaagdevi Institute of Technology and Science. Pavan er en AWS Certified Solutions Architect Professional og har andre certificeringer såsom AWS Certified Machine Learning Specialty, Microsoft Certified Professional (MCP) og Microsoft Certified Technology Specialist (MCTS). Han er også en open source-entusiast. I sin fritid elsker han at lytte til Sia og Rihannas store magiske stemmer.
Sudhanshu hader er primær AI/ML-specialist hos AWS og arbejder med kunder for at rådgive dem om deres MLOps og generative AI-rejse. I sin tidligere rolle før Amazon konceptualiserede, skabte og førte han teams til at bygge opbyggede open source-baserede AI- og gamification-platforme og med succes kommercialiserede det med over 100 kunder. Sudhanshu til hans kredit et par patenter, har skrevet to bøger og adskillige papirer og blogs, og har præsenteret sine synspunkter i forskellige tekniske fora. Han har været tankeleder og foredragsholder og har været i branchen i næsten 25 år. Han har arbejdet med Fortune 1000-kunder over hele kloden og senest med digitale indfødte kunder i Indien.
- SEO Powered Content & PR Distribution. Bliv forstærket i dag.
- PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
- PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
- PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
- PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
- Kilde: https://aws.amazon.com/blogs/machine-learning/inference-llama-2-models-with-real-time-response-streaming-using-amazon-sagemaker/
- :har
- :er
- :hvor
- $OP
- 1
- 10
- 100
- 11
- 12
- 14
- 15 %
- 150
- 16
- 19
- 1.
- 25
- 32
- 385
- 50
- 7
- 70
- 8
- 9
- a
- evne
- I stand
- Om
- fremskynde
- accelererer
- accelerator
- Acceptere
- adgang
- Konto
- opnå
- tværs
- Handling
- faktiske
- Derudover
- adresse
- administration
- vedtage
- Vedtagelse
- Fordel
- rådgive
- påvirke
- Efter
- AI
- AI modeller
- AI / ML
- alice
- Justerer
- Alle
- tillade
- tillader
- sammen
- allerede
- også
- Amazon
- Amazon SageMaker
- Amazon Web Services
- an
- ,
- animation
- annoncerede
- Fondsbørsmeddelelse
- enhver
- api
- applikationer
- tilgang
- tilgange
- passende
- arkitektonisk
- arkitektur
- ER
- argument
- argumenter
- AS
- assistenter
- forbundet
- At
- forfatter
- til rådighed
- undgå
- AWS
- tilbage
- bund
- vejeafmålings
- BE
- fordi
- været
- før
- mellem
- Beyond
- Billion
- milliarder
- BIN
- blogs
- krop
- bog
- Bøger
- både
- bygge
- bygger
- bygget
- virksomhed
- men
- by
- ringe
- Kampagne
- CAN
- stand
- tilfælde
- certificeringer
- Certificeret
- Ændringer
- afgifter
- chatte
- chatbots
- ren
- kunde
- kunder
- klub
- kode
- samling
- KOM
- kombineret
- kommer
- Kommunikation
- konkurrent
- Konfiguration
- bekræftelse
- Container
- Beholdere
- kontinuerlig
- kontinuerligt
- kontrol
- kunne
- Par
- kupon
- dækket
- Dækker
- skabe
- oprettet
- skaber
- Oprettelse af
- kredit
- kunde
- Kundetilfredshed
- Kunder
- data
- datalogi
- Dage
- dyb
- dyb læring
- defaults
- definere
- definerede
- Forsinket
- demonstrere
- indsætte
- indsat
- implementering
- implementering
- detaljeret
- detaljer
- udviklere
- Enheder
- forskellige
- digital
- drøftet
- Dont
- downloade
- i løbet af
- tidligere
- enten
- Elektronik
- muliggør
- Endpoint
- Engine (Motor)
- Engineering
- entusiast
- Hele
- Miljø
- især
- oprettelse
- Endog
- eksempel
- udøvende
- forventer
- forventer
- erfaring
- Oplevelser
- udforske
- Ansigtet
- letter
- falsk
- hurtigere
- File (Felt)
- Filer
- endelige
- Endelig
- Fornavn
- første gang
- efter
- følger
- Til
- formular
- format
- rigdom
- fora
- fundet
- Foundation
- fire
- Gratis
- fra
- fuld
- fuldt ud
- funktion
- yderligere
- gamification
- gated
- generere
- genereret
- generere
- generation
- generative
- Generativ AI
- generatorer
- få
- gif
- kloden
- Go
- reguleret
- GPU
- GPU'er
- bevilget
- stor
- Gem
- hader
- Have
- he
- hjælpe
- hjælper
- Høj ydeevne
- højere
- hans
- besidder
- hostede
- Hosting
- Hvordan
- How To
- Men
- HTML
- http
- HTTPS
- KrammerFace
- læsbar
- ID
- identificeret
- Identity
- if
- illustrerer
- billede
- billeder
- umiddelbar
- gennemføre
- implementering
- importere
- betydning
- vigtigt
- Forbedre
- forbedrer
- in
- omfatter
- Herunder
- Indien
- indiske
- angivet
- industrien
- oplysninger
- Infrastruktur
- innovere
- indgang
- indgange
- indvendig
- instans
- i stedet
- Institut
- anvisninger
- interaktiv
- Internet
- spørgsmål
- IT
- ITS
- rejse
- json
- Nøgle
- Kumar
- Sprog
- stor
- Latency
- latensproblemer
- senere
- seneste
- lancere
- føre
- leder
- læring
- Led
- Længde
- biblioteker
- Licens
- ligesom
- grænser
- Line (linje)
- lytte
- Llama
- LLM
- lastning
- placeret
- elsker
- maskine
- machine learning
- lavet
- lave
- maerker
- administrere
- lykkedes
- ledelse
- Marketing
- max
- Kan..
- MCP
- Hukommelse
- nævnte
- Meta
- metode
- metoder
- microsoft
- millioner
- ML
- MLOps
- model
- modeller
- måned
- mere
- mest
- Musik
- skal
- navn
- Som hedder
- indfødte
- næsten
- Behov
- behov
- Ny
- næste
- Bemærk
- notesbog
- nu
- nummer
- objekter
- observere
- opnå
- opnået
- of
- tilbydes
- officiel
- tit
- on
- ONE
- kun
- åbent
- open source
- Option
- Indstillinger
- or
- Andet
- Ellers
- konturer
- output
- i løbet af
- samlet
- emballeret
- emballage
- papirer
- Parallel
- parameter
- parametre
- del
- passerer
- Patenter
- sti
- per
- opfattet
- Udfør
- udføres
- Tilladelser
- Platforme
- plato
- Platon Data Intelligence
- PlatoData
- punkter
- Populær
- mulig
- Indlæg
- strøm
- forud
- Forbered
- forberede
- forudsætninger
- forelagt
- tidligere
- Main
- udskrifter
- Problem
- Fortsæt
- behandle
- Behandlet
- forarbejdning
- Produkt
- produktlancering
- professionel
- Profil
- Programmering
- Progress
- egenskaber
- give
- forudsat
- giver
- leverer
- offentliggjort
- formål
- Python
- pytorch
- spørgsmål
- spænder
- hurtige
- hellere
- Læs
- klar
- ægte
- realtid
- indse
- modtage
- modtaget
- for nylig
- anbefaler
- anbefales
- reducere
- reducerer
- reducere
- henvise
- relation
- erstatte
- svar
- Repository
- anmode
- anmodninger
- Ressourcer
- Svar
- svar
- reaktioner
- resultere
- afkast
- afkast
- roller
- rutine
- Kør
- kører
- løber
- runtime
- sagemaker
- samme
- tilfredshed
- Scale
- Skole
- Videnskab
- SDK
- sømløs
- Anden
- Sektion
- se
- send
- sender
- tjener
- tjeneste
- Tjenester
- servering
- sæt
- indstillinger
- flere
- Kort
- bør
- Vis
- viste
- vist
- Shows
- underskrive
- Simpelt
- Snapshot
- uddrag
- løsninger
- Løsninger
- snart
- Kilde
- kildekode
- Højttaler
- specialist
- specialiserede
- Specialty
- specifikationer
- specificeret
- påbegyndt
- Status
- Trin
- Steps
- Stands
- opbevaring
- butik
- opbevaret
- strategier
- strøm
- streamet
- streaming
- streaming service
- lykkes
- vellykket
- Succesfuld
- sådan
- support
- Understøttet
- Understøtter
- bord
- Tag
- Opgaver
- hold
- tech
- Teknisk
- Teknologier
- skabelon
- tekst
- end
- at
- deres
- Them
- derefter
- Der.
- derved
- derfor
- Disse
- de
- denne
- selvom?
- tænkte
- kapacitet
- tid
- gange
- til
- token
- Tokens
- værktøjer
- Tog
- Oversættelse
- sand
- Drejning
- to
- typen
- typer
- typisk
- forstå
- unødvendig
- indtil
- Brug
- brug
- brug tilfælde
- anvendte
- Bruger
- Brugererfaring
- ved brug af
- gyldig
- værdi
- Værdier
- variabel
- forskellige
- Varierende
- Vast
- udgave
- via
- Specifikation
- Virtual
- Besøg
- STEMMER
- vente
- Venter
- ønsker
- we
- web
- webservices
- GODT
- var
- hvornår
- som
- mens
- Hele
- hvis
- vilje
- med
- inden for
- uden
- arbejdede
- arbejdstager
- arbejdere
- workflow
- arbejdsgange
- arbejder
- virker
- ville
- skriver
- skriftlig
- år
- Du
- Din
- zephyrnet