Con la rapida adozione di applicazioni di intelligenza artificiale generativa, è necessario che queste rispondano in tempo per ridurre la latenza percepita con un throughput più elevato. I Foundation Model (FM) sono spesso pre-addestrati su vasti corpora di dati con parametri che vanno da milioni a miliardi e oltre. I modelli linguistici di grandi dimensioni (LLM) sono un tipo di FM che genera testo come risposta all'inferenza dell'utente. L'inferenza di questi modelli con diverse configurazioni dei parametri di inferenza può portare a latenze incoerenti. L'incoerenza potrebbe essere dovuta al numero variabile di token di risposta previsti dal modello o al tipo di acceleratore su cui viene distribuito il modello.
In entrambi i casi, invece di attendere la risposta completa, puoi adottare l'approccio dello streaming di risposta per le tue inferenze, che invia blocchi di informazioni non appena vengono generate. Ciò crea un'esperienza interattiva consentendoti di vedere le risposte parziali trasmesse in streaming in tempo reale invece di una risposta completa ritardata.
Con l'annuncio ufficiale che L'inferenza in tempo reale di Amazon SageMaker ora supporta lo streaming di risposta, ora puoi trasmettere continuamente le risposte di inferenza al client durante l'utilizzo Amazon Sage Maker inferenza in tempo reale con streaming di risposta. Questa soluzione ti aiuterà a creare esperienze interattive per varie applicazioni di intelligenza artificiale generativa come chatbot, assistenti virtuali e generatori di musica. Questo post mostra come realizzare tempi di risposta più rapidi sotto forma di Time to First Byte (TTFB) e ridurre la latenza complessiva percepita mentre si inferiscono i modelli Llama 2.
Per implementare la soluzione, utilizziamo SageMaker, un servizio completamente gestito per preparare dati e creare, addestrare e distribuire modelli di machine learning (ML) per qualsiasi caso d'uso con infrastruttura, strumenti e flussi di lavoro completamente gestiti. Per ulteriori informazioni sulle varie opzioni di distribuzione fornite da SageMaker, fare riferimento a Domande frequenti sull'hosting di modelli Amazon SageMaker. Capiamo come possiamo affrontare i problemi di latenza utilizzando l'inferenza in tempo reale con lo streaming di risposta.
Panoramica della soluzione
Poiché vogliamo affrontare le suddette latenze associate all'inferenza in tempo reale con LLM, comprendiamo innanzitutto come possiamo utilizzare il supporto del flusso di risposta per l'inferenza in tempo reale per Llama 2. Tuttavia, qualsiasi LLM può trarre vantaggio dal supporto del flusso di risposta con reali -inferenza temporale.
Llama 2 è una raccolta di modelli di testo generativi preaddestrati e ottimizzati che vanno da 7 miliardi a 70 miliardi di parametri. I modelli Llama 2 sono modelli autoregressivi con architettura solo decoder. Se forniti con un prompt e parametri di inferenza, i modelli Llama 2 sono in grado di generare risposte testuali. Questi modelli possono essere utilizzati per la traduzione, il riepilogo, la risposta alle domande e la chat.
Per questo post, implementiamo il modello Llama 2 Chat meta-llama/Llama-2-13b-chat-hf
su SageMaker per l'inferenza in tempo reale con streaming di risposta.
Quando si tratta di distribuire modelli sugli endpoint SageMaker, è possibile containerizzare i modelli utilizzando Specialized Contenitore per l'apprendimento profondo di AWS (DLC) immagini disponibili per le librerie open source più diffuse. I modelli Llama 2 sono modelli di generazione di testo; puoi usare sia il Contenitori di inferenza Hugging Face LLM su SageMaker alimentato da Hugging Face Inferenza sulla generazione del testo (TGI) o DLC AWS per Inferenza di modelli di grandi dimensioni (LMI).
In questo post, distribuiamo il modello di chat Llama 2 13B utilizzando i DLC su SageMaker Hosting per l'inferenza in tempo reale basata su istanze G5. Le istanze G5 sono istanze basate su GPU ad alte prestazioni per applicazioni ad uso intensivo di grafica e inferenza ML. Puoi anche utilizzare i tipi di istanza supportati p4d, p3, g5 e g4dn con le modifiche appropriate secondo la configurazione dell'istanza.
Prerequisiti
Per implementare questa soluzione, dovresti avere quanto segue:
- Un account AWS con un Gestione dell'identità e dell'accesso di AWS (IAM) ruolo con autorizzazioni per gestire le risorse create come parte della soluzione.
- Se è la prima volta che lavori con Amazon Sage Maker Studio, devi prima creare un file dominio SageMaker.
- Un account che abbraccia il volto. Iscriviti adesso con la tua email se non hai già un account.
- Per un accesso senza interruzioni ai modelli disponibili su Hugging Face, in particolare ai modelli con gate come Llama, per scopi di perfezionamento e inferenza, dovresti disporre di un account Hugging Face per ottenere un token di accesso in lettura. Dopo aver registrato il tuo account Hugging Face, log in visitare https://huggingface.co/settings/tokens per creare un token di accesso in lettura.
- Accedi a Llama 2, utilizzando lo stesso ID e-mail che hai utilizzato per iscriverti a Hugging Face.
- I modelli Llama 2 disponibili tramite Hugging Face sono modelli con cancello. L'utilizzo del modello Llama è regolato dalla licenza Meta. Per scaricare i pesi del modello e il tokenizzatore, richiedere l'accesso a Llama e accettare la loro licenza.
- Dopo che ti è stato concesso l'accesso (in genere entro un paio di giorni), riceverai un'e-mail di conferma. Per questo esempio utilizziamo il modello
Llama-2-13b-chat-hf
, ma dovresti essere in grado di accedere anche ad altre varianti.
Approccio 1: Abbracciare il viso TGI
In questa sezione ti mostriamo come distribuire il file meta-llama/Llama-2-13b-chat-hf
modello su un endpoint in tempo reale SageMaker con streaming di risposta utilizzando Hugging Face TGI. La tabella seguente descrive le specifiche per questa distribuzione.
Specificazione | Valore |
Contenitore | TGI che abbraccia il viso |
Nome del modello | meta-llama/Llama-2-13b-chat-hf |
Istanza di machine learning | ml.g5.12xgrande |
Inferenza | In tempo reale con streaming di risposta |
Distribuire il modello
Innanzitutto, recuperi l'immagine di base per il LLM da distribuire. Quindi costruisci il modello sull'immagine di base. Infine, distribuisci il modello sull'istanza ML per SageMaker Hosting per l'inferenza in tempo reale.
Osserviamo come ottenere la distribuzione a livello di codice. Per brevità, in questa sezione viene discusso solo il codice che aiuta con i passaggi di distribuzione. Il codice sorgente completo per la distribuzione è disponibile nel notebook llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.
Recupera l'ultimo DLC Hugging Face LLM fornito da TGI tramite pre-costruito DLC SageMaker. Utilizza questa immagine per distribuire il file meta-llama/Llama-2-13b-chat-hf
modello su SageMaker. Vedere il seguente codice:
Definire l'ambiente per il modello con i parametri di configurazione definiti come segue:
sostituire <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
per il parametro di configurazione HUGGING_FACE_HUB_TOKEN
con il valore del token ottenuto dal tuo profilo Hugging Face come dettagliato nella sezione prerequisiti di questo post. Nella configurazione, definisci il numero di GPU utilizzate per replica di un modello come 4 per SM_NUM_GPUS
. Quindi puoi distribuire il file meta-llama/Llama-2-13b-chat-hf
modello su un'istanza ml.g5.12xlarge fornita con 4 GPU.
Ora puoi creare l'istanza di HuggingFaceModel
con la suddetta configurazione dell'ambiente:
Infine, distribuisci il modello fornendo argomenti al metodo di distribuzione disponibile sul modello con vari valori di parametri come endpoint_name
, initial_instance_count
e instance_type
:
Eseguire l'inferenza
Il DLC Hugging Face TGI offre la possibilità di trasmettere in streaming le risposte senza alcuna personalizzazione o modifica del codice del modello. Puoi usare invoca_endpoint_with_response_stream se stai utilizzando Boto3 o InvokeEndpointWithResponseStream durante la programmazione con SageMaker Python SDK.
Il InvokeEndpointWithResponseStream
L'API di SageMaker consente agli sviluppatori di trasmettere in streaming le risposte dai modelli SageMaker, il che può aiutare a migliorare la soddisfazione del cliente riducendo la latenza percepita. Ciò è particolarmente importante per le applicazioni realizzate con modelli di intelligenza artificiale generativa, dove l’elaborazione immediata è più importante dell’attesa dell’intera risposta.
Per questo esempio, utilizziamo Boto3 per dedurre il modello e utilizzare l'API SageMaker invoke_endpoint_with_response_stream
come segue:
L'argomento CustomAttributes
è impostato sul valore accept_eula=false
. Il accept_eula
il parametro deve essere impostato su true
per ottenere con successo la risposta dai modelli Llama 2. Dopo l'invocazione riuscita utilizzando invoke_endpoint_with_response_stream
, il metodo restituirà un flusso di risposta di byte.
Il diagramma seguente illustra questo flusso di lavoro.
Hai bisogno di un iteratore che esegua il loop sul flusso di byte e li analizzi in testo leggibile. IL LineIterator
l'implementazione può essere trovata su llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Ora sei pronto per preparare il prompt e le istruzioni per utilizzarli come carico utile durante l'inferenza del modello.
Preparare un prompt e le istruzioni
In questo passaggio, prepari il prompt e le istruzioni per il tuo LLM. Per richiedere Llama 2, dovresti avere il seguente modello di prompt:
Si crea il modello di prompt definito a livello di codice nel metodo build_llama2_prompt
, che è in linea con il modello di prompt sopra menzionato. Quindi definisci le istruzioni in base al caso d'uso. In questo caso, stiamo indicando al modello di generare un'e-mail per una campagna di marketing come spiegato nel get_instructions
metodo. Il codice per questi metodi è nel file llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb taccuino. Costruire l'istruzione combinata con l'attività da eseguire come dettagliato in user_ask_1
come segue:
Passiamo le istruzioni per creare il prompt secondo il modello di prompt generato da build_llama2_prompt.
Associamo i parametri di inferenza insieme al prompt con la chiave stream
con il valore True
per formare un carico utile finale. Invia il carico utile a get_realtime_response_stream
, che verrà utilizzato per richiamare un endpoint con streaming di risposta:
Il testo generato da LLM verrà trasmesso in streaming all'output come mostrato nell'animazione seguente.
Approccio 2: LMI con DJL Serving
In questa sezione viene illustrato come distribuire il file meta-llama/Llama-2-13b-chat-hf
modello a un endpoint in tempo reale SageMaker con streaming di risposta utilizzando LMI con DJL Serving. La tabella seguente descrive le specifiche per questa distribuzione.
Specificazione | Valore |
Contenitore | Immagine del contenitore LMI con DJL Serving |
Nome del modello | meta-llama/Llama-2-13b-chat-hf |
Istanza di machine learning | ml.g5.12xgrande |
Inferenza | In tempo reale con streaming di risposta |
Per prima cosa scarichi il modello e lo memorizzi Servizio di archiviazione semplice Amazon (Amazon S3). Successivamente si specifica l'URI S3 indicando il prefisso S3 del modello nel file serving.properties
file. Successivamente, recupererai l'immagine di base per il LLM da distribuire. Quindi costruisci il modello sull'immagine di base. Infine, distribuisci il modello sull'istanza ML per SageMaker Hosting per l'inferenza in tempo reale.
Osserviamo come ottenere a livello di codice i passaggi di distribuzione sopra menzionati. Per brevità, in questa sezione viene descritto in dettaglio solo il codice che aiuta con i passaggi di distribuzione. Il codice sorgente completo per questa distribuzione è disponibile nel notebook llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.
Scarica l'istantanea del modello da Hugging Face e carica gli artefatti del modello su Amazon S3
Con i prerequisiti sopra menzionati, scarica il modello sull'istanza notebook SageMaker e quindi caricalo nel bucket S3 per un'ulteriore distribuzione:
Tieni presente che anche se non fornisci un token di accesso valido, il modello verrà scaricato. Ma quando distribuisci un modello di questo tipo, la pubblicazione del modello non avrà esito positivo. Pertanto, si consiglia di sostituire <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
per l'argomento token
con il valore del token ottenuto dal tuo profilo Hugging Face come dettagliato nei prerequisiti. Per questo post specifichiamo il nome del modello ufficiale di Llama 2 come identificato su Hugging Face con il valore meta-llama/Llama-2-13b-chat-hf
. Il modello non compresso verrà scaricato in local_model_path
come risultato dell'esecuzione del suddetto codice.
Carica i file su Amazon S3 e ottieni l'URI, che verrà utilizzato successivamente serving.properties
.
Imballerai il meta-llama/Llama-2-13b-chat-hf
modello sull'immagine del contenitore LMI con DJL Serving utilizzando la configurazione specificata tramite serving.properties
. Quindi distribuisci il modello insieme agli artefatti del modello assemblati nell'immagine del contenitore sull'istanza SageMaker ML ml.g5.12xlarge. Utilizzerai quindi questa istanza ML per SageMaker Hosting per l'inferenza in tempo reale.
Prepara gli artefatti del modello per DJL Serving
Prepara gli artefatti del tuo modello creando un file serving.properties
file di configurazione:
Utilizziamo le seguenti impostazioni in questo file di configurazione:
- motore – Specifica il motore di runtime che DJL potrà utilizzare. I possibili valori includono
Python
,DeepSpeed
,FasterTransformer
eMPI
. In questo caso, lo impostiamo suMPI
. Model Parallelization and Inference (MPI) facilita il partizionamento del modello su tutte le GPU disponibili e quindi accelera l'inferenza. - opzione.entryPoint – Questa opzione specifica quale gestore offerto da DJL Serving desideri utilizzare. I possibili valori sono
djl_python.huggingface
,djl_python.deepspeed
edjl_python.stable-diffusion
. Noi usiamodjl_python.huggingface
per l'accelerazione del viso abbracciato. - opzione.tensore_parallelo_grado – Questa opzione specifica il numero di partizioni parallele tensoriali eseguite sul modello. È possibile impostare il numero di dispositivi GPU su cui Accelerate deve partizionare il modello. Questo parametro controlla anche il numero di lavoratori per modello che verrà avviato durante l'esecuzione del servizio DJL. Ad esempio, se disponiamo di una macchina da 4 GPU e stiamo creando quattro partizioni, avremo un lavoratore per modello per soddisfare le richieste.
- opzione.low_cpu_mem_usage – Ciò riduce l'utilizzo della memoria della CPU durante il caricamento dei modelli. Ti consigliamo di impostarlo su
TRUE
. - opzione.rolling_batch – Ciò consente l'invio in batch a livello di iterazione utilizzando una delle strategie supportate. I valori includono
auto
,scheduler
elmi-dist
. Noi usiamolmi-dist
per attivare il dosaggio continuo per Llama 2. - opzione.max_rolling_batch_size – Ciò limita il numero di richieste simultanee nel batch continuo. Il valore predefinito è 32.
- opzione.model_id – Dovresti sostituire
{{model_id}}
con l'ID modello di un modello pre-addestrato ospitato all'interno di a repository di modelli su Hugging Face o percorso S3 agli artefatti del modello.
È possibile trovare ulteriori opzioni di configurazione in Configurazioni e impostazioni.
Poiché DJL Serving prevede che gli artefatti del modello siano compressi e formattati in un file .tar, esegui il seguente snippet di codice per comprimere e caricare il file .tar su Amazon S3:
Recupera l'ultima immagine del contenitore LMI con DJL Serving
Successivamente, utilizzerai i DLC disponibili con SageMaker per LMI per distribuire il modello. Recupera l'URI dell'immagine SageMaker per il file djl-deepspeed
contenitore a livello di codice utilizzando il seguente codice:
È possibile utilizzare l'immagine sopra menzionata per distribuire il file meta-llama/Llama-2-13b-chat-hf
modello su SageMaker. Ora puoi procedere con la creazione del modello.
Crea il modello
È possibile creare il modello il cui contenitore viene creato utilizzando il file inference_image_uri
e il codice di servizio del modello situato nell'URI S3 indicato da s3_code_artifact:
Ora puoi creare la configurazione del modello con tutti i dettagli per la configurazione dell'endpoint.
Creare la configurazione del modello
Utilizzare il codice seguente per creare una configurazione del modello per il modello identificato da model_name
:
La configurazione del modello è definita per ProductionVariants
parametro InstanceType
per l'istanza ML ml.g5.12xlarge. Fornisci anche il file ModelName
utilizzando lo stesso nome utilizzato per creare il modello nel passaggio precedente, stabilendo così una relazione tra il modello e la configurazione dell'endpoint.
Ora che hai definito il modello e la configurazione del modello, puoi creare l'endpoint SageMaker.
Crea l'endpoint SageMaker
Crea l'endpoint per distribuire il modello utilizzando il seguente snippet di codice:
Puoi visualizzare l'avanzamento della distribuzione utilizzando il seguente snippet di codice:
Una volta completata la distribuzione, lo stato dell'endpoint sarà InService
. Ora che l'endpoint è pronto, eseguiamo l'inferenza con lo streaming di risposta.
Inferenza in tempo reale con streaming di risposta
Come abbiamo spiegato nell'approccio precedente per Hugging Face TGI, puoi utilizzare lo stesso metodo get_realtime_response_stream
per richiamare il flusso di risposta dall'endpoint SageMaker. Il codice per l'inferenza utilizzando l'approccio LMI è nel file llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb taccuino. IL LineIterator
l'implementazione si trova in llama-2-lmi/utils/LineIterator.py. Si noti che il LineIterator
per il modello Llama 2 Chat distribuito sul contenitore LMI è diverso da LineIterator
citato nella sezione Hugging Face TGI. IL LineIterator
esegue il loop sul flusso di byte dai modelli Llama 2 Chat inferenza con il contenitore LMI con djl-deepspeed
versione 0.25.0. La seguente funzione di supporto analizzerà il flusso di risposta ricevuto dalla richiesta di inferenza effettuata tramite il file invoke_endpoint_with_response_stream
API:
Il metodo precedente stampa il flusso di dati letti da LineIterator
in un formato leggibile dall'uomo.
Esploriamo come preparare il prompt e le istruzioni per utilizzarli come carico utile durante l'inferenza del modello.
Poiché stai deducendo lo stesso modello sia in Hugging Face TGI che in LMI, il processo di preparazione del prompt e delle istruzioni è lo stesso. Pertanto, è possibile utilizzare i metodi get_instructions
ed build_llama2_prompt
per inferenza.
Il get_instructions
metodo restituisce le istruzioni. Costruisci le istruzioni combinate con l'attività da eseguire come dettagliato in user_ask_2
come segue:
Passare le istruzioni per creare il prompt secondo il modello di prompt generato da build_llama2_prompt:
Associamo i parametri di inferenza al prompt per formare un carico utile finale. Quindi invii il carico utile a get_realtime_response_stream,
che viene utilizzato per richiamare un endpoint con lo streaming di risposta:
Il testo generato da LLM verrà trasmesso in streaming all'output come mostrato nell'animazione seguente.
ripulire
Per evitare di incorrere in addebiti inutili, utilizzare il Console di gestione AWS per eliminare gli endpoint e le relative risorse associate che sono stati creati durante l'esecuzione degli approcci menzionati nel post. Per entrambi gli approcci di distribuzione, eseguire la seguente routine di pulizia:
sostituire <SageMaker_Real-time_Endpoint_Name>
per variabile endpoint_name
con il punto finale effettivo.
Per il secondo approccio, abbiamo archiviato il modello e gli artefatti del codice su Amazon S3. Puoi pulire il bucket S3 utilizzando il seguente codice:
Conclusione
In questo post abbiamo discusso di come un numero variabile di token di risposta o un diverso insieme di parametri di inferenza possano influenzare le latenze associate ai LLM. Abbiamo mostrato come affrontare il problema con l'aiuto dello streaming di risposta. Abbiamo quindi identificato due approcci per la distribuzione e l'inferenza dei modelli di chat di Llama 2 utilizzando i DLC AWS: LMI e Hugging Face TGI.
Ora dovresti comprendere l'importanza della risposta dello streaming e come può ridurre la latenza percepita. La risposta in streaming può migliorare l'esperienza dell'utente, che altrimenti ti costringerebbe ad attendere fino a quando LLM non crea l'intera risposta. Inoltre, l'implementazione dei modelli di Llama 2 Chat con streaming di risposta migliora l'esperienza dell'utente e rende felici i tuoi clienti.
Puoi fare riferimento agli esempi ufficiali di AWS amazon-sagemaker-llama2-risposta-streaming-ricette che copre la distribuzione per altre varianti del modello Llama 2.
Riferimenti
Informazioni sugli autori
Pavan Kumar Rao Navule è un Solutions Architect presso Amazon Web Services. Collabora con gli ISV in India per aiutarli a innovare su AWS. È autore del libro "Getting Started with V Programming". Ha conseguito un Executive M.Tech in Data Science presso l'Indian Institute of Technology (IIT), Hyderabad. Ha inoltre conseguito un Executive MBA in specializzazione IT presso la Indian School of Business Management and Administration e ha conseguito un B.Tech in Ingegneria elettronica e delle comunicazioni presso il Vaagdevi Institute of Technology and Science. Pavan è un AWS Certified Solutions Architect Professional e possiede altre certificazioni come AWS Certified Machine Learning Specialty, Microsoft Certified Professional (MCP) e Microsoft Certified Technology Specialist (MCTS). È anche un appassionato di open source. Nel tempo libero ama ascoltare le grandi voci magiche di Sia e Rihanna.
Odio Sudhanshu è il principale specialista di AI/ML con AWS e lavora con i clienti per consigliarli sul loro percorso MLOps e sull'intelligenza artificiale generativa. Nel suo precedente ruolo prima di Amazon, ha concettualizzato, creato e guidato team per costruire piattaforme di intelligenza artificiale e gamification basate su open source e le ha commercializzate con successo con oltre 100 clienti. Sudhanshu ha al suo attivo un paio di brevetti, ha scritto due libri e diversi articoli e blog, e ha presentato i suoi punti di vista in vari forum tecnici. È stato un leader di pensiero e oratore ed opera nel settore da quasi 25 anni. Ha lavorato con clienti Fortune 1000 in tutto il mondo e, più recentemente, con clienti nativi digitali in India.
- Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
- PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
- PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
- PlatoneESG. Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
- Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/inference-llama-2-models-with-real-time-response-streaming-using-amazon-sagemaker/
- :ha
- :È
- :Dove
- $ SU
- 1
- 10
- 100
- 11
- 12
- 14
- 15%
- 150
- 16
- 19
- 1st
- 25
- 32
- 385
- 50
- 7
- 70
- 8
- 9
- a
- capacità
- capace
- WRI
- accelerare
- accelera
- acceleratore
- Accetta
- accesso
- Il mio account
- Raggiungere
- operanti in
- Action
- presenti
- Inoltre
- indirizzo
- amministrazione
- adottare
- Adozione
- Vantaggio
- aiutarti
- influenzare
- Dopo shavasana, sedersi in silenzio; saluti;
- AI
- Modelli AI
- AI / ML
- alice
- Allinea
- Tutti
- Consentire
- consente
- lungo
- già
- anche
- Amazon
- Amazon Sage Maker
- Amazon Web Services
- an
- ed
- animazione
- ha annunciato
- Annuncio
- in qualsiasi
- api
- applicazioni
- approccio
- approcci
- opportuno
- architettonico
- architettura
- SONO
- argomento
- argomenti
- AS
- assistenti
- associato
- At
- autore
- disponibile
- evitare
- AWS
- precedente
- base
- dosaggio
- BE
- perché
- stato
- prima
- fra
- Al di là di
- Miliardo
- miliardi
- BIN
- blog
- stile di vita
- libro
- Libri
- entrambi
- costruire
- costruisce
- costruito
- affari
- ma
- by
- chiamata
- Campagna
- Materiale
- capace
- Custodie
- certificazioni
- Certificato
- Modifiche
- oneri
- chiacchierare
- chatbots
- cavedano
- cliente
- clienti
- club
- codice
- collezione
- COM
- combinato
- viene
- Comunicazione
- concorrente
- Configurazione
- conferma
- Contenitore
- Tecnologie Container
- continuo
- continuamente
- controlli
- potuto
- Coppia
- coupon
- coperto
- Copertine
- creare
- creato
- crea
- Creazione
- credito
- cliente
- Soddisfazione del cliente
- Clienti
- dati
- scienza dei dati
- Giorni
- deep
- apprendimento profondo
- defaults
- definire
- definito
- Ritardato
- dimostrare
- schierare
- schierato
- distribuzione
- deployment
- dettagliati
- dettagli
- sviluppatori
- dispositivi
- diverso
- digitale
- discusso
- Dont
- scaricare
- durante
- In precedenza
- o
- Elettronica
- Abilita
- endpoint
- motore
- Ingegneria
- appassionato
- Intero
- Ambiente
- particolarmente
- stabilire
- Anche
- esempio
- esecutivo
- aspetta
- aspetta
- esperienza
- Esperienze
- esplora
- Faccia
- facilita
- falso
- più veloce
- Compila il
- File
- finale
- Infine
- Nome
- prima volta
- i seguenti
- segue
- Nel
- modulo
- formato
- Fortune
- forum
- essere trovato
- Fondazione
- quattro
- Gratis
- da
- pieno
- completamente
- function
- ulteriormente
- gamification
- gated
- generare
- generato
- la generazione di
- ELETTRICA
- generativo
- AI generativa
- Generatori
- ottenere
- gif
- globo
- Go
- governati
- GPU
- GPU
- concesso
- grande
- contento
- odio
- Avere
- he
- Aiuto
- aiuta
- Alte prestazioni
- superiore
- il suo
- detiene
- ospitato
- di hosting
- Come
- Tutorial
- Tuttavia
- HTML
- http
- HTTPS
- abbracciare il viso
- leggibile dagli umani
- ID
- identificato
- Identità
- if
- illustra
- Immagine
- immagini
- immediato
- realizzare
- implementazione
- importare
- importanza
- importante
- competenze
- migliora
- in
- includere
- Compreso
- India
- indiano
- indicato
- industria
- informazioni
- Infrastruttura
- innovare
- ingresso
- Ingressi
- interno
- esempio
- invece
- Istituto
- istruzioni
- interattivo
- Internet
- sicurezza
- IT
- SUO
- viaggio
- json
- Le
- Kumar
- Lingua
- grandi
- Latenza
- problemi di latenza
- dopo
- con i più recenti
- lanciare
- portare
- leader
- apprendimento
- Guidato
- Lunghezza
- biblioteche
- Licenza
- piace
- limiti
- linea
- ascolta
- Lama
- LLM
- Caricamento in corso
- collocato
- ama
- macchina
- machine learning
- fatto
- make
- FA
- gestire
- gestito
- gestione
- Marketing
- max
- Maggio..
- MCP
- Memorie
- menzionato
- Meta
- metodo
- metodi
- Microsoft
- milioni
- ML
- MLOp
- modello
- modelli
- mese
- Scopri di più
- maggior parte
- Musica
- devono obbligatoriamente:
- Nome
- Detto
- nativo
- quasi
- Bisogno
- esigenze
- New
- GENERAZIONE
- Nota
- taccuino
- adesso
- numero
- oggetti
- osservare
- ottenere
- ottenuto
- of
- offerto
- ufficiale
- di frequente
- on
- ONE
- esclusivamente
- aprire
- open source
- Opzione
- Opzioni
- or
- Altro
- altrimenti
- lineamenti
- produzione
- ancora
- complessivo
- confezionati
- imballaggio
- documenti
- Parallel
- parametro
- parametri
- parte
- passare
- Brevetti
- sentiero
- per
- percepito
- Eseguire
- eseguita
- permessi
- Piattaforme
- Platone
- Platone Data Intelligence
- PlatoneDati
- punti
- Popolare
- possibile
- Post
- alimentato
- precedente
- Preparare
- preparazione
- prerequisiti
- presentata
- precedente
- Direttore
- stampe
- Problema
- procedere
- processi
- Elaborato
- lavorazione
- Prodotto
- lancio del prodotto
- professionale
- Profilo
- Programmazione
- Progressi
- proprietà
- fornire
- purché
- fornisce
- fornitura
- pubblicato
- fini
- Python
- pytorch
- domanda
- che vanno
- veloce
- piuttosto
- Leggi
- pronto
- di rose
- tempo reale
- rendersi conto
- ricevere
- ricevuto
- recentemente
- raccomandare
- raccomandato
- ridurre
- riduce
- riducendo
- riferimento
- relazione
- sostituire
- replica
- deposito
- richiesta
- richieste
- Risorse
- Rispondere
- risposta
- risposte
- colpevole
- ritorno
- problemi
- Ruolo
- routine
- Correre
- running
- corre
- runtime
- sagemaker
- stesso
- soddisfazione
- Scala
- di moto
- Scienze
- sdk
- senza soluzione di continuità
- Secondo
- Sezione
- vedere
- inviare
- invia
- servire
- servizio
- Servizi
- servizio
- set
- impostazioni
- alcuni
- Corti
- dovrebbero
- mostrare attraverso le sue creazioni
- ha mostrato
- mostrato
- Spettacoli
- segno
- Un'espansione
- Istantanea
- frammento
- soluzione
- Soluzioni
- presto
- Fonte
- codice sorgente
- Speaker
- specialista
- specializzata
- Specialità
- Specifiche tecniche
- specificato
- iniziato
- Stato dei servizi
- step
- Passi
- Fermare
- conservazione
- Tornare al suo account
- memorizzati
- strategie
- ruscello
- streaming
- Streaming
- servizio di streaming
- avere successo
- di successo
- Con successo
- tale
- supporto
- supportato
- supporti
- tavolo
- Fai
- Task
- le squadre
- Tech
- Consulenza
- Tecnologia
- modello
- testo
- di
- che
- Il
- loro
- Li
- poi
- Là.
- in tal modo
- perciò
- Strumenti Bowman per analizzare le seguenti finiture:
- di
- questo
- anche se?
- pensiero
- portata
- tempo
- volte
- a
- token
- Tokens
- strumenti
- Treni
- Traduzione
- vero
- Svolta
- seconda
- Digitare
- Tipi di
- tipicamente
- capire
- inutile
- fino a quando
- Impiego
- uso
- caso d'uso
- utilizzato
- Utente
- Esperienza da Utente
- utilizzando
- un valido
- APPREZZIAMO
- Valori
- variabile
- vario
- variando
- Fisso
- versione
- via
- Visualizza
- virtuale
- Visita
- VOCI
- aspettare
- In attesa
- volere
- we
- sito web
- servizi web
- WELL
- sono stati
- quando
- quale
- while
- tutto
- di chi
- volere
- con
- entro
- senza
- lavorato
- lavoratore
- lavoratori
- flusso di lavoro
- flussi di lavoro
- lavoro
- lavori
- sarebbe
- scrivere
- scritto
- anni
- Tu
- Trasferimento da aeroporto a Sharm
- zefiro