Com a rápida adoção de aplicações generativas de IA, é necessário que estas aplicações respondam a tempo de reduzir a latência percebida com maior rendimento. Os modelos básicos (FMs) são frequentemente pré-treinados em vastos corpos de dados com parâmetros que variam em escala de milhões a bilhões e além. Modelos de linguagem grande (LLMs) são um tipo de FM que gera texto como resposta à inferência do usuário. A inferência desses modelos com configurações variadas de parâmetros de inferência pode levar a latências inconsistentes. A inconsistência pode ser devido ao número variável de tokens de resposta que você espera do modelo ou ao tipo de acelerador no qual o modelo está implantado.
Em ambos os casos, em vez de esperar pela resposta completa, você pode adotar a abordagem de streaming de resposta para suas inferências, que envia de volta blocos de informações assim que são gerados. Isso cria uma experiência interativa, permitindo que você veja respostas parciais transmitidas em tempo real, em vez de uma resposta completa atrasada.
Com o anúncio oficial de que A inferência em tempo real do Amazon SageMaker agora oferece suporte ao streaming de respostas, agora você pode transmitir continuamente respostas de inferência de volta ao cliente ao usar Amazon Sage Maker inferência em tempo real com streaming de resposta. Esta solução irá ajudá-lo a construir experiências interativas para vários aplicativos generativos de IA, como chatbots, assistentes virtuais e geradores de música. Esta postagem mostra como obter tempos de resposta mais rápidos na forma de Time to First Byte (TTFB) e reduzir a latência geral percebida ao inferir modelos Llama 2.
Para implementar a solução, usamos o SageMaker, um serviço totalmente gerenciado para preparar dados e construir, treinar e implantar modelos de aprendizado de máquina (ML) para qualquer caso de uso com infraestrutura, ferramentas e fluxos de trabalho totalmente gerenciados. Para obter mais informações sobre as diversas opções de implantação fornecidas pelo SageMaker, consulte Perguntas frequentes sobre hospedagem de modelos do Amazon SageMaker. Vamos entender como podemos resolver os problemas de latência usando inferência em tempo real com streaming de resposta.
Visão geral da solução
Como queremos abordar as latências mencionadas acima associadas à inferência em tempo real com LLMs, vamos primeiro entender como podemos usar o suporte de streaming de resposta para inferência em tempo real para Llama 2. No entanto, qualquer LLM pode aproveitar as vantagens do suporte de streaming de resposta com real inferência de tempo.
Llama 2 é uma coleção de modelos de texto generativo pré-treinados e ajustados que variam em escala de 7 bilhões a 70 bilhões de parâmetros. Os modelos Llama 2 são modelos autorregressivos com arquitetura apenas de decodificador. Quando fornecidos com parâmetros de prompt e inferência, os modelos Llama 2 são capazes de gerar respostas de texto. Esses modelos podem ser usados para tradução, resumo, resposta a perguntas e bate-papo.
Para esta postagem, implantamos o modelo Llama 2 Chat meta-llama/Llama-2-13b-chat-hf
no SageMaker para inferência em tempo real com streaming de resposta.
Quando se trata de implantar modelos em endpoints SageMaker, você pode conteinerizar os modelos usando Contêiner de aprendizado profundo da AWS (DLC) disponíveis para bibliotecas populares de código aberto. Os modelos Llama 2 são modelos de geração de texto; você pode usar o Abraçando contêineres de inferência Face LLM no SageMaker alimentado por Abraçando o Rosto Inferência de geração de texto (TGI) ou DLCs da AWS para Inferência de modelo grande (LMI).
Nesta postagem, implantamos o modelo Llama 2 13B Chat usando DLCs no SageMaker Hosting para inferência em tempo real com tecnologia de instâncias G5. As instâncias G5 são instâncias baseadas em GPU de alto desempenho para aplicativos com uso intensivo de gráficos e inferência de ML. Você também pode usar os tipos de instância compatíveis p4d, p3, g5 e g4dn com as alterações apropriadas de acordo com a configuração da instância.
Pré-requisitos
Para implementar esta solução, você deve ter o seguinte:
- Uma conta da AWS com um Gerenciamento de acesso e identidade da AWS (IAM) com permissões para gerenciar recursos criados como parte da solução.
- Se esta é sua primeira vez trabalhando com Estúdio Amazon SageMaker, primeiro você precisa criar um Domínio do SageMaker.
- Uma conta Hugging Face. Seja um voluntário com seu e-mail se você ainda não tiver uma conta.
- Para acesso contínuo aos modelos disponíveis no Hugging Face, especialmente modelos fechados como Llama, para fins de ajuste fino e inferência, você deve ter uma conta Hugging Face para obter um token de acesso de leitura. Depois de se inscrever em sua conta Hugging Face, login na sua conta MXNUMX visitar https://huggingface.co/settings/tokens para criar um token de acesso de leitura.
- Acesso ao Llama 2, usando o mesmo e-mail que você usou para se inscrever no Hugging Face.
- Os modelos Llama 2 disponíveis via Hugging Face são modelos fechados. O uso do modelo Llama é regido pela licença Meta. Para baixar os pesos do modelo e o tokenizer, solicitar acesso ao Llama e aceite sua licença.
- Depois de obter acesso (normalmente em alguns dias), você receberá um e-mail de confirmação. Para este exemplo, usamos o modelo
Llama-2-13b-chat-hf
, mas você também poderá acessar outras variantes.
Abordagem 1: Abraçando o Rosto TGI
Nesta seção, mostramos como implantar o meta-llama/Llama-2-13b-chat-hf
modelo para um endpoint em tempo real SageMaker com streaming de resposta usando Hugging Face TGI. A tabela a seguir descreve as especificações para esta implantação.
Especificação | Valor |
Recipiente | Abraçando o rosto TGI |
Nome do modelo | metal-lhama/Llama-2-13b-chat-hf |
Instância de ML | ml.g5.12xgrande |
Inferência | Tempo real com streaming de resposta |
Implantar o modelo
Primeiro, você recupera a imagem base para o LLM ser implantado. Em seguida, você constrói o modelo na imagem base. Por fim, você implanta o modelo na instância de ML do SageMaker Hosting para inferência em tempo real.
Vamos observar como realizar a implantação programaticamente. Para resumir, apenas o código que ajuda nas etapas de implantação é discutido nesta seção. O código-fonte completo para implantação está disponível no notebook llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.
Recupere o mais recente DLC Hugging Face LLM desenvolvido por TGI via pré-construído DLCs do SageMaker. Você usa esta imagem para implantar o meta-llama/Llama-2-13b-chat-hf
modelo no SageMaker. Veja o seguinte código:
Defina o ambiente para o modelo com os parâmetros de configuração definidos a seguir:
Substituir <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
para o parâmetro de configuração HUGGING_FACE_HUB_TOKEN
com o valor do token obtido em seu perfil Hugging Face conforme detalhado na seção de pré-requisitos deste post. Na configuração, você define o número de GPUs usadas por réplica de um modelo como 4 para SM_NUM_GPUS
. Então você pode implantar o meta-llama/Llama-2-13b-chat-hf
modelo em uma instância ml.g5.12xlarge que vem com 4 GPUs.
Agora você pode construir a instância de HuggingFaceModel
com a configuração de ambiente mencionada acima:
Finalmente, implante o modelo fornecendo argumentos para o método de implantação disponível no modelo com vários valores de parâmetros, como endpoint_name
, initial_instance_count
e instance_type
:
Realizar inferência
O DLC Hugging Face TGI vem com a capacidade de transmitir respostas sem quaisquer personalizações ou alterações de código no modelo. Você pode usar invocar_endpoint_with_response_stream se você estiver usando Boto3 ou InvokeEndpointWithResponseStream ao programar com o SageMaker Python SDK.
A InvokeEndpointWithResponseStream
A API do SageMaker permite que os desenvolvedores transmitam respostas dos modelos do SageMaker, o que pode ajudar a melhorar a satisfação do cliente, reduzindo a latência percebida. Isto é especialmente importante para aplicações construídas com modelos generativos de IA, onde o processamento imediato é mais importante do que esperar pela resposta completa.
Para este exemplo, usamos Boto3 para inferir o modelo e usar a API SageMaker invoke_endpoint_with_response_stream
como se segue:
O argumento CustomAttributes
está definido para o valor accept_eula=false
. A accept_eula
parâmetro deve ser definido como true
para obter com sucesso a resposta dos modelos Llama 2. Após a invocação bem-sucedida usando invoke_endpoint_with_response_stream
, o método retornará um fluxo de resposta de bytes.
O diagrama a seguir ilustra esse fluxo de trabalho.
Você precisa de um iterador que faça um loop no fluxo de bytes e os analise em texto legível. O LineIterator
implementação pode ser encontrada em llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Agora você está pronto para preparar o prompt e as instruções para usá-los como carga útil ao inferir o modelo.
Prepare um prompt e instruções
Nesta etapa, você prepara o prompt e as instruções para o seu LLM. Para solicitar o Llama 2, você deve ter o seguinte modelo de prompt:
Você cria o modelo de prompt definido programaticamente no método build_llama2_prompt
, que se alinha com o modelo de prompt mencionado acima. Em seguida, você define as instruções de acordo com o caso de uso. Nesse caso, estamos instruindo o modelo a gerar um e-mail para uma campanha de marketing conforme abordado no get_instructions
método. O código para esses métodos está no llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb caderno. Construa a instrução combinada com a tarefa a ser executada conforme detalhado em user_ask_1
como se segue:
Passamos as instruções para construir o prompt de acordo com o modelo de prompt gerado por build_llama2_prompt.
Marcamos os parâmetros de inferência junto com o prompt com a chave stream
com o valor True
para formar uma carga final. Envie a carga útil para get_realtime_response_stream
, que será usado para invocar um endpoint com streaming de resposta:
O texto gerado do LLM será transmitido para a saída conforme mostrado na animação a seguir.
Abordagem 2: LMI com serviço DJL
Nesta seção, demonstramos como implantar o meta-llama/Llama-2-13b-chat-hf
modelo para um endpoint em tempo real SageMaker com streaming de resposta usando LMI com DJL Serving. A tabela a seguir descreve as especificações para esta implantação.
Especificação | Valor |
Recipiente | Imagem de contêiner LMI com DJL Serving |
Nome do modelo | metal-lhama/Llama-2-13b-chat-hf |
Instância de ML | ml.g5.12xgrande |
Inferência | Tempo real com streaming de resposta |
Primeiro você baixa o modelo e o armazena em Serviço de armazenamento simples da Amazon (Amazon S3). Em seguida, você especifica o URI do S3 indicando o prefixo S3 do modelo no arquivo serving.properties
arquivo. Em seguida, você recupera a imagem base para o LLM ser implantado. Em seguida, você constrói o modelo na imagem base. Por fim, você implanta o modelo na instância de ML do SageMaker Hosting para inferência em tempo real.
Vamos observar como realizar as etapas de implantação mencionadas de forma programática. Por questões de brevidade, apenas o código que ajuda nas etapas de implantação é detalhado nesta seção. O código-fonte completo desta implantação está disponível no notebook llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.
Faça download do snapshot do modelo em Hugging Face e carregue os artefatos do modelo no Amazon S3
Com os pré-requisitos mencionados acima, baixe o modelo na instância do notebook SageMaker e, em seguida, carregue-o no bucket S3 para implantação adicional:
Observe que mesmo que você não forneça um token de acesso válido, o modelo será baixado. Mas quando você implanta esse modelo, o serviço do modelo não terá sucesso. Portanto, é recomendado substituir <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
para o argumento token
com o valor do token obtido em seu perfil Hugging Face conforme detalhado nos pré-requisitos. Para esta postagem, especificamos o nome do modelo oficial do Llama 2 conforme identificado em Hugging Face com o valor meta-llama/Llama-2-13b-chat-hf
. O modelo descompactado será baixado para local_model_path
como resultado da execução do código mencionado acima.
Faça upload dos arquivos para o Amazon S3 e obtenha o URI, que será usado posteriormente no serving.properties
.
Você estará embalando o meta-llama/Llama-2-13b-chat-hf
modelo na imagem do contêiner LMI com DJL Serving usando a configuração especificada via serving.properties
. Em seguida, você implanta o modelo junto com os artefatos do modelo empacotados na imagem do contêiner na instância do SageMaker ML ml.g5.12xlarge. Em seguida, você usa esta instância de ML para SageMaker Hosting para inferência em tempo real.
Preparar artefatos de modelo para DJL Serving
Prepare os artefatos do seu modelo criando um serving.properties
arquivo de configuração:
Usamos as seguintes configurações neste arquivo de configuração:
- motor – Especifica o mecanismo de tempo de execução a ser usado pelo DJL. Os valores possíveis incluem
Python
,DeepSpeed
,FasterTransformer
eMPI
. Neste caso, configuramos paraMPI
. A Paralelização e Inferência de Modelos (MPI) facilita o particionamento do modelo em todas as GPUs disponíveis e, portanto, acelera a inferência. - opção.entryPoint – Esta opção especifica qual manipulador oferecido pelo DJL Serving você gostaria de usar. Os valores possíveis são
djl_python.huggingface
,djl_python.deepspeed
edjl_python.stable-diffusion
. Nós usamosdjl_python.huggingface
para abraçar o rosto acelerar. - opção.tensor_parallel_degree – Esta opção especifica o número de partições paralelas de tensores executadas no modelo. Você pode definir o número de dispositivos GPU nos quais o Accelerate precisa particionar o modelo. Este parâmetro também controla o número de trabalhadores por modelo que serão iniciados quando o serviço DJL for executado. Por exemplo, se tivermos uma máquina com 4 GPUs e estivermos criando quatro partições, teremos um trabalhador por modelo para atender as solicitações.
- opção.low_cpu_mem_usage – Isso reduz o uso de memória da CPU ao carregar modelos. Recomendamos que você defina isso como
TRUE
. - opção.rolling_batch – Isso permite o processamento em lote no nível da iteração usando uma das estratégias suportadas. Os valores incluem
auto
,scheduler
elmi-dist
. Nós usamoslmi-dist
para ativar o lote contínuo para o Llama 2. - opção.max_rolling_batch_size – Isso limita o número de solicitações simultâneas no lote contínuo. O valor padrão é 32.
- opção.model_id – Você deve substituir
{{model_id}}
com o ID do modelo de um modelo pré-treinado hospedado dentro de um repositório de modelos no Hugging Face ou caminho S3 para os artefatos do modelo.
Mais opções de configuração podem ser encontradas em Configurações e configurações.
Como o DJL Serving espera que os artefatos do modelo sejam empacotados e formatados em um arquivo .tar, execute o seguinte snippet de código para compactar e fazer upload do arquivo .tar para o Amazon S3:
Recupere a imagem de contêiner LMI mais recente com DJL Serving
Em seguida, você usa os DLCs disponíveis com o SageMaker for LMI para implantar o modelo. Recuperar o URI da imagem do SageMaker para o djl-deepspeed
container programaticamente usando o seguinte código:
Você pode usar a imagem mencionada acima para implantar o meta-llama/Llama-2-13b-chat-hf
modelo no SageMaker. Agora você pode prosseguir para criar o modelo.
Crie o modelo
Você pode criar o modelo cujo contêiner é construído usando o inference_image_uri
e o código de serviço do modelo localizado no URI S3 indicado por s3_code_artifact:
Agora você pode criar a configuração do modelo com todos os detalhes da configuração do endpoint.
Crie a configuração do modelo
Use o código a seguir para criar uma configuração de modelo para o modelo identificado por model_name
:
A configuração do modelo é definida para o ProductionVariants
parâmetro InstanceType
para a instância de ML ml.g5.12xlarge. Você também fornece o ModelName
usando o mesmo nome usado para criar o modelo na etapa anterior, estabelecendo assim uma relação entre o modelo e a configuração do terminal.
Agora que você definiu o modelo e a configuração do modelo, você pode criar o endpoint SageMaker.
Crie o ponto de extremidade do SageMaker
Crie o endpoint para implantar o modelo usando o seguinte snippet de código:
Você pode visualizar o progresso da implantação usando o seguinte snippet de código:
Depois que a implantação for bem-sucedida, o status do endpoint será InService
. Agora que o endpoint está pronto, vamos realizar inferência com streaming de resposta.
Inferência em tempo real com streaming de resposta
Conforme abordamos na abordagem anterior para Hugging Face TGI, você pode usar o mesmo método get_realtime_response_stream
para invocar o streaming de resposta do endpoint SageMaker. O código para inferência usando a abordagem LMI está no llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb caderno. O LineIterator
implementação está localizada em llama-2-lmi/utils/LineIterator.py. Observe que o LineIterator
para o modelo Llama 2 Chat implantado no contêiner LMI é diferente do LineIterator
referenciado na seção Hugging Face TGI. O LineIterator
faz um loop no fluxo de bytes dos modelos Llama 2 Chat inferenciados com o contêiner LMI com djl-deepspeed
versão 0.25.0. A função auxiliar a seguir analisará o fluxo de resposta recebido da solicitação de inferência feita por meio do invoke_endpoint_with_response_stream
API:
O método anterior imprime o fluxo de dados lido pelo LineIterator
em um formato legível por humanos.
Vamos explorar como preparar o prompt e as instruções para usá-los como carga útil ao inferir o modelo.
Como você está inferindo o mesmo modelo no Hugging Face TGI e no LMI, o processo de preparação do prompt e das instruções é o mesmo. Portanto, você pode usar os métodos get_instructions
e build_llama2_prompt
para inferência.
A get_instructions
método retorna as instruções. Construa as instruções combinadas com a tarefa a ser executada conforme detalhado em user_ask_2
como se segue:
Passe as instruções para construir o prompt de acordo com o modelo de prompt gerado por build_llama2_prompt:
Nós agrupamos os parâmetros de inferência junto com o prompt para formar uma carga final. Então você envia a carga útil para get_realtime_response_stream,
que é usado para invocar um endpoint com streaming de resposta:
O texto gerado do LLM será transmitido para a saída conforme mostrado na animação a seguir.
limpar
Para evitar cobranças desnecessárias, use o Console de gerenciamento da AWS para excluir os endpoints e seus recursos associados que foram criados durante a execução das abordagens mencionadas na postagem. Para ambas as abordagens de implantação, execute a seguinte rotina de limpeza:
Substituir <SageMaker_Real-time_Endpoint_Name>
para variável endpoint_name
com o ponto final real.
Para a segunda abordagem, armazenamos o modelo e os artefatos de código no Amazon S3. Você pode limpar o bucket S3 usando o seguinte código:
Conclusão
Nesta postagem, discutimos como um número variável de tokens de resposta ou um conjunto diferente de parâmetros de inferência podem afetar as latências associadas aos LLMs. Mostramos como resolver o problema com a ajuda do streaming de resposta. Em seguida, identificamos duas abordagens para implantar e inferir modelos de bate-papo do Llama 2 usando DLCs da AWS: LMI e Hugging Face TGI.
Agora você deve compreender a importância da resposta de streaming e como ela pode reduzir a latência percebida. A resposta de streaming pode melhorar a experiência do usuário, o que de outra forma faria você esperar até que o LLM construísse a resposta completa. Além disso, a implantação de modelos Llama 2 Chat com streaming de resposta melhora a experiência do usuário e deixa seus clientes satisfeitos.
Você pode consultar as amostras oficiais do aws amazon-sagemaker-llama2-resposta-streaming-receitas que cobre a implantação de outras variantes do modelo Llama 2.
Referências
Sobre os autores
Pavan Kumar Rao Navule é arquiteto de soluções na Amazon Web Services. Ele trabalha com ISVs na Índia para ajudá-los a inovar na AWS. Ele é o autor publicado do livro “Getting Started with V Programming”. Ele obteve um M.Tech Executivo em Ciência de Dados pelo Instituto Indiano de Tecnologia (IIT), Hyderabad. Ele também obteve um MBA Executivo em especialização em TI pela Escola Indiana de Gestão e Administração de Negócios e possui bacharelado em Engenharia Eletrônica e de Comunicação pelo Instituto Vaagdevi de Tecnologia e Ciência. Pavan é AWS Certified Solutions Architect Professional e possui outras certificações, como AWS Certified Machine Learning Speciality, Microsoft Certified Professional (MCP) e Microsoft Certified Technology Specialist (MCTS). Ele também é um entusiasta de código aberto. Nas horas vagas, ele adora ouvir as grandes vozes mágicas de Sia e Rihanna.
Ódio de Sudhanshu é o principal especialista em IA/ML da AWS e trabalha com clientes para aconselhá-los em suas jornadas de MLOps e IA generativa. Em sua função anterior antes da Amazon, ele conceituou, criou e liderou equipes para construir plataformas de gamificação e IA baseadas em código aberto, e comercializou-as com sucesso com mais de 100 clientes. Sudhanshu tem algumas patentes, escreveu dois livros e vários artigos e blogs, e apresentou seus pontos de vista em vários fóruns técnicos. Ele é um líder inovador e palestrante e está no setor há quase 25 anos. Ele trabalhou com clientes da Fortune 1000 em todo o mundo e, mais recentemente, com clientes nativos digitais na Índia.
- Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
- PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
- PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
- PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
- PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
- Fonte: https://aws.amazon.com/blogs/machine-learning/inference-llama-2-models-with-real-time-response-streaming-using-amazon-sagemaker/
- :tem
- :é
- :onde
- $UP
- 1
- 10
- 100
- 11
- 12
- 14
- 15%
- 150
- 16
- 19
- 1st
- 25
- 32
- 385
- 50
- 7
- 70
- 8
- 9
- a
- habilidade
- Capaz
- Sobre
- acelerar
- acelera
- acelerador
- ACEITAR
- Acesso
- Conta
- Alcançar
- em
- Açao Social
- real
- Adicionalmente
- endereço
- administração
- adotar
- Adoção
- Vantagem
- aconselhar
- afetar
- Depois de
- AI
- Modelos de IA
- AI / ML
- alice
- Alinha
- Todos os Produtos
- Permitindo
- permite
- juntamente
- já
- tb
- Amazon
- Amazon Sage Maker
- Amazon Web Services
- an
- e
- animação
- anunciou
- Anúncio
- qualquer
- api
- aplicações
- abordagem
- se aproxima
- apropriado
- arquitetônico
- arquitetura
- SOMOS
- argumento
- argumentos
- AS
- assistentes
- associado
- At
- autor
- disponível
- evitar
- AWS
- em caminho duplo
- base
- lotes
- BE
- Porque
- sido
- antes
- entre
- Pós
- bilhão
- bilhões
- BIN
- Blogs
- corpo
- livro
- Livros
- ambos
- construir
- Constrói
- construído
- negócio
- mas a
- by
- chamada
- Campanha
- CAN
- capaz
- casas
- certificações
- Non-GMO
- Alterações
- acusações
- bate-papo
- chatbots
- limpar
- cliente
- clientes
- clube
- código
- coleção
- COM
- combinado
- vem
- Comunicação
- concorrente
- Configuração
- confirmação
- Recipiente
- Containers
- contínuo
- continuamente
- controles
- poderia
- Casal
- cupom
- coberto
- Covers
- crio
- criado
- cria
- Criar
- crédito
- cliente
- A satisfação do cliente
- Clientes
- dados,
- ciência de dados
- dias
- profundo
- deep learning
- defaults
- definir
- definido
- Atrasado
- demonstrar
- implantar
- implantado
- Implantação
- desenvolvimento
- detalhado
- detalhes
- desenvolvedores
- Dispositivos/Instrumentos
- diferente
- digital
- discutido
- não
- download
- durante
- Mais cedo
- ou
- Eletrônicos
- permite
- Ponto final
- Motor
- Engenharia
- entusiasta
- Todo
- Meio Ambiente
- especialmente
- estabelecendo
- Mesmo
- exemplo
- executivo
- esperando
- espera
- vasta experiência
- Experiências
- explorar
- Rosto
- facilita
- falso
- mais rápido
- Envie o
- Arquivos
- final
- Finalmente
- Primeiro nome
- primeira vez
- seguinte
- segue
- Escolha
- formulário
- formato
- Fortune
- fóruns
- encontrado
- Foundation
- quatro
- Gratuito
- da
- cheio
- totalmente
- função
- mais distante
- gamification
- fechado
- gerar
- gerado
- gerando
- geração
- generativo
- IA generativa
- geradores
- ter
- gif
- globo
- Go
- governado
- GPU
- GPUs
- concedido
- ótimo
- feliz
- odiar
- Ter
- he
- ajudar
- ajuda
- alta performance
- superior
- sua
- detém
- hospedado
- hospedagem
- Como funciona o dobrador de carta de canal
- Como Negociar
- Contudo
- HTML
- http
- HTTPS
- Abraçando o Rosto
- legível para humanos
- ID
- identificado
- Identidade
- if
- ilustra
- imagem
- imagens
- Imediato
- executar
- implementação
- importar
- importância
- importante
- melhorar
- melhora
- in
- incluir
- Incluindo
- Índia
- indiano
- indicado
- indústria
- INFORMAÇÕES
- Infraestrutura
- inovar
- entrada
- inputs
- dentro
- instância
- em vez disso
- Instituto
- instruções
- interativo
- Internet
- questões
- IT
- ESTÁ
- viagem
- json
- Chave
- Kumar
- língua
- grande
- Latência
- problemas de latência
- mais tarde
- mais recente
- lançamento
- conduzir
- líder
- aprendizagem
- levou
- Comprimento
- bibliotecas
- Licença
- como
- limites
- Line
- ouço
- lhama
- LLM
- carregamento
- localizado
- ama
- máquina
- aprendizado de máquina
- moldadas
- fazer
- FAZ
- gerencia
- gerenciados
- de grupos
- Marketing
- max
- Posso..
- MCP
- Memória
- mencionado
- Meta
- método
- métodos
- Microsoft
- milhões
- ML
- MLOps
- modelo
- modelos
- mês
- mais
- a maioria
- Música
- devo
- nome
- Nomeado
- nativo
- quase
- você merece...
- Cria
- Novo
- Próximo
- nota
- caderno
- agora
- número
- objetos
- observar
- obter
- obtido
- of
- oferecido
- oficial
- frequentemente
- on
- ONE
- só
- aberto
- open source
- Opção
- Opções
- or
- Outros
- de outra forma
- contornos
- saída
- Acima de
- global
- empacotado
- acondicionamento
- papéis
- Paralelo
- parâmetro
- parâmetros
- parte
- passar
- Patentes
- caminho
- para
- percebido
- Realizar
- realizada
- permissões
- Plataformas
- platão
- Inteligência de Dados Platão
- PlatãoData
- pontos
- Popular
- possível
- Publique
- alimentado
- precedente
- Preparar
- preparação
- pré-requisitos
- apresentado
- anterior
- Diretor
- impressões
- Problema
- prosseguir
- processo
- Processado
- em processamento
- Produto
- lançamento do produto
- profissional
- Perfil
- Programação
- Progresso
- Propriedades
- fornecer
- fornecido
- fornece
- fornecendo
- publicado
- fins
- Python
- pytorch
- questão
- variando
- rápido
- em vez
- Leia
- pronto
- reais
- em tempo real
- perceber
- receber
- recebido
- recentemente
- recomendar
- Recomenda
- reduzir
- reduz
- redução
- referir
- relação
- substituir
- responder
- repositório
- solicitar
- pedidos
- Recursos
- Responder
- resposta
- respostas
- resultar
- retorno
- Retorna
- Tipo
- rotina
- Execute
- corrida
- é executado
- tempo de execução
- sábio
- mesmo
- satisfação
- Escala
- Escola
- Ciência
- Sdk
- desatado
- Segundo
- Seção
- Vejo
- enviar
- envia
- servir
- serviço
- Serviços
- de servir
- conjunto
- Configurações
- vários
- Baixo
- rede de apoio social
- mostrar
- mostrou
- mostrando
- Shows
- assinar
- simples
- Instantâneo
- fragmento
- solução
- Soluções
- em breve
- fonte
- código fonte
- Palestrantes
- especialista
- especializado
- Especialidade
- especificações
- especificada
- começado
- Status
- Passo
- Passos
- Dê um basta
- armazenamento
- loja
- armazenadas
- estratégias
- transmitir canais
- fluídas
- de streaming
- Serviço de transmissão
- suceder
- bem sucedido
- entraram com sucesso
- tal
- ajuda
- Suportado
- suportes
- mesa
- Tire
- Tarefa
- equipes
- tecnologia
- Dados Técnicos:
- Tecnologia
- modelo
- texto
- do que
- que
- A
- deles
- Eles
- então
- Lá.
- assim
- assim sendo
- Este
- deles
- isto
- Apesar?
- pensamento
- Taxa de transferência
- tempo
- vezes
- para
- token
- Tokens
- ferramentas
- Trem
- Tradução
- verdadeiro
- Passando
- dois
- tipo
- tipos
- tipicamente
- compreender
- desnecessário
- até
- Uso
- usar
- caso de uso
- usava
- Utilizador
- Experiência do Usuário
- utilização
- válido
- valor
- Valores
- variável
- vário
- variando
- Grande
- versão
- via
- Ver
- Virtual
- Visite a
- VOZES
- esperar
- Esperando
- queremos
- we
- web
- serviços web
- BEM
- foram
- quando
- qual
- enquanto
- inteiro
- de quem
- precisarão
- de
- dentro
- sem
- trabalhou
- trabalhador
- trabalhadores
- de gestão de documentos
- fluxos de trabalho
- trabalhar
- trabalho
- seria
- escrever
- escrito
- anos
- Vocês
- investimentos
- zefirnet