Mitigar alucinações por meio de geração aumentada de recuperação usando banco de dados de vetores Pinecone e Llama-2 do Amazon SageMaker JumpStart

Republicado por Platão

seguidores: 0

Apesar da adoção aparentemente imparável de LLMs em todos os setores, eles são um componente de um ecossistema tecnológico mais amplo que está impulsionando a nova onda de IA. Muitos casos de uso de IA conversacional exigem LLMs como Llama 2, Flan T5 e Bloom para responder às dúvidas dos usuários. Esses modelos contam com conhecimento paramétrico para responder perguntas. O modelo aprende esse conhecimento durante o treinamento e o codifica nos parâmetros do modelo. Para atualizar esse conhecimento, devemos requalificar o LLM, o que exige muito tempo e dinheiro.

Felizmente, também podemos usar o conhecimento de origem para informar nossos LLMs. O conhecimento de origem é a informação inserida no LLM por meio de um prompt de entrada. Uma abordagem popular para fornecer conhecimento de origem é a Retrieval Augmented Generation (RAG). Usando RAG, recuperamos informações relevantes de uma fonte de dados externa e inserimos essas informações no LLM.

Nesta postagem do blog, exploraremos como implantar LLMs como Llama-2 usando Amazon Sagemaker JumpStart e manter nossos LLMs atualizados com informações relevantes por meio de Retrieval Augmented Generation (RAG) usando o banco de dados vetorial Pinecone para evitar alucinações de IA .

Geração aumentada de recuperação (RAG) no Amazon SageMaker

O Pinecone cuidará do componente de recuperação do RAG, mas você precisa de mais dois componentes críticos: um lugar para executar a inferência LLM e um lugar para executar o modelo de incorporação.

Amazon SageMaker Studio, um ambiente de desenvolvimento integrado (IDE) que fornece uma única interface visual baseada na Web onde você pode acessar ferramentas específicas para realizar todo o desenvolvimento de machine learning (ML). Ele fornece o SageMaker JumpStart, que é um hub de modelo onde os usuários podem localizar, visualizar e iniciar um modelo específico em sua própria conta SageMaker. Ele fornece modelos pré-treinados, disponíveis publicamente e proprietários para uma ampla variedade de tipos de problemas, incluindo modelos básicos.

O Amazon SageMaker Studio oferece o ambiente ideal para o desenvolvimento de pipelines LLM habilitados para RAG. Primeiro, usando o console AWS, acesse Amazon SageMaker, crie um domínio SageMaker Studio e abra um notebook Jupyter Studio.

Pré-requisitos

Conclua as seguintes etapas de pré-requisito:

Configure o Amazon SageMaker Studio.
Integre-se a um domínio do Amazon SageMaker.
Inscreva-se em um banco de dados de vetores de pinha de nível gratuito.
Bibliotecas de pré-requisitos: SageMaker Python SDK, Pinecone Client

Passo a passo da solução

Usando o notebook SageMaker Studio, primeiro precisamos instalar bibliotecas de pré-requisitos:

!pip install -qU sagemaker pinecone-client==2.2.1 ipywidgets==7.0.0

Implantando um LLM

Nesta postagem, discutimos duas abordagens para implantar um LLM. A primeira é através do HuggingFaceModel objeto. Você pode usar isso ao implantar LLMs (e incorporar modelos) diretamente do hub do modelo Hugging Face.

Por exemplo, você pode criar uma configuração implantável para o google/flan-t5-xl modelo conforme mostrado na captura de tela a seguir:

import sagemaker
from sagemaker.huggingface import (
HuggingFaceModel, get_huggingface_llm_image_uri
)
role = sagemaker.get_execution_role()
hub_config = {'HF_MODEL_ID':'google/flan-t5-xl', # model_id from hf.co/models 'HF_TASK':'text-generation' # NLP task you want to use for predictions # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri("huggingface", version="0.8.2"&)
huggingface_model = HuggingFaceModel(env=hub_config, role=role, # iam role with permissions to create an Endpoint image_uri=llm_image
)

Ao implantar modelos diretamente do Hugging Face, inicialize o my_model_configuration com o seguinte:

An env config nos diz qual modelo queremos usar e para qual tarefa.
Nossa execução do SageMaker role nos dá permissões para implantar nosso modelo.
An image_uri é uma configuração de imagem especificamente para implantar LLMs do Hugging Face.

Alternativamente, o SageMaker possui um conjunto de modelos diretamente compatíveis com um JumpStartModel objeto. Muitos LLMs populares como o Llama 2 são suportados por este modelo, que pode ser inicializado conforme mostrado na captura de tela a seguir:

import sagemaker from sagemaker.jumpstart.model import JumpStartModel role = sagemaker.get_execution_role() my_model = JumpStartModel(model_id = "meta-textgeneration-llama-2-7b-f")

Para ambas as versões de my_model, implante-os conforme mostrado na captura de tela a seguir:

predictor = my_model.deploy( initial_instance_count=1, instance_type="ml.g5.4xlarge", endpoint_name="llama-2-generator")

Consultando o LLM pré-treinado

Com nosso endpoint LLM inicializado, você pode começar a consultar. O formato de nossas consultas pode variar (particularmente entre LLMs conversacionais e não conversacionais), mas o processo geralmente é o mesmo. Para o modelo Hugging Face, faça o seguinte:

# https://aws.amazon.com/blogs/machine-learning/llama-2-foundation-models-from-meta-are-now-available-in-amazon-sagemaker-jumpstart/ prompt = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know ANSWER: """ payload = { "inputs": [ [ {"role": "system", "content": prompt}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
out[0]['generation']['content']

Você pode encontrar a solução no Repositório GitHub.

A resposta gerada que estamos recebendo aqui não faz muito sentido – é uma alucinação.

Fornecendo contexto adicional para LLM

O Llama 2 tenta responder à nossa pergunta com base apenas no conhecimento paramétrico interno. Claramente, os parâmetros do modelo não armazenam conhecimento de quais instâncias podemos com o treinamento local gerenciado no SageMaker.

Para responder a esta pergunta corretamente, devemos usar o conhecimento original. Ou seja, damos informações adicionais ao LLM por meio do prompt. Vamos adicionar essas informações diretamente como contexto adicional para o modelo.

context = """Managed Spot Training can be used with all instances
supported in Amazon SageMaker. Managed Spot Training is supported
in all AWS Regions where Amazon SageMaker is currently available.""" prompt_template = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know". CONTEXT:
{context} ANSWER: """ text_input = prompt_template.replace("{context}", context).replace("{question}", question) payload = { "inputs": [ [ {"role": "system", "content": text_input}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}") [Input]: Which instances can I use with Managed Spot Training in SageMaker? [Output]:  Based on the given context, you can use Managed Spot Training with all instances supported in Amazon SageMaker. Therefore, the answer is: All instances supported in Amazon SageMaker.

Vemos agora a resposta correta para a pergunta; Essa foi fácil! No entanto, é improvável que um usuário insira contextos em seus prompts, pois ele já saberia a resposta para sua pergunta.

Em vez de inserir manualmente um único contexto, identifique automaticamente informações relevantes a partir de um banco de dados mais extenso de informações. Para isso, você precisará da Geração Aumentada de Recuperação.

Geração Aumentada de Recuperação

Com Retrieval Augmented Generation, você pode codificar um banco de dados de informações em um espaço vetorial onde a proximidade entre os vetores representa sua relevância/similaridade semântica. Com esse espaço vetorial como base de conhecimento, você pode converter uma nova consulta do usuário, codificá-la no mesmo espaço vetorial e recuperar os registros mais relevantes previamente indexados.

Depois de recuperar esses registros relevantes, selecione alguns deles e inclua-os no prompt do LLM como contexto adicional, fornecendo ao LLM conhecimento de origem altamente relevante. Este é um processo de duas etapas onde:

A indexação preenche o índice vetorial com informações de um conjunto de dados.
A recuperação acontece durante uma consulta e é onde recuperamos informações relevantes do índice vetorial.

Ambas as etapas requerem um modelo de incorporação para traduzir nosso texto simples legível por humanos em espaço vetorial semântico. Use o transformador de frase MiniLM altamente eficiente da Hugging Face, conforme mostrado na captura de tela a seguir. Este modelo não é um LLM e, portanto, não é inicializado da mesma forma que nosso modelo Llama 2.

hub_config = { "HF_MODEL_ID": "sentence-transformers/all-MiniLM-L6-v2", # model_id from hf.co/models "HF_TASK": "feature-extraction",
} huggingface_model = HuggingFaceModel( env=hub_config, role=role, transformers_version="4.6", # transformers version used pytorch_version="1.7", # pytorch version used py_version="py36", # python version of the DLC
)

No hub_config, especifique o ID do modelo conforme mostrado na captura de tela acima, mas para a tarefa, use a extração de recursos porque estamos gerando embeddings de vetores e não de texto como nosso LLM. Depois disso, inicialize a configuração do modelo com HuggingFaceModel como antes, mas desta vez sem a imagem LLM e com alguns parâmetros de versão.

encoder = huggingface_model.deploy( initial_instance_count=1, instance_type="ml.t2.large", endpoint_name="minilm-embedding"
)

Você pode implantar o modelo novamente com deploy, usando a instância menor (somente CPU) de ml.t2.large. O modelo MiniLM é minúsculo, por isso não requer muita memória e não precisa de GPU porque pode criar embeddings rapidamente, mesmo em uma CPU. Se preferir, você pode executar o modelo mais rapidamente na GPU.

Para criar embeddings, use o predict método e passar uma lista de contextos para codificar através do inputs chave conforme mostrado:

out = encoder.predict({"inputs": ["some text here", "some more text goes here too"]})

Dois contextos de entrada são passados, retornando dois embeddings de vetores de contexto, conforme mostrado:

len(out)

2

A dimensionalidade de incorporação do modelo MiniLM é 384 o que significa que cada vetor que incorpora saídas MiniLM deve ter uma dimensionalidade de 384. No entanto, olhando para o comprimento dos nossos embeddings, você verá o seguinte:

len(out[0]), len(out[1])

(8, 8)

Duas listas contêm oito itens cada. O MiniLM primeiro processa o texto em uma etapa de tokenização. Essa tokenização transforma nosso texto simples legível por humanos em uma lista de IDs de token legíveis por modelo. Nos recursos de saída do modelo, você pode ver os embeddings em nível de token. um desses embeddings mostra a dimensionalidade esperada de 384 como mostrado:

len(out[0][0])

384

Transforme esses embeddings em nível de token em embeddings em nível de documento usando os valores médios em cada dimensão vetorial, conforme mostrado na ilustração a seguir.

Operação de agrupamento médio para obter um único vetor de 384 dimensões.

import numpy as np embeddings = np.mean(np.array(out), axis=1)embeddings.shape(2, 384)

Com duas incorporações vetoriais de 384 dimensões, uma para cada texto de entrada. Para facilitar nossas vidas, reúna o processo de codificação em uma única função, conforme mostrado na captura de tela a seguir:

from typing import List def embed_docs(docs: List[str]) -> List[List[float]]: out = encoder.predict({"inputs": docs}) embeddings = np.mean(np.array(out), axis=1) return embeddings.tolist()

Baixando o conjunto de dados

Faça download das perguntas frequentes do Amazon SageMaker como base de conhecimento para obter os dados que contêm colunas de perguntas e respostas.

Baixe as perguntas frequentes do Amazon SageMaker

Ao realizar a pesquisa, procure apenas Respostas, para poder descartar a coluna Pergunta. Veja o caderno para detalhes.

Nosso conjunto de dados e o pipeline de incorporação estão prontos. Agora tudo o que precisamos é de um lugar para armazenar esses embeddings.

Indexação

O banco de dados vetorial Pinecone armazena incorporações de vetores e as pesquisa com eficiência em escala. Para criar um banco de dados, você precisará de uma chave API gratuita da Pinecone.

import pinecone
import os # add Pinecone API key from app.pinecone.io
api_key = os.environ.get("PINECONE_API_KEY") or "YOUR_API_KEY"
# set Pinecone environment - find next to API key in console
env = os.environ.get("PINECONE_ENVIRONMENT") or "YOUR_ENV" pinecone.init(api_key=api_key, environment=env)

Depois de se conectar ao banco de dados vetorial Pinecone, crie um único índice vetorial (semelhante a uma tabela em bancos de dados tradicionais). Nomeie o índice retrieval-augmentation-aws e alinhe o índice dimension e metric parâmetros com aqueles exigidos pelo modelo de incorporação (MiniLM neste caso).

import time index_name = "retrieval-augmentation-aws" if index_name in pinecone.list_indexes(): pinecone.delete_index(index_name) pinecone.create_index(name=index_name, dimension=embeddings.shape[1], metric="cosine")
# wait for index to finish initialization
while not pinecone.describe_index(index_name).status["ready"]: time.sleep(1)

Para começar a inserir dados, execute o seguinte:

from tqdm.auto import tqdm batch_size = 2 # can increase but needs larger instance size otherwise instance runs out of memory
vector_limit = 1000 answers = df_knowledge[:vector_limit]
index = pinecone.Index(index_name) for i in tqdm(range(0, len(answers), batch_size)): # find end of batch i_end = min(i + batch_size, len(answers)) # create IDs batch ids = [str(x) for x in range(i, i_end)] # create metadata batch metadatas = [{"text": text} for text in answers["Answer"][i:i_end]] # create embeddings texts = answers["Answer"][i:i_end].tolist() embeddings = embed_docs(texts) # create records list for upsert records = zip(ids, embeddings, metadatas) # upsert to Pinecone index.upsert(vectors=records)

Você pode começar a consultar o índice com a pergunta anterior nesta postagem.

# extract embeddings for the questions
query_vec = embed_docs(question)[0] # query pinecone
res = index.query(query_vec, top_k=1, include_metadata=True) # show the results
res
{'matches': [{'id': '90', 'metadata': {'text': 'Managed Spot Training can be used with all ' 'instances supported in Amazon ' 'SageMaker.rn'}, 'score': 0.881181657, 'values': []}], 'namespace': ''}

A saída acima mostra que estamos retornando contextos relevantes para nos ajudar a responder à nossa pergunta. Desde que nós top_k = 1, index.query retornou o resultado principal junto com os metadados que lêem Managed Spot Training can be used with all instances supported in Amazon.

Aumentando o prompt

Use os contextos recuperados para aumentar o prompt e decidir sobre uma quantidade máxima de contexto para alimentar o LLM. Use o 1000 limite de caracteres para adicionar iterativamente cada contexto retornado ao prompt até exceder o comprimento do conteúdo.

Aumentando o prompt

Alimente o context_str no prompt do LLM, conforme mostrado na captura de tela a seguir:

payload = create_payload(question, context_str)
out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}")

[Entrada]: Quais instâncias posso usar com o Managed Spot Training no SageMaker? [Saída]: Com base no contexto fornecido, você pode usar o Managed Spot Training com todas as instâncias compatíveis com o Amazon SageMaker. Portanto, a resposta é: Todas as instâncias suportadas no Amazon SageMaker.

A lógica funciona, então reúna-a em uma única função para manter as coisas limpas.

def rag_query(question: str) -> str: # create query vec query_vec = embed_docs(question)[0] # query pinecone res = index.query(query_vec, top_k=5, include_metadata=True) # get contexts contexts = [match.metadata["text"] for match in res.matches] # build the multiple contexts string context_str = construct_context(contexts=contexts) # create our retrieval augmented prompt payload = create_payload(question, context_str) # make prediction out = predictor.predict(payload, custom_attributes='accept_eula=true') return out[0]["generation"]["content"]

Agora você pode fazer perguntas como as mostradas a seguir:

rag_query("Does SageMaker support spot instances?") ' Yes, Amazon SageMaker supports spot instances for managed spot training. According to the provided context, Managed Spot Training can be used with all instances supported in Amazon SageMaker, and Managed Spot Training is supported in all AWS Regions where Amazon SageMaker is currently available.nnTherefore, the answer to your question is:nnYes, SageMaker supports spot instances in all regions where Amazon SageMaker is available.'

limpar

Para parar de incorrer em cobranças indesejadas, exclua o modelo e o endpoint.

encoder.delete_model() encoder.delete_endpoint()

Conclusão

Nesta postagem, apresentamos o RAG com LLMs de acesso aberto no SageMaker. Também mostramos como implantar modelos Jumpstart do Amazon SageMaker com Llama 2, Hugging Face LLMs com Flan T5 e incorporar modelos com MiniLM.

Implementamos um pipeline RAG completo de ponta a ponta usando nossos modelos de acesso aberto e um índice vetorial Pinecone. Usando isso, mostramos como minimizar as alucinações e manter o conhecimento do LLM atualizado e, em última análise, melhorar a experiência do usuário e a confiança em nossos sistemas.

Para executar este exemplo por conta própria, clone este repositório GitHub e siga as etapas anteriores usando o comando Caderno de respostas a perguntas no GitHub.

Sobre os autores

Foto do perfil de Vedant Jain jainista vedante é especialista sênior em IA/ML, trabalhando em iniciativas estratégicas de IA generativa. Antes de ingressar na AWS, Vedant ocupou cargos de especialização em ML/Data Science em várias empresas, como Databricks, Hortonworks (agora Cloudera) e JP Morgan Chase. Fora de seu trabalho, Vedant é apaixonado por fazer música, escalar, usar a ciência para levar uma vida significativa e explorar culinárias de todo o mundo.

James Briggs é Staff Developer Advocate na Pinecone, especializado em pesquisa vetorial e IA/ML. Ele orienta desenvolvedores e empresas no desenvolvimento de suas próprias soluções GenAI por meio de educação online. Antes da Pinecone, James trabalhou em IA para pequenas startups de tecnologia e corporações financeiras estabelecidas. Fora do trabalho, James tem paixão por viajar e abraçar novas aventuras, que vão desde surf e mergulho até Muay Thai e Jiu-Jitsu.

Xin Huang é um cientista aplicado sênior para Amazon SageMaker JumpStart e algoritmos integrados do Amazon SageMaker. Ele se concentra no desenvolvimento de algoritmos de aprendizado de máquina escalonáveis. Seus interesses de pesquisa estão na área de processamento de linguagem natural, aprendizado profundo explicável em dados tabulares e análise robusta de agrupamento de espaço-tempo não paramétrico. Ele publicou muitos artigos nas conferências ACL, ICDM, KDD e Royal Statistical Society: Series A.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/machine-learning/mitigate-hallucinations-through-retrieval-augmented-generation-using-pinecone-vector-database-llama-2-from-amazon-sagemaker-jumpstart/

Carimbo de hora: 6 de dezembro de 2023

Carimbo de hora: 24 de abril, 2024

Mitigue alucinações por meio da geração aumentada de recuperação usando banco de dados de vetores Pinecone e Llama-2 do Amazon SageMaker JumpStart | Amazon Web Services

Republicado por Platão

Geração aumentada de recuperação (RAG) no Amazon SageMaker

Pré-requisitos

Passo a passo da solução

Implantando um LLM

Consultando o LLM pré-treinado

Fornecendo contexto adicional para LLM

Geração Aumentada de Recuperação

Baixando o conjunto de dados

Indexação

Aumentando o prompt

limpar

Conclusão

Sobre os autores

Mais de Aprendizado de máquina da AWS

Treine, ajuste e implante conjuntos personalizados com eficiência usando o Amazon SageMaker | Amazon Web Services

Use o Amazon SageMaker Data Wrangler para preparação de dados e o Studio Labs para aprender e experimentar ML

Detecte a variação populacional de espécies ameaçadas usando o Amazon Rekognition

Escolha séries temporais específicas para prever com o Amazon Forecast

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta