Mitiga le allucinazioni attraverso il recupero della generazione aumentata utilizzando il database vettoriale Pinecone e Llama-2 da Amazon SageMaker JumpStart

Ripubblicato da Platone

Seguaci: 0

Nonostante l’adozione apparentemente inarrestabile degli LLM in tutti i settori, essi rappresentano una componente di un ecosistema tecnologico più ampio che sta alimentando la nuova ondata di intelligenza artificiale. Molti casi d'uso dell'intelligenza artificiale conversazionale richiedono LLM come Llama 2, Flan T5 e Bloom per rispondere alle domande degli utenti. Questi modelli si basano sulla conoscenza parametrica per rispondere alle domande. Il modello apprende questa conoscenza durante l'addestramento e la codifica nei parametri del modello. Per aggiornare queste conoscenze, dobbiamo riqualificare il LLM, il che richiede molto tempo e denaro.

Fortunatamente, possiamo anche utilizzare la conoscenza della fonte per informare i nostri LLM. La conoscenza della fonte è l'informazione inserita nel LLM attraverso un prompt di input. Un approccio popolare per fornire la conoscenza della fonte è il Retrieval Augmented Generation (RAG). Utilizzando RAG, recuperiamo informazioni rilevanti da una fonte di dati esterna e inseriamo tali informazioni nel LLM.

In questo post del blog, esploreremo come distribuire LLM come Llama-2 utilizzando Amazon Sagemaker JumpStart e manterremo aggiornati i nostri LLM con le informazioni pertinenti tramite Retrieval Augmented Generation (RAG) utilizzando il database vettoriale Pinecone per prevenire l'allucinazione dell'intelligenza artificiale .

Recupero di generazione aumentata (RAG) in Amazon SageMaker

Pinecone gestirà il componente di recupero di RAG, ma sono necessari altri due componenti critici: un posto dove eseguire l'inferenza LLM e un posto dove eseguire il modello di incorporamento.

Amazon SageMaker Studio è un ambiente di sviluppo integrato (IDE) che fornisce un'unica interfaccia visiva basata sul Web in cui è possibile accedere a strumenti specifici per eseguire tutto lo sviluppo di machine learning (ML). Fornisce SageMaker JumpStart, un hub di modelli in cui gli utenti possono individuare, visualizzare in anteprima e avviare un particolare modello nel proprio account SageMaker. Fornisce modelli pre-addestrati, disponibili al pubblico e proprietari per un'ampia gamma di tipi di problemi, inclusi i modelli di base.

Amazon SageMaker Studio fornisce l'ambiente ideale per lo sviluppo di pipeline LLM abilitate per RAG. Innanzitutto, utilizzando la console AWS, vai su Amazon SageMaker e crea un dominio SageMaker Studio e apri un notebook Jupyter Studio.

Prerequisiti

Completa i seguenti passaggi prerequisiti:

Configura Amazon SageMaker Studio.
Onboarding in un dominio Amazon SageMaker.
Iscriviti per un database vettoriale Pinecone di livello gratuito.
Librerie prerequisiti: SageMaker Python SDK, Pinecone Client

Procedura dettagliata della soluzione

Utilizzando il notebook SageMaker Studio, dobbiamo prima installare le librerie dei prerequisiti:

!pip install -qU sagemaker pinecone-client==2.2.1 ipywidgets==7.0.0

Distribuzione di un LLM

In questo post, discutiamo due approcci alla distribuzione di un LLM. Il primo è attraverso il HuggingFaceModel oggetto. È possibile utilizzarlo durante la distribuzione di LLM (e l'incorporamento di modelli) direttamente dall'hub del modello Hugging Face.

Ad esempio, puoi creare una configurazione distribuibile per google/flan-t5-xl modello come mostrato nella seguente schermata:

import sagemaker
from sagemaker.huggingface import (
HuggingFaceModel, get_huggingface_llm_image_uri
)
role = sagemaker.get_execution_role()
hub_config = {'HF_MODEL_ID':'google/flan-t5-xl', # model_id from hf.co/models 'HF_TASK':'text-generation' # NLP task you want to use for predictions # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri("huggingface", version="0.8.2"&)
huggingface_model = HuggingFaceModel(env=hub_config, role=role, # iam role with permissions to create an Endpoint image_uri=llm_image
)

Quando schieri i modelli direttamente da Hugging Face, inizializza il file my_model_configuration con i seguenti:

An env config ci dice quale modello vogliamo utilizzare e per quale attività.
La nostra esecuzione di SageMaker role ci dà le autorizzazioni per distribuire il nostro modello.
An image_uri è una configurazione di immagine specifica per la distribuzione di LLM da Hugging Face.

In alternativa, SageMaker dispone di una serie di modelli direttamente compatibili con uno più semplice JumpStartModel oggetto. Molti LLM popolari come Llama 2 sono supportati da questo modello, che può essere inizializzato come mostrato nella seguente schermata:

import sagemaker from sagemaker.jumpstart.model import JumpStartModel role = sagemaker.get_execution_role() my_model = JumpStartModel(model_id = "meta-textgeneration-llama-2-7b-f")

Per entrambe le versioni di my_model, distribuirli come mostrato nella seguente schermata:

predictor = my_model.deploy( initial_instance_count=1, instance_type="ml.g5.4xlarge", endpoint_name="llama-2-generator")

Interrogazione del LLM pre-addestrato

Con il nostro endpoint LLM inizializzato, puoi iniziare a eseguire query. Il formato delle nostre query può variare (in particolare tra LLM conversazionali e non conversazionali), ma il processo è generalmente lo stesso. Per il modello Hugging Face, procedi come segue:

# https://aws.amazon.com/blogs/machine-learning/llama-2-foundation-models-from-meta-are-now-available-in-amazon-sagemaker-jumpstart/ prompt = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know ANSWER: """ payload = { "inputs": [ [ {"role": "system", "content": prompt}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
out[0]['generation']['content']

Puoi trovare la soluzione nel Repository GitHub.

La risposta generata che riceviamo qui non ha molto senso: è un'allucinazione.

Fornire contesto aggiuntivo a LLM

Llama 2 tenta di rispondere alla nostra domanda basandosi esclusivamente sulla conoscenza parametrica interna. Chiaramente, i parametri del modello non memorizzano la conoscenza di quali istanze possiamo ottenere con l'addestramento spot gestito in SageMaker.

Per rispondere correttamente a questa domanda, dobbiamo utilizzare la conoscenza di base. Cioè, forniamo informazioni aggiuntive al LLM tramite il prompt. Aggiungiamo queste informazioni direttamente come contesto aggiuntivo per il modello.

context = """Managed Spot Training can be used with all instances
supported in Amazon SageMaker. Managed Spot Training is supported
in all AWS Regions where Amazon SageMaker is currently available.""" prompt_template = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know". CONTEXT:
{context} ANSWER: """ text_input = prompt_template.replace("{context}", context).replace("{question}", question) payload = { "inputs": [ [ {"role": "system", "content": text_input}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}") [Input]: Which instances can I use with Managed Spot Training in SageMaker? [Output]:  Based on the given context, you can use Managed Spot Training with all instances supported in Amazon SageMaker. Therefore, the answer is: All instances supported in Amazon SageMaker.

Ora vediamo la risposta corretta alla domanda; è stato facile! Tuttavia, è improbabile che un utente inserisca contesti nei propri prompt, conoscerebbe già la risposta alla sua domanda.

Invece di inserire manualmente un singolo contesto, identifica automaticamente le informazioni rilevanti da un database di informazioni più ampio. Per questo, avrai bisogno di Retrieval Augmented Generation.

Recupero generazione aumentata

Con Retrieval Augmented Generation, puoi codificare un database di informazioni in uno spazio vettoriale in cui la vicinanza tra i vettori rappresenta la loro rilevanza/somiglianza semantica. Con questo spazio vettoriale come base di conoscenza, puoi convertire una nuova query utente, codificarla nello stesso spazio vettoriale e recuperare i record più rilevanti precedentemente indicizzati.

Dopo aver recuperato questi record rilevanti, selezionane alcuni e includili nel prompt LLM come contesto aggiuntivo, fornendo al LLM una conoscenza della fonte altamente rilevante. Si tratta di un processo in due fasi in cui:

L'indicizzazione popola l'indice vettoriale con le informazioni provenienti da un set di dati.
Il recupero avviene durante una query ed è il momento in cui recuperiamo le informazioni rilevanti dall'indice del vettore.

Entrambi i passaggi richiedono un modello di incorporamento per tradurre il nostro testo semplice leggibile dall'uomo in uno spazio vettoriale semantico. Utilizza il trasformatore di frasi MiniLM altamente efficiente di Hugging Face come mostrato nella seguente schermata. Questo modello non è un LLM e pertanto non è inizializzato allo stesso modo del nostro modello Llama 2.

hub_config = { "HF_MODEL_ID": "sentence-transformers/all-MiniLM-L6-v2", # model_id from hf.co/models "HF_TASK": "feature-extraction",
} huggingface_model = HuggingFaceModel( env=hub_config, role=role, transformers_version="4.6", # transformers version used pytorch_version="1.7", # pytorch version used py_version="py36", # python version of the DLC
)

Nel hub_config, specifica l'ID del modello come mostrato nella schermata sopra ma per l'attività utilizza l'estrazione delle funzionalità perché stiamo generando incorporamenti di vettori e non testo come il nostro LLM. Successivamente, inizializza la configurazione del modello con HuggingFaceModel come prima, ma questa volta senza l'immagine LLM e con alcuni parametri di versione.

encoder = huggingface_model.deploy( initial_instance_count=1, instance_type="ml.t2.large", endpoint_name="minilm-embedding"
)

Puoi distribuire nuovamente il modello con deploy, utilizzando l'istanza più piccola (solo CPU) di ml.t2.large. Il modello MiniLM è piccolo, quindi non richiede molta memoria e non necessita di GPU perché può creare rapidamente incorporamenti anche su una CPU. Se preferisci, puoi eseguire il modello più velocemente sulla GPU.

Per creare incorporamenti, utilizzare il file predict metodo e passare un elenco di contesti da codificare tramite il metodo inputs chiave come mostrato:

out = encoder.predict({"inputs": ["some text here", "some more text goes here too"]})

Vengono passati due contesti di input, restituendo due incorporamenti di vettori di contesto come mostrato:

len(out)

2

La dimensionalità di incorporamento del modello MiniLM è 384 il che significa che ogni vettore che incorpora gli output MiniLM dovrebbe avere una dimensionalità di 384. Tuttavia, osservando la lunghezza dei nostri incorporamenti, vedrai quanto segue:

len(out[0]), len(out[1])

(8, 8)

Due elenchi contengono otto elementi ciascuno. MiniLM elabora innanzitutto il testo in una fase di tokenizzazione. Questa tokenizzazione trasforma il nostro testo semplice leggibile dall'uomo in un elenco di ID token leggibili dal modello. Nelle funzionalità di output del modello è possibile visualizzare gli incorporamenti a livello di token. uno di questi incastri mostra la dimensionalità attesa di 384 come mostrato:

len(out[0][0])

384

Trasforma questi incorporamenti a livello di token in incorporamenti a livello di documento utilizzando i valori medi in ogni dimensione vettoriale, come mostrato nella figura seguente.

Operazione di pooling medio per ottenere un singolo vettore a 384 dimensioni.

import numpy as np embeddings = np.mean(np.array(out), axis=1)embeddings.shape(2, 384)

Con due incorporamenti vettoriali a 384 dimensioni, uno per ciascun testo di input. Per semplificarci la vita, racchiudi il processo di codifica in un'unica funzione, come mostrato nella seguente schermata:

from typing import List def embed_docs(docs: List[str]) -> List[List[float]]: out = encoder.predict({"inputs": docs}) embeddings = np.mean(np.array(out), axis=1) return embeddings.tolist()

Download del set di dati

Scarica le domande frequenti su Amazon SageMaker come knowledge base per ottenere i dati che contengono sia colonne di domande che di risposte.

Scarica le domande frequenti su Amazon SageMaker

Quando esegui la ricerca, cerca solo Risposte, in modo da poter eliminare la colonna Domanda. Vedi il taccuino per i dettagli.

Il nostro set di dati e la pipeline di incorporamento sono pronti. Ora tutto ciò di cui abbiamo bisogno è un posto dove archiviare questi incorporamenti.

Indicizzazione

Il database vettoriale Pinecone archivia gli incorporamenti di vettori e li ricerca in modo efficiente su larga scala. Per creare un database, avrai bisogno di una chiave API gratuita di Pinecone.

import pinecone
import os # add Pinecone API key from app.pinecone.io
api_key = os.environ.get("PINECONE_API_KEY") or "YOUR_API_KEY"
# set Pinecone environment - find next to API key in console
env = os.environ.get("PINECONE_ENVIRONMENT") or "YOUR_ENV" pinecone.init(api_key=api_key, environment=env)

Dopo esserti connesso al database vettoriale Pigna, crea un unico indice vettoriale (simile ad una tabella nei DB tradizionali). Assegna un nome all'indice retrieval-augmentation-aws e allineare l'indice dimension ed metric parametri con quelli richiesti dal modello di incorporamento (MiniLM in questo caso).

import time index_name = "retrieval-augmentation-aws" if index_name in pinecone.list_indexes(): pinecone.delete_index(index_name) pinecone.create_index(name=index_name, dimension=embeddings.shape[1], metric="cosine")
# wait for index to finish initialization
while not pinecone.describe_index(index_name).status["ready"]: time.sleep(1)

Per iniziare a inserire i dati, eseguire quanto segue:

from tqdm.auto import tqdm batch_size = 2 # can increase but needs larger instance size otherwise instance runs out of memory
vector_limit = 1000 answers = df_knowledge[:vector_limit]
index = pinecone.Index(index_name) for i in tqdm(range(0, len(answers), batch_size)): # find end of batch i_end = min(i + batch_size, len(answers)) # create IDs batch ids = [str(x) for x in range(i, i_end)] # create metadata batch metadatas = [{"text": text} for text in answers["Answer"][i:i_end]] # create embeddings texts = answers["Answer"][i:i_end].tolist() embeddings = embed_docs(texts) # create records list for upsert records = zip(ids, embeddings, metadatas) # upsert to Pinecone index.upsert(vectors=records)

Puoi iniziare a interrogare l'indice con la domanda di prima in questo post.

# extract embeddings for the questions
query_vec = embed_docs(question)[0] # query pinecone
res = index.query(query_vec, top_k=1, include_metadata=True) # show the results
res
{'matches': [{'id': '90', 'metadata': {'text': 'Managed Spot Training can be used with all ' 'instances supported in Amazon ' 'SageMaker.rn'}, 'score': 0.881181657, 'values': []}], 'namespace': ''}

L'output sopra mostra che stiamo restituendo contesti pertinenti per aiutarci a rispondere alla nostra domanda. Da quando noi top_k = 1, index.query ha restituito il risultato migliore insieme ai metadati che leggono Managed Spot Training can be used with all instances supported in Amazon.

Aumentare il prompt

Utilizza i contesti recuperati per aumentare il prompt e decidere una quantità massima di contesto da inserire nel LLM. Usa il 1000 limite di caratteri per aggiungere in modo iterativo ogni contesto restituito al prompt finché non si supera la lunghezza del contenuto.

Aumentare il prompt

Nutri il context_str nel prompt LLM come mostrato nella seguente schermata:

payload = create_payload(question, context_str)
out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}")

[Input]: quali istanze posso utilizzare con Managed Spot Training in SageMaker? [Output]: in base al contesto fornito, puoi utilizzare Managed Spot Training con tutte le istanze supportate in Amazon SageMaker. Pertanto, la risposta è: tutte le istanze supportate in Amazon SageMaker.

La logica funziona, quindi racchiudila in un'unica funzione per mantenere le cose pulite.

def rag_query(question: str) -> str: # create query vec query_vec = embed_docs(question)[0] # query pinecone res = index.query(query_vec, top_k=5, include_metadata=True) # get contexts contexts = [match.metadata["text"] for match in res.matches] # build the multiple contexts string context_str = construct_context(contexts=contexts) # create our retrieval augmented prompt payload = create_payload(question, context_str) # make prediction out = predictor.predict(payload, custom_attributes='accept_eula=true') return out[0]["generation"]["content"]

Ora puoi porre domande come quelle mostrate di seguito:

rag_query("Does SageMaker support spot instances?") ' Yes, Amazon SageMaker supports spot instances for managed spot training. According to the provided context, Managed Spot Training can be used with all instances supported in Amazon SageMaker, and Managed Spot Training is supported in all AWS Regions where Amazon SageMaker is currently available.nnTherefore, the answer to your question is:nnYes, SageMaker supports spot instances in all regions where Amazon SageMaker is available.'

ripulire

Per non incorrere in addebiti indesiderati, elimina il modello e l'endpoint.

encoder.delete_model() encoder.delete_endpoint()

Conclusione

In questo post ti abbiamo presentato RAG con LLM ad accesso aperto su SageMaker. Abbiamo anche mostrato come distribuire modelli Jumpstart di Amazon SageMaker con Llama 2, Hugging Face LLM con Flan T5 e incorporare modelli con MiniLM.

Abbiamo implementato una pipeline RAG end-to-end completa utilizzando i nostri modelli ad accesso aperto e un indice vettoriale Pinecone. Utilizzando questo, abbiamo mostrato come ridurre al minimo le allucinazioni e mantenere aggiornate le conoscenze LLM e, in definitiva, migliorare l'esperienza dell'utente e la fiducia nei nostri sistemi.

Per eseguire questo esempio da solo, clona questo repository GitHub e segui i passaggi precedenti utilizzando il file Notebook con risposte alle domande su GitHub.

Circa gli autori

Immagine del profilo di Vedant Jain Giainista Vedante è uno specialista senior di AI/ML, che lavora su iniziative strategiche di intelligenza artificiale generativa. Prima di unirsi ad AWS, Vedant ha ricoperto posizioni di specialità ML/Data Science presso varie aziende come Databricks, Hortonworks (ora Cloudera) e JP Morgan Chase. Al di fuori del suo lavoro, Vedant è appassionato di fare musica, arrampicarsi su roccia, usare la scienza per condurre una vita significativa ed esplorare cucine di tutto il mondo.

James Briggs è un avvocato per gli sviluppatori dello staff presso Pinecone, specializzato in ricerca vettoriale e AI/ML. Guida sviluppatori e aziende nello sviluppo delle proprie soluzioni GenAI attraverso la formazione online. Prima di Pinecone, James ha lavorato sull'intelligenza artificiale per piccole startup tecnologiche e società finanziarie affermate. Al di fuori del lavoro, James ha una passione per i viaggi e abbraccia nuove avventure, che vanno dal surf e le immersioni alla Muay Thai e al BJJ.

Xin Huan è Senior Applied Scientist per gli algoritmi integrati di Amazon SageMaker JumpStart e Amazon SageMaker. Si concentra sullo sviluppo di algoritmi di apprendimento automatico scalabili. I suoi interessi di ricerca riguardano l'elaborazione del linguaggio naturale, il deep learning spiegabile su dati tabulari e l'analisi solida del clustering spazio-temporale non parametrico. Ha pubblicato molti articoli nelle conferenze ACL, ICDM, KDD e Royal Statistical Society: Series A.