Dämpa hallucinationer genom återvinning Augmented Generation med Pinecone Vector Database & Llama-2 från Amazon SageMaker JumpStart

Återutgiven av Platon

anhängare: 0

Trots det till synes ostoppbara införandet av LLM i olika branscher är de en komponent i ett bredare teknologiekosystem som driver den nya AI-vågen. Många användningsfall för konversation av AI kräver LLM:er som Llama 2, Flan T5 och Bloom för att svara på användarfrågor. Dessa modeller förlitar sig på parametrisk kunskap för att svara på frågor. Modellen lär sig denna kunskap under träning och kodar in den i modellparametrarna. För att uppdatera denna kunskap måste vi omskola LLM, vilket tar mycket tid och pengar.

Lyckligtvis kan vi också använda källkunskap för att informera våra LLM:er. Källkunskap är information som matas in i LLM genom en inmatningsprompt. Ett populärt sätt att tillhandahålla källkunskap är Retrieval Augmented Generation (RAG). Med hjälp av RAG hämtar vi relevant information från en extern datakälla och matar in den informationen i LLM.

I det här blogginlägget kommer vi att utforska hur man distribuerar LLMs som Llama-2 med Amazon Sagemaker JumpStart och håller våra LLMs uppdaterade med relevant information genom Retrieval Augmented Generation (RAG) med hjälp av Pinecone vektordatabasen för att förhindra AI Hallucination .

Retrieval Augmented Generation (RAG) i Amazon SageMaker

Pinecone kommer att hantera hämtningskomponenten i RAG, men du behöver ytterligare två viktiga komponenter: någonstans för att köra LLM-inferensen och någonstans för att köra inbäddningsmodellen.

Amazon SageMaker Studio en integrerad utvecklingsmiljö (IDE) som tillhandahåller ett enda webbaserat visuellt gränssnitt där du kan komma åt specialbyggda verktyg för att utföra all utveckling av maskininlärning (ML). Det tillhandahåller SageMaker JumpStart som är ett modellnav där användare kan hitta, förhandsgranska och starta en viss modell i sitt eget SageMaker-konto. Den tillhandahåller förutbildade, allmänt tillgängliga och proprietära modeller för ett brett spektrum av problemtyper, inklusive grundmodeller.

Amazon SageMaker Studio tillhandahåller den idealiska miljön för att utveckla RAG-aktiverade LLM-pipelines. Använd först AWS-konsolen, gå till Amazon SageMaker och skapa en SageMaker Studio-domän och öppna en Jupyter Studio-anteckningsbok.

Förutsättningar

Slutför följande förutsättningssteg:

Konfigurera Amazon SageMaker Studio.
Ombord på en Amazon SageMaker-domän.
Registrera dig för en gratis-tier Pinecone Vector Database.
Förutsättningsbibliotek: SageMaker Python SDK, Pinecone Client

Lösningsgenomgång

Med SageMaker Studio notebook behöver vi först installera förutsättningsbibliotek:

!pip install -qU sagemaker pinecone-client==2.2.1 ipywidgets==7.0.0

Utplacera en LLM

I det här inlägget diskuterar vi två tillvägagångssätt för att distribuera en LLM. Den första är genom HuggingFaceModel objekt. Du kan använda detta när du distribuerar LLM:er (och bäddar in modeller) direkt från Hugging Face-modellhubben.

Till exempel kan du skapa en distribuerbar konfiguration för google/flan-t5-xl modell som visas i följande skärmdump:

import sagemaker
from sagemaker.huggingface import (
HuggingFaceModel, get_huggingface_llm_image_uri
)
role = sagemaker.get_execution_role()
hub_config = {'HF_MODEL_ID':'google/flan-t5-xl', # model_id from hf.co/models 'HF_TASK':'text-generation' # NLP task you want to use for predictions # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri("huggingface", version="0.8.2"&)
huggingface_model = HuggingFaceModel(env=hub_config, role=role, # iam role with permissions to create an Endpoint image_uri=llm_image
)

När du distribuerar modeller direkt från Hugging Face, initiera my_model_configuration med följande:

An env config talar om för oss vilken modell vi vill använda och för vilken uppgift.
Vårt SageMaker-utförande role ger oss behörighet att distribuera vår modell.
An image_uri är en bildkonfiguration specifikt för att distribuera LLM från Hugging Face.

Alternativt har SageMaker en uppsättning modeller direkt kompatibla med en enklare JumpStartModel objekt. Många populära LLMs som Llama 2 stöds av denna modell, som kan initieras som visas i följande skärmdump:

import sagemaker from sagemaker.jumpstart.model import JumpStartModel role = sagemaker.get_execution_role() my_model = JumpStartModel(model_id = "meta-textgeneration-llama-2-7b-f")

För båda versionerna av my_model, distribuera dem som visas i följande skärmdump:

predictor = my_model.deploy( initial_instance_count=1, instance_type="ml.g5.4xlarge", endpoint_name="llama-2-generator")

Frågar den förutbildade LLM

Med vår initierade LLM-slutpunkt kan du börja fråga. Formatet på våra frågor kan variera (särskilt mellan konversations- och icke-konversations-LLM), men processen är i allmänhet densamma. För modellen Hugging Face, gör följande:

# https://aws.amazon.com/blogs/machine-learning/llama-2-foundation-models-from-meta-are-now-available-in-amazon-sagemaker-jumpstart/ prompt = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know ANSWER: """ payload = { "inputs": [ [ {"role": "system", "content": prompt}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
out[0]['generation']['content']

Du hittar lösningen i GitHub repository.

Det genererade svaret vi får här är inte så vettigt - det är en hallucination.

Tillhandahåller ytterligare sammanhang till LLM

Llama 2 försöker svara på vår fråga enbart baserat på intern parametrisk kunskap. Det är uppenbart att modellparametrarna inte lagrar kunskap om vilka instanser vi kan med hanterad punktträning i SageMaker.

För att svara rätt på denna fråga måste vi använda källkunskap. Det vill säga, vi ger ytterligare information till LLM via prompten. Låt oss lägga till den informationen direkt som ytterligare sammanhang för modellen.

context = """Managed Spot Training can be used with all instances
supported in Amazon SageMaker. Managed Spot Training is supported
in all AWS Regions where Amazon SageMaker is currently available.""" prompt_template = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know". CONTEXT:
{context} ANSWER: """ text_input = prompt_template.replace("{context}", context).replace("{question}", question) payload = { "inputs": [ [ {"role": "system", "content": text_input}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}") [Input]: Which instances can I use with Managed Spot Training in SageMaker? [Output]:  Based on the given context, you can use Managed Spot Training with all instances supported in Amazon SageMaker. Therefore, the answer is: All instances supported in Amazon SageMaker.

Vi ser nu det korrekta svaret på frågan; det var enkelt! Det är dock osannolikt att en användare infogar sammanhang i sina meddelanden, de skulle redan veta svaret på sin fråga.

Istället för att manuellt infoga ett enda sammanhang, identifiera relevant information automatiskt från en mer omfattande databas med information. För det behöver du Retrieval Augmented Generation.

Retrieval Augmented Generation

Med Retrieval Augmented Generation kan du koda en databas med information till ett vektorutrymme där närheten mellan vektorer representerar deras relevans/semantiska likhet. Med detta vektorutrymme som kunskapsbas kan du konvertera en ny användarfråga, koda den till samma vektorutrymme och hämta de mest relevanta posterna som tidigare indexerats.

Efter att ha hämtat dessa relevanta poster, välj några av dem och inkludera dem i LLM-prompten som ytterligare sammanhang, vilket ger LLM mycket relevant källkunskap. Detta är en process i två steg där:

Indexering fyller vektorindexet med information från en datamängd.
Hämtning sker under en förfrågan och det är där vi hämtar relevant information från vektorindexet.

Båda stegen kräver en inbäddningsmodell för att översätta vår mänskligt läsbara klartext till semantiskt vektorutrymme. Använd den mycket effektiva MiniLM-satstransformatorn från Hugging Face som visas i följande skärmdump. Denna modell är inte en LLM och är därför inte initierad på samma sätt som vår Llama 2-modell.

hub_config = { "HF_MODEL_ID": "sentence-transformers/all-MiniLM-L6-v2", # model_id from hf.co/models "HF_TASK": "feature-extraction",
} huggingface_model = HuggingFaceModel( env=hub_config, role=role, transformers_version="4.6", # transformers version used pytorch_version="1.7", # pytorch version used py_version="py36", # python version of the DLC
)

I hub_config, specificera modell-ID som visas i skärmdumpen ovan men för uppgiften, använd funktionsextraktion eftersom vi genererar vektorinbäddningar, inte text som vår LLM. Efter detta, initiera modellkonfigurationen med HuggingFaceModel som tidigare, men denna gång utan LLM-bilden och med vissa versionsparametrar.

encoder = huggingface_model.deploy( initial_instance_count=1, instance_type="ml.t2.large", endpoint_name="minilm-embedding"
)

Du kan distribuera modellen igen med deploy, med den mindre (endast CPU) instansen av ml.t2.large. MiniLM-modellen är liten, så den kräver inte mycket minne och behöver ingen GPU eftersom den snabbt kan skapa inbäddningar även på en CPU. Om så önskas kan du köra modellen snabbare på GPU.

För att skapa inbäddningar, använd predict metod och skicka en lista över sammanhang att koda via inputs nyckel som visas:

out = encoder.predict({"inputs": ["some text here", "some more text goes here too"]})

Två inmatningskontexter skickas, vilket returnerar två kontextvektorinbäddningar som visas:

len(out)

2

MiniLM-modellens inbäddningsdimensionalitet är 384 vilket innebär att varje vektor som bäddar in MiniLM-utgångar bör ha en dimensionalitet på 384. Men om du tittar på längden på våra inbäddningar kommer du att se följande:

len(out[0]), len(out[1])

(8, 8)

Två listor innehåller åtta poster vardera. MiniLM bearbetar först text i ett tokeniseringssteg. Denna tokenisering förvandlar vår mänskligt läsbara oformaterade text till en lista med modellläsbara token-ID:n. I modellens utdatafunktioner kan du se inbäddningar på tokennivå. en av dessa inbäddningar visar den förväntade dimensionaliteten av 384 som visat:

len(out[0][0])

384

Omvandla dessa inbäddningar på tokennivå till inbäddningar på dokumentnivå genom att använda medelvärdena över varje vektordimension, som visas i följande illustration.

Genomsnittlig poolningsoperation för att få en enda 384-dimensionell vektor.

import numpy as np embeddings = np.mean(np.array(out), axis=1)embeddings.shape(2, 384)

Med två 384-dimensionella vektorinbäddningar, en för varje inmatad text. För att göra våra liv enklare, slå in kodningsprocessen i en enda funktion som visas i följande skärmdump:

from typing import List def embed_docs(docs: List[str]) -> List[List[float]]: out = encoder.predict({"inputs": docs}) embeddings = np.mean(np.array(out), axis=1) return embeddings.tolist()

Laddar ned datamängden

Ladda ner Amazon SageMaker FAQs som kunskapsbas för att få data som innehåller både fråge- och svarskolumner.

Ladda ner Amazon SageMaker FAQs

När du utför sökningen, leta endast efter svar, så att du kan släppa kolumnen Fråga. Se anteckningsboken för detaljer.

Vår datauppsättning och inbäddningspipeline är klara. Nu behöver vi bara någonstans att lagra dessa inbäddningar.

Indexering

Pinecone vektordatabasen lagrar vektorinbäddningar och söker dem effektivt i skala. För att skapa en databas behöver du en gratis API-nyckel från Pinecone.

import pinecone
import os # add Pinecone API key from app.pinecone.io
api_key = os.environ.get("PINECONE_API_KEY") or "YOUR_API_KEY"
# set Pinecone environment - find next to API key in console
env = os.environ.get("PINECONE_ENVIRONMENT") or "YOUR_ENV" pinecone.init(api_key=api_key, environment=env)

När du har anslutit till Pinecone vektordatabasen skapar du ett enda vektorindex (liknande en tabell i traditionella DB). Namnge indexet retrieval-augmentation-aws och justera indexet dimension och metric parametrar med de som krävs av inbäddningsmodellen (MiniLM i detta fall).

import time index_name = "retrieval-augmentation-aws" if index_name in pinecone.list_indexes(): pinecone.delete_index(index_name) pinecone.create_index(name=index_name, dimension=embeddings.shape[1], metric="cosine")
# wait for index to finish initialization
while not pinecone.describe_index(index_name).status["ready"]: time.sleep(1)

För att börja infoga data, kör följande:

from tqdm.auto import tqdm batch_size = 2 # can increase but needs larger instance size otherwise instance runs out of memory
vector_limit = 1000 answers = df_knowledge[:vector_limit]
index = pinecone.Index(index_name) for i in tqdm(range(0, len(answers), batch_size)): # find end of batch i_end = min(i + batch_size, len(answers)) # create IDs batch ids = [str(x) for x in range(i, i_end)] # create metadata batch metadatas = [{"text": text} for text in answers["Answer"][i:i_end]] # create embeddings texts = answers["Answer"][i:i_end].tolist() embeddings = embed_docs(texts) # create records list for upsert records = zip(ids, embeddings, metadatas) # upsert to Pinecone index.upsert(vectors=records)

Du kan börja fråga indexet med frågan från tidigare i det här inlägget.

# extract embeddings for the questions
query_vec = embed_docs(question)[0] # query pinecone
res = index.query(query_vec, top_k=1, include_metadata=True) # show the results
res
{'matches': [{'id': '90', 'metadata': {'text': 'Managed Spot Training can be used with all ' 'instances supported in Amazon ' 'SageMaker.rn'}, 'score': 0.881181657, 'values': []}], 'namespace': ''}

Ovanstående utdata visar att vi returnerar relevanta sammanhang för att hjälpa oss att svara på vår fråga. Eftersom vi top_k = 1, index.query returnerade toppresultatet vid sidan av metadata som läser Managed Spot Training can be used with all instances supported in Amazon.

Förstärka uppmaningen

Använd de hämtade sammanhangen för att utöka prompten och besluta om en maximal mängd sammanhang som ska matas in i LLM. Använd 1000 teckenbegränsning för att iterativt lägga till varje returnerad kontext till prompten tills du överskrider innehållslängden.

Förstärka uppmaningen

Mata context_str i LLM-prompten som visas i följande skärmdump:

payload = create_payload(question, context_str)
out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}")

[Input]: Vilka instanser kan jag använda med Managed Spot Training i SageMaker? [Utdata]: Baserat på det angivna sammanhanget kan du använda Managed Spot Training med alla instanser som stöds i Amazon SageMaker. Därför är svaret: Alla instanser stöds i Amazon SageMaker.

Logiken fungerar, så slå ihop den i en enda funktion för att hålla saker ren.

def rag_query(question: str) -> str: # create query vec query_vec = embed_docs(question)[0] # query pinecone res = index.query(query_vec, top_k=5, include_metadata=True) # get contexts contexts = [match.metadata["text"] for match in res.matches] # build the multiple contexts string context_str = construct_context(contexts=contexts) # create our retrieval augmented prompt payload = create_payload(question, context_str) # make prediction out = predictor.predict(payload, custom_attributes='accept_eula=true') return out[0]["generation"]["content"]

Du kan nu ställa frågor som de som visas i följande:

rag_query("Does SageMaker support spot instances?") ' Yes, Amazon SageMaker supports spot instances for managed spot training. According to the provided context, Managed Spot Training can be used with all instances supported in Amazon SageMaker, and Managed Spot Training is supported in all AWS Regions where Amazon SageMaker is currently available.nnTherefore, the answer to your question is:nnYes, SageMaker supports spot instances in all regions where Amazon SageMaker is available.'

Städa upp

Ta bort modellen och slutpunkten för att sluta ta på dig oönskade avgifter.

encoder.delete_model() encoder.delete_endpoint()

Slutsats

I det här inlägget introducerade vi dig för RAG med LLM med öppen tillgång på SageMaker. Vi visade också hur man distribuerar Amazon SageMaker Jumpstart-modeller med Llama 2, Hugging Face LLMs med Flan T5 och bäddar in modeller med MiniLM.

Vi implementerade en komplett end-to-end RAG-pipeline med våra open access-modeller och ett Pinecone-vektorindex. Med hjälp av detta visade vi hur vi kan minimera hallucinationer och hålla LLM-kunskapen uppdaterad, och i slutändan förbättra användarupplevelsen och förtroendet för våra system.

För att köra det här exemplet på egen hand, klona detta GitHub-förråd och gå igenom de föregående stegen med hjälp av Anteckningsbok för svar på frågor på GitHub.

Om författarna

Vedant Jain profilbild Vedant Jain är en Sr. AI/ML-specialist som arbetar med strategiska initiativ för generativ AI. Innan han började på AWS har Vedant haft ML/Data Science Specialty-positioner på olika företag som Databricks, Hortonworks (nu Cloudera) & JP Morgan Chase. Utanför sitt arbete brinner Vedant för att göra musik, klättra i berg, använda vetenskap för att leva ett meningsfullt liv och utforska kök från hela världen.

James Briggs är en Staff Developer Advocate på Pinecone, specialiserad på vektorsökning och AI/ML. Han vägleder utvecklare och företag i att utveckla sina egna GenAI-lösningar genom onlineutbildning. Före Pinecone arbetade James med AI för små tekniska startups till etablerade finansbolag. Utanför jobbet har James en passion för att resa och omfamna nya äventyr, allt från surfing och scuba till Muay Thai och BJJ.

Xin Huang är en Senior Applied Scientist för Amazon SageMaker JumpStart och Amazon SageMaker inbyggda algoritmer. Han fokuserar på att utveckla skalbara maskininlärningsalgoritmer. Hans forskningsintressen är inom området naturlig språkbehandling, förklarlig djupinlärning på tabelldata och robust analys av icke-parametrisk rum-tid-klustring. Han har publicerat många artiklar i ACL, ICDM, KDD-konferenser och Royal Statistical Society: Series A.

SEO-drivet innehåll och PR-distribution. Bli förstärkt idag.
PlatoData.Network Vertical Generative Ai. Styrka dig själv. Tillgång här.
PlatoAiStream. Web3 Intelligence. Kunskap förstärkt. Tillgång här.
Platoesg. Kol, CleanTech, Energi, Miljö, Sol, Avfallshantering. Tillgång här.
PlatoHealth. Biotech och kliniska prövningar Intelligence. Tillgång här.
Källa: https://aws.amazon.com/blogs/machine-learning/mitigate-hallucinations-through-retrieval-augmented-generation-using-pinecone-vector-database-llama-2-from-amazon-sagemaker-jumpstart/

Tidsstämpel: December 6, 2023

Tidsstämpel: April 24, 2024

Dämpa hallucinationer genom Retrieval Augmented Generation med Pinecone vektordatabas & Llama-2 från Amazon SageMaker JumpStart | Amazon webbtjänster

Återutgiven av Platon

Retrieval Augmented Generation (RAG) i Amazon SageMaker

Förutsättningar

Lösningsgenomgång

Utplacera en LLM

Frågar den förutbildade LLM

Tillhandahåller ytterligare sammanhang till LLM

Retrieval Augmented Generation

Laddar ned datamängden

Indexering

Förstärka uppmaningen

Städa upp

Slutsats

Om författarna

Mer från AWS maskininlärning

Träna, ställ in och distribuera effektivt anpassade ensembler med Amazon SageMaker | Amazon webbtjänster

Använd Amazon SageMaker Data Wrangler för dataförberedelse och Studio Labs för att lära dig och experimentera med ML

Upptäck populationsvarians för hotade arter med hjälp av Amazon Rekognition

Välj specifika tidsserier att prognostisera med Amazon Forecast

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto