Mitigate Hallucinations Through Retrieval Augmented Generation Using Pinecone Vector Database & Llama-2 From Amazon SageMaker JumpStart

Genudgivet af Platon

Abonnenter: 0

På trods af den tilsyneladende ustoppelige indførelse af LLM'er på tværs af industrier, er de en komponent i et bredere teknologiøkosystem, der driver den nye AI-bølge. Mange konversations-AI-brugssager kræver LLM'er som Llama 2, Flan T5 og Bloom for at svare på brugerforespørgsler. Disse modeller er afhængige af parametrisk viden til at besvare spørgsmål. Modellen lærer denne viden under træningen og koder den ind i modelparametrene. For at opdatere denne viden skal vi omskole LLM, hvilket tager meget tid og penge.

Heldigvis kan vi også bruge kildeviden til at informere vores LLM'er. Kildeviden er information, der føres ind i LLM gennem en inputprompt. En populær tilgang til at give kildeviden er Retrieval Augmented Generation (RAG). Ved hjælp af RAG henter vi relevant information fra en ekstern datakilde og fører disse oplysninger ind i LLM.

I dette blogindlæg vil vi undersøge, hvordan man implementerer LLM'er såsom Llama-2 ved hjælp af Amazon Sagemaker JumpStart og holder vores LLM'er opdateret med relevant information gennem Retrieval Augmented Generation (RAG) ved hjælp af Pinecone vektordatabasen for at forhindre AI Hallucination .

Retrieval Augmented Generation (RAG) i Amazon SageMaker

Pinecone vil håndtere genfindingskomponenten af RAG, men du har brug for to mere kritiske komponenter: et sted at køre LLM-inferensen og et sted at køre indlejringsmodellen.

Amazon SageMaker Studio er et integreret udviklingsmiljø (IDE), der giver en enkelt webbaseret visuel grænseflade, hvor du kan få adgang til specialbyggede værktøjer til at udføre al udvikling af maskinlæring (ML). Det giver SageMaker JumpStart, som er en modelhub, hvor brugere kan finde, forhåndsvise og starte en bestemt model på deres egen SageMaker-konto. Det giver forudtrænede, offentligt tilgængelige og proprietære modeller til en lang række problemtyper, herunder Foundation-modeller.

Amazon SageMaker Studio giver det ideelle miljø til udvikling af RAG-aktiverede LLM-pipelines. Først skal du bruge AWS-konsollen, gå til Amazon SageMaker og oprette et SageMaker Studio-domæne og åbne en Jupyter Studio-notesbog.

Forudsætninger

Udfør følgende forudsætningstrin:

Konfigurer Amazon SageMaker Studio.
Ombord på et Amazon SageMaker-domæne.
Tilmeld dig en gratis Pinecone Vector Database.
Forudsætningsbiblioteker: SageMaker Python SDK, Pinecone Client

Løsningsgennemgang

Ved at bruge SageMaker Studio notebook skal vi først installere forudsætningsbiblioteker:

!pip install -qU sagemaker pinecone-client==2.2.1 ipywidgets==7.0.0

Implementering af en LLM

I dette indlæg diskuterer vi to tilgange til implementering af en LLM. Den første er gennem HuggingFaceModel objekt. Du kan bruge dette, når du implementerer LLM'er (og indlejring af modeller) direkte fra Hugging Face-modelhubben.

For eksempel kan du oprette en deployerbar konfiguration for google/flan-t5-xl model som vist i følgende skærmbillede:

import sagemaker
from sagemaker.huggingface import (
HuggingFaceModel, get_huggingface_llm_image_uri
)
role = sagemaker.get_execution_role()
hub_config = {'HF_MODEL_ID':'google/flan-t5-xl', # model_id from hf.co/models 'HF_TASK':'text-generation' # NLP task you want to use for predictions # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri("huggingface", version="0.8.2"&)
huggingface_model = HuggingFaceModel(env=hub_config, role=role, # iam role with permissions to create an Endpoint image_uri=llm_image
)

Når du implementerer modeller direkte fra Hugging Face, skal du initialisere my_model_configuration med følgende:

An env config fortæller os, hvilken model vi vil bruge og til hvilken opgave.
Vores SageMaker udførelse role giver os tilladelse til at implementere vores model.
An image_uri er en billedkonfiguration specifikt til implementering af LLM'er fra Hugging Face.

Alternativt har SageMaker et sæt modeller, der er direkte kompatible med en enklere JumpStartModel objekt. Mange populære LLM'er som Llama 2 understøttes af denne model, som kan initialiseres som vist i følgende skærmbillede:

import sagemaker from sagemaker.jumpstart.model import JumpStartModel role = sagemaker.get_execution_role() my_model = JumpStartModel(model_id = "meta-textgeneration-llama-2-7b-f")

For begge versioner af my_model, implementer dem som vist i følgende skærmbillede:

predictor = my_model.deploy( initial_instance_count=1, instance_type="ml.g5.4xlarge", endpoint_name="llama-2-generator")

Forespørgsel på den foruddannede LLM

Med vores initialiserede LLM-slutpunkt kan du begynde at forespørge. Formatet på vores forespørgsler kan variere (især mellem samtale- og ikke-samtale LLM'er), men processen er generelt den samme. For Hugging Face-modellen skal du gøre følgende:

# https://aws.amazon.com/blogs/machine-learning/llama-2-foundation-models-from-meta-are-now-available-in-amazon-sagemaker-jumpstart/ prompt = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know ANSWER: """ payload = { "inputs": [ [ {"role": "system", "content": prompt}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
out[0]['generation']['content']

Du kan finde løsningen i GitHub repository.

Det genererede svar, vi modtager her, giver ikke meget mening - det er en hallucination.

Giver yderligere kontekst til LLM

Llama 2 forsøger at besvare vores spørgsmål udelukkende baseret på intern parametrisk viden. Det er klart, at modelparametrene ikke gemmer viden om, hvilke instanser vi kan med managed spottræning i SageMaker.

For at svare rigtigt på dette spørgsmål skal vi bruge kildeviden. Det vil sige, at vi giver yderligere oplysninger til LLM via prompten. Lad os tilføje disse oplysninger direkte som ekstra kontekst for modellen.

context = """Managed Spot Training can be used with all instances
supported in Amazon SageMaker. Managed Spot Training is supported
in all AWS Regions where Amazon SageMaker is currently available.""" prompt_template = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know". CONTEXT:
{context} ANSWER: """ text_input = prompt_template.replace("{context}", context).replace("{question}", question) payload = { "inputs": [ [ {"role": "system", "content": text_input}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}") [Input]: Which instances can I use with Managed Spot Training in SageMaker? [Output]:  Based on the given context, you can use Managed Spot Training with all instances supported in Amazon SageMaker. Therefore, the answer is: All instances supported in Amazon SageMaker.

Vi ser nu det rigtige svar på spørgsmålet; det var nemt! Det er dog usandsynligt, at en bruger indsætter kontekster i deres prompter, de ville allerede kende svaret på deres spørgsmål.

I stedet for manuelt at indsætte en enkelt kontekst, skal du automatisk identificere relevant information fra en mere omfattende database med information. Til det skal du bruge Retrieval Augmented Generation.

Retrieval Augmented Generation

Med Retrieval Augmented Generation kan du indkode en database med information til et vektorrum, hvor nærheden mellem vektorer repræsenterer deres relevans/semantiske lighed. Med dette vektorrum som vidensbase kan du konvertere en ny brugerforespørgsel, kode den til det samme vektorrum og hente de mest relevante poster, der tidligere er indekseret.

Når du har hentet disse relevante poster, skal du vælge nogle få af dem og inkludere dem i LLM-prompten som en ekstra kontekst, hvilket giver LLM'en yderst relevant kildeviden. Dette er en to-trins proces, hvor:

Indeksering udfylder vektorindekset med information fra et datasæt.
Hentning sker under en forespørgsel, og det er her, vi henter relevant information fra vektorindekset.

Begge trin kræver en indlejringsmodel for at oversætte vores menneskelæselige almindelige tekst til semantisk vektorrum. Brug den højeffektive MiniLM-sætningstransformer fra Hugging Face som vist i følgende skærmbillede. Denne model er ikke en LLM og er derfor ikke initialiseret på samme måde som vores Llama 2-model.

hub_config = { "HF_MODEL_ID": "sentence-transformers/all-MiniLM-L6-v2", # model_id from hf.co/models "HF_TASK": "feature-extraction",
} huggingface_model = HuggingFaceModel( env=hub_config, role=role, transformers_version="4.6", # transformers version used pytorch_version="1.7", # pytorch version used py_version="py36", # python version of the DLC
)

I hub_config, angiv model-id'et som vist i skærmbilledet ovenfor, men til opgaven skal du bruge feature-extraction, fordi vi genererer vektorindlejringer, ikke tekst som vores LLM. Herefter initialiseres modelkonfigurationen med HuggingFaceModel som før, men denne gang uden LLM-billedet og med nogle versionsparametre.

encoder = huggingface_model.deploy( initial_instance_count=1, instance_type="ml.t2.large", endpoint_name="minilm-embedding"
)

Du kan implementere modellen igen med deploy, ved hjælp af den mindre (kun CPU) forekomst af ml.t2.large. MiniLM-modellen er lillebitte, så den kræver ikke meget hukommelse og behøver ikke en GPU, fordi den hurtigt kan skabe indlejringer selv på en CPU. Hvis det foretrækkes, kan du køre modellen hurtigere på GPU.

For at oprette indlejringer skal du bruge predict metode og videregive en liste over kontekster, der skal kodes via inputs nøgle som vist:

out = encoder.predict({"inputs": ["some text here", "some more text goes here too"]})

To inputkontekster sendes, hvilket returnerer to kontekstvektorindlejringer som vist:

len(out)

2

Indlejringsdimensionaliteten af MiniLM-modellen er 384 hvilket betyder, at hver vektor, der integrerer MiniLM-output, skal have en dimensionalitet på 384. Men ser du på længden af vores indlejringer, vil du se følgende:

len(out[0]), len(out[1])

(8, 8)

To lister indeholder hver otte punkter. MiniLM behandler først tekst i et tokeniseringstrin. Denne tokenisering transformerer vores menneskelæsbare almindelige tekst til en liste over modellæsbare token-id'er. I modellens outputfunktioner kan du se indlejringerne på token-niveau. en af disse indlejringer viser den forventede dimensionalitet af 384 som vist:

len(out[0][0])

384

Transformér disse indlejringer på tokenniveau til indlejringer på dokumentniveau ved at bruge middelværdierne på tværs af hver vektordimension, som vist i den følgende illustration.

Betyde pooling operation for at få en enkelt 384-dimensionel vektor.

import numpy as np embeddings = np.mean(np.array(out), axis=1)embeddings.shape(2, 384)

Med to 384-dimensionelle vektorindlejringer, en for hver inputtekst. For at gøre vores liv lettere skal du pakke kodningsprocessen ind i en enkelt funktion som vist i følgende skærmbillede:

from typing import List def embed_docs(docs: List[str]) -> List[List[float]]: out = encoder.predict({"inputs": docs}) embeddings = np.mean(np.array(out), axis=1) return embeddings.tolist()

Download af datasættet

Download Amazon SageMaker ofte stillede spørgsmål som vidensbase for at få data, der indeholder både spørgsmål og svar kolonner.

Download Amazon SageMaker ofte stillede spørgsmål

Når du udfører søgningen, skal du kun kigge efter svar, så du kan droppe kolonnen Spørgsmål. Se notesbogen for detaljer.

Vores datasæt og indlejringspipeline er klar. Nu mangler vi bare et sted at opbevare de indlejringer.

Indeksering

Pinecone vektordatabasen gemmer vektorindlejringer og søger dem effektivt i skala. For at oprette en database skal du bruge en gratis API-nøgle fra Pinecone.

import pinecone
import os # add Pinecone API key from app.pinecone.io
api_key = os.environ.get("PINECONE_API_KEY") or "YOUR_API_KEY"
# set Pinecone environment - find next to API key in console
env = os.environ.get("PINECONE_ENVIRONMENT") or "YOUR_ENV" pinecone.init(api_key=api_key, environment=env)

Når du har oprettet forbindelse til Pinecone vektordatabasen, skal du oprette et enkelt vektorindeks (svarende til en tabel i traditionelle DB'er). Navngiv indekset retrieval-augmentation-aws og juster indekset dimension , metric parametre med dem, der kræves af indlejringsmodellen (MiniLM i dette tilfælde).

import time index_name = "retrieval-augmentation-aws" if index_name in pinecone.list_indexes(): pinecone.delete_index(index_name) pinecone.create_index(name=index_name, dimension=embeddings.shape[1], metric="cosine")
# wait for index to finish initialization
while not pinecone.describe_index(index_name).status["ready"]: time.sleep(1)

For at begynde at indsætte data skal du køre følgende:

from tqdm.auto import tqdm batch_size = 2 # can increase but needs larger instance size otherwise instance runs out of memory
vector_limit = 1000 answers = df_knowledge[:vector_limit]
index = pinecone.Index(index_name) for i in tqdm(range(0, len(answers), batch_size)): # find end of batch i_end = min(i + batch_size, len(answers)) # create IDs batch ids = [str(x) for x in range(i, i_end)] # create metadata batch metadatas = [{"text": text} for text in answers["Answer"][i:i_end]] # create embeddings texts = answers["Answer"][i:i_end].tolist() embeddings = embed_docs(texts) # create records list for upsert records = zip(ids, embeddings, metadatas) # upsert to Pinecone index.upsert(vectors=records)

Du kan begynde at forespørge i indekset med spørgsmålet fra tidligere i dette indlæg.

# extract embeddings for the questions
query_vec = embed_docs(question)[0] # query pinecone
res = index.query(query_vec, top_k=1, include_metadata=True) # show the results
res
{'matches': [{'id': '90', 'metadata': {'text': 'Managed Spot Training can be used with all ' 'instances supported in Amazon ' 'SageMaker.rn'}, 'score': 0.881181657, 'values': []}], 'namespace': ''}

Ovenstående output viser, at vi returnerer relevante kontekster for at hjælpe os med at besvare vores spørgsmål. Siden vi top_k = 1, index.query returnerede det øverste resultat sammen med de metadata, der læser Managed Spot Training can be used with all instances supported in Amazon.

Forøgelse af prompten

Brug de hentede kontekster til at forstærke prompten og beslutte en maksimal mængde kontekst, der skal tilføres LLM. Brug 1000 tegnbegrænsning til iterativt at tilføje hver returneret kontekst til prompten, indtil du overskrider indholdslængden.

Forøgelse af prompten

Foder context_str ind i LLM-prompten som vist i følgende skærmbillede:

payload = create_payload(question, context_str)
out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}")

[Input]: Hvilke instanser kan jeg bruge med Managed Spot Training i SageMaker? [Output]: Baseret på den angivne kontekst kan du bruge Managed Spot Training med alle forekomster understøttet i Amazon SageMaker. Derfor er svaret: Alle instanser understøttes i Amazon SageMaker.

Logikken virker, så pak den ind i en enkelt funktion for at holde tingene rene.

def rag_query(question: str) -> str: # create query vec query_vec = embed_docs(question)[0] # query pinecone res = index.query(query_vec, top_k=5, include_metadata=True) # get contexts contexts = [match.metadata["text"] for match in res.matches] # build the multiple contexts string context_str = construct_context(contexts=contexts) # create our retrieval augmented prompt payload = create_payload(question, context_str) # make prediction out = predictor.predict(payload, custom_attributes='accept_eula=true') return out[0]["generation"]["content"]

Du kan nu stille spørgsmål som dem, der er vist i følgende:

rag_query("Does SageMaker support spot instances?") ' Yes, Amazon SageMaker supports spot instances for managed spot training. According to the provided context, Managed Spot Training can be used with all instances supported in Amazon SageMaker, and Managed Spot Training is supported in all AWS Regions where Amazon SageMaker is currently available.nnTherefore, the answer to your question is:nnYes, SageMaker supports spot instances in all regions where Amazon SageMaker is available.'

Ryd op

For at stoppe med at pådrage sig uønskede afgifter skal du slette modellen og slutpunktet.

encoder.delete_model() encoder.delete_endpoint()

Konklusion

I dette indlæg introducerede vi dig til RAG med LLM'er med åben adgang på SageMaker. Vi viste også, hvordan man implementerer Amazon SageMaker Jumpstart-modeller med Llama 2, Hugging Face LLM'er med Flan T5 og indlejring af modeller med MiniLM.

Vi implementerede en komplet end-to-end RAG-pipeline ved hjælp af vores open-access-modeller og et Pinecone-vektorindeks. Ved at bruge dette viste vi, hvordan man minimerer hallucinationer og holder LLM-viden opdateret og i sidste ende forbedrer brugeroplevelsen og tilliden til vores systemer.

For at køre dette eksempel på egen hånd skal du klone dette GitHub-lager og gennemgå de foregående trin ved hjælp af Spørgsmål besvare notesbog på GitHub.

Om forfatterne

Vedant Jain profilbillede Vedant Jain er Sr. AI/ML Specialist, der arbejder på strategiske Generative AI-initiativer. Inden han kom til AWS, har Vedant haft ML/Data Science Specialty-stillinger hos forskellige virksomheder såsom Databricks, Hortonworks (nu Cloudera) og JP Morgan Chase. Uden for sit arbejde brænder Vedant for at lave musik, klatring, bruge videnskab til at leve et meningsfuldt liv og udforske køkkener fra hele verden.

James Briggs er en Staff Developer Advocate hos Pinecone, med speciale i vektorsøgning og AI/ML. Han guider udviklere og virksomheder i at udvikle deres egne GenAI-løsninger gennem online undervisning. Før Pinecone arbejdede James på kunstig intelligens for små tech-startups til etablerede finansselskaber. Uden for arbejdet har James en passion for at rejse og omfavne nye eventyr, lige fra surfing og scuba til Muay Thai og BJJ.

Xin Huang er en Senior Applied Scientist for Amazon SageMaker JumpStart og Amazon SageMaker indbyggede algoritmer. Han fokuserer på at udvikle skalerbare maskinlæringsalgoritmer. Hans forskningsinteresser er inden for området naturlig sprogbehandling, forklarlig dyb læring på tabeldata og robust analyse af ikke-parametrisk rum-tid-klynger. Han har udgivet mange artikler i ACL, ICDM, KDD-konferencer og Royal Statistical Society: Series A.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://aws.amazon.com/blogs/machine-learning/mitigate-hallucinations-through-retrieval-augmented-generation-using-pinecone-vector-database-llama-2-from-amazon-sagemaker-jumpstart/

Tidsstempel: 6. December, 2023

Tidsstempel: September 27, 2022

Afbød hallucinationer gennem Retrieval Augmented Generation ved hjælp af Pinecone vektordatabase & Llama-2 fra Amazon SageMaker JumpStart | Amazon Web Services

Genudgivet af Platon

Retrieval Augmented Generation (RAG) i Amazon SageMaker

Forudsætninger

Løsningsgennemgang

Implementering af en LLM

Forespørgsel på den foruddannede LLM

Giver yderligere kontekst til LLM

Retrieval Augmented Generation

Download af datasættet

Indeksering

Forøgelse af prompten

Ryd op

Konklusion

Om forfatterne

Mere fra AWS maskinindlæring

Introduktion af Amazon Textract Bulk Document Uploader til forbedret evaluering og analyse | Amazon Web Services

Brug AWS AI- og ML-tjenester til at fremme tilgængelighed og inklusion af personer med syns- eller kommunikationshandicap

Anvend finkornede dataadgangskontroller med AWS Lake Formation og Amazon EMR fra Amazon SageMaker Studio

Interaktiv dataforberedelseswidget til notebooks drevet af Amazon SageMaker Data Wrangler

Ejendomsmæglerfirmaet John L. Scott bruger Amazon Textract til at slå et racebegrænsende sprog fra ejendomsskøder til husejere

AlexaTM 20B er nu tilgængelig i Amazon SageMaker JumpStart

Kør automatisk modeljustering med Amazon SageMaker JumpStart

Skalatræning og inferens af tusindvis af ML-modeller med Amazon SageMaker | Amazon Web Services

Tilvejebring og administrer ML-miljøer med Amazon SageMaker Canvas ved hjælp af AWS CDK og AWS Service Catalog

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto