Mitigate Hallucinations Through Retrieval Augmented Generation Using Pinecone Vector Database & Llama-2 From Amazon SageMaker JumpStart

Republicat de Platon

Urmaritori: 0

În ciuda adoptării aparent de neoprit a LLM-urilor în toate industriile, acestea sunt o componentă a unui ecosistem tehnologic mai larg care alimentează noul val AI. Multe cazuri de utilizare a IA conversaționale necesită LLM-uri precum Llama 2, Flan T5 și Bloom pentru a răspunde la întrebările utilizatorilor. Aceste modele se bazează pe cunoștințele parametrice pentru a răspunde la întrebări. Modelul învață aceste cunoștințe în timpul antrenamentului și le codifică în parametrii modelului. Pentru a actualiza aceste cunoștințe, trebuie să recalificăm LLM, ceea ce necesită mult timp și bani.

Din fericire, putem folosi și cunoștințele sursei pentru a ne informa LLM-urile. Cunoștințele sursei sunt informații introduse în LLM printr-un prompt de intrare. O abordare populară pentru furnizarea de cunoștințe sursă este Retrieval Augmented Generation (RAG). Folosind RAG, preluăm informații relevante dintr-o sursă de date externă și alimentăm aceste informații în LLM.

În această postare pe blog, vom explora cum să implementăm LLM-uri precum Llama-2 utilizând Amazon Sagemaker JumpStart și să ne menținem LLM-urile la zi cu informații relevante prin Retrieval Augmented Generation (RAG) folosind baza de date vectorială Pinecone pentru a preveni halucinația AI. .

Retrieval Augmented Generation (RAG) în Amazon SageMaker

Pinecone se va ocupa de componenta de recuperare a RAG, dar aveți nevoie de încă două componente critice: undeva pentru a rula inferența LLM și undeva pentru a rula modelul de încorporare.

Amazon SageMaker Studio un mediu de dezvoltare integrat (IDE) care oferă o interfață vizuală unică bazată pe web, unde puteți accesa instrumente create special pentru a realiza toată dezvoltarea învățării automate (ML). Acesta oferă SageMaker JumpStart, care este un hub de model unde utilizatorii pot localiza, previzualiza și lansa un anumit model în propriul lor cont SageMaker. Oferă modele preinstruite, disponibile public și proprietare pentru o gamă largă de tipuri de probleme, inclusiv modele de bază.

Amazon SageMaker Studio oferă mediul ideal pentru dezvoltarea conductelor LLM compatibile cu RAG. Mai întâi, folosind consola AWS, accesați Amazon SageMaker și creați un domeniu SageMaker Studio și deschideți un notebook Jupyter Studio.

Cerințe preliminare

Parcurgeți următorii pași prealabil:

Configurați Amazon SageMaker Studio.
Integrat la un domeniu Amazon SageMaker.
Înscrieți-vă pentru o bază de date Pinecone Vector de nivel gratuit.
Biblioteci de cerințe preliminare: SageMaker Python SDK, Pinecone Client

Soluție pasională

Folosind notebook-ul SageMaker Studio, trebuie mai întâi să instalăm bibliotecile de cerințe preliminare:

!pip install -qU sagemaker pinecone-client==2.2.1 ipywidgets==7.0.0

Implementarea unui LLM

În această postare, discutăm două abordări ale implementării unui LLM. Primul este prin HuggingFaceModel obiect. Puteți utiliza acest lucru atunci când implementați LLM-uri (și încorporați modele) direct din hub-ul model Hugging Face.

De exemplu, puteți crea o configurație implementabilă pentru google/flan-t5-xl model așa cum se arată în următoarea captură de ecran:

import sagemaker
from sagemaker.huggingface import (
HuggingFaceModel, get_huggingface_llm_image_uri
)
role = sagemaker.get_execution_role()
hub_config = {'HF_MODEL_ID':'google/flan-t5-xl', # model_id from hf.co/models 'HF_TASK':'text-generation' # NLP task you want to use for predictions # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri("huggingface", version="0.8.2"&)
huggingface_model = HuggingFaceModel(env=hub_config, role=role, # iam role with permissions to create an Endpoint image_uri=llm_image
)

Când implementați modele direct din Hugging Face, inițializați my_model_configuration cu urmatoarele:

An env config ne spune ce model dorim să folosim și pentru ce sarcină.
Execuția noastră SageMaker role ne oferă permisiunea de a implementa modelul nostru.
An image_uri este o configurație de imagine special pentru implementarea LLM-urilor de la Hugging Face.

Alternativ, SageMaker are un set de modele direct compatibile cu unul mai simplu JumpStartModel obiect. Multe LLM populare, cum ar fi Llama 2, sunt acceptate de acest model, care poate fi inițializat așa cum se arată în următoarea captură de ecran:

import sagemaker from sagemaker.jumpstart.model import JumpStartModel role = sagemaker.get_execution_role() my_model = JumpStartModel(model_id = "meta-textgeneration-llama-2-7b-f")

Pentru ambele versiuni ale my_model, implementați-le așa cum se arată în următoarea captură de ecran:

predictor = my_model.deploy( initial_instance_count=1, instance_type="ml.g5.4xlarge", endpoint_name="llama-2-generator")

Interogarea LLM pre-instruit

Cu punctul nostru final LLM inițializat, puteți începe să interogați. Formatul interogărilor noastre poate varia (în special între LLM-urile conversaționale și non-conversaționale), dar procesul este în general același. Pentru modelul Hugging Face, procedați după cum urmează:

# https://aws.amazon.com/blogs/machine-learning/llama-2-foundation-models-from-meta-are-now-available-in-amazon-sagemaker-jumpstart/ prompt = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know ANSWER: """ payload = { "inputs": [ [ {"role": "system", "content": prompt}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
out[0]['generation']['content']

Puteți găsi soluția în GitHub depozit.

Răspunsul generat pe care îl primim aici nu are prea mult sens - este o halucinație.

Oferirea unui context suplimentar pentru LLM

Llama 2 încearcă să răspundă la întrebarea noastră doar pe baza cunoștințelor parametrice interne. În mod clar, parametrii modelului nu stochează cunoștințele despre care instanțe putem cu instruirea spot gestionată în SageMaker.

Pentru a răspunde corect la această întrebare, trebuie să folosim cunoștințele sursei. Adică, oferim informații suplimentare LLM prin intermediul promptului. Să adăugăm aceste informații direct ca context suplimentar pentru model.

context = """Managed Spot Training can be used with all instances
supported in Amazon SageMaker. Managed Spot Training is supported
in all AWS Regions where Amazon SageMaker is currently available.""" prompt_template = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know". CONTEXT:
{context} ANSWER: """ text_input = prompt_template.replace("{context}", context).replace("{question}", question) payload = { "inputs": [ [ {"role": "system", "content": text_input}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}") [Input]: Which instances can I use with Managed Spot Training in SageMaker? [Output]:  Based on the given context, you can use Managed Spot Training with all instances supported in Amazon SageMaker. Therefore, the answer is: All instances supported in Amazon SageMaker.

Vedem acum răspunsul corect la întrebare; a fost usor! Cu toate acestea, este puțin probabil ca un utilizator să introducă contexte în solicitările lor, ar ști deja răspunsul la întrebarea lor.

În loc să inserați manual un singur context, identificați automat informațiile relevante dintr-o bază de date mai extinsă de informații. Pentru asta, veți avea nevoie de Retrieval Augmented Generation.

Recuperare Augmented Generation

Cu Retrieval Augmented Generation, puteți codifica o bază de date de informații într-un spațiu vectorial în care proximitatea dintre vectori reprezintă relevanța/asemănarea lor semantică. Cu acest spațiu vectorial ca bază de cunoștințe, puteți converti o nouă interogare de utilizator, o puteți codifica în același spațiu vectorial și puteți prelua cele mai relevante înregistrări indexate anterior.

După ce ați preluat aceste înregistrări relevante, selectați câteva dintre ele și includeți-le în promptul LLM ca context suplimentar, oferind LLM-ului cunoștințe de sursă extrem de relevante. Acesta este un proces în doi pași în care:

Indexarea populează indexul vectorial cu informații dintr-un set de date.
Recuperarea are loc în timpul unei interogări și este locul în care recuperăm informații relevante din indexul vectorial.

Ambii pași necesită un model de încorporare pentru a traduce textul nostru simplu care poate fi citit de om în spațiu vectorial semantic. Utilizați transformatorul de propoziție MiniLM extrem de eficient de la Hugging Face, așa cum se arată în următoarea captură de ecran. Acest model nu este un LLM și, prin urmare, nu este inițializat în același mod ca modelul nostru Llama 2.

hub_config = { "HF_MODEL_ID": "sentence-transformers/all-MiniLM-L6-v2", # model_id from hf.co/models "HF_TASK": "feature-extraction",
} huggingface_model = HuggingFaceModel( env=hub_config, role=role, transformers_version="4.6", # transformers version used pytorch_version="1.7", # pytorch version used py_version="py36", # python version of the DLC
)

În hub_config, specificați ID-ul modelului așa cum se arată în captura de ecran de mai sus, dar pentru sarcină, utilizați extragerea caracteristicilor, deoarece generăm încorporare vectorială, nu text ca LLM. După aceasta, inițializați configurația modelului cu HuggingFaceModel ca și până acum, dar de data aceasta fără imaginea LLM și cu niște parametri de versiune.

encoder = huggingface_model.deploy( initial_instance_count=1, instance_type="ml.t2.large", endpoint_name="minilm-embedding"
)

Puteți implementa din nou modelul cu deploy, folosind instanța mai mică (numai CPU) a ml.t2.large. Modelul MiniLM este mic, deci nu necesită multă memorie și nu are nevoie de un GPU pentru că poate crea rapid încorporare chiar și pe un procesor. Dacă preferați, puteți rula modelul mai rapid pe GPU.

Pentru a crea înglobări, utilizați predict metoda și transmiteți o listă de contexte de codat prin intermediul inputs cheie așa cum se arată:

out = encoder.predict({"inputs": ["some text here", "some more text goes here too"]})

Sunt transmise două contexte de intrare, returnând două înglobări vectoriale de context, așa cum se arată:

len(out)

2

Dimensiunea de încorporare a modelului MiniLM este 384 ceea ce înseamnă că fiecare vector care înglobează ieșirile MiniLM ar trebui să aibă o dimensionalitate de 384. Cu toate acestea, privind lungimea înglobărilor noastre, veți vedea următoarele:

len(out[0]), len(out[1])

(8, 8)

Două liste conțin câte opt articole. MiniLM procesează mai întâi textul într-o etapă de tokenizare. Această tokenizare transformă textul nostru simplu care poate fi citit de om într-o listă de ID-uri de simbol care pot fi citite de model. În caracteristicile de ieșire ale modelului, puteți vedea înglobările la nivel de simbol. una dintre aceste înglobări arată dimensionalitatea așteptată a 384 așa cum se arată:

len(out[0][0])

384

Transformați aceste înglobări la nivel de simbol în înglobări la nivel de document utilizând valorile medii din fiecare dimensiune vectorială, așa cum se arată în ilustrația următoare.

Operația de punere în comun pentru a obține un singur vector cu 384 de dimensiuni.

import numpy as np embeddings = np.mean(np.array(out), axis=1)embeddings.shape(2, 384)

Cu două înglobări vectoriale cu 384 de dimensiuni, câte una pentru fiecare text de intrare. Pentru a ne ușura viața, includeți procesul de codificare într-o singură funcție, așa cum se arată în următoarea captură de ecran:

from typing import List def embed_docs(docs: List[str]) -> List[List[float]]: out = encoder.predict({"inputs": docs}) embeddings = np.mean(np.array(out), axis=1) return embeddings.tolist()

Descărcarea setului de date

Descărcați întrebările frecvente Amazon SageMaker ca bază de cunoștințe pentru a obține datele care conțin atât coloane de întrebări, cât și coloane de răspunsuri.

Descărcați întrebările frecvente Amazon SageMaker

Când efectuați căutarea, căutați numai Răspunsuri, astfel încât să puteți renunța la coloana Întrebare. Consultați caietul pentru detalii.

Setul nostru de date și canalul de încorporare sunt gata. Acum tot ce ne trebuie este un loc unde să stocăm acele înglobări.

Indexarea

Baza de date vectorială Pinecone stochează înglobări de vectori și le caută eficient la scară. Pentru a crea o bază de date, veți avea nevoie de o cheie API gratuită de la Pinecone.

import pinecone
import os # add Pinecone API key from app.pinecone.io
api_key = os.environ.get("PINECONE_API_KEY") or "YOUR_API_KEY"
# set Pinecone environment - find next to API key in console
env = os.environ.get("PINECONE_ENVIRONMENT") or "YOUR_ENV" pinecone.init(api_key=api_key, environment=env)

După ce v-ați conectat la baza de date vectorială Pinecone, creați un singur index vectorial (similar cu un tabel din DB-urile tradiționale). Denumiți indexul retrieval-augmentation-aws și aliniați indexul dimension și metric parametrii cu cei solicitați de modelul de încorporare (MiniLM în acest caz).

import time index_name = "retrieval-augmentation-aws" if index_name in pinecone.list_indexes(): pinecone.delete_index(index_name) pinecone.create_index(name=index_name, dimension=embeddings.shape[1], metric="cosine")
# wait for index to finish initialization
while not pinecone.describe_index(index_name).status["ready"]: time.sleep(1)

Pentru a începe inserarea datelor, executați următoarele:

from tqdm.auto import tqdm batch_size = 2 # can increase but needs larger instance size otherwise instance runs out of memory
vector_limit = 1000 answers = df_knowledge[:vector_limit]
index = pinecone.Index(index_name) for i in tqdm(range(0, len(answers), batch_size)): # find end of batch i_end = min(i + batch_size, len(answers)) # create IDs batch ids = [str(x) for x in range(i, i_end)] # create metadata batch metadatas = [{"text": text} for text in answers["Answer"][i:i_end]] # create embeddings texts = answers["Answer"][i:i_end].tolist() embeddings = embed_docs(texts) # create records list for upsert records = zip(ids, embeddings, metadatas) # upsert to Pinecone index.upsert(vectors=records)

Puteți începe să interogați indexul cu întrebarea de mai devreme în această postare.

# extract embeddings for the questions
query_vec = embed_docs(question)[0] # query pinecone
res = index.query(query_vec, top_k=1, include_metadata=True) # show the results
res
{'matches': [{'id': '90', 'metadata': {'text': 'Managed Spot Training can be used with all ' 'instances supported in Amazon ' 'SageMaker.rn'}, 'score': 0.881181657, 'values': []}], 'namespace': ''}

Rezultatele de mai sus arată că returnăm contexte relevante pentru a ne ajuta să răspundem la întrebarea noastră. De cand noi top_k = 1, index.query a returnat rezultatul superior alături de metadatele care citesc Managed Spot Training can be used with all instances supported in Amazon.

Creșterea promptului

Utilizați contextele preluate pentru a mări promptul și pentru a decide cu privire la o cantitate maximă de context care să fie alimentată în LLM. Folosește 1000 limita de caractere pentru a adăuga iterativ fiecare context returnat la prompt până când depășiți lungimea conținutului.

Creșterea promptului

Hraneste context_str în promptul LLM, așa cum se arată în următoarea captură de ecran:

payload = create_payload(question, context_str)
out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}")

[Intrare]: ce instanțe pot folosi cu Managed Spot Training în SageMaker? [Ieșire]: Pe baza contextului furnizat, puteți utiliza Managed Spot Training cu toate instanțele acceptate în Amazon SageMaker. Prin urmare, răspunsul este: Toate instanțele acceptate în Amazon SageMaker.

Logica funcționează, așa că includeți-o într-o singură funcție pentru a menține lucrurile curate.

def rag_query(question: str) -> str: # create query vec query_vec = embed_docs(question)[0] # query pinecone res = index.query(query_vec, top_k=5, include_metadata=True) # get contexts contexts = [match.metadata["text"] for match in res.matches] # build the multiple contexts string context_str = construct_context(contexts=contexts) # create our retrieval augmented prompt payload = create_payload(question, context_str) # make prediction out = predictor.predict(payload, custom_attributes='accept_eula=true') return out[0]["generation"]["content"]

Acum puteți adresa întrebări precum cele prezentate în continuare:

rag_query("Does SageMaker support spot instances?") ' Yes, Amazon SageMaker supports spot instances for managed spot training. According to the provided context, Managed Spot Training can be used with all instances supported in Amazon SageMaker, and Managed Spot Training is supported in all AWS Regions where Amazon SageMaker is currently available.nnTherefore, the answer to your question is:nnYes, SageMaker supports spot instances in all regions where Amazon SageMaker is available.'

A curăța

Pentru a nu mai suporta taxe nedorite, ștergeți modelul și punctul final.

encoder.delete_model() encoder.delete_endpoint()

Concluzie

În această postare, v-am prezentat RAG cu LLM-uri cu acces deschis pe SageMaker. De asemenea, am arătat cum să implementăm modele Amazon SageMaker Jumpstart cu Llama 2, Hugging Face LLM cu Flan T5 și încorporarea modelelor cu MiniLM.

Am implementat o conductă RAG completă de la capăt la capăt utilizând modelele noastre cu acces deschis și un index vectorial Pinecone. Folosind aceasta, am arătat cum să minimizăm halucinațiile și să păstrăm la zi cunoștințele LLM și, în cele din urmă, să îmbunătățim experiența utilizatorului și încrederea în sistemele noastre.

Pentru a rula acest exemplu pe cont propriu, clonați acest depozit GitHub și parcurgeți pașii anteriori folosind Blocnotes cu răspunsuri la întrebări pe GitHub.

Despre autori

Poza de profil Vedant Jain Vedantul Jain este un specialist senior AI/ML, care lucrează la inițiative strategice generative AI. Înainte de a se alătura AWS, Vedant a ocupat poziții de specialitate ML/Data Science la diferite companii, cum ar fi Databricks, Hortonworks (acum Cloudera) și JP Morgan Chase. În afara muncii sale, Vedant este pasionat de a face muzică, de alpinism, de a folosi știința pentru a duce o viață plină de sens și de a explora bucătăriile din întreaga lume.

James Briggs este Staff Developer Advocate la Pinecone, specializat în căutare vectorială și AI/ML. El îndrumă dezvoltatorii și companiile în dezvoltarea propriilor soluții GenAI prin educație online. Înainte de Pinecone, James a lucrat la AI pentru micile startup-uri tehnologice pentru corporații financiare consacrate. În afara muncii, James are o pasiune pentru călătorii și îmbrățișarea noilor aventuri, de la surfing și scuba până la Muay Thai și BJJ.

Xin Huang este cercetător aplicat senior pentru algoritmii încorporați Amazon SageMaker JumpStart și Amazon SageMaker. El se concentrează pe dezvoltarea de algoritmi scalabili de învățare automată. Interesele sale de cercetare sunt în domeniul prelucrării limbajului natural, al învățării profunde explicabile pe date tabulare și al analizei robuste a grupării non-parametrice spațiu-timp. A publicat multe lucrări în ACL, ICDM, conferințe KDD și Royal Statistical Society: Series A.

Distribuție de conținut bazat pe SEO și PR. Amplifică-te astăzi.
PlatoData.Network Vertical Generative Ai. Împuterniciți-vă. Accesați Aici.
PlatoAiStream. Web3 Intelligence. Cunoștințe amplificate. Accesați Aici.
PlatoESG. carbon, CleanTech, Energie, Mediu inconjurator, Solar, Managementul deșeurilor. Accesați Aici.
PlatoHealth. Biotehnologie și Inteligență pentru studii clinice. Accesați Aici.
Sursa: https://aws.amazon.com/blogs/machine-learning/mitigate-hallucinations-through-retrieval-augmented-generation-using-pinecone-vector-database-llama-2-from-amazon-sagemaker-jumpstart/

Timestamp-ul: December 6, 2023

Timestamp-ul: Jan 25, 2023

Reduceți halucinațiile prin Retrieval Augmented Generation folosind baza de date vectorială Pinecone și Llama-2 de la Amazon SageMaker JumpStart | Amazon Web Services

Republicat de Platon

Retrieval Augmented Generation (RAG) în Amazon SageMaker

Cerințe preliminare

Soluție pasională

Implementarea unui LLM

Interogarea LLM pre-instruit

Oferirea unui context suplimentar pentru LLM

Recuperare Augmented Generation

Descărcarea setului de date

Indexarea

Creșterea promptului

A curăța

Concluzie

Despre autori

Mai mult de la Învățare automată AWS

Implementați o soluție de captare a datelor de inferență de învățare automată pe AWS Lambda

Implementați căutarea unificată de text și imagini cu un model CLIP folosind Amazon SageMaker și Amazon OpenSearch Service

Optimizați performanța echipamentului cu date istorice, Ray și Amazon SageMaker | Amazon Web Services

Obțineți rezultate de căutare mai inteligente cu ajutorul pluginului Amazon Kendra Intelligent Ranking și OpenSearch

Automatizați vânzarea de notebook-uri Amazon SageMaker cu Amazon EventBridge și AWS Lambda

Creați un flux de lucru de traducere a documentelor în mai multe limbi cu personalizare specifică domeniului și limbii

Despre noi

Căutare verticală și Ai

Platformă

Rămâneți conectat

Cont