Zmanjšajte halucinacije s pomočjo Retrieval Augmented Generation z uporabo zbirke podatkov Pinecone Vector & Llama-2 iz Amazon SageMaker JumpStart

Ponovno objavil Platon

Spremljevalci: 0

Kljub na videz neustavljivemu sprejemanju LLM-jev v panogah so le-ti ena komponenta širšega tehnološkega ekosistema, ki poganja nov val umetne inteligence. Številni pogovorni primeri uporabe umetne inteligence zahtevajo LLM-je, kot so Llama 2, Flan T5 in Bloom, da se odzovejo na poizvedbe uporabnikov. Ti modeli se pri odgovorih na vprašanja opirajo na parametrično znanje. Model se tega znanja nauči med usposabljanjem in ga kodira v parametre modela. Da bi posodobili to znanje, moramo prekvalificirati LLM, kar vzame veliko časa in denarja.

Na srečo lahko uporabimo tudi izvorno znanje za obveščanje naših LLM. Izvorno znanje je informacija, ki se vnese v LLM prek vnosnega poziva. Eden priljubljenih pristopov k zagotavljanju izvornega znanja je Retrieval Augmented Generation (RAG). Z uporabo RAG pridobimo ustrezne informacije iz zunanjega vira podatkov in te informacije vnesemo v LLM.

V tej objavi v spletnem dnevniku bomo raziskali, kako uvesti LLM-je, kot je Llama-2, z uporabo Amazon Sagemaker JumpStart in posodabljati naše LLM-je z ustreznimi informacijami prek Retrieval Augmented Generation (RAG) z uporabo vektorske baze podatkov Pinecone, da preprečimo halucinacije AI .

Retrieval Augmented Generation (RAG) v Amazon SageMaker

Pinecone bo obravnaval komponento pridobivanja RAG, vendar potrebujete še dve kritični komponenti: nekje za zagon sklepanja LLM in nekje za zagon vdelanega modela.

Amazon SageMaker Studio je integrirano razvojno okolje (IDE), ki ponuja enoten spletni vizualni vmesnik, kjer lahko dostopate do namensko izdelanih orodij za izvajanje celotnega razvoja strojnega učenja (ML). Zagotavlja SageMaker JumpStart, ki je središče modelov, kjer lahko uporabniki poiščejo, predogledajo in zaženejo določen model v svojem računu SageMaker. Zagotavlja vnaprej usposobljene, javno dostopne in lastniške modele za široko paleto vrst problemov, vključno z osnovnimi modeli.

Amazon SageMaker Studio ponuja idealno okolje za razvoj cevovodov LLM, ki podpirajo RAG. Najprej s konzolo AWS pojdite na Amazon SageMaker in ustvarite domeno SageMaker Studio ter odprite beležnico Jupyter Studio.

Predpogoji

Izpolnite naslednje predpogojne korake:

Nastavite Amazon SageMaker Studio.
Vkrcajte se na domeno Amazon SageMaker.
Prijavite se za brezplačno vektorsko podatkovno zbirko Pinecone.
Predpogojne knjižnice: SDK SageMaker Python, Pinecone Client

Vodenje rešitve

Z uporabo prenosnega računalnika SageMaker Studio moramo najprej namestiti predpogojne knjižnice:

!pip install -qU sagemaker pinecone-client==2.2.1 ipywidgets==7.0.0

Uvajanje LLM

V tej objavi razpravljamo o dveh pristopih k uvajanju LLM. Prvi je skozi HuggingFaceModel predmet. To lahko uporabite pri uvajanju LLM (in vdelanih modelov) neposredno iz središča modela Hugging Face.

Ustvarite lahko na primer umestitveno konfiguracijo za google/flan-t5-xl model, kot je prikazan na naslednjem posnetku zaslona:

import sagemaker
from sagemaker.huggingface import (
HuggingFaceModel, get_huggingface_llm_image_uri
)
role = sagemaker.get_execution_role()
hub_config = {'HF_MODEL_ID':'google/flan-t5-xl', # model_id from hf.co/models 'HF_TASK':'text-generation' # NLP task you want to use for predictions # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri("huggingface", version="0.8.2"&)
huggingface_model = HuggingFaceModel(env=hub_config, role=role, # iam role with permissions to create an Endpoint image_uri=llm_image
)

Ko uvajate modele neposredno iz Hugging Face, inicializirajte my_model_configuration z naslednjim:

An env config nam pove, kateri model želimo uporabiti in za katero nalogo.
Naša izvedba SageMaker role nam daje dovoljenja za uvedbo našega modela.
An image_uri je konfiguracija slike posebej za uvajanje LLM-jev iz Hugging Face.

Druga možnost je, da ima SageMaker niz modelov, ki so neposredno združljivi s preprostejšimi JumpStartModel predmet. Ta model podpira številne priljubljene LLM-je, kot je Llama 2, ki jih je mogoče inicializirati, kot je prikazano na naslednjem posnetku zaslona:

import sagemaker from sagemaker.jumpstart.model import JumpStartModel role = sagemaker.get_execution_role() my_model = JumpStartModel(model_id = "meta-textgeneration-llama-2-7b-f")

Za obe različici my_model, jih razporedite, kot je prikazano na naslednjem posnetku zaslona:

predictor = my_model.deploy( initial_instance_count=1, instance_type="ml.g5.4xlarge", endpoint_name="llama-2-generator")

Poizvedovanje po predhodno usposobljenem LLM

Z našo inicializirano končno točko LLM lahko začnete s poizvedovanjem. Oblika naših poizvedb se lahko razlikuje (zlasti med konverzacijskimi in nepogovornimi LLM), vendar je postopek na splošno enak. Za model Hugging Face naredite naslednje:

# https://aws.amazon.com/blogs/machine-learning/llama-2-foundation-models-from-meta-are-now-available-in-amazon-sagemaker-jumpstart/ prompt = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know ANSWER: """ payload = { "inputs": [ [ {"role": "system", "content": prompt}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
out[0]['generation']['content']

Rešitev najdete v GitHub repozitorij.

Ustvarjeni odgovor, ki ga prejmemo tukaj, nima pravega smisla - je halucinacija.

Zagotavljanje dodatnega konteksta LLM

Llama 2 poskuša odgovoriti na naše vprašanje izključno na podlagi znanja o notranjih parametrih. Jasno je, da parametri modela ne shranjujejo znanja o tem, katere instance lahko z upravljanim usposabljanjem na kraju samem v SageMakerju.

Da bi pravilno odgovorili na to vprašanje, moramo uporabiti izvorno znanje. To pomeni, da posredujemo dodatne informacije LLM prek poziva. Te informacije dodamo neposredno kot dodaten kontekst za model.

context = """Managed Spot Training can be used with all instances
supported in Amazon SageMaker. Managed Spot Training is supported
in all AWS Regions where Amazon SageMaker is currently available.""" prompt_template = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know". CONTEXT:
{context} ANSWER: """ text_input = prompt_template.replace("{context}", context).replace("{question}", question) payload = { "inputs": [ [ {"role": "system", "content": text_input}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}") [Input]: Which instances can I use with Managed Spot Training in SageMaker? [Output]:  Based on the given context, you can use Managed Spot Training with all instances supported in Amazon SageMaker. Therefore, the answer is: All instances supported in Amazon SageMaker.

Zdaj vidimo pravilen odgovor na vprašanje; to je bilo enostavno! Vendar je malo verjetno, da bo uporabnik v svoje pozive vstavil kontekste, saj bi že poznal odgovor na svoje vprašanje.

Namesto ročnega vstavljanja enega samega konteksta samodejno identificirajte ustrezne informacije iz obsežnejše podatkovne baze informacij. Za to boste potrebovali Retrieval Augmented Generation.

Povečana generacija pridobivanja

Z Retrieval Augmented Generation lahko bazo podatkov z informacijami kodirate v vektorski prostor, kjer bližina med vektorji predstavlja njihovo relevantnost/semantično podobnost. S tem vektorskim prostorom kot bazo znanja lahko pretvorite novo uporabniško poizvedbo, jo kodirate v isti vektorski prostor in pridobite najpomembnejše zapise, ki so bili predhodno indeksirani.

Po pridobitvi teh ustreznih zapisov izberite nekaj izmed njih in jih vključite v poziv LLM kot dodaten kontekst, s čimer boste LLM pridobili zelo relevantno izvorno znanje. To je dvostopenjski postopek, kjer:

Indeksiranje napolni vektorski indeks z informacijami iz nabora podatkov.
Pridobivanje poteka med poizvedbo in tam pridobimo ustrezne informacije iz vektorskega indeksa.

Oba koraka zahtevata model vdelave za prevajanje našega človeku berljivega navadnega besedila v semantični vektorski prostor. Uporabite visoko učinkovit pretvornik stavkov MiniLM iz Hugging Face, kot je prikazano na naslednjem posnetku zaslona. Ta model ni LLM in zato ni inicializiran na enak način kot naš model Llama 2.

hub_config = { "HF_MODEL_ID": "sentence-transformers/all-MiniLM-L6-v2", # model_id from hf.co/models "HF_TASK": "feature-extraction",
} huggingface_model = HuggingFaceModel( env=hub_config, role=role, transformers_version="4.6", # transformers version used pytorch_version="1.7", # pytorch version used py_version="py36", # python version of the DLC
)

v hub_config, določite ID modela, kot je prikazano na zgornjem zajemu zaslona, vendar za nalogo uporabite ekstrakcijo funkcij, ker ustvarjamo vektorske vdelave in ne besedila, kot je naš LLM. Po tem inicializirajte konfiguracijo modela z HuggingFaceModel kot prej, vendar tokrat brez slike LLM in z nekaterimi parametri različice.

encoder = huggingface_model.deploy( initial_instance_count=1, instance_type="ml.t2.large", endpoint_name="minilm-embedding"
)

Model lahko znova uvedete z deploy, z uporabo manjšega (samo CPE) primerka ml.t2.large. Model MiniLM je majhen, zato ne potrebuje veliko pomnilnika in ne potrebuje GPE-ja, saj lahko hitro ustvari vdelave tudi na CPE-ju. Če želite, lahko model hitreje izvajate na GPE.

Če želite ustvariti vdelave, uporabite predict in posreduje seznam kontekstov za kodiranje prek inputs ključ, kot je prikazano:

out = encoder.predict({"inputs": ["some text here", "some more text goes here too"]})

Posredovana sta dva vhodna konteksta, ki vrneta dve vdelavi vektorja konteksta, kot je prikazano:

len(out)

2

Dimenzionalnost vgradnje modela MiniLM je 384 kar pomeni, da mora imeti vsak vektor, ki vgrajuje izhode MiniLM, dimenzijo 384. Če pa pogledate dolžino naših vdelav, boste videli naslednje:

len(out[0]), len(out[1])

(8, 8)

Dva seznama vsebujeta po osem elementov. MiniLM najprej obdela besedilo v koraku tokenizacije. Ta tokenizacija pretvori naše človeku berljivo golo besedilo v seznam ID-jev žetonov, berljivih z modelom. V izhodnih funkcijah modela lahko vidite vdelave na ravni žetonov. ena od teh vdelav kaže pričakovano razsežnost 384 kot je prikazano:

len(out[0][0])

384

Pretvorite te vdelave na ravni žetona v vdelave na ravni dokumenta z uporabo srednjih vrednosti v vsaki vektorski dimenziji, kot je prikazano na naslednji sliki.

Operacija združevanja povprečja, da dobimo en sam 384-dimenzionalni vektor.

import numpy as np embeddings = np.mean(np.array(out), axis=1)embeddings.shape(2, 384)

Z dvema 384-dimenzionalnima vdelavama vektorjev, po eno za vsako vhodno besedilo. Da bi nam olajšali življenje, zavijte postopek kodiranja v eno samo funkcijo, kot je prikazano na naslednjem posnetku zaslona:

from typing import List def embed_docs(docs: List[str]) -> List[List[float]]: out = encoder.predict({"inputs": docs}) embeddings = np.mean(np.array(out), axis=1) return embeddings.tolist()

Prenos nabora podatkov

Prenesite pogosta vprašanja Amazon SageMaker kot bazo znanja, da dobite podatke, ki vsebujejo stolpce z vprašanji in odgovori.

Prenesite pogosta vprašanja za Amazon SageMaker

Ko izvajate iskanje, poiščite samo odgovore, da lahko izpustite stolpec Vprašanje. Za podrobnosti si oglejte zvezek.

Naš nabor podatkov in cevovod za vdelavo sta pripravljena. Vse, kar potrebujemo, je, da nekje shranimo te vdelave.

Indeksiranje

Vektorska zbirka podatkov Pinecone shranjuje vdelane vektorje in jih učinkovito išče v velikem obsegu. Če želite ustvariti bazo podatkov, boste potrebovali brezplačen ključ API podjetja Pinecone.

import pinecone
import os # add Pinecone API key from app.pinecone.io
api_key = os.environ.get("PINECONE_API_KEY") or "YOUR_API_KEY"
# set Pinecone environment - find next to API key in console
env = os.environ.get("PINECONE_ENVIRONMENT") or "YOUR_ENV" pinecone.init(api_key=api_key, environment=env)

Ko se povežete z vektorsko bazo podatkov Pinecone, ustvarite en sam vektorski indeks (podobno kot tabela v tradicionalnih zbirkah podatkov). Poimenujte indeks retrieval-augmentation-aws in poravnajte kazalo dimension in metric parametre s tistimi, ki jih zahteva model vdelave (v tem primeru MiniLM).

import time index_name = "retrieval-augmentation-aws" if index_name in pinecone.list_indexes(): pinecone.delete_index(index_name) pinecone.create_index(name=index_name, dimension=embeddings.shape[1], metric="cosine")
# wait for index to finish initialization
while not pinecone.describe_index(index_name).status["ready"]: time.sleep(1)

Za začetek vstavljanja podatkov zaženite naslednje:

from tqdm.auto import tqdm batch_size = 2 # can increase but needs larger instance size otherwise instance runs out of memory
vector_limit = 1000 answers = df_knowledge[:vector_limit]
index = pinecone.Index(index_name) for i in tqdm(range(0, len(answers), batch_size)): # find end of batch i_end = min(i + batch_size, len(answers)) # create IDs batch ids = [str(x) for x in range(i, i_end)] # create metadata batch metadatas = [{"text": text} for text in answers["Answer"][i:i_end]] # create embeddings texts = answers["Answer"][i:i_end].tolist() embeddings = embed_docs(texts) # create records list for upsert records = zip(ids, embeddings, metadatas) # upsert to Pinecone index.upsert(vectors=records)

Poizvedovanje po indeksu lahko začnete z vprašanjem iz prejšnje objave v tej objavi.

# extract embeddings for the questions
query_vec = embed_docs(question)[0] # query pinecone
res = index.query(query_vec, top_k=1, include_metadata=True) # show the results
res
{'matches': [{'id': '90', 'metadata': {'text': 'Managed Spot Training can be used with all ' 'instances supported in Amazon ' 'SageMaker.rn'}, 'score': 0.881181657, 'values': []}], 'namespace': ''}

Zgornji rezultat kaže, da vračamo ustrezne kontekste, ki nam pomagajo odgovoriti na naše vprašanje. Ker smo top_k = 1, index.query je vrnil najvišji rezultat poleg metapodatkov, ki se glasijo Managed Spot Training can be used with all instances supported in Amazon.

Povečanje poziva

Uporabite pridobljene kontekste, da povečate poziv in se odločite za največjo količino konteksta, ki ga želite vnesti v LLM. Uporabi 1000 omejitev znakov za iterativno dodajanje vsakega vrnjenega konteksta v poziv, dokler ne presežete dolžine vsebine.

Povečanje poziva

Nahranite context_str v poziv LLM, kot je prikazano na naslednjem posnetku zaslona:

payload = create_payload(question, context_str)
out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}")

[Vnos]: Katere primere lahko uporabim z upravljanim usposabljanjem na kraju samem v SageMakerju? [Izhod]: Na podlagi podanega konteksta lahko uporabite Managed Spot Training z vsemi primerki, ki jih podpira Amazon SageMaker. Zato je odgovor: Vsi primerki so podprti v Amazon SageMaker.

Logika deluje, zato jo zavijte v eno samo funkcijo, da bodo stvari čiste.

def rag_query(question: str) -> str: # create query vec query_vec = embed_docs(question)[0] # query pinecone res = index.query(query_vec, top_k=5, include_metadata=True) # get contexts contexts = [match.metadata["text"] for match in res.matches] # build the multiple contexts string context_str = construct_context(contexts=contexts) # create our retrieval augmented prompt payload = create_payload(question, context_str) # make prediction out = predictor.predict(payload, custom_attributes='accept_eula=true') return out[0]["generation"]["content"]

Zdaj lahko postavljate vprašanja, kot so prikazana spodaj:

rag_query("Does SageMaker support spot instances?") ' Yes, Amazon SageMaker supports spot instances for managed spot training. According to the provided context, Managed Spot Training can be used with all instances supported in Amazon SageMaker, and Managed Spot Training is supported in all AWS Regions where Amazon SageMaker is currently available.nnTherefore, the answer to your question is:nnYes, SageMaker supports spot instances in all regions where Amazon SageMaker is available.'

Čiščenje

Če želite preprečiti neželene stroške, izbrišite model in končno točko.

encoder.delete_model() encoder.delete_endpoint()

zaključek

V tej objavi smo vam predstavili RAG z odprtimi LLM-ji na SageMakerju. Pokazali smo tudi, kako uvesti modele Amazon SageMaker Jumpstart z Llama 2, Hugging Face LLM s Flan T5 in vdelati modele z MiniLM.

Implementirali smo celoten cevovod RAG od konca do konca z uporabo naših modelov z odprtim dostopom in vektorskega indeksa Pinecone. S tem smo pokazali, kako zmanjšati halucinacije in posodabljati znanje LLM ter na koncu izboljšati uporabniško izkušnjo in zaupanje v naše sisteme.

Če želite ta primer zagnati sami, klonirajte to GitHubovo skladišče in se sprehodite po prejšnjih korakih z uporabo Beležnica z odgovori na vprašanja na GitHubu.

O avtorjih

Slika profila Vedant Jain Vedant Jain je višji strokovnjak za AI/ML, ki dela na strateških pobudah Generative AI. Preden se je pridružil AWS, je bil Vedant specializiran za ML/Data Science v različnih podjetjih, kot so Databricks, Hortonworks (zdaj Cloudera) in JP Morgan Chase. Zunaj svojega dela je Vedant navdušen nad ustvarjanjem glasbe, plezanjem, uporabo znanosti za smiselno življenje in raziskovanjem kuhinj z vsega sveta.

James Briggs je zaposleni za razvijalce pri Pinecone, specializiran za vektorsko iskanje in AI/ML. Vodi razvijalce in podjetja pri razvoju lastnih rešitev GenAI prek spletnega izobraževanja. Pred Pinecone je James delal na AI za mala tehnološka zagonska podjetja za uveljavljene finančne korporacije. Zunaj dela ima James strast do potovanj in sprejemanja novih dogodivščin, od deskanja in potapljanja do tajskega bojevja in BJJ.

Xin Huang je višji aplikativni znanstvenik za vgrajene algoritme Amazon SageMaker JumpStart in Amazon SageMaker. Osredotoča se na razvoj razširljivih algoritmov strojnega učenja. Njegovi raziskovalni interesi so na področju obdelave naravnega jezika, razložljivega globokega učenja na tabelarnih podatkih in robustne analize neparametričnega prostorsko-časovnega združevanja. Objavil je številne članke na konferencah ACL, ICDM, KDD in Royal Statistical Society: Series A.

Distribucija vsebine in PR s pomočjo SEO. Okrepite se še danes.
PlatoData.Network Vertical Generative Ai. Opolnomočite se. Dostopite tukaj.
PlatoAiStream. Web3 Intelligence. Razširjeno znanje. Dostopite tukaj.
PlatoESG. Ogljik, CleanTech, Energija, Okolje, sončna energija, Ravnanje z odpadki. Dostopite tukaj.
PlatoHealth. Obveščanje o biotehnologiji in kliničnih preskušanjih. Dostopite tukaj.
vir: https://aws.amazon.com/blogs/machine-learning/mitigate-hallucinations-through-retrieval-augmented-generation-using-pinecone-vector-database-llama-2-from-amazon-sagemaker-jumpstart/

Časovni žig: December 6, 2023

Časovni žig: April 24, 2024

Zmanjšajte halucinacije z Retrieval Augmented Generation z uporabo vektorske baze podatkov Pinecone & Llama-2 iz Amazon SageMaker JumpStart | Spletne storitve Amazon

Ponovno objavil Platon

Retrieval Augmented Generation (RAG) v Amazon SageMaker

Predpogoji

Vodenje rešitve

Uvajanje LLM

Poizvedovanje po predhodno usposobljenem LLM

Zagotavljanje dodatnega konteksta LLM

Povečana generacija pridobivanja

Prenos nabora podatkov

Indeksiranje

Povečanje poziva

Čiščenje

zaključek

O avtorjih

Več od Strojno učenje AWS

Učinkovito trenirajte, uglašujte in uvajajte ansamble po meri z uporabo Amazon SageMaker | Spletne storitve Amazon

Uporabite Amazon SageMaker Data Wrangler za pripravo podatkov in Studio Labs za učenje in eksperimentiranje z ML

Zaznajte populacijsko varianco ogroženih vrst z uporabo Amazon Rekognition

Izberite določene časovne serije za napoved z Amazon Forecast

O nas

Navpično iskanje in Ai

Platforma

Ostanite povezani

Račun