Mitigate Hallucinations Through Retrieval Augmented Generation Using Pinecone Vector Database & Llama-2 From Amazon SageMaker JumpStart

Újra kiadta Platón

Követő: 0

Annak ellenére, hogy az LLM-ek látszólag megállíthatatlanul terjednek el az iparágakban, ezek egy tágabb technológiai ökoszisztéma egyik összetevője, amely az új mesterségesintelligencia-hullámot táplálja. Számos párbeszédes mesterséges intelligencia felhasználási eset megköveteli az LLM-eket, például a Llama 2-t, a Flan T5-öt és a Bloomot, hogy válaszoljanak a felhasználói lekérdezésekre. Ezek a modellek paraméteres tudásra támaszkodnak a kérdések megválaszolásához. A modell ezt a tudást a képzés során sajátítja el és kódolja a modell paramétereibe. Ennek a tudásnak a frissítéséhez át kell képeznünk az LLM-et, ami sok időt és pénzt igényel.

Szerencsére a forrásismereteket is felhasználhatjuk LLM-eink tájékoztatására. A forrásismeret az LLM-be egy beviteli prompton keresztül betáplált információ. A forrásismeretek biztosításának egyik népszerű megközelítése a Retrieval Augmented Generation (RAG). A RAG segítségével lekérjük a releváns információkat egy külső adatforrásból, és betápláljuk az LLM-be.

Ebben a blogbejegyzésben megvizsgáljuk, hogyan telepítsünk LLM-eket, például a Llama-2-t az Amazon Sagemaker JumpStart segítségével, és hogyan tartsuk naprakészen LLM-jeinket a releváns információkkal a Pinecone vektoradatbázist használó Retrieval Augmented Generation (RAG) segítségével a mesterséges intelligencia hallucinációinak megelőzése érdekében. .

Retrieval Augmented Generation (RAG) az Amazon SageMakerben

A Pinecone kezelni fogja a RAG visszakeresési összetevőjét, de még két kritikus összetevőre van szükség: valahol az LLM-következtetés futtatásához, valahol pedig a beágyazási modell futtatásához.

Az Amazon SageMaker Studio egy integrált fejlesztői környezet (IDE), amely egyetlen web-alapú vizuális felületet biztosít, ahol hozzáférhet a célra épített eszközökhöz a gépi tanulási (ML) fejlesztések végrehajtásához. Ez biztosítja a SageMaker JumpStartot, amely egy modellközpont, ahol a felhasználók saját SageMaker-fiókjukban megkereshetnek, megtekinthetnek és elindíthatnak egy adott modellt. Előképzett, nyilvánosan elérhető és szabadalmaztatott modelleket biztosít számos problématípushoz, beleértve az alapmodelleket is.

Az Amazon SageMaker Studio ideális környezetet biztosít a RAG-kompatibilis LLM-folyamatok fejlesztéséhez. Először az AWS konzol használatával nyissa meg az Amazon SageMaker oldalt, hozzon létre egy SageMaker Studio tartományt, és nyisson meg egy Jupyter Studio notebookot.

Előfeltételek

Hajtsa végre a következő előfeltétel lépéseket:

Állítsa be az Amazon SageMaker Studio-t.
Bekapcsolva egy Amazon SageMaker tartományba.
Regisztráljon egy ingyenes fenyőtoboz vektor adatbázisra.
Előfeltétel könyvtárak: SageMaker Python SDK, Pinecone Client

Megoldás áttekintése

A SageMaker Studio notebook használatával először telepítenünk kell az előfeltétel-könyvtárakat:

!pip install -qU sagemaker pinecone-client==2.2.1 ipywidgets==7.0.0

LLM telepítése

Ebben a bejegyzésben az LLM bevezetésének két megközelítését tárgyaljuk. Az első a HuggingFaceModel tárgy. Ezt akkor használhatja, ha LLM-eket (és modelleket épít be) közvetlenül a Hugging Face modellközpontból.

Például létrehozhat egy telepíthető konfigurációt a google/flan-t5-xl modell a következő képernyőfelvételen látható módon:

import sagemaker
from sagemaker.huggingface import (
HuggingFaceModel, get_huggingface_llm_image_uri
)
role = sagemaker.get_execution_role()
hub_config = {'HF_MODEL_ID':'google/flan-t5-xl', # model_id from hf.co/models 'HF_TASK':'text-generation' # NLP task you want to use for predictions # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri("huggingface", version="0.8.2"&)
huggingface_model = HuggingFaceModel(env=hub_config, role=role, # iam role with permissions to create an Endpoint image_uri=llm_image
)

Ha modelleket telepít közvetlenül a Hugging Face alkalmazásból, inicializálja a my_model_configuration az alábbiakkal:

An env A config megmondja, hogy melyik modellt és milyen feladatra szeretnénk használni.
A SageMaker végrehajtásunk role engedélyt ad a modellünk telepítésére.
An image_uri egy képkonfiguráció, amely kifejezetten a Hugging Face LLM-einek telepítésére szolgál.

Alternatív megoldásként a SageMaker egy sor olyan modellt tartalmaz, amelyek közvetlenül kompatibilisek egy egyszerűbb modellel JumpStartModel tárgy. Sok népszerű LLM-et, például a Llama 2-t támogat ez a modell, amely inicializálható a következő képernyőfelvételen látható módon:

import sagemaker from sagemaker.jumpstart.model import JumpStartModel role = sagemaker.get_execution_role() my_model = JumpStartModel(model_id = "meta-textgeneration-llama-2-7b-f")

Mindkét verzióhoz my_model, telepítse őket a következő képernyőfelvételen látható módon:

predictor = my_model.deploy( initial_instance_count=1, instance_type="ml.g5.4xlarge", endpoint_name="llama-2-generator")

Az előképzett LLM lekérdezése

Az inicializált LLM-végpontunkkal megkezdheti a lekérdezést. Lekérdezéseink formátuma változhat (különösen a társalgási és nem társalgási LLM-ek között), de a folyamat általában ugyanaz. A Hugging Face modellnél tegye a következőket:

# https://aws.amazon.com/blogs/machine-learning/llama-2-foundation-models-from-meta-are-now-available-in-amazon-sagemaker-jumpstart/ prompt = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know ANSWER: """ payload = { "inputs": [ [ {"role": "system", "content": prompt}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
out[0]['generation']['content']

A megoldást megtalálod a GitHub tárház.

Az itt kapott válasznak nincs sok értelme – ez egy hallucináció.

További kontextus biztosítása az LLM számára

A Llama 2 kizárólag a belső parametrikus ismeretekre alapozva próbál meg választ adni kérdésünkre. Nyilvánvaló, hogy a modellparaméterek nem tárolják az ismereteket arról, hogy mely példányokat tudjuk a SageMaker menedzselt helyszíni képzésével.

A kérdés helyes megválaszolásához forrásismeretet kell használnunk. Vagyis a prompton keresztül további információkat adunk az LLM-nek. Adjuk hozzá ezt az információt közvetlenül a modell kiegészítő kontextusaként.

context = """Managed Spot Training can be used with all instances
supported in Amazon SageMaker. Managed Spot Training is supported
in all AWS Regions where Amazon SageMaker is currently available.""" prompt_template = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know". CONTEXT:
{context} ANSWER: """ text_input = prompt_template.replace("{context}", context).replace("{question}", question) payload = { "inputs": [ [ {"role": "system", "content": text_input}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}") [Input]: Which instances can I use with Managed Spot Training in SageMaker? [Output]:  Based on the given context, you can use Managed Spot Training with all instances supported in Amazon SageMaker. Therefore, the answer is: All instances supported in Amazon SageMaker.

Most látjuk a helyes választ a kérdésre; az könnyű volt! A felhasználó azonban nem valószínű, hogy szövegkörnyezetet illeszt be a promptjaiba, már tudná a választ a kérdésére.

Egyetlen kontextus manuális beszúrása helyett automatikusan azonosítsa a releváns információkat egy kiterjedtebb információs adatbázisból. Ehhez szüksége lesz a Retrieval Kiterjesztett Generációra.

Visszakeresés kiterjesztett generáció

A Retrieval Augmented Generation segítségével egy információs adatbázist kódolhat egy vektortérbe, ahol a vektorok közötti közelség a relevanciájukat/szemantikai hasonlóságukat jelzi. Ezzel a vektortérrel tudásbázisként konvertálhat egy új felhasználói lekérdezést, kódolhatja ugyanabba a vektortérbe, és lekérheti a korábban indexelt legrelevánsabb rekordokat.

A releváns rekordok lekérése után válasszon ki néhányat közülük, és adja meg őket az LLM promptban kiegészítő kontextusként, így biztosítva az LLM számára rendkívül releváns forrásismereteket. Ez egy kétlépcsős folyamat, ahol:

Az indexelés feltölti a vektorindexet egy adatkészletből származó információkkal.
A lekérdezés a lekérdezés során történik, és itt nyerjük le a releváns információkat a vektorindexből.

Mindkét lépéshez beágyazási modellre van szükség ahhoz, hogy az ember által olvasható sima szövegünket szemantikai vektortérbe fordítsuk. Használja a Hugging Face rendkívül hatékony MiniLM mondattranszformátorát a következő képernyőfelvételen látható módon. Ez a modell nem LLM, ezért nem ugyanúgy inicializálható, mint a Llama 2 modellünk.

hub_config = { "HF_MODEL_ID": "sentence-transformers/all-MiniLM-L6-v2", # model_id from hf.co/models "HF_TASK": "feature-extraction",
} huggingface_model = HuggingFaceModel( env=hub_config, role=role, transformers_version="4.6", # transformers version used pytorch_version="1.7", # pytorch version used py_version="py36", # python version of the DLC
)

A hub_config, adja meg a modellazonosítót a fenti képernyőfelvételen látható módon, de a feladathoz használja a jellemző-kivonást, mert vektoros beágyazásokat generálunk, nem szöveget, mint az LLM-ünk. Ezt követően inicializálja a modell konfigurációját HuggingFaceModel mint korábban, de ezúttal LLM kép nélkül és néhány verzióparaméterrel.

encoder = huggingface_model.deploy( initial_instance_count=1, instance_type="ml.t2.large", endpoint_name="minilm-embedding"
)

Ezzel újra üzembe helyezheti a modellt deploy, a kisebb (csak CPU) példány használatával ml.t2.large. A MiniLM modell pici, így nem igényel sok memóriát és nem igényel GPU-t, mert gyorsan képes beágyazásokat létrehozni akár CPU-n is. Ha kívánja, gyorsabban futtathatja a modellt GPU-n.

Beágyazások létrehozásához használja a predict metódust, és adja át a kódolandó kontextusok listáját a inputs gomb a képen látható módon:

out = encoder.predict({"inputs": ["some text here", "some more text goes here too"]})

Két bemeneti kontextus kerül átadásra, két kontextusvektor-beágyazást adva vissza, amint az ábrán látható:

len(out)

2

A MiniLM modell beágyazási dimenziója az 384 ami azt jelenti, hogy minden MiniLM kimenetet beágyazó vektornak dimenzióval kell rendelkeznie 384. A beágyazásaink hosszát tekintve azonban a következőket láthatja:

len(out[0]), len(out[1])

(8, 8)

Két lista nyolc elemet tartalmaz. A MiniLM először egy tokenizálási lépésben dolgozza fel a szöveget. Ez a tokenizáció átalakítja az ember által olvasható egyszerű szövegünket a modell által olvasható tokenazonosítók listájává. A modell kimeneti jellemzőiben láthatjuk a token szintű beágyazásokat. az egyik ilyen beágyazás a várt dimenziót mutatja 384 az ábrán látható módon:

len(out[0][0])

384

Alakítsa át ezeket a tokenszintű beágyazásokat dokumentum szintű beágyazásokká az egyes vektordimenziók átlagértékeinek felhasználásával, a következő ábrán látható módon.

Átlagos összevonási művelet egyetlen 384 dimenziós vektor létrehozásához.

import numpy as np embeddings = np.mean(np.array(out), axis=1)embeddings.shape(2, 384)

Két 384-dimenziós vektorbeágyazással, egy minden bemeneti szöveghez. Életünk megkönnyítése érdekében csomagolja a kódolási folyamatot egyetlen funkcióba, ahogy az a következő képernyőfelvételen látható:

from typing import List def embed_docs(docs: List[str]) -> List[List[float]]: out = encoder.predict({"inputs": docs}) embeddings = np.mean(np.array(out), axis=1) return embeddings.tolist()

Adatkészlet letöltése

Töltse le az Amazon SageMaker GYIK-jét tudásbázisként, hogy megkapja a kérdés- és válaszoszlopokat is tartalmazó adatokat.

Töltse le az Amazon SageMaker GYIK-et

A keresés során csak a válaszokat keresse, így eldobhatja a Kérdés oszlopot. A részletekért lásd a notebookot.

Adatkészletünk és a beágyazási folyamat készen áll. Most már csak valahol kell tárolnunk ezeket a beágyazásokat.

Indexelés

A Pinecone vektoradatbázis tárolja a vektorbeágyazásokat, és hatékonyan keres bennük. Adatbázis létrehozásához szüksége lesz egy ingyenes API-kulcsra a Pinecone-tól.

import pinecone
import os # add Pinecone API key from app.pinecone.io
api_key = os.environ.get("PINECONE_API_KEY") or "YOUR_API_KEY"
# set Pinecone environment - find next to API key in console
env = os.environ.get("PINECONE_ENVIRONMENT") or "YOUR_ENV" pinecone.init(api_key=api_key, environment=env)

Miután csatlakozott a Pinecone vektoradatbázishoz, hozzon létre egyetlen vektoros indexet (hasonlóan a hagyományos DB-k táblájához). Nevezze el az indexet retrieval-augmentation-aws és igazítsa az indexet dimension és a metric paramétereket a beágyazási modell (ebben az esetben MiniLM) által megköveteltekkel.

import time index_name = "retrieval-augmentation-aws" if index_name in pinecone.list_indexes(): pinecone.delete_index(index_name) pinecone.create_index(name=index_name, dimension=embeddings.shape[1], metric="cosine")
# wait for index to finish initialization
while not pinecone.describe_index(index_name).status["ready"]: time.sleep(1)

Az adatok beszúrásának megkezdéséhez futtassa a következőt:

from tqdm.auto import tqdm batch_size = 2 # can increase but needs larger instance size otherwise instance runs out of memory
vector_limit = 1000 answers = df_knowledge[:vector_limit]
index = pinecone.Index(index_name) for i in tqdm(range(0, len(answers), batch_size)): # find end of batch i_end = min(i + batch_size, len(answers)) # create IDs batch ids = [str(x) for x in range(i, i_end)] # create metadata batch metadatas = [{"text": text} for text in answers["Answer"][i:i_end]] # create embeddings texts = answers["Answer"][i:i_end].tolist() embeddings = embed_docs(texts) # create records list for upsert records = zip(ids, embeddings, metadatas) # upsert to Pinecone index.upsert(vectors=records)

Az index lekérdezését a bejegyzés korábbi kérdésével kezdheti.

# extract embeddings for the questions
query_vec = embed_docs(question)[0] # query pinecone
res = index.query(query_vec, top_k=1, include_metadata=True) # show the results
res
{'matches': [{'id': '90', 'metadata': {'text': 'Managed Spot Training can be used with all ' 'instances supported in Amazon ' 'SageMaker.rn'}, 'score': 0.881181657, 'values': []}], 'namespace': ''}

A fenti kimenet azt mutatja, hogy releváns kontextusokat adunk vissza, hogy segítsen megválaszolni kérdésünket. Mióta mi top_k = 1, index.query visszaadta a legjobb eredményt a metaadatok mellett, amely így szól Managed Spot Training can be used with all instances supported in Amazon.

A prompt bővítése

Használja a letöltött kontextusokat a prompt kibővítésére, és határozza meg az LLM-be betáplálandó kontextus maximális mennyiségét. Használja a 1000 karakterkorlát, hogy minden visszaadott kontextust iteratívan hozzáadhasson a prompthoz, amíg meg nem haladja a tartalom hosszát.

A prompt bővítése

Táplálja a context_str az LLM promptba, ahogy az a következő képernyőfelvételen látható:

payload = create_payload(question, context_str)
out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}")

[Input]: Mely példányokat használhatom a SageMaker Managed Spot Training funkciójával? [Kimenet]:  A megadott kontextus alapján használhatja a Managed Spot Training-t az Amazon SageMaker által támogatott összes példányhoz. Ezért a válasz a következő: Minden példány támogatott az Amazon SageMakerben.

A logika működik, ezért csomagolja egyetlen funkcióba, hogy tisztán tartsa a dolgokat.

def rag_query(question: str) -> str: # create query vec query_vec = embed_docs(question)[0] # query pinecone res = index.query(query_vec, top_k=5, include_metadata=True) # get contexts contexts = [match.metadata["text"] for match in res.matches] # build the multiple contexts string context_str = construct_context(contexts=contexts) # create our retrieval augmented prompt payload = create_payload(question, context_str) # make prediction out = predictor.predict(payload, custom_attributes='accept_eula=true') return out[0]["generation"]["content"]

Mostantól olyan kérdéseket tehet fel, mint az alábbiakban:

rag_query("Does SageMaker support spot instances?") ' Yes, Amazon SageMaker supports spot instances for managed spot training. According to the provided context, Managed Spot Training can be used with all instances supported in Amazon SageMaker, and Managed Spot Training is supported in all AWS Regions where Amazon SageMaker is currently available.nnTherefore, the answer to your question is:nnYes, SageMaker supports spot instances in all regions where Amazon SageMaker is available.'

Tisztítsuk meg

A nem kívánt terhelések elkerülése érdekében törölje a modellt és a végpontot.

encoder.delete_model() encoder.delete_endpoint()

Következtetés

Ebben a bejegyzésben bemutattuk Önnek a RAG-t a SageMaker nyílt hozzáférésű LLM-jeivel. Azt is bemutattuk, hogyan telepítsünk Amazon SageMaker Jumpstart modelleket Llama 2-vel, Hugging Face LLM-eket a Flan T5-tel, és hogyan lehet beágyazni a modelleket MiniLM-mel.

Nyílt hozzáférésű modelljeink és egy Pinecone vektorindex segítségével teljes, végpontok közötti RAG-folyamatot valósítottunk meg. Ennek segítségével megmutattuk, hogyan csökkenthetjük minimálisra a hallucinációkat, hogyan tarthatjuk naprakészen az LLM tudást, és végső soron javíthatjuk a felhasználói élményt és a rendszereinkbe vetett bizalmat.

Ha ezt a példát önállóan szeretné futtatni, klónozza ezt a GitHub-tárat, és kövesse az előző lépéseket a Kérdésekre válaszoló jegyzetfüzet a GitHubon.

A szerzőkről

Vedant Jain profilképe Vedant Jain Sr. AI/ML specialista, stratégiai generatív AI kezdeményezéseken dolgozik. Mielőtt csatlakozott az AWS-hez, Vedant ML/Data Science Specialty pozíciókat töltött be különböző cégeknél, mint például a Databricks, a Hortonworks (jelenleg Cloudera) és a JP Morgan Chase. Munkásságán kívül Vedant szenvedélyesen foglalkozik zenéléssel, sziklamászással, a tudomány felhasználásával az értelmes élethez és a világ konyháinak felfedezéséhez.

James Briggs a Pinecone munkatársa a fejlesztők ügyvédje, vektoros keresésre és AI/ML-re szakosodott. Az online oktatáson keresztül irányítja a fejlesztőket és a vállalkozásokat saját GenAI megoldásaik fejlesztésében. A Pinecone előtt James mesterséges intelligenciával foglalkozott kis tech startup cégeknél, alapított pénzügyi vállalatoknál. A munkán kívül James szenvedélye az utazás és az új kalandok felkarolása, a szörfözéstől és búvárkodástól a Muay Thaiig és a BJJ-ig.

Xin Huang az Amazon SageMaker JumpStart és az Amazon SageMaker beépített algoritmusainak vezető alkalmazott tudósa. A skálázható gépi tanulási algoritmusok fejlesztésére összpontosít. Kutatási területe a természetes nyelvi feldolgozás, a táblázatos adatok magyarázható mély tanulása és a nem-paraméteres tér-idő klaszterezés robusztus elemzése. Számos közleményt publikált az ACL-ben, az ICDM-ben, a KDD konferenciákon és a Royal Statistical Society: A sorozatban.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://aws.amazon.com/blogs/machine-learning/mitigate-hallucinations-through-retrieval-augmented-generation-using-pinecone-vector-database-llama-2-from-amazon-sagemaker-jumpstart/

Időbélyeg: December 6, 2023

Időbélyeg: 21. november 2022.

Csökkentse a hallucinációkat a Retrieval Augmented Generation segítségével a Pinecone vektoradatbázis és a Llama-2 segítségével az Amazon SageMaker JumpStarttól | Amazon webszolgáltatások

Újra kiadta Platón

Retrieval Augmented Generation (RAG) az Amazon SageMakerben

Előfeltételek

Megoldás áttekintése

LLM telepítése

Az előképzett LLM lekérdezése

További kontextus biztosítása az LLM számára

Visszakeresés kiterjesztett generáció

Adatkészlet letöltése

Indexelés

A prompt bővítése

Tisztítsuk meg

Következtetés

A szerzőkről

Még több AWS gépi tanulás

Elosztott képzés és hatékony skálázás az Amazon SageMaker Model Parallel és Data Parallel Libraries segítségével | Amazon webszolgáltatások

A védelmi fedezetrendszerek azonosítása az NFL következő generációs statisztikájában

Emelje új szintre intelligens keresési élményét az Amazon Kendra hierarchikus szempontjaival

Építsen nyomon követhető, egyedi, több formátumú dokumentumelemző folyamatot az Amazon Textract segítségével

Használjon előre aláírt URL-t, hogy üzleti elemzői számára biztonságos hozzáférést biztosítson az Amazon SageMaker Canvashoz

Takarékosság és pontosság: GPT NeoX és Pythia modellek költséghatékony képzése AWS Trainiummal | Amazon webszolgáltatások

Hidegindítási előrejelzések generálása előzményadatok nélküli termékekhez az Amazon Forecast segítségével, most akár 45%-kal pontosabb

Rólunk

Vertical Search & Ai

Emelvény

Maradjon kapcsolatban

Fiók