Leevendage hallutsinatsioone laiendatud generatsiooni otsimise abil, kasutades Amazon SageMakeri JumpStarti männikäbi vektori andmebaasi ja Llama-2

Taasavaldanud Platon

järgijaid: 0

Hoolimata sellest, et LLM-id on näiliselt peatamatu kasutuselevõtt erinevates tööstusharudes, on need üks osa laiemast tehnoloogilisest ökosüsteemist, mis toidab uut tehisintellekti lainet. Paljud vestluspõhised AI kasutusjuhtumid nõuavad kasutaja päringutele vastamiseks LLM-e, nagu Llama 2, Flan T5 ja Bloom. Need mudelid tuginevad küsimustele vastamiseks parameetrite teadmistele. Mudel õpib need teadmised koolituse käigus ja kodeerib need mudeli parameetritesse. Nende teadmiste värskendamiseks peame LLM-i ümber koolitama, mis võtab palju aega ja raha.

Õnneks saame oma LLM-ide teavitamiseks kasutada ka allikateadmisi. Allikateadmised on teave, mis sisestatakse LLM-i sisendviipa kaudu. Üks populaarne viis allikateadmiste pakkumiseks on Retrieval Augmented Generation (RAG). RAG-i kasutades hangime asjakohase teabe välisest andmeallikast ja edastame selle teabe LLM-i.

Selles ajaveebi postituses uurime, kuidas juurutada LLM-e, nagu Llama-2, kasutades Amazon Sagemaker JumpStart ja hoida oma LLM-e kursis asjakohase teabega Retrieval Augmented Generation (RAG) abil, kasutades Pinecone vektorandmebaasi, et vältida tehisintellekti hallutsinatsioone. .

Retrieval Augmented Generation (RAG) rakenduses Amazon SageMaker

Pinecone tegeleb RAG-i otsingukomponendiga, kuid teil on vaja veel kahte kriitilist komponenti: kuskil LLM-i järelduse käitamiseks ja kusagil manustamismudeli käitamiseks.

Amazon SageMaker Studio on integreeritud arenduskeskkond (IDE), mis pakub ühtset veebipõhist visuaalset liidest, kus pääsete juurde spetsiaalselt loodud tööriistadele kogu masinõppe (ML) arendamiseks. See pakub SageMaker JumpStart, mis on mudelikeskus, kus kasutajad saavad oma SageMakeri kontol konkreetse mudeli leida, eelvaateid vaadata ja käivitada. See pakub eelkoolitatud, avalikult kättesaadavaid ja patenteeritud mudeleid paljudele probleemitüüpidele, sealhulgas alusmudelitele.

Amazon SageMaker Studio pakub ideaalset keskkonda RAG-toega LLM-torujuhtmete arendamiseks. Esiteks, kasutades AWS-i konsooli, minge Amazon SageMakerisse ja looge SageMaker Studio domeen ja avage Jupyter Studio märkmik.

Eeldused

Täitke järgmised eeltingimusetapid:

Seadistage Amazon SageMaker Studio.
Amazon SageMakeri domeeni pardal.
Registreeruge tasuta Pinecone Vectori andmebaasi kasutajaks.
Eelduslikud teegid: SageMaker Python SDK, Pinecone Client

Lahendus Juurdepääs

SageMaker Studio sülearvutit kasutades peame esmalt installima eeltingimusteekid:

!pip install -qU sagemaker pinecone-client==2.2.1 ipywidgets==7.0.0

LLM-i juurutamine

Selles postituses käsitleme kahte lähenemisviisi LLM-i juurutamiseks. Esimene on läbi HuggingFaceModel objektiks. Saate seda kasutada LLM-ide juurutamisel (ja mudelite manustamisel) otse Hugging Face mudelikeskusest.

Näiteks saate luua juurutatava konfiguratsiooni jaoks google/flan-t5-xl mudel, nagu on näidatud järgmisel ekraanipildil:

import sagemaker
from sagemaker.huggingface import (
HuggingFaceModel, get_huggingface_llm_image_uri
)
role = sagemaker.get_execution_role()
hub_config = {'HF_MODEL_ID':'google/flan-t5-xl', # model_id from hf.co/models 'HF_TASK':'text-generation' # NLP task you want to use for predictions # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri("huggingface", version="0.8.2"&)
huggingface_model = HuggingFaceModel(env=hub_config, role=role, # iam role with permissions to create an Endpoint image_uri=llm_image
)

Mudeleid otse Hugging Face'ist juurutades lähtestage my_model_configuration järgmisega:

An env config ütleb meile, millist mudelit ja millise ülesande jaoks kasutada tahame.
Meie SageMakeri teostus role annab meile loa oma mudeli juurutamiseks.
An image_uri on pildikonfiguratsioon spetsiaalselt Hugging Face'i LLM-ide juurutamiseks.

Alternatiivina on SageMakeril komplekt mudeleid, mis ühilduvad otseselt lihtsamaga JumpStartModel objektiks. See mudel toetab paljusid populaarseid LLM-e, nagu Llama 2, mida saab lähtestada, nagu on näidatud järgmises ekraanipildis:

import sagemaker from sagemaker.jumpstart.model import JumpStartModel role = sagemaker.get_execution_role() my_model = JumpStartModel(model_id = "meta-textgeneration-llama-2-7b-f")

Mõlema versiooni jaoks my_model, juurutage need, nagu on näidatud järgmises ekraanipildis:

predictor = my_model.deploy( initial_instance_count=1, instance_type="ml.g5.4xlarge", endpoint_name="llama-2-generator")

Päringu esitamine eelkoolitatud LLM-i kohta

Meie initsialiseeritud LLM-i lõpp-punktiga saate päringuid alustada. Meie päringute vorming võib erineda (eriti vestlus- ja mittevestlusvõimeliste LLM-ide vahel), kuid protsess on üldiselt sama. Hugging Face mudeli puhul tehke järgmist.

# https://aws.amazon.com/blogs/machine-learning/llama-2-foundation-models-from-meta-are-now-available-in-amazon-sagemaker-jumpstart/ prompt = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know ANSWER: """ payload = { "inputs": [ [ {"role": "system", "content": prompt}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
out[0]['generation']['content']

Lahenduse leiate aadressilt GitHubi hoidla.

Loodud vastusel, mille me siin saame, pole erilist mõtet – see on hallutsinatsioon.

LLM-ile täiendava konteksti pakkumine

Laama 2 püüab vastata meie küsimusele ainult sisemiste parameetriliste teadmiste põhjal. On selge, et mudeli parameetrid ei salvesta teadmisi selle kohta, milliseid juhtumeid saame SageMakeris hallatud kohakoolitusega.

Sellele küsimusele õigesti vastamiseks peame kasutama allikateadmisi. See tähendab, et anname viipa kaudu LLM-ile lisateavet. Lisame selle teabe otse mudeli täiendava kontekstina.

context = """Managed Spot Training can be used with all instances
supported in Amazon SageMaker. Managed Spot Training is supported
in all AWS Regions where Amazon SageMaker is currently available.""" prompt_template = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know". CONTEXT:
{context} ANSWER: """ text_input = prompt_template.replace("{context}", context).replace("{question}", question) payload = { "inputs": [ [ {"role": "system", "content": text_input}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}") [Input]: Which instances can I use with Managed Spot Training in SageMaker? [Output]:  Based on the given context, you can use Managed Spot Training with all instances supported in Amazon SageMaker. Therefore, the answer is: All instances supported in Amazon SageMaker.

Nüüd näeme küsimusele õiget vastust; see oli lihtne! Tõenäoliselt ei lisa kasutaja aga oma viipadesse kontekste, ta teaks juba vastust oma küsimusele.

Ühe konteksti käsitsi sisestamise asemel tuvastage asjakohane teave automaatselt ulatuslikumast teabeandmebaasist. Selleks vajate Retrieval Augmented Generation.

Täiustatud põlvkonna otsimine

Retrieval Augmented Generation abil saate kodeerida teabe andmebaasi vektorruumi, kus vektorite vaheline lähedus näitab nende asjakohasust/semantilist sarnasust. Selle vektorruumi kui teadmistebaasi abil saate teisendada uue kasutajapäringu, kodeerida selle samasse vektorruumi ja hankida kõige asjakohasemad varem indekseeritud kirjed.

Pärast nende asjakohaste kirjete toomist valige neist mõned ja lisage need LLM-i viipale täiendava kontekstina, pakkudes LLM-ile väga asjakohaseid allikateadmisi. See on kaheetapiline protsess, kus:

Indekseerimine täidab vektorindeksi andmestiku teabega.
Otsimine toimub päringu ajal ja sealt saame vektorindeksist asjakohase teabe.

Mõlemad etapid nõuavad manustamismudelit, et tõlkida meie inimloetav lihttekst semantiilisse vektorruumi. Kasutage Hugging Face'i ülitõhusat MiniLM-lausemuundurit, nagu on näidatud järgmisel ekraanipildil. See mudel ei ole LLM ja seetõttu pole seda lähtestatud samal viisil kui meie Llama 2 mudelit.

hub_config = { "HF_MODEL_ID": "sentence-transformers/all-MiniLM-L6-v2", # model_id from hf.co/models "HF_TASK": "feature-extraction",
} huggingface_model = HuggingFaceModel( env=hub_config, role=role, transformers_version="4.6", # transformers version used pytorch_version="1.7", # pytorch version used py_version="py36", # python version of the DLC
)

aasta hub_config, määrake mudeli ID, nagu on näidatud ülaloleval ekraanipildil, kuid ülesande jaoks kasutage funktsioonide ekstrakti, kuna genereerime vektormanustusi, mitte teksti nagu meie LLM. Pärast seda lähtestage mudeli konfiguratsioon käsuga HuggingFaceModel nagu varemgi, aga seekord ilma LLM-pildita ja mõningate versiooniparameetritega.

encoder = huggingface_model.deploy( initial_instance_count=1, instance_type="ml.t2.large", endpoint_name="minilm-embedding"
)

Saate mudeli uuesti juurutada, kasutades deploy, kasutades väiksemat (ainult CPU) eksemplari ml.t2.large. MiniLM-mudel on pisike, nii et see ei vaja palju mälu ega vaja GPU-d, kuna see suudab kiiresti luua manuseid isegi protsessoris. Soovi korral saate mudelit GPU-ga kiiremini käivitada.

Manuste loomiseks kasutage predict meetodit ja edastage kodeerimiseks kontekstide loend inputs võti nagu näidatud:

out = encoder.predict({"inputs": ["some text here", "some more text goes here too"]})

Läbitakse kaks sisendkonteksti, tagastades kaks kontekstivektori manustamist, nagu näidatud:

len(out)

2

MiniLM-i mudeli manustamise mõõtmed on 384 mis tähendab, et iga MiniLM-i väljundit põimiv vektor peaks olema mõõtmetega 384. Kuid vaadates meie manuste pikkust, näete järgmist.

len(out[0]), len(out[1])

(8, 8)

Kahes loendis on kaheksa üksust. MiniLM töötleb teksti esmalt märgistamise etapis. See tokeniseerimine muudab meie inimloetava lihtteksti mudeliloetavate märgi ID-de loendiks. Mudeli väljundfunktsioonides näete märgitaseme manuseid. üks neist manustest näitab eeldatavat dimensiooni 384 nagu näidatud:

len(out[0][0])

384

Teisendage need märgitaseme manustused dokumenditasemel manusteks, kasutades iga vektori dimensiooni keskmisi väärtusi, nagu on näidatud järgmisel joonisel.

Keskmine koondamisoperatsioon ühe 384-mõõtmelise vektori saamiseks.

import numpy as np embeddings = np.mean(np.array(out), axis=1)embeddings.shape(2, 384)

Kahe 384-mõõtmelise vektormanustusega, üks iga sisendteksti jaoks. Meie elu lihtsamaks muutmiseks mähkige kodeerimisprotsess üheks funktsiooniks, nagu on näidatud järgmises ekraanipildis:

from typing import List def embed_docs(docs: List[str]) -> List[List[float]]: out = encoder.predict({"inputs": docs}) embeddings = np.mean(np.array(out), axis=1) return embeddings.tolist()

Andmestiku allalaadimine

Laadige alla Amazon SageMakeri KKK-d teadmistebaasina, et hankida andmeid, mis sisaldavad nii küsimuste kui ka vastuste veerge.

Laadige alla Amazon SageMakeri KKK-d

Otsingut tehes otsige ainult vastuseid, et saaksite veeru Küsimus tühistada. Täpsemalt vaadake märkmikku.

Meie andmekogum ja manustamiskonveier on valmis. Nüüd vajame ainult kohta, kuhu need manused salvestada.

Indekseerimine

Pinecone vektorandmebaas salvestab vektormanused ja otsib neid tõhusalt laiaulatuslikult. Andmebaasi loomiseks vajate Pinecone'i tasuta API-võtit.

import pinecone
import os # add Pinecone API key from app.pinecone.io
api_key = os.environ.get("PINECONE_API_KEY") or "YOUR_API_KEY"
# set Pinecone environment - find next to API key in console
env = os.environ.get("PINECONE_ENVIRONMENT") or "YOUR_ENV" pinecone.init(api_key=api_key, environment=env)

Pärast Pinecone vektori andmebaasiga ühenduse loomist looge üks vektorindeks (sarnaselt traditsiooniliste andmebaaside tabeliga). Nimetage indeks retrieval-augmentation-aws ja joondage indeks dimension ja metric parameetrid parameetritega, mida nõuab manustamismudel (antud juhul MiniLM).

import time index_name = "retrieval-augmentation-aws" if index_name in pinecone.list_indexes(): pinecone.delete_index(index_name) pinecone.create_index(name=index_name, dimension=embeddings.shape[1], metric="cosine")
# wait for index to finish initialization
while not pinecone.describe_index(index_name).status["ready"]: time.sleep(1)

Andmete sisestamise alustamiseks käivitage järgmine:

from tqdm.auto import tqdm batch_size = 2 # can increase but needs larger instance size otherwise instance runs out of memory
vector_limit = 1000 answers = df_knowledge[:vector_limit]
index = pinecone.Index(index_name) for i in tqdm(range(0, len(answers), batch_size)): # find end of batch i_end = min(i + batch_size, len(answers)) # create IDs batch ids = [str(x) for x in range(i, i_end)] # create metadata batch metadatas = [{"text": text} for text in answers["Answer"][i:i_end]] # create embeddings texts = answers["Answer"][i:i_end].tolist() embeddings = embed_docs(texts) # create records list for upsert records = zip(ids, embeddings, metadatas) # upsert to Pinecone index.upsert(vectors=records)

Indeksi päringuid saate alustada selle postituse varasema küsimusega.

# extract embeddings for the questions
query_vec = embed_docs(question)[0] # query pinecone
res = index.query(query_vec, top_k=1, include_metadata=True) # show the results
res
{'matches': [{'id': '90', 'metadata': {'text': 'Managed Spot Training can be used with all ' 'instances supported in Amazon ' 'SageMaker.rn'}, 'score': 0.881181657, 'values': []}], 'namespace': ''}

Ülaltoodud väljund näitab, et tagastame asjakohased kontekstid, mis aitavad meil oma küsimusele vastata. Kuna meie top_k = 1, index.query tagastas parima tulemuse koos metaandmetega, mis loevad Managed Spot Training can be used with all instances supported in Amazon.

Viipa suurendamine

Kasutage otsitud kontekste, et viipa täiendada ja otsustada, kui palju konteksti LLM-i sisestada. Kasuta 1000 tähemärgipiirang, et iga tagastatud konteksti iteratiivselt lisada viipale, kuni ületate sisu pikkuse.

Viipa suurendamine

Sööda context_str LLM-i viibale, nagu on näidatud järgmises ekraanipildis:

payload = create_payload(question, context_str)
out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}")

[Sisend]: milliseid eksemplare saan SageMakeris hallatud kohakoolitusega kasutada? [Väljund]:  Esitatud konteksti põhjal saate kasutada hallatud kohakoolitust kõigi Amazon SageMakeri toetatud eksemplaridega. Seetõttu on vastus järgmine: Amazon SageMaker toetab kõiki eksemplare.

Loogika töötab, nii et pakkige see üheks funktsiooniks, et asjad puhtana hoida.

def rag_query(question: str) -> str: # create query vec query_vec = embed_docs(question)[0] # query pinecone res = index.query(query_vec, top_k=5, include_metadata=True) # get contexts contexts = [match.metadata["text"] for match in res.matches] # build the multiple contexts string context_str = construct_context(contexts=contexts) # create our retrieval augmented prompt payload = create_payload(question, context_str) # make prediction out = predictor.predict(payload, custom_attributes='accept_eula=true') return out[0]["generation"]["content"]

Nüüd saate esitada selliseid küsimusi, nagu on näidatud järgmises.

rag_query("Does SageMaker support spot instances?") ' Yes, Amazon SageMaker supports spot instances for managed spot training. According to the provided context, Managed Spot Training can be used with all instances supported in Amazon SageMaker, and Managed Spot Training is supported in all AWS Regions where Amazon SageMaker is currently available.nnTherefore, the answer to your question is:nnYes, SageMaker supports spot instances in all regions where Amazon SageMaker is available.'

Koristage

Soovimatute tasude peatamiseks kustutage mudel ja lõpp-punkt.

encoder.delete_model() encoder.delete_endpoint()

Järeldus

Selles postituses tutvustasime teile RAG-i avatud juurdepääsuga LLM-idega SageMakeris. Näitasime ka, kuidas juurutada Llama 2-ga Amazon SageMaker Kiirstardi mudeleid, Flan T5-ga Hugging Face LLM-e ja MiniLM-iga mudeleid manustada.

Rakendasime täieliku otsast lõpuni RAG torujuhtme, kasutades meie avatud juurdepääsu mudeleid ja Pinecone vektorindeksit. Seda kasutades näitasime, kuidas hallutsinatsioone minimeerida ja LLM-i teadmisi ajakohasena hoida ning lõppkokkuvõttes suurendada kasutajakogemust ja usaldust meie süsteemide vastu.

Selle näite iseseisvaks käitamiseks kloonige see GitHubi hoidla ja tutvuge eelnevate sammudega, kasutades Küsimustele vastamise märkmik GitHubis.

Autoritest

Vedant Jaini profiilipilt Vedant Jain on Sr. AI/ML spetsialist, kes töötab strateegiliste generatiivse AI algatuste kallal. Enne AWS-iga liitumist on Vedant töötanud ML/Data Science Specialty ametikohtadel erinevates ettevõtetes, nagu Databricks, Hortonworks (nüüd Cloudera) ja JP Morgan Chase. Väljaspool oma tööd on Vedant kirglik muusika tegemine, kaljuronimine, teaduse kasutamine tähendusrikka elu elamiseks ja köökide avastamine kogu maailmast.

James Briggs on Pinecone'i personali arendaja advokaat, kes on spetsialiseerunud vektorotsingule ja AI/ML-ile. Ta juhendab arendajaid ja ettevõtteid veebipõhise hariduse kaudu oma GenAI lahenduste väljatöötamisel. Enne Pinecone'i töötas James tehisintellekti kallal väikeste tehnoloogiliste idufirmade ja asutatud finantsettevõtete jaoks. Väljaspool tööd on Jamesil kirg reisimise ja uute seikluste vastu, alates surfamisest ja akvalangist kuni Muay Thai ja BJJ-ni.

Xin Huang on Amazon SageMaker JumpStart ja Amazon SageMaker sisseehitatud algoritmide vanemrakendusteadlane. Ta keskendub skaleeritavate masinõppe algoritmide arendamisele. Tema uurimishuvid on seotud loomuliku keele töötlemise, tabeliandmete seletatava süvaõppe ja mitteparameetrilise aegruumi klastrite tugeva analüüsiga. Ta on avaldanud palju artikleid ACL-is, ICDM-is, KDD konverentsidel ja Kuninglikus Statistikaühingus: A-seeria.

SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
Allikas: https://aws.amazon.com/blogs/machine-learning/mitigate-hallucinations-through-retrieval-augmented-generation-using-pinecone-vector-database-llama-2-from-amazon-sagemaker-jumpstart/

Ajatempel: Detsember 6, 2023

Ajatempel: September 27, 2022

Leevendage hallutsinatsioone laiendatud genereerimise abil, kasutades Pinecone vektorandmebaasi ja Llama-2 Amazon SageMaker JumpStart | Amazoni veebiteenused

Taasavaldanud Platon

Retrieval Augmented Generation (RAG) rakenduses Amazon SageMaker

Eeldused

Lahendus Juurdepääs

LLM-i juurutamine

Päringu esitamine eelkoolitatud LLM-i kohta

LLM-ile täiendava konteksti pakkumine

Täiustatud põlvkonna otsimine

Andmestiku allalaadimine

Indekseerimine

Viipa suurendamine

Koristage

Järeldus

Autoritest

Veel alates AWS-i masinõpe

Tutvustame Amazon Textracti hulgidokumentide üleslaadijat täiustatud hindamiseks ja analüüsiks | Amazoni veebiteenused

Kasutage AWS-i AI- ja ML-teenuseid nägemis- või suhtluspuudega inimeste juurdepääsetavuse ja kaasamise edendamiseks

Rakendage täpseid andmetele juurdepääsu juhtelemente Amazon SageMaker Studio AWS Lake Formationi ja Amazon EMR-iga

Interaktiivne andmete ettevalmistamise vidin sülearvutitele, mida toetab Amazon SageMaker Data Wrangler

Kinnisvaravahendusfirma John L. Scott kasutab Amazon Textracti koduomanike kinnisvaradokumentides rassiliselt piirava keele väljatoomiseks

AlexaTM 20B on nüüd saadaval Amazon SageMaker JumpStartis

Käivitage automaatne mudeli häälestamine rakendusega Amazon SageMaker JumpStart

Tuhandete ML-mudelite mõõtkavade väljaõpe ja järeldused rakendusega Amazon SageMaker | Amazoni veebiteenused

Varustage ja hallake ML-keskkondi Amazon SageMaker Canvasiga, kasutades AWS CDK-d ja AWS-i teenusekataloogi

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto