Vähennä hallusinaatioita hakemalla lisättyä sukupolvea käyttämällä Pinecone Vector Databasea ja Llama-2:ta Amazon SageMaker JumpStartista

Julkaissut Platon

seuraajia: 0

Huolimatta näennäisesti pysäyttämättömästä LLM:ien käyttöönotosta eri toimialoilla, ne ovat osa laajempaa teknologiaekosysteemiä, joka antaa voiman uudelle tekoälyaalolle. Monet keskustelupohjaiset tekoälyn käyttötapaukset edellyttävät LLM:itä, kuten Llama 2, Flan T5 ja Bloom, vastaamaan käyttäjien kyselyihin. Nämä mallit luottavat parametritietoon vastatakseen kysymyksiin. Malli oppii tämän tiedon koulutuksen aikana ja koodaa sen malliparametreihin. Tämän tiedon päivittämiseksi meidän on koulutettava uudelleen LLM, mikä vie paljon aikaa ja rahaa.

Onneksi voimme myös käyttää lähdetietoa tiedottaessamme LLM:illemme. Lähdetieto on tietoa, joka syötetään LLM:ään syöttökehotteen kautta. Yksi suosittu tapa tarjota lähdetietoa on Retrieval Augmented Generation (RAG). RAG:n avulla haemme asiaankuuluvat tiedot ulkoisesta tietolähteestä ja syötämme ne LLM:ään.

Tässä blogiviestissä tutkimme, kuinka LLM:itä, kuten Llama-2, voidaan ottaa käyttöön Amazon Sagemaker JumpStartin avulla ja pitää LLM:t ajan tasalla asiaankuuluvilla tiedoilla Retrieval Augmented Generationin (RAG) avulla käyttämällä Pinecone-vektoritietokantaa tekoälyn hallusinaatioiden estämiseksi. .

Retrieval Augmented Generation (RAG) Amazon SageMakerissa

Pinecone käsittelee RAG:n hakukomponentin, mutta tarvitset vielä kaksi kriittistä komponenttia: jonnekin LLM-päätelmän suorittamiseen ja jonnekin upotusmallin suorittamiseen.

Amazon SageMaker Studio on integroitu kehitysympäristö (IDE), joka tarjoaa yhden verkkopohjaisen visuaalisen käyttöliittymän, jossa voit käyttää tarkoitukseen rakennettuja työkaluja kaiken koneoppimisen (ML) kehittämiseen. Se tarjoaa SageMaker JumpStartin, joka on mallikeskus, jossa käyttäjät voivat paikantaa, esikatsella ja käynnistää tietyn mallin omalla SageMaker-tilillään. Se tarjoaa valmiiksi koulutettuja, julkisesti saatavilla olevia ja patentoituja malleja monenlaisille ongelmatyypeille, mukaan lukien perusmallit.

Amazon SageMaker Studio tarjoaa ihanteellisen ympäristön RAG-yhteensopivien LLM-putkien kehittämiseen. Siirry ensin AWS-konsolin avulla Amazon SageMakeriin ja luo SageMaker Studio -verkkotunnus ja avaa Jupyter Studio -muistikirja.

Edellytykset

Suorita seuraavat edellytysvaiheet:

Asenna Amazon SageMaker Studio.
Mukana Amazon SageMaker -verkkotunnukseen.
Rekisteröidy maksuttomaan Pinecone Vector -tietokantaan.
Vaadittavat kirjastot: SageMaker Python SDK, Pinecone Client

Ratkaisun esittely

SageMaker Studio -muistikirjaa käytettäessä meidän on ensin asennettava edellytyskirjastot:

!pip install -qU sagemaker pinecone-client==2.2.1 ipywidgets==7.0.0

LLM:n käyttöönotto

Tässä viestissä keskustelemme kahdesta lähestymistavasta LLM:n käyttöönottoon. Ensimmäinen on kautta HuggingFaceModel esine. Voit käyttää tätä, kun otat LLM:itä käyttöön (ja upottamalla malleja) suoraan Hugging Face -mallikeskuksesta.

Voit esimerkiksi luoda käyttöön otettavan kokoonpanon google/flan-t5-xl malli seuraavan kuvakaappauksen mukaisesti:

import sagemaker
from sagemaker.huggingface import (
HuggingFaceModel, get_huggingface_llm_image_uri
)
role = sagemaker.get_execution_role()
hub_config = {'HF_MODEL_ID':'google/flan-t5-xl', # model_id from hf.co/models 'HF_TASK':'text-generation' # NLP task you want to use for predictions # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri("huggingface", version="0.8.2"&)
huggingface_model = HuggingFaceModel(env=hub_config, role=role, # iam role with permissions to create an Endpoint image_uri=llm_image
)

Kun otat malleja käyttöön suoraan Hugging Facesta, alusta my_model_configuration seuraavasti:

An env config kertoo meille, mitä mallia haluamme käyttää ja mihin tehtävään.
Meidän SageMaker-suoritus role antaa meille luvan ottaa mallimme käyttöön.
An image_uri on kuvakonfiguraatio erityisesti Hugging Facen LLM:ien käyttöönottamista varten.

Vaihtoehtoisesti SageMakerilla on joukko malleja, jotka ovat suoraan yhteensopivia yksinkertaisemman kanssa JumpStartModel esine. Tämä malli tukee monia suosittuja LLM:itä, kuten Llama 2, joka voidaan alustaa seuraavan kuvakaappauksen mukaisesti:

import sagemaker from sagemaker.jumpstart.model import JumpStartModel role = sagemaker.get_execution_role() my_model = JumpStartModel(model_id = "meta-textgeneration-llama-2-7b-f")

Molemmille versioille my_model, ota ne käyttöön seuraavan kuvakaappauksen mukaisesti:

predictor = my_model.deploy( initial_instance_count=1, instance_type="ml.g5.4xlarge", endpoint_name="llama-2-generator")

Esikoulutetun LLM:n kysely

Alustetun LLM-päätepisteemme avulla voit aloittaa kyselyn. Kyselyjemme muoto voi vaihdella (erityisesti keskustelu- ja ei-keskustelukykyisten LLM:iden välillä), mutta prosessi on yleensä sama. Hugging Face -mallissa toimi seuraavasti:

# https://aws.amazon.com/blogs/machine-learning/llama-2-foundation-models-from-meta-are-now-available-in-amazon-sagemaker-jumpstart/ prompt = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know ANSWER: """ payload = { "inputs": [ [ {"role": "system", "content": prompt}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
out[0]['generation']['content']

Ratkaisun löydät osoitteesta GitHub-arkisto.

Tässä saamassamme vastauksessa ei ole paljon järkeä - se on hallusinaatio.

Lisäkontekstin tarjoaminen LLM:lle

Llama 2 yrittää vastata kysymykseemme pelkästään sisäisen parametrisen tiedon perusteella. On selvää, että malliparametrit eivät tallenna tietoa siitä, mitkä tapaukset voimme hallita paikannusharjoituksia SageMakerissa.

Jotta voimme vastata tähän kysymykseen oikein, meidän on käytettävä lähdetietoa. Toisin sanoen annamme lisätietoja LLM:lle kehotteen kautta. Lisätään nämä tiedot suoraan mallin lisäkontekstiksi.

context = """Managed Spot Training can be used with all instances
supported in Amazon SageMaker. Managed Spot Training is supported
in all AWS Regions where Amazon SageMaker is currently available.""" prompt_template = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know". CONTEXT:
{context} ANSWER: """ text_input = prompt_template.replace("{context}", context).replace("{question}", question) payload = { "inputs": [ [ {"role": "system", "content": text_input}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}") [Input]: Which instances can I use with Managed Spot Training in SageMaker? [Output]:  Based on the given context, you can use Managed Spot Training with all instances supported in Amazon SageMaker. Therefore, the answer is: All instances supported in Amazon SageMaker.

Nyt näemme oikean vastauksen kysymykseen; se oli helppoa! Käyttäjä ei kuitenkaan todennäköisesti lisää konteksteja kehotteisiinsa, sillä hän tiesi jo vastauksen kysymykseensä.

Sen sijaan, että lisäät manuaalisesti yksittäistä kontekstia, tunnista olennaiset tiedot automaattisesti laajemmasta tietokannasta. Tätä varten tarvitset Retrieval Augmented Generationin.

Haku laajennettu sukupolvi

Retrieval Augmented Generation -toiminnolla voit koodata tietokannan vektoriavaruuteen, jossa vektorien välinen läheisyys edustaa niiden merkitystä/semanttista samankaltaisuutta. Käyttämällä tätä vektoriavaruutta tietokantana voit muuntaa uuden käyttäjäkyselyn, koodata sen samaan vektoriavaruuteen ja noutaa tärkeimmät aiemmin indeksoidut tietueet.

Kun olet hakenut nämä asiaankuuluvat tietueet, valitse niistä muutama ja sisällytä ne LLM-kehotteeseen lisäkontekstiksi, mikä tarjoaa LLM:lle erittäin merkityksellistä lähdetietoa. Tämä on kaksivaiheinen prosessi, jossa:

Indeksointi täyttää vektoriindeksin tietojoukon tiedoilla.
Haku tapahtuu kyselyn aikana, ja sieltä haemme olennaiset tiedot vektoriindeksistä.

Molemmat vaiheet vaativat upotusmallin ihmisen luettavan tavallisen tekstimme kääntämiseksi semanttiseksi vektoriavaruuteen. Käytä Hugging Facen erittäin tehokasta MiniLM-lausemuuntajaa seuraavan kuvakaappauksen mukaisesti. Tämä malli ei ole LLM, joten sitä ei ole alustettu samalla tavalla kuin Llama 2 -mallimme.

hub_config = { "HF_MODEL_ID": "sentence-transformers/all-MiniLM-L6-v2", # model_id from hf.co/models "HF_TASK": "feature-extraction",
} huggingface_model = HuggingFaceModel( env=hub_config, role=role, transformers_version="4.6", # transformers version used pytorch_version="1.7", # pytorch version used py_version="py36", # python version of the DLC
)

In hub_config, määritä mallin tunnus, kuten yllä olevassa kuvakaappauksessa näkyy, mutta käytä tehtävässä ominaisuuden purkamista, koska luomme vektori upotuksia, emme tekstiä kuten LLM. Tämän jälkeen alusta mallin konfigurointi komennolla HuggingFaceModel kuten ennenkin, mutta tällä kertaa ilman LLM-kuvaa ja joillain versioparametreilla.

encoder = huggingface_model.deploy( initial_instance_count=1, instance_type="ml.t2.large", endpoint_name="minilm-embedding"
)

Voit ottaa mallin uudelleen käyttöön deploy, käyttämällä pienempää (vain CPU) esiintymää ml.t2.large. MiniLM-malli on pieni, joten se ei vaadi paljon muistia eikä tarvitse GPU:ta, koska se pystyy nopeasti luomaan upotuksia jopa prosessorille. Halutessasi voit ajaa mallia nopeammin GPU:lla.

Voit luoda upotuksia käyttämällä predict -menetelmää ja välitä luettelo koodattavista konteksteista -sovelluksen kautta inputs avain kuvan mukaisesti:

out = encoder.predict({"inputs": ["some text here", "some more text goes here too"]})

Kaksi syöttökontekstia välitetään, mikä palauttaa kaksi kontekstivektorin upotusta kuvan mukaisesti:

len(out)

2

MiniLM-mallin upotusulottuvuus on 384 mikä tarkoittaa, että jokaisen vektorin, joka upottaa MiniLM-ulostulot, on oltava ulottuvuus 384. Kun katsot upotusten pituutta, näet kuitenkin seuraavan:

len(out[0]), len(out[1])

(8, 8)

Kahdessa luettelossa on kahdeksan kohdetta. MiniLM käsittelee tekstin ensin tokenointivaiheessa. Tämä tokenisointi muuttaa ihmisen luettavan tekstin mallin luettavissa olevien tunnustunnusten luetteloksi. Mallin tulosominaisuuksissa näet tunnustason upotukset. yksi näistä upotuksista näyttää odotetun ulottuvuuden 384 kuten on esitetty:

len(out[0][0])

384

Muunna nämä tunnustason upotukset asiakirjatason upotuksiksi käyttämällä kunkin vektoriulottuvuuden keskiarvoja, kuten seuraavassa kuvassa.

Keskimääräinen yhdistämistoiminto yhden 384-ulotteisen vektorin saamiseksi.

import numpy as np embeddings = np.mean(np.array(out), axis=1)embeddings.shape(2, 384)

Kahdella 384-ulotteisella vektoriupotuksella, yksi kullekin syötetylle tekstille. Elämämme helpottamiseksi kääri koodausprosessi yhdeksi toiminnoksi seuraavan kuvakaappauksen mukaisesti:

from typing import List def embed_docs(docs: List[str]) -> List[List[float]]: out = encoder.predict({"inputs": docs}) embeddings = np.mean(np.array(out), axis=1) return embeddings.tolist()

Tietojoukon lataaminen

Lataa Amazon SageMakerin usein kysytyt kysymykset tietopohjaksi saadaksesi tiedot, jotka sisältävät sekä kysymys- että vastaussarakkeet.

Lataa Amazon SageMakerin usein kysytyt kysymykset

Kun suoritat hakua, etsi vain vastaukset, jotta voit pudottaa Kysymys-sarakkeen. Katso lisätietoja muistikirjasta.

Tietojoukkomme ja upotusputkistomme ovat valmiit. Nyt tarvitsemme vain jonnekin, jossa nämä upotukset säilytetään.

Indeksointi

Pinecone-vektoritietokanta tallentaa vektori upotukset ja etsii niitä tehokkaasti mittakaavassa. Tietokannan luomiseen tarvitset ilmaisen Pineconen API-avaimen.

import pinecone
import os # add Pinecone API key from app.pinecone.io
api_key = os.environ.get("PINECONE_API_KEY") or "YOUR_API_KEY"
# set Pinecone environment - find next to API key in console
env = os.environ.get("PINECONE_ENVIRONMENT") or "YOUR_ENV" pinecone.init(api_key=api_key, environment=env)

Kun olet muodostanut yhteyden Pinecone-vektoritietokantaan, luo yksi vektoriindeksi (samanlainen kuin perinteisten tietokantojen taulukko). Nimeä indeksi retrieval-augmentation-aws ja kohdista indeksi dimension ja metric parametrit upotusmallin (tässä tapauksessa MiniLM) edellyttämillä parametreilla.

import time index_name = "retrieval-augmentation-aws" if index_name in pinecone.list_indexes(): pinecone.delete_index(index_name) pinecone.create_index(name=index_name, dimension=embeddings.shape[1], metric="cosine")
# wait for index to finish initialization
while not pinecone.describe_index(index_name).status["ready"]: time.sleep(1)

Aloita tietojen lisääminen suorittamalla seuraava:

from tqdm.auto import tqdm batch_size = 2 # can increase but needs larger instance size otherwise instance runs out of memory
vector_limit = 1000 answers = df_knowledge[:vector_limit]
index = pinecone.Index(index_name) for i in tqdm(range(0, len(answers), batch_size)): # find end of batch i_end = min(i + batch_size, len(answers)) # create IDs batch ids = [str(x) for x in range(i, i_end)] # create metadata batch metadatas = [{"text": text} for text in answers["Answer"][i:i_end]] # create embeddings texts = answers["Answer"][i:i_end].tolist() embeddings = embed_docs(texts) # create records list for upsert records = zip(ids, embeddings, metadatas) # upsert to Pinecone index.upsert(vectors=records)

Voit aloittaa hakemiston kyselyn aiemman tämän viestin kysymyksellä.

# extract embeddings for the questions
query_vec = embed_docs(question)[0] # query pinecone
res = index.query(query_vec, top_k=1, include_metadata=True) # show the results
res
{'matches': [{'id': '90', 'metadata': {'text': 'Managed Spot Training can be used with all ' 'instances supported in Amazon ' 'SageMaker.rn'}, 'score': 0.881181657, 'values': []}], 'namespace': ''}

Yllä oleva tulos osoittaa, että palautamme asiaankuuluvat kontekstit, jotka auttavat meitä vastaamaan kysymykseemme. Koska me top_k = 1, index.query palautti huipputuloksen metatietojen viereen, joka lukee Managed Spot Training can be used with all instances supported in Amazon.

Kehotteen laajentaminen

Käytä haettuja konteksteja täydentämään kehotetta ja päättämään LLM:ään syötettävän kontekstin enimmäismäärästä. Käytä 1000 merkkien rajoitus lisää jokaisen palautetun kontekstin iteratiivisesti kehotteeseen, kunnes ylität sisällön pituuden.

Kehotteen laajentaminen

Ruoki context_str LLM-kehotteeseen seuraavan kuvakaappauksen mukaisesti:

payload = create_payload(question, context_str)
out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}")

[Input]: Mitä instansseja voin käyttää Managed Spot Trainingin kanssa SageMakerissa? [Output]: Tarjotun kontekstin perusteella voit käyttää Managed Spot Trainingia kaikissa Amazon SageMakerin tukemissa esiintymissä. Siksi vastaus on: Kaikki Amazon SageMakerin tuetut ilmentymät.

Logiikka toimii, joten kääri se yhteen toimintoon pitääksesi asiat puhtaana.

def rag_query(question: str) -> str: # create query vec query_vec = embed_docs(question)[0] # query pinecone res = index.query(query_vec, top_k=5, include_metadata=True) # get contexts contexts = [match.metadata["text"] for match in res.matches] # build the multiple contexts string context_str = construct_context(contexts=contexts) # create our retrieval augmented prompt payload = create_payload(question, context_str) # make prediction out = predictor.predict(payload, custom_attributes='accept_eula=true') return out[0]["generation"]["content"]

Voit nyt esittää kysymyksiä, kuten seuraavassa esitetyt:

rag_query("Does SageMaker support spot instances?") ' Yes, Amazon SageMaker supports spot instances for managed spot training. According to the provided context, Managed Spot Training can be used with all instances supported in Amazon SageMaker, and Managed Spot Training is supported in all AWS Regions where Amazon SageMaker is currently available.nnTherefore, the answer to your question is:nnYes, SageMaker supports spot instances in all regions where Amazon SageMaker is available.'

Puhdistaa

Voit lopettaa ei-toivottujen maksujen syntymisen poistamalla mallin ja päätepisteen.

encoder.delete_model() encoder.delete_endpoint()

Yhteenveto

Tässä viestissä esittelimme sinulle RAG:n avoimen pääsyn LLM:illä SageMakerissa. Näitimme myös, kuinka voit ottaa käyttöön Amazon SageMaker Jumpstart -malleja Llama 2:lla, Hugging Face LLM:itä Flan T5:llä ja upotusmalleja MiniLM:llä.

Otimme käyttöön täydellisen päästä päähän RAG-putkilinjan käyttämällä avoimen pääsyn mallejamme ja Pinecone-vektoriindeksiä. Tämän avulla osoitimme, kuinka hallusinaatioita voidaan minimoida ja LLM-tieto pysyä ajan tasalla ja viime kädessä parantaa käyttäjäkokemusta ja luottamusta järjestelmiimme.

Jos haluat suorittaa tämän esimerkin itse, kloonaa tämä GitHub-arkisto ja käy läpi edelliset vaiheet käyttämällä Kysymyksiin vastaaminen muistikirja GitHubissa.

Tietoja kirjoittajista

Vedant Jainin profiilikuva Vedant Jain on vanhempi AI/ML-asiantuntija, joka työskentelee strategisten generatiivisten tekoälyaloitteiden parissa. Ennen AWS:ään liittymistään Vedant on toiminut ML/Data Science Specialty -tehtävissä useissa yrityksissä, kuten Databricksissa, Hortonworksissa (nykyisin Cloudera) ja JP Morgan Chasessa. Työnsä ulkopuolella Vedant on intohimoinen musiikin tekemiseen, kalliokiipeilyyn, tieteen käyttämiseen merkitykselliseen elämään ja keittiöiden tutkimiseen ympäri maailmaa.

James Briggs on Staff Developer Advocate Pineconessa, erikoistunut vektorihakuun ja AI/ML:ään. Hän ohjaa kehittäjiä ja yrityksiä kehittämään omia GenAI-ratkaisuja verkkokoulutuksen avulla. Ennen Pineconea James työskenteli tekoälyn parissa pienille teknologia-aloitusyrityksille vakiintuneille rahoitusyhtiöille. Työn ulkopuolella Jamesilla on intohimo matkustamiseen ja uusiin seikkailuihin, jotka vaihtelevat surffauksesta ja sukeltamisesta Muay Thaiiin ja BJJ:hen.

Xin Huang on vanhempi soveltuva tutkija Amazon SageMaker JumpStart ja Amazon SageMaker sisäänrakennetuille algoritmeille. Hän keskittyy skaalautuvien koneoppimisalgoritmien kehittämiseen. Hänen tutkimusintressiään ovat luonnollisen kielen prosessointi, selitettävissä oleva syvä oppiminen taulukkotiedoista ja ei-parametrisen aika-avaruusklusteroinnin robusti analyysi. Hän on julkaissut monia artikkeleita ACL-, ICDM-, KDD-konferensseissa ja Royal Statistical Society: Series A.

SEO-pohjainen sisällön ja PR-jakelu. Vahvista jo tänään.
PlatoData.Network Vertical Generatiivinen Ai. Vahvista itseäsi. Pääsy tästä.
PlatoAiStream. Web3 Intelligence. Tietoa laajennettu. Pääsy tästä.
PlatoESG. hiili, CleanTech, energia, ympäristö, Aurinko, Jätehuolto. Pääsy tästä.
PlatonHealth. Biotekniikan ja kliinisten kokeiden älykkyys. Pääsy tästä.
Lähde: https://aws.amazon.com/blogs/machine-learning/mitigate-hallucinations-through-retrieval-augmented-generation-using-pinecone-vector-database-llama-2-from-amazon-sagemaker-jumpstart/

Aikaleima: Joulukuu 6, 2023

Aikaleima: Huhtikuu 24, 2024

Vähennä hallusinaatioita Retrieval Augmented Generationin avulla käyttämällä Pinecone-vektoritietokantaa ja Llama-2:ta Amazon SageMaker JumpStartista | Amazon Web Services

Julkaissut Platon

Retrieval Augmented Generation (RAG) Amazon SageMakerissa

Edellytykset

Ratkaisun esittely

LLM:n käyttöönotto

Esikoulutetun LLM:n kysely

Lisäkontekstin tarjoaminen LLM:lle

Haku laajennettu sukupolvi

Tietojoukon lataaminen

Indeksointi

Kehotteen laajentaminen

Puhdistaa

Yhteenveto

Tietoja kirjoittajista

Lisää aiheesta AWS-koneoppiminen

Kouluta, viritä ja ota käyttöön räätälöityjä kokoonpanoja tehokkaasti Amazon SageMakerin avulla Amazon Web Services

Käytä Amazon SageMaker Data Wrangleria tietojen valmisteluun ja Studio Labsia oppiaksesi ja kokeillaksesi ML:ää

Tunnista uhanalaisten lajien populaatiovarianssi Amazon Rekognitionin avulla

Valitse tietyt aikasarjat ennustettaviksi Amazon Forecastin avulla

Tietoa meistä

Pystysuuntainen haku ja Ai

foorumi

Pysy yhteydessä

Tili