Kasutage Amazon SageMaker Studiot, et luua kiireks katsetamiseks RAG-i küsimustele vastav lahendus Llama 2, LangChaini ja Pinecone abil

Taasavaldanud Platon

järgijaid: 0

Retrieval Augmented Generation (RAG) võimaldab teil pakkuda suurt keelemudelit (LLM), millel on juurdepääs andmetele välistest teadmiste allikatest, nagu hoidlad, andmebaasid ja API-d, ilma et oleks vaja seda täpsustada. Kui kasutate küsimustele vastamiseks generatiivset tehisintellekti, võimaldab RAG LLM-idel vastata küsimustele kõige asjakohasema ja ajakohasema teabega ning valikuliselt viidata kontrollimiseks oma andmeallikatele.

Tüüpiline RAG-lahendus dokumentidest teadmiste hankimiseks kasutab manustamismudelit, et teisendada andmed andmeallikatest manusteks ja salvestada need manused vektorandmebaasi. Kui kasutaja esitab küsimuse, otsib ta vektorandmebaasist ja otsib üles dokumendid, mis on kasutaja päringule kõige sarnasemad. Järgmisena ühendab see allalaaditud dokumendid ja kasutaja päringu täiendatud viipas, mis saadetakse teksti genereerimiseks LLM-ile. Selles teostuses on kaks mudelit: manustamismudel ja LLM, mis genereerib lõpliku vastuse.

Selles postituses näitame, kuidas seda kasutada Amazon SageMaker Studio RAG-i küsimusele vastamise lahenduse loomiseks.

Märkmike kasutamine RAG-põhisele küsimustele vastamiseks

RAG-i juurutamine hõlmab tavaliselt katsetamist erinevate manustamismudelite, vektorandmebaaside, teksti genereerimise mudelite ja viipadega, samal ajal ka koodi silumist, kuni saavutate funktsionaalse prototüübi. Amazon SageMaker pakub hallatavaid Jupyteri sülearvuteid, mis on varustatud GPU eksemplaridega, võimaldades teil selles algfaasis kiiresti katsetada ilma täiendavat infrastruktuuri üles ehitamata. SageMakeris on sülearvutite kasutamiseks kaks võimalust. Esimene võimalus on kiire käivitamine märkmikud saadaval SageMaker Studio kaudu. ML-i jaoks mõeldud integreeritud arenduskeskkonnas (IDE) SageMaker Studios saate käivitada märkmikke, mis töötavad erinevat tüüpi eksemplaridel ja erineva konfiguratsiooniga, teha koostööd kolleegidega ja pääseda juurde masinõppe (ML) jaoks mõeldud täiendavatele funktsioonidele. Teine võimalus on kasutada a SageMakeri märkmiku eksemplar, mis on täielikult hallatud ML-i arvutuseksemplar, mis käitab Jupyteri sülearvuti rakendust.

Selles postituses tutvustame RAG-lahendust, mis täiendab mudeli teadmisi täiendavate andmetega välistest teadmiste allikatest, et pakkuda kohandatud domeenile täpsemaid vastuseid. Kasutame ühte SageMaker Studio sülearvutit, mis töötab ml.g5.2xlarge eksemplar (1 A10G GPU) ja Llama 2 7b chat hf, Llama 2 7b peenhäälestatud versioon, mis on optimeeritud Hugging Face Hubi dialoogis kasutamiseks. Väliste andmete näidisena kasutame kahte AWS Media & Entertainmenti ajaveebi postitust, mille teisendame rakendusega manusteks. BAAI/bge-small-en-v1.5 manused. Salvestame manused sisse Käbikäpp, vektorpõhine andmebaas, mis pakub suure jõudlusega otsingut ja sarnasuse sobitamist. Samuti arutame, kuidas minna üle sülearvutis katsetamiselt mudelite juurutamisele SageMakeri lõpp-punktidesse, et prototüüpide loomisel reaalajas järeldusi teha. Sama lähenemisviisi saab kasutada erinevate mudelite ja vektorite andmebaasidega.

Lahenduse ülevaade

Järgnev diagramm illustreerib lahenduse arhitektuuri.

Kasutage Amazon SageMaker Studiot, et luua kiireks katsetamiseks RAG-i küsimustele vastamise lahendus Llama 2, LangChaini ja Pinecone'iga | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikaalne otsing. Ai.

Lahenduse juurutamine koosneb kahest kõrgetasemelisest etapist: lahenduse väljatöötamine SageMaker Studio sülearvutite abil ja mudelite juurutamine järelduste tegemiseks.

Töötage lahendus välja SageMaker Studio sülearvutite abil

Lahenduse väljatöötamise alustamiseks täitke järgmised sammud.

Laadige Hugging Face Hubi vestlusmudel Llama-2 7b sülearvutisse.
Looge käsuga PromptMall LangChain ja kasutage seda oma kasutusjuhu jaoks viipade loomiseks.
1–2 näidisviipa jaoks lisage viipe kontekstina asjakohane staatiline tekst välistest dokumentidest ja hinnake, kas vastuste kvaliteet paraneb.
Eeldades, et kvaliteet paraneb, rakendage RAG-i küsimusele vastamise töövoog:
- Koguge kokku välised dokumendid, mis aitavad mudelil teie kasutusjuhtumi küsimustele paremini vastata.
- Laadige BGE manustamismudel ja kasutage seda nende dokumentide manuste loomiseks.
- Salvestage need manused käbide registris.
- Kui kasutaja esitab küsimuse, tehke Pinecone'is sarnasuse otsing ja lisage kõige sarnasemate dokumentide sisu viipa konteksti.

Juurutage mudelid SageMakerisse mastaabis järelduste tegemiseks

Kui saavutate oma jõudluseesmärgid, saate mudelid SageMakerisse juurutada generatiivsete AI-rakenduste jaoks.

Juurutage Llama-2 7b vestlusmudel SageMakeri reaalajas lõpp-punkti.
Juurutage BAAI/bge-small-en-v1.5 manustamismudel SageMakeri reaalajas lõpp-punkti.
Kasutage generatiivsetele AI-rakendustele vastates oma küsimuses juurutatud mudeleid.

Järgmistes jaotistes tutvustame teile selle lahenduse SageMaker Studio sülearvutites rakendamise etappe.

Eeldused

Selle postituse juhiste järgimiseks peab teil olema AWS-i konto ja AWS-i identiteedi- ja juurdepääsuhaldus (IAM) roll, millel on õigused luua lahendusressursse ja neile juurde pääseda. Kui olete AWS-i uus kasutaja, vaadake Looge eraldiseisev AWS-i konto.

SageMaker Studio märkmike kasutamiseks oma AWS-i kontol vajate a SageMakeri domeen kasutajaprofiiliga, millel on SageMaker Studio rakenduse käivitamise õigused. Kui olete SageMaker Studio uus kasutaja, Stuudio kiire seadistamine on kiireim viis alustamiseks. Ühe klõpsuga varustab SageMaker SageMakeri domeeni vaikeseadetega, sealhulgas kasutajaprofiili, IAM-rolli, IAM-i autentimise ja avaliku Interneti-juurdepääsu seadistamisega. Selle postituse märkmik eeldab, et ml.g5.2xlarge eksemplari tüüp. Kvoodi ülevaatamiseks või suurendamiseks avage AWS-i teenusekvootide konsool ja valige AWS-teenused valige navigeerimispaanil Amazon SageMakerja vaadake töötavate Studio KernelGateway rakenduste väärtust ml.g5.2xlarge juhtumeid.

Pärast kvoodipiirangu kinnitamist peate Llama 2 7b vestluse kasutamiseks lõpetama sõltuvused.

Llama 2 7b vestlus on saadaval all Lama 2 litsents. Llama 2-le juurdepääsuks Hugging Face'is peate esmalt täitma mõned sammud:

Looge Hugging Face'i konto, kui teil seda veel pole.
Täitke Meta vorm "Taotle juurdepääsu järgmisele Llama versioonile". veebisait.
Taotle juurdepääsu Laama 2 7b vestlus Kallistavas Näos.

Pärast juurdepääsu andmist saate mudelitele juurdepääsuks luua uue juurdepääsuloa. Juurdepääsuloa loomiseks liikuge lehele Seaded lehel Hugging Face veebisaidil.

Selle vektorandmebaasina kasutamiseks peab teil olema Pinecone'i konto. Pinecone on saadaval AWS-is aadressil AWS Marketplace. Pinecone veebisait pakub ka võimalust luua a tasuta konto millega on kaasas ühe indeksi loomise õigused, mis on selle postituse jaoks piisav. Pinecone võtmete toomiseks avage Pinecone konsool Ja vali API võtmed.

Seadistage märkmik ja keskkond

Selles postituses oleva koodi järgimiseks avage SageMaker Studio ja kloonige järgmine GitHubi hoidla. Järgmisena avage märkmik studio-local-gen-ai/rag/RAG-with-Llama-2-on-Studio.ipynb ja valige PyTorch 2.0.0 Python 3.10 GPU optimeeritud pilt, Python 3 kernel ja ml.g5.2xlarge eksemplari tüübina. Kui kasutate SageMaker Studio märkmikke esimest korda, vaadake Looge või avage Amazon SageMaker Studio sülearvuti.

Arenduskeskkonna seadistamiseks peate installima vajalikud Pythoni teegid, nagu on näidatud järgmises koodis:

%%writefile requirements.txt
sagemaker>=2.175.0
transformers==4.33.0
accelerate==0.21.0
datasets==2.13.0
langchain==0.0.297
pypdf>=3.16.3
pinecone-client
sentence_transformers
safetensors>=0.3.3

!pip install -U -r requirements.txt

Laadige eelkoolitatud mudel ja tokenisaator

Pärast vajalike teekide importimist saate laadida Laama-2 7b vestlus mudel koos Hugging Face'i vastavate tokenisaatoritega. Need laaditud mudeliartefaktid salvestatakse SageMaker Studio kohalikku kataloogi. See võimaldab teil need kiiresti mällu uuesti laadida, kui peate oma tööd mõnel muul ajal jätkama.

import torch from transformers import ( AutoTokenizer, LlamaTokenizer, LlamaForCausalLM, GenerationConfig, AutoModelForCausalLM
)
import transformers tg_model_id = "meta-llama/Llama-2-7b-chat-hf" #the model id in Hugging Face
tg_model_path = f"./tg_model/{tg_model_id}" #the local directory where the model will be saved tg_model = AutoModelForCausalLM.from_pretrained(tg_model_id, token=hf_access_token,do_sample=True, use_safetensors=True, device_map="auto", torch_dtype=torch.float16
tg_tokenizer = AutoTokenizer.from_pretrained(tg_model_id, token=hf_access_token) tg_model.save_pretrained(save_directory=tg_model_path, from_pt=True)
tg_tokenizer.save_pretrained(save_directory=tg_model_path, from_pt=True)

Esitage küsimus, mis nõuab ajakohast teavet

Nüüd saate mudelit kasutama hakata ja küsimusi esitada. Llama-2 vestlusmudelid eeldavad, et viip järgib järgmist vormingut:

<s>[INST] <<SYS>>
system_prompt
<<SYS>>
{{ user_message }} [/INST]

Võite kasutada PromptMall LangChainist, et luua viipavormingul põhinev retsept, et saaksite edaspidi lihtsalt viipasid luua:

from langchain import PromptTemplate template = """<s>[INST] <<SYS>>nYou are an assistant for question-answering tasks. You are helpful and friendly. Use the following pieces of retrieved context to answer the query. If you don't know the answer, you just say I don't know. Use three sentences maximum and keep the answer concise.
<<SYS>>n
{context}n
{question} [/INST] """
prompt_template = PromptTemplate( template=template, input_variables=['context','question'] )

Esitagem mudelile küsimus, mis vajab värsket teavet aastast 2023. Võite kasutada LangChaini ja konkreetselt LLMChain ahela tüüp ja edastage parameetritena LLM, varem loodud viipamall ja küsimus:

question = "When can I visit the AWS M&E Customer Experience Center in New York City?" tg_tokenizer.add_special_tokens( {"pad_token": "[PAD]"} )
tg_tokenizer.padding_side = "left" tg_pipe = transformers.pipeline(task='text-generation', model=tg_model, tokenizer=tg_tokenizer, num_return_sequences=1, eos_token_id=tg_tokenizer.eos_token_id, pad_token_id=tg_tokenizer.eos_token_id, max_new_tokens=400, temperature=0.7) from langchain.chains import LLMChain
from langchain.llms import HuggingFacePipeline llm=HuggingFacePipeline(pipeline=tg_pipe, model_kwargs={'temperature':0.7})
llm_chain = LLMChain(llm=llm, prompt=prompt_template)
no_context_response = llm_chain.predict(context="", question=question)
print(no_context_response)

Saame järgmise genereeritud vastuse:

Täname teid ühendust võtmast! AWS M&E kliendikogemuse keskus New Yorgis on praegu COVID-19 pandeemia tõttu külastamiseks suletud. Siiski saate vaadata nende ametlikku veebisaiti või sotsiaalmeedia kontosid, et saada värskendusi keskuse taasavamise kohta. Vahepeal saate uurida nende virtuaalseid ringkäike ja veebis saadaolevaid ressursse.

Parandage vastust, lisades viipale konteksti

Meie antud vastus ei vasta päris tõele. Vaatame, kas saame konteksti pakkudes seda paremaks muuta. Saate lisada postitusest väljavõtte AWS kuulutab välja uue M&E kliendikogemuse keskuse New Yorgis, mis sisaldab teema uuendusi alates 2023. aastast:

context = """Media and entertainment (M&E) customers continue to face challenges in creating more content, more quickly, and distributing it to more endpoints than ever before in their quest to delight viewers globally. Amazon Web Services (AWS), along with AWS Partners, have showcased the rapid evolution of M&E solutions for years at industry events like the National Association of Broadcasters (NAB) Show and the International Broadcast Convention (IBC). Until now, AWS for M&E technology demonstrations were accessible in this way just a few weeks out of the year. Customers are more engaged than ever before; they want to have higher quality conversations regarding user experience and media tooling. These conversations are best supported by having an interconnected solution architecture for reference. Scheduling a visit of the M&E Customer Experience Center will be available starting November 13th, please send an email to AWS-MediaEnt-CXC@amazon.com."""

Kasutage uuesti LLMChaini ja edastage eelnev tekst kontekstina:

context_response = llm_chain.predict(context=context, question=question)
print(context_response)

Uus vastus vastab küsimusele värske teabega:

AWS M&E kliendikogemuse keskust New Yorgis saate külastada alates 13. novembrist. Külastuse planeerimiseks saatke e-kiri aadressile AWS-MediaEnt-CXC@amazon.com.

Oleme kinnitanud, et õige konteksti lisamisega paraneb mudeli jõudlus. Nüüd saate keskenduda esitatud küsimusele õige konteksti leidmisele ja lisamisele. Teisisõnu rakendage RAG-i.

Rakendage RAG-i küsimustele vastamist BGE-manustuste ja männikoonuse abil

Praegusel hetkel peate mudeli teadmiste suurendamiseks otsustama teabeallikate üle. Need allikad võivad olla teie organisatsiooni sisemised veebilehed või dokumendid või avalikult kättesaadavad andmeallikad. Selle postituse jaoks ja lihtsuse huvides oleme valinud kaks 2023. aastal avaldatud AWS-i ajaveebi postitust:

Need postitused on kiireks juurdepääsuks juba PDF-dokumentidena saadaval SageMaker Studio andmeprojektide kataloogis. Dokumentide jagamiseks hallatavateks tükkideks saate kasutada Recursive CharacterTextSplitter LangChaini meetod:

from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import PyPDFDirectoryLoader loader = PyPDFDirectoryLoader("./data/") documents = loader.load() text_splitter=RecursiveCharacterTextSplitter( chunk_size=1000, chunk_overlap=5
)
docs = text_splitter.split_documents(documents)

Järgmisena kasutage BGE manustamismudelit bge-small-en poolt loodud Pekingi Tehisintellekti Akadeemia (BAAI) mis on saadaval Hugging Face'is, et luua nende tükkide manuseid. Laadige mudel alla ja salvestage Stuudio kohalikku kataloogi. Kasutame fp32, et see saaks töötada eksemplari CPU-s.

em_model_name = "BAAI/bge-small-en"
em_model_path = f"./em-model" from transformers import AutoModel
# Load model from HuggingFace Hub
em_model = AutoModel.from_pretrained(em_model_name,torch_dtype=torch.float32)
em_tokenizer = AutoTokenizer.from_pretrained(em_model_name,device="cuda") # save model to disk
em_tokenizer.save_pretrained(save_directory=f"{em_model_path}/model",from_pt=True)
em_model.save_pretrained(save_directory=f"{em_model_path}/model",from_pt=True)
em_model.eval()

Kasutage järgmist koodi, et luua funktsioon embedding_generator, mis võtab sisendiks dokumendi tükid ja genereerib BGE mudeli abil manused:

# Tokenize sentences
def tokenize_text(_input, device): return em_tokenizer( [_input], padding=True, truncation=True, return_tensors='pt' ).to(device) # Run embedding task as a function with model and text sentences as input
def embedding_generator(_input, normalize=True): # Compute token embeddings with torch.no_grad(): embedded_output = em_model( **tokenize_text( _input, em_model.device ) ) sentence_embeddings = embedded_output[0][:, 0] # normalize embeddings if normalize: sentence_embeddings = torch.nn.functional.normalize( sentence_embeddings, p=2, dim=1 ) return sentence_embeddings[0, :].tolist() sample_sentence_embedding = embedding_generator(docs[0].page_content)
print(f"Embedding size of the document --->", len(sample_sentence_embedding))

Selles postituses demonstreerime RAG-i töövoogu, kasutades hallatud pilvepõhist rakendust Pinecone vektori andmebaas mis pakub ka an API sarnasuse otsimiseks. Eelistatud vektorandmebaasi kasutamiseks võite järgmise koodi ümber kirjutada.

Initsialiseerime a Pinecone python klient ja looge uus vektorotsingu indeks, kasutades manustamismudeli väljundi pikkust. Kasutame LangChaini sisseehitatud Pinecone klassi, et neelata eelmises etapis loodud manuseid. See vajab kolme parameetrit: allaneelatavad dokumendid, manustamiste generaatori funktsioon ja käbiindeksi nimi.

import pinecone
pinecone.init( api_key = os.environ["PINECONE_API_KEY"], environment = os.environ["PINECONE_ENV"]
)
#check if index already exists, if not we create it
index_name = "rag-index"
if index_name not in pinecone.list_indexes(): pinecone.create_index( name=index_name, dimension=len(sample_sentence_embedding), ## 384 for bge-small-en metric='cosine' ) #insert the embeddings
from langchain.vectorstores import Pinecone
vector_store = Pinecone.from_documents( docs, embedding_generator, index_name=index_name
)

Kui vestlusmudel Llama-2 7B on mällu laaditud ja manused on integreeritud Pinecone indeksisse, saate nüüd need elemendid kombineerida, et täiustada Llama 2 vastuseid meie küsimustele vastamise kasutusjuhtumi puhul. Selle saavutamiseks võite kasutada LangChaini RetrievalQA, mis täiendab algset viipa kõige sarnasemate dokumentidega vektorpoest. Seadistades return_source_documents=True, näete vastuse osana vastuse koostamiseks kasutatud täpseid dokumente, mis võimaldab teil kontrollida vastuse õigsust.

from langchain.chains import RetrievalQA
import textwrap #helper method to improve the readability of the response
def print_response(llm_response): temp = [textwrap.fill(line, width=100) for line in llm_response['result'].split('n')] response = 'n'.join(temp) print(f"{llm_response['query']}n n{response}'n n Source Documents:") for source in llm_response["source_documents"]: print(source.metadata) llm_qa_chain = RetrievalQA.from_chain_type( llm=llm, #the Llama-2 7b chat model chain_type='stuff', retriever=vector_store.as_retriever(search_kwargs={"k": 2}), # perform similarity search in Pinecone return_source_documents=True, #show the documents that were used to answer the question chain_type_kwargs={"prompt": prompt_template}
)
print_response(llm_qa_chain(question))

Saame järgmise vastuse:

K: Millal saan külastada AWS M&E kliendikogemuse keskust New Yorgis?

V: Mul on hea meel aidata! Vastavalt kontekstile on AWS M&E kliendikogemuse keskus New Yorgis külastamiseks saadaval alates 13. novembrist. Külastuse planeerimiseks võite saata meili aadressile AWS-MediaEnt-CXC@amazon.com.

Alusdokumendid:

{'page': 4.0, 'source': 'data/AWS kuulutab välja uue M&E kliendikogemuse keskuse New Yorgis _ AWS for M&E Blog.pdf'}

{'page': 2.0, 'source': 'data/AWS kuulutab välja uue M&E kliendikogemuse keskuse New Yorgis _ AWS for M&E Blog.pdf'}

Proovime teistsugust küsimust:

question2=" How many awards have AWS Media Services won in 2023?"
print_response(llm_qa_chain(question2))

Saame järgmise vastuse:

K: Mitu auhinda on AWS Media Services 2023. aastal võitnud?

V: Blogipostituse kohaselt on AWS Media Services võitnud 2023. aastal viis tööstusauhinda.

Alusdokumendid:

{'page': 0.0, 'source': 'data/AWS Media Services pälvis tööstusharu tunnustusi _ AWS for M&E Blog.pdf'}

{'page': 1.0, 'source': 'data/AWS Media Services pälvis tööstusharu tunnustusi _ AWS for M&E Blog.pdf'}

Kui olete saavutanud piisava kindlustunde, saate mudelid kasutusele võtta SageMakeri lõpp-punktid reaalajas järelduste tegemiseks. Neid lõpp-punkte hallatakse täielikult ja need pakuvad automaatse skaleerimise tuge.

SageMaker pakub suuri mudeli järeldusi, kasutades suurte mudelite järelduste konteinereid (LMI), mida saame kasutada oma mudelite juurutamiseks. Need konteinerid on varustatud eelinstallitud avatud lähtekoodiga raamatukogudega, nagu DeepSpeed, mis hõlbustab jõudlust suurendavate tehnikate, näiteks tensori paralleelsuse rakendamist järelduste tegemisel. Lisaks kasutavad nad DJLServingit eelehitatud integreeritud mudelserverina. DJLSering on suure jõudlusega universaalne mudelite teenindamise lahendus, mis toetab dünaamilist partiide jaotamist ja töötajate automaatset skaleerimist, suurendades seeläbi läbilaskevõimet.

Meie lähenemisviisis kasutame SageMakeri LMI-d koos DJLServingi ja DeepSpeed Inference'iga, et juurutada Llama-2-chat 7b ja BGE mudeleid SageMakeri lõpp-punktides, mis töötavad ml.g5.2xlarge eksemplare, võimaldades reaalajas järeldusi. Kui soovite neid samme ise järgida, vaadake kaasasolevat märkmik üksikasjalike juhiste saamiseks.

Teil on vaja kahte ml.g5.2xlarge kasutuselevõtuks. Kvoodi ülevaatamiseks või suurendamiseks avage AWS-i teenusekvootide konsool ja valige AWS-teenused valige navigeerimispaanil Amazon SageMakerja vaadake väärtust ml.g5.2xlarge lõpp-punkti kasutamiseks.

Järgmised sammud kirjeldavad RAG-i töövoo kohandatud mudelite juurutamise protsessi SageMakeri lõpp-punktis.

Juurutage Laama-2 7b vestlusmudel SageMakeri reaalajas lõpp-punktile, mis töötab ml.g5.2xlarge näiteks kiireks teksti genereerimiseks.
Juurutage BAAI/bge-small-en-v1.5 manustamismudel SageMakeri reaalajas lõpp-punktile, mis töötab an ml.g5.2xlarge näiteks. Teise võimalusena saate juurutada oma manustamismudeli.
Esitage küsimus ja kasutage LangChaini RetrievalQA et täiendada viipa Pinecone'i kõige sarnasemate dokumentidega, kasutades seekord SageMakeri reaalajas lõpp-punktis juurutatud mudelit:

# convert your local LLM into SageMaker endpoint LLM
llm_sm_ep = SagemakerEndpoint( endpoint_name=tg_sm_model.endpoint_name, # <--- Your text-gen model endpoint name region_name=region, model_kwargs={ "temperature": 0.05, "max_new_tokens": 512 }, content_handler=content_handler,
) llm_qa_smep_chain = RetrievalQA.from_chain_type( llm=llm_sm_ep, # <--- This uses SageMaker Endpoint model for inference chain_type='stuff', retriever=vector_store.as_retriever(search_kwargs={"k": 2}), return_source_documents=True, chain_type_kwargs={"prompt": prompt_template}
)

Kasutage LangChaini, et kontrollida, kas SageMakeri lõpp-punkt koos manustamismudeliga töötab ootuspäraselt, et seda saaks kasutada edaspidiseks dokumentide sisestamiseks:

response_model = smr_client.invoke_endpoint( EndpointName=em_sm_model.endpoint_name, <--- Your embedding model endpoint name Body=json.dumps({ "text": "This is a sample text" }), ContentType="application/json",
) outputs = json.loads(response_model["Body"].read().decode("utf8"))['outputs']

Koristage

Oma ressursside puhastamiseks tehke järgmised sammud.

Kui olete SageMaker Studio sülearvutiga töötamise lõpetanud, sulgege kindlasti ml.g5.2xlarge näiteks, et vältida tasusid, valides stoppikooni. Saate ka seadistada elutsükli konfiguratsiooniskriptid ressursside automaatseks sulgemiseks, kui neid ei kasutata.

Kui juurutasite mudelid SageMakeri lõpp-punktidesse, käivitage lõpp-punktide kustutamiseks märkmiku lõpus järgmine kood.

#delete your text generation endpoint
sm_client.delete_endpoint( EndpointName=tg_sm_model.endpoint_name
)
# delete your text embedding endpoint
sm_client.delete_endpoint( EndpointName=em_sm_model.endpoint_name
)

Lõpuks käivitage Pinecone indeksi kustutamiseks järgmine rida:

pinecone.delete_index(index_name)

Järeldus

SageMakeri märkmikud pakuvad otsest viisi oma teekonna alustamiseks taasesitamise laiendatud põlvkonna abil. Need võimaldavad teil interaktiivselt katsetada erinevate mudelite, konfiguratsioonide ja küsimustega, ilma täiendavat infrastruktuuri loomata. Selles postituses näitasime, kuidas parandada Llama 2 7b vestluse toimivust küsimusele vastates, kasutades LangChaini, BGE manustamismudelit ja Pinecone'i. Alustamiseks käivitage SageMaker Studio ja käivitage märkmik saadaval järgnevalt GitHub repo. Palun jagage oma mõtteid kommentaaride jaotises!

Autoritest

Anastasia Tzeveleka on AWS-i masinõppe ja tehisintellekti lahenduste arhitekt. Ta töötab EMEA-s asuvate klientidega ja aitab neil AWS-i teenuste abil ulatuslikke masinõppelahendusi välja töötada. Ta on töötanud projektidega erinevates valdkondades, sealhulgas loomuliku keele töötlemise (NLP), MLOps ja Low Code No Code tööriistade kallal.

Pranav Murthy on AWS-i AI/ML-i spetsialistilahenduste arhitekt. Ta keskendub sellele, et aidata klientidel masinõppe (ML) töökoormust SageMakerisse luua, koolitada, juurutada ja üle viia. Varem töötas ta pooljuhttööstuses, arendades suuri arvutinägemise (CV) ja loomuliku keele töötlemise (NLP) mudeleid, et täiustada pooljuhtprotsesse. Vabal ajal meeldib talle malet mängida ja reisida.

SEO-põhise sisu ja PR-levi. Võimenduge juba täna.
PlatoData.Network Vertikaalne generatiivne Ai. Jõustage ennast. Juurdepääs siia.
PlatoAiStream. Web3 luure. Täiustatud teadmised. Juurdepääs siia.
PlatoESG. Süsinik, CleanTech, Energia, Keskkond päikeseenergia, Jäätmekäitluse. Juurdepääs siia.
PlatoTervis. Biotehnoloogia ja kliiniliste uuringute luureandmed. Juurdepääs siia.
Allikas: https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-studio-to-build-a-rag-question-answering-solution-with-llama-2-langchain-and-pinecone-for-fast-experimentation/

Ajatempel: November 20, 2023

Ajatempel: Oktoober 31, 2022

Taasavaldanud Platon

Mistral AI vundamendi Mistral 7B mudelid on nüüd saadaval Amazon SageMaker JumpStartis | Amazoni veebiteenused

Lubage Amazon Kendra skannitud või pildipõhise tekstidokumendi otsing

Ettevõtteandmete võimsuse kasutamine generatiivse tehisintellektiga: Amazon Kendra, LangChaini ja suurte keelemudelite ülevaated | Amazoni veebiteenused

Otsige nutikalt Alfresco sisu Amazon Kendra abil

Kiirendage klientide edu haldamist e-kirjade klassifitseerimise kaudu rakendusega Hugging Face Amazon SageMaker | Amazoni veebiteenused

AWS DeepRacer League 2022 väljakuulutamine

Amazon SageMaker Autopilot toetab nüüd aegridade andmeid

Bongo Learn pakub reaalajas tagasisidet, et parandada õpitulemusi rakendusega Amazon Transcribe

Lahendage äriprobleeme otsast lõpuni masinõppe abil Amazon SageMakeri JumpStart lahendustes

Meist

Vertikaalne otsing ja Ai

Platvorm

Püsi ühenduses

konto