Use Amazon SageMaker Studio To Build A RAG Question Answering Solution With Llama 2, LangChain, And Pinecone For Fast Experimentation

Genudgivet af Platon

Abonnenter: 0

Retrieval Augmented Generation (RAG) giver dig mulighed for at give en stor sprogmodel (LLM) adgang til data fra eksterne videnkilder såsom repositories, databaser og API'er uden at skulle finjustere den. Når du bruger generativ AI til besvarelse af spørgsmål, gør RAG det muligt for LLM'er at besvare spørgsmål med de mest relevante, opdaterede oplysninger og eventuelt citere deres datakilder til verifikation.

En typisk RAG-løsning til videnhentning fra dokumenter bruger en indlejringsmodel til at konvertere data fra datakilderne til indlejringer og gemmer disse indlejringer i en vektordatabase. Når en bruger stiller et spørgsmål, søger den i vektordatabasen og henter dokumenter, der minder mest om brugerens forespørgsel. Dernæst kombinerer den de hentede dokumenter og brugerens forespørgsel i en udvidet prompt, der sendes til LLM til tekstgenerering. Der er to modeller i denne implementering: indlejringsmodellen og den LLM, der genererer det endelige svar.

I dette indlæg viser vi, hvordan du bruger Amazon SageMaker Studio at bygge en RAG-spørgsmålsløsning.

Brug af notesbøger til RAG-baseret spørgsmålssvar

Implementering af RAG indebærer typisk at eksperimentere med forskellige indlejringsmodeller, vektordatabaser, tekstgenereringsmodeller og prompter, mens du også fejlretter din kode, indtil du opnår en funktionel prototype. Amazon SageMaker tilbyder administrerede Jupyter-notebooks udstyret med GPU-instanser, så du hurtigt kan eksperimentere i denne indledende fase uden at opbygge yderligere infrastruktur. Der er to muligheder for at bruge notesbøger i SageMaker. Den første mulighed er hurtig lancering notesbøger tilgængelig gennem SageMaker Studio. I SageMaker Studio, det integrerede udviklingsmiljø (IDE), der er specialbygget til ML, kan du starte notebooks, der kører på forskellige instanstyper og med forskellige konfigurationer, samarbejde med kolleger og få adgang til yderligere specialbyggede funktioner til maskinlæring (ML). Den anden mulighed er at bruge en SageMaker notebook-forekomst, som er en fuldt administreret ML-beregningsinstans, der kører Jupyter Notebook-appen.

I dette indlæg præsenterer vi en RAG-løsning, der udvider modellens viden med yderligere data fra eksterne videnkilder for at give mere præcise svar, der er specifikke for et tilpasset domæne. Vi bruger en enkelt SageMaker Studio notesbog, der kører på en ml.g5.2xlarge instans (1 A10G GPU) og Lama 2 7b chat hf, den finjusterede version af Llama 2 7b, som er optimeret til dialogbrug fra Hugging Face Hub. Vi bruger to AWS Media & Entertainment Blog-indlæg som eksempler på eksterne data, som vi konverterer til indlejringer med BAAI/bge-small-en-v1.5 indlejringer. Vi opbevarer indstøbningen i Grankogle, en vektorbaseret database, der tilbyder højtydende søgning og lighedsmatchning. Vi diskuterer også, hvordan du går fra at eksperimentere i notesbogen til at implementere dine modeller til SageMaker-slutpunkter til realtidsslutning, når du fuldfører din prototyping. Den samme tilgang kan bruges med forskellige modeller og vektordatabaser.

Løsningsoversigt

Følgende diagram illustrerer løsningsarkitekturen.

Use Amazon SageMaker Studio to build a RAG question answering solution with Llama 2, LangChain, and Pinecone for fast experimentation | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Implementering af løsningen består af to trin på højt niveau: udvikling af løsningen ved hjælp af SageMaker Studio-notebooks og implementering af modellerne til inferens.

Udvikl løsningen ved hjælp af SageMaker Studio-notebooks

Udfør følgende trin for at begynde at udvikle løsningen:

Indlæs Llama-2 7b-chatmodellen fra Hugging Face Hub i notesbogen.
Opret en promptskabelon med Langkæde og brug det til at oprette prompter til din use case.
For 1-2 eksempler på prompter skal du tilføje relevant statisk tekst fra eksterne dokumenter som promptkontekst og vurdere, om kvaliteten af svarene forbedres.
Forudsat at kvaliteten forbedres, implementer RAG-spørgsmålsbesvarelsen:
- Saml de eksterne dokumenter, der kan hjælpe modellen med bedre at besvare spørgsmålene i din use case.
- Indlæs BGE-indlejringsmodellen og brug den til at generere indlejringer af disse dokumenter.
- Gem disse indlejringer i et Pinecone-indeks.
- Når en bruger stiller et spørgsmål, skal du udføre en lighedssøgning i Pinecone og tilføje indholdet fra de mest lignende dokumenter til promptens kontekst.

Implementer modellerne til SageMaker til slutning i skala

Når du når dine præstationsmål, kan du implementere modellerne til SageMaker for at blive brugt af generative AI-applikationer:

Implementer Llama-2 7b-chatmodellen til et SageMaker-slutpunkt i realtid.
Implementér BAAI/bge-small-en-v1.5 indlejrer model til et SageMaker-endepunkt i realtid.
Brug de implementerede modeller i dit spørgsmål til at besvare generative AI-applikationer.

I de følgende afsnit leder vi dig gennem trinene til implementering af denne løsning i SageMaker Studio-notebooks.

Forudsætninger

For at følge trinene i dette indlæg skal du have en AWS-konto og en AWS identitets- og adgangsstyring (IAM) rolle med tilladelser til at oprette og få adgang til løsningsressourcerne. Hvis du er ny til AWS, se Opret en selvstændig AWS-konto.

For at bruge SageMaker Studio-notebooks på din AWS-konto skal du bruge en SageMaker domæne med en brugerprofil, der har tilladelser til at starte SageMaker Studio-appen. Hvis du er ny til SageMaker Studio, Hurtig opsætning af Studio er den hurtigste måde at komme i gang på. Med et enkelt klik forsyner SageMaker SageMaker-domænet med standardforudindstillinger, herunder opsætning af brugerprofil, IAM-rolle, IAM-godkendelse og offentlig internetadgang. Notesbogen til dette indlæg antager en ml.g5.2xlarge instanstype. For at gennemgå eller øge din kvote skal du åbne AWS Service Quotas-konsollen, vælge AWS tjenester i navigationsruden skal du vælge Amazon SageMaker, og se værdien for Studio KernelGateway-apps, der kører på ml.g5.2xlarge forekomster.

Efter at have bekræftet din kvotegrænse, skal du fuldføre afhængighederne for at bruge Llama 2 7b chat.

Llama 2 7b chat er tilgængelig under Llama 2 licens. For at få adgang til Llama 2 på Hugging Face skal du først udføre et par trin:

Opret en Hugging Face-konto, hvis du ikke allerede har en.
Udfyld formularen "Anmod om adgang til den næste version af Llama" på Meta hjemmeside.
Anmod om adgang til Lama 2 7b chat på Hugging Face.

Når du har fået adgang, kan du oprette et nyt adgangstoken for at få adgang til modeller. For at oprette et adgangstoken skal du navigere til Indstillinger side på Hugging Face-hjemmesiden.

Du skal have en konto hos Pinecone for at bruge den som en vektordatabase. Pinecone er tilgængelig på AWS via AWS Marketplace. Pinecone-webstedet tilbyder også muligheden for at oprette en gratis konto der kommer med tilladelser til at oprette et enkelt indeks, hvilket er tilstrækkeligt til formålet med dette indlæg. For at hente dine Pinecone-nøgler skal du åbne Pinecone konsol Og vælg API nøgler.

Konfigurer notesbogen og miljøet

For at følge koden i dette indlæg skal du åbne SageMaker Studio og klone følgende GitHub repository. Åbn derefter notesbogen studio-local-gen-ai/rag/RAG-with-Llama-2-on-Studio.ipynb og vælg PyTorch 2.0.0 Python 3.10 GPU Optimized-billedet, Python 3-kernen og ml.g5.2xlarge som instanstypen. Hvis det er første gang, du bruger SageMaker Studio-notebooks, skal du se Opret eller åbn en Amazon SageMaker Studio Notebook.

For at opsætte udviklingsmiljøet skal du installere de nødvendige Python-biblioteker, som vist i følgende kode:

%%writefile requirements.txt
sagemaker>=2.175.0
transformers==4.33.0
accelerate==0.21.0
datasets==2.13.0
langchain==0.0.297
pypdf>=3.16.3
pinecone-client
sentence_transformers
safetensors>=0.3.3

!pip install -U -r requirements.txt

Indlæs den fortrænede model og tokenizer

Når du har importeret de nødvendige biblioteker, kan du indlæse Lama-2 7b chat model sammen med dens tilsvarende tokenizere fra Hugging Face. Disse indlæste modelartefakter er gemt i den lokale mappe i SageMaker Studio. Dette giver dig mulighed for hurtigt at genindlæse dem i hukommelsen, når du har brug for at genoptage dit arbejde på et andet tidspunkt.

import torch from transformers import ( AutoTokenizer, LlamaTokenizer, LlamaForCausalLM, GenerationConfig, AutoModelForCausalLM
)
import transformers tg_model_id = "meta-llama/Llama-2-7b-chat-hf" #the model id in Hugging Face
tg_model_path = f"./tg_model/{tg_model_id}" #the local directory where the model will be saved tg_model = AutoModelForCausalLM.from_pretrained(tg_model_id, token=hf_access_token,do_sample=True, use_safetensors=True, device_map="auto", torch_dtype=torch.float16
tg_tokenizer = AutoTokenizer.from_pretrained(tg_model_id, token=hf_access_token) tg_model.save_pretrained(save_directory=tg_model_path, from_pt=True)
tg_tokenizer.save_pretrained(save_directory=tg_model_path, from_pt=True)

Stil et spørgsmål, der kræver ajourførte oplysninger

Du kan nu begynde at bruge modellen og stille spørgsmål. Llama-2-chatmodeller forventer, at prompten overholder følgende format:

<s>[INST] <<SYS>>
system_prompt
<<SYS>>
{{ user_message }} [/INST]

Du kan bruge PromptTemplate fra LangChain for at oprette en opskrift baseret på promptformatet, så du nemt kan oprette prompter fremadrettet:

from langchain import PromptTemplate template = """<s>[INST] <<SYS>>nYou are an assistant for question-answering tasks. You are helpful and friendly. Use the following pieces of retrieved context to answer the query. If you don't know the answer, you just say I don't know. Use three sentences maximum and keep the answer concise.
<<SYS>>n
{context}n
{question} [/INST] """
prompt_template = PromptTemplate( template=template, input_variables=['context','question'] )

Lad os stille modellen et spørgsmål, der har brug for seneste information fra 2023. Du kan bruge LangChain og specifikt LLMChain type kæde og videregive som parametre LLM, promptskabelonen, du oprettede tidligere, og spørgsmålet:

question = "When can I visit the AWS M&E Customer Experience Center in New York City?" tg_tokenizer.add_special_tokens( {"pad_token": "[PAD]"} )
tg_tokenizer.padding_side = "left" tg_pipe = transformers.pipeline(task='text-generation', model=tg_model, tokenizer=tg_tokenizer, num_return_sequences=1, eos_token_id=tg_tokenizer.eos_token_id, pad_token_id=tg_tokenizer.eos_token_id, max_new_tokens=400, temperature=0.7) from langchain.chains import LLMChain
from langchain.llms import HuggingFacePipeline llm=HuggingFacePipeline(pipeline=tg_pipe, model_kwargs={'temperature':0.7})
llm_chain = LLMChain(llm=llm, prompt=prompt_template)
no_context_response = llm_chain.predict(context="", question=question)
print(no_context_response)

Vi får følgende genererede svar:

Tak, fordi du henvendte dig! AWS M&E Customer Experience Center i New York City er i øjeblikket lukket for besøg på grund af COVID-19-pandemien. Du kan dog tjekke deres officielle hjemmeside eller sociale mediekonti for eventuelle opdateringer om, hvornår centret genåbner. I mellemtiden kan du udforske deres virtuelle ture og tilgængelige ressourcer online.

Forbedre svaret ved at tilføje kontekst til prompten

Det svar, vi genererede, er ikke helt sandt. Lad os se, om vi kan forbedre det ved at give noget kontekst. Du kan tilføje et uddrag fra indlægget AWS annoncerer nyt M&E Customer Experience Center i New York, som inkluderer opdateringer om emnet fra 2023:

context = """Media and entertainment (M&E) customers continue to face challenges in creating more content, more quickly, and distributing it to more endpoints than ever before in their quest to delight viewers globally. Amazon Web Services (AWS), along with AWS Partners, have showcased the rapid evolution of M&E solutions for years at industry events like the National Association of Broadcasters (NAB) Show and the International Broadcast Convention (IBC). Until now, AWS for M&E technology demonstrations were accessible in this way just a few weeks out of the year. Customers are more engaged than ever before; they want to have higher quality conversations regarding user experience and media tooling. These conversations are best supported by having an interconnected solution architecture for reference. Scheduling a visit of the M&E Customer Experience Center will be available starting November 13th, please send an email to AWS-MediaEnt-CXC@amazon.com."""

Brug LLMChain igen og send den foregående tekst som kontekst:

context_response = llm_chain.predict(context=context, question=question)
print(context_response)

Det nye svar besvarer spørgsmålet med opdateret information:

Du kan besøge AWS M&E Customer Experience Center i New York City fra den 13. november. Send venligst en e-mail til AWS-MediaEnt-CXC@amazon.com for at planlægge et besøg.

Vi har bekræftet, at ved at tilføje den rigtige kontekst, forbedres modellens ydeevne. Nu kan du fokusere din indsats på at finde og tilføje den rigtige kontekst for det stillede spørgsmål. Med andre ord implementer RAG.

Implementer besvarelse af RAG-spørgsmål med BGE-indlejringer og Pinecone

På dette tidspunkt skal du beslutte dig for informationskilderne for at forbedre modellens viden. Disse kilder kan være interne websider eller dokumenter i din organisation eller offentligt tilgængelige datakilder. Med henblik på dette indlæg og for enkelhedens skyld har vi valgt to AWS Blog-indlæg offentliggjort i 2023:

Disse indlæg er allerede tilgængelige som PDF-dokumenter i dataprojektbiblioteket i SageMaker Studio for hurtig adgang. For at opdele dokumenterne i håndterbare bidder, kan du bruge RecursiveCharacterTextSplitter metode fra LangChain:

from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import PyPDFDirectoryLoader loader = PyPDFDirectoryLoader("./data/") documents = loader.load() text_splitter=RecursiveCharacterTextSplitter( chunk_size=1000, chunk_overlap=5
)
docs = text_splitter.split_documents(documents)

Brug derefter BGE-indlejringsmodellen bge-small-en skabt af den Beijing Academy of Artificial Intelligence (BAAI) der er tilgængelig på Hugging Face for at generere indlejring af disse bidder. Download og gem modellen i den lokale mappe i Studio. Vi bruger fp32, så den kan køre på instansens CPU.

em_model_name = "BAAI/bge-small-en"
em_model_path = f"./em-model" from transformers import AutoModel
# Load model from HuggingFace Hub
em_model = AutoModel.from_pretrained(em_model_name,torch_dtype=torch.float32)
em_tokenizer = AutoTokenizer.from_pretrained(em_model_name,device="cuda") # save model to disk
em_tokenizer.save_pretrained(save_directory=f"{em_model_path}/model",from_pt=True)
em_model.save_pretrained(save_directory=f"{em_model_path}/model",from_pt=True)
em_model.eval()

Brug følgende kode til at oprette en embedding_generator-funktion, som tager dokumentstykkerne som input og genererer indlejringerne ved hjælp af BGE-modellen:

# Tokenize sentences
def tokenize_text(_input, device): return em_tokenizer( [_input], padding=True, truncation=True, return_tensors='pt' ).to(device) # Run embedding task as a function with model and text sentences as input
def embedding_generator(_input, normalize=True): # Compute token embeddings with torch.no_grad(): embedded_output = em_model( **tokenize_text( _input, em_model.device ) ) sentence_embeddings = embedded_output[0][:, 0] # normalize embeddings if normalize: sentence_embeddings = torch.nn.functional.normalize( sentence_embeddings, p=2, dim=1 ) return sentence_embeddings[0, :].tolist() sample_sentence_embedding = embedding_generator(docs[0].page_content)
print(f"Embedding size of the document --->", len(sample_sentence_embedding))

I dette indlæg demonstrerer vi en RAG-arbejdsgang ved hjælp af Pinecone, en administreret, cloud-native vektor database der også tilbyder en API til lighedssøgning. Du kan frit omskrive følgende kode for at bruge din foretrukne vektordatabase.

Vi initialiserer en Pinecone python klient og opret et nyt vektorsøgeindeks ved hjælp af indlejringsmodellens outputlængde. Vi bruger LangChains indbyggede Pinecone-klasse til at indtage de indlejringer, vi oprettede i det forrige trin. Den har brug for tre parametre: de dokumenter, der skal indtages, indlejringsgeneratorfunktionen og navnet på Pinecone-indekset.

import pinecone
pinecone.init( api_key = os.environ["PINECONE_API_KEY"], environment = os.environ["PINECONE_ENV"]
)
#check if index already exists, if not we create it
index_name = "rag-index"
if index_name not in pinecone.list_indexes(): pinecone.create_index( name=index_name, dimension=len(sample_sentence_embedding), ## 384 for bge-small-en metric='cosine' ) #insert the embeddings
from langchain.vectorstores import Pinecone
vector_store = Pinecone.from_documents( docs, embedding_generator, index_name=index_name
)

Med Llama-2 7B-chatmodellen indlæst i hukommelsen og indlejringerne integreret i Pinecone-indekset, kan du nu kombinere disse elementer for at forbedre Llama 2's svar til vores spørgsmål-svar-brug. For at opnå dette kan du bruge LangChain Hentning QA, som udvider den indledende prompt med de mest lignende dokumenter fra vektorlageret. Ved indstilling return_source_documents=True, får du synlighed i de nøjagtige dokumenter, der bruges til at generere svaret som en del af svaret, så du kan verificere nøjagtigheden af svaret.

from langchain.chains import RetrievalQA
import textwrap #helper method to improve the readability of the response
def print_response(llm_response): temp = [textwrap.fill(line, width=100) for line in llm_response['result'].split('n')] response = 'n'.join(temp) print(f"{llm_response['query']}n n{response}'n n Source Documents:") for source in llm_response["source_documents"]: print(source.metadata) llm_qa_chain = RetrievalQA.from_chain_type( llm=llm, #the Llama-2 7b chat model chain_type='stuff', retriever=vector_store.as_retriever(search_kwargs={"k": 2}), # perform similarity search in Pinecone return_source_documents=True, #show the documents that were used to answer the question chain_type_kwargs={"prompt": prompt_template}
)
print_response(llm_qa_chain(question))

Vi får følgende svar:

Q: Hvornår kan jeg besøge AWS M&E Customer Experience Center i New York City?

A: Jeg hjælper gerne! Ifølge konteksten vil AWS M&E Customer Experience Center i New York City være tilgængeligt for besøg fra den 13. november. Du kan sende en e-mail til AWS-MediaEnt-CXC@amazon.com for at planlægge et besøg.'

Kildedokumenter:

{'page': 4.0, 'source': 'data/AWS annoncerer nyt M&E Customer Experience Center i New York City _ AWS for M&E Blog.pdf'}

{'page': 2.0, 'source': 'data/AWS annoncerer nyt M&E Customer Experience Center i New York City _ AWS for M&E Blog.pdf'}

Lad os prøve et andet spørgsmål:

question2=" How many awards have AWS Media Services won in 2023?"
print_response(llm_qa_chain(question2))

Vi får følgende svar:

Q: Hvor mange priser har AWS Media Services vundet i 2023?

A: Ifølge blogindlægget har AWS Media Services vundet fem industripriser i 2023.'

Kildedokumenter:

{'page': 0.0, 'source': 'data/AWS Media Services awarded industry accolades _ AWS for M&E Blog.pdf'}

{'page': 1.0, 'source': 'data/AWS Media Services awarded industry accolades _ AWS for M&E Blog.pdf'}

Når du har etableret et tilstrækkeligt niveau af tillid, kan du implementere modellerne til SageMaker-endepunkter til realtidsslutning. Disse endepunkter administreres fuldt ud og tilbyder understøttelse af automatisk skalering.

SageMaker tilbyder store modelinferens ved hjælp af Large Model Inference-beholdere (LMI'er), som vi kan bruge til at implementere vores modeller. Disse containere er udstyret med forudinstallerede open source-biblioteker som DeepSpeed, hvilket letter implementeringen af præstationsforbedrende teknikker såsom tensorparallelisme under inferens. Derudover bruger de DJLServing som en forudbygget integreret modelserver. DJLServering er en højtydende, universel modelserveringsløsning, der tilbyder understøttelse af dynamisk batching og automatisk skalering af arbejdere, og derved øger gennemløbet.

I vores tilgang bruger vi SageMaker LMI med DJLServing og DeepSpeed Inference til at implementere Llama-2-chat 7b- og BGE-modellerne til SageMaker-slutpunkter, der kører på ml.g5.2xlarge instanser, hvilket muliggør inferens i realtid. Hvis du selv ønsker at følge disse trin, henvises til den medfølgende notesbog for detaljerede instruktioner.

Du skal bruge to ml.g5.2xlarge instanser til implementering. For at gennemgå eller øge din kvote skal du åbne AWS Service Quotas-konsollen, vælge AWS tjenester i navigationsruden skal du vælge Amazon SageMaker, og se værdien for ml.g5.2xlarge til brug af slutpunkt.

Følgende trin skitserer processen med at implementere tilpassede modeller til RAG-arbejdsgangen på et SageMaker-slutpunkt:

Implementér Lama-2 7b chat-model til et SageMaker-endepunkt i realtid, der kører på en ml.g5.2xlarge eksempel til hurtig tekstgenerering.
Implementér BAAI/bge-small-en-v1.5 indlejrer model til et SageMaker-endepunkt i realtid, der kører på en ml.g5.2xlarge eksempel. Alternativt kan du implementere din egen indlejringsmodel.
Stil et spørgsmål og brug LangChain Hentning QA for at udvide prompten med de mest lignende dokumenter fra Pinecone, denne gang ved at bruge modellen implementeret i SageMaker-realtidsslutpunktet:

# convert your local LLM into SageMaker endpoint LLM
llm_sm_ep = SagemakerEndpoint( endpoint_name=tg_sm_model.endpoint_name, # <--- Your text-gen model endpoint name region_name=region, model_kwargs={ "temperature": 0.05, "max_new_tokens": 512 }, content_handler=content_handler,
) llm_qa_smep_chain = RetrievalQA.from_chain_type( llm=llm_sm_ep, # <--- This uses SageMaker Endpoint model for inference chain_type='stuff', retriever=vector_store.as_retriever(search_kwargs={"k": 2}), return_source_documents=True, chain_type_kwargs={"prompt": prompt_template}
)

Brug LangChain til at verificere, at SageMaker-endepunktet med indlejringsmodellen fungerer som forventet, så det kan bruges til fremtidig dokumentindtagelse:

response_model = smr_client.invoke_endpoint( EndpointName=em_sm_model.endpoint_name, <--- Your embedding model endpoint name Body=json.dumps({ "text": "This is a sample text" }), ContentType="application/json",
) outputs = json.loads(response_model["Body"].read().decode("utf8"))['outputs']

Ryd op

Udfør følgende trin for at rydde op i dine ressourcer:

Når du er færdig med at arbejde i din SageMaker Studio notesbog, skal du sørge for at lukke ned ml.g5.2xlarge for at undgå gebyrer ved at vælge stop-ikonet. Du kan også sætte op livscykluskonfigurationsscripts for automatisk at lukke for ressourcer, når de ikke bliver brugt.

Hvis du implementerede modellerne til SageMaker-endepunkter, skal du køre følgende kode i slutningen af notesbogen for at slette slutpunkterne:

#delete your text generation endpoint
sm_client.delete_endpoint( EndpointName=tg_sm_model.endpoint_name
)
# delete your text embedding endpoint
sm_client.delete_endpoint( EndpointName=em_sm_model.endpoint_name
)

Til sidst skal du køre følgende linje for at slette Pinecone-indekset:

pinecone.delete_index(index_name)

Konklusion

SageMaker notebooks giver en ligetil måde at kickstarte din rejse med Retrieval Augmented Generation. De giver dig mulighed for at eksperimentere interaktivt med forskellige modeller, konfigurationer og spørgsmål uden at opbygge yderligere infrastruktur. I dette indlæg viste vi, hvordan man forbedrer ydeevnen af Llama 2 7b-chat i et spørgsmål, der besvarer use case ved hjælp af LangChain, BGE-indlejringsmodellen og Pinecone. For at komme i gang skal du starte SageMaker Studio og køre notesbog tilgængelig i det følgende GitHub repo. Del venligst dine tanker i kommentarfeltet!

Om forfatterne

Anastasia Tzeveleka er Machine Learning og AI Specialist Solutions Architect hos AWS. Hun arbejder med kunder i EMEA og hjælper dem med at udvikle maskinlæringsløsninger i stor skala ved hjælp af AWS-tjenester. Hun har arbejdet på projekter inden for forskellige domæner, herunder Natural Language Processing (NLP), MLOps og Low Code No Code-værktøjer.

Pranav Murthy er AI/ML Specialist Solutions Architect hos AWS. Han fokuserer på at hjælpe kunder med at opbygge, træne, implementere og migrere maskinlæring (ML) arbejdsbelastninger til SageMaker. Han har tidligere arbejdet i halvlederindustrien med at udvikle modeller for store computervision (CV) og naturlig sprogbehandling (NLP) for at forbedre halvlederprocesser. I sin fritid nyder han at spille skak og rejse.

SEO Powered Content & PR Distribution. Bliv forstærket i dag.
PlatoData.Network Vertical Generative Ai. Styrk dig selv. Adgang her.
PlatoAiStream. Web3 intelligens. Viden forstærket. Adgang her.
PlatoESG. Kulstof, CleanTech, Energi, Miljø, Solenergi, Affaldshåndtering. Adgang her.
PlatoHealth. Bioteknologiske og kliniske forsøgs intelligens. Adgang her.
Kilde: https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-studio-to-build-a-rag-question-answering-solution-with-llama-2-langchain-and-pinecone-for-fast-experimentation/

Tidsstempel: November 20, 2023

Tidsstempel: Oktober 31, 2022

Genudgivet af Platon

Mistral 7B-fundamentmodeller fra Mistral AI er nu tilgængelige i Amazon SageMaker JumpStart | Amazon Web Services

Aktiver Amazon Kendra-søgning efter et scannet eller billedbaseret tekstdokument

Udnyt kraften i virksomhedsdata med generativ AI: Indsigt fra Amazon Kendra, LangChain og store sprogmodeller | Amazon Web Services

Søg intelligent Alfresco-indhold ved hjælp af Amazon Kendra

Fremskynd styring af klientsucces gennem e-mailklassificering med Hugging Face på Amazon SageMaker | Amazon Web Services

Annoncering af AWS DeepRacer League 2022

Amazon SageMaker Autopilot understøtter nu tidsseriedata

Bongo Learn giver feedback i realtid for at forbedre læringsresultater med Amazon Transcribe

Løs forretningsproblemer ende-til-ende gennem maskinlæring i Amazon SageMaker JumpStart-løsninger

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto