Łagodzenie halucynacji poprzez odzyskiwanie rozszerzonej generacji za pomocą bazy danych wektorów Pinecone i Lamy-2 z Amazon SageMaker JumpStart

Opublikowane ponownie przez Plato

Obserwuje: 0

Pomimo pozornie niepowstrzymanego stosowania LLM w różnych branżach, są one jednym z elementów szerszego ekosystemu technologicznego, który napędza nową falę sztucznej inteligencji. Wiele przypadków użycia sztucznej inteligencji do konwersacji wymaga, aby LLM, takie jak Llama 2, Flan T5 i Bloom, odpowiadały na zapytania użytkowników. Modele te opierają się na wiedzy parametrycznej, aby odpowiedzieć na pytania. Model uczy się tej wiedzy podczas uczenia i koduje ją w parametrach modelu. Aby zaktualizować tę wiedzę, musimy przekwalifikować LLM, co zajmuje dużo czasu i pieniędzy.

Na szczęście możemy również korzystać z wiedzy źródłowej, aby informować nasze LLM. Wiedza źródłowa to informacja wprowadzana do LLM poprzez zachętę do wprowadzania danych. Jednym z popularnych podejść do dostarczania wiedzy źródłowej jest generowanie rozszerzone wyszukiwania (RAG). Korzystając z RAG, pobieramy odpowiednie informacje z zewnętrznego źródła danych i wprowadzamy je do LLM.

W tym poście na blogu przyjrzymy się, jak wdrożyć LLM, takie jak Llama-2, za pomocą Amazon Sagemaker JumpStart i aktualizować nasze LLM za pomocą odpowiednich informacji za pomocą generowania rozszerzonego wyszukiwania (RAG) przy użyciu wektorowej bazy danych Pinecone, aby zapobiec halucynacji AI .

Odzyskiwanie Augmented Generation (RAG) w Amazon SageMaker

Pinecone obsłuży komponent pobierania RAG, ale potrzebne są jeszcze dwa krytyczne komponenty: miejsce, w którym można uruchomić wnioskowanie LLM, i miejsce, w którym można uruchomić model osadzania.

Amazon SageMaker Studio to zintegrowane środowisko programistyczne (IDE), które zapewnia pojedynczy internetowy interfejs wizualny, w którym można uzyskać dostęp do specjalnie zaprojektowanych narzędzi do wykonywania wszystkich prac programistycznych związanych z uczeniem maszynowym (ML). Zapewnia SageMaker JumpStart, który jest centrum modeli, w którym użytkownicy mogą zlokalizować, wyświetlić podgląd i uruchomić konkretny model na swoim własnym koncie SageMaker. Zapewnia wstępnie przeszkolone, publicznie dostępne i zastrzeżone modele dla szerokiego zakresu typów problemów, w tym modele podstawowe.

Amazon SageMaker Studio zapewnia idealne środowisko do tworzenia potoków LLM z obsługą RAG. Najpierw, korzystając z konsoli AWS, przejdź do Amazon SageMaker i utwórz domenę SageMaker Studio i otwórz notatnik Jupyter Studio.

Wymagania wstępne

Wykonaj następujące wymagane kroki:

Skonfiguruj studio Amazon SageMaker.
Dołącz do domeny Amazon SageMaker.
Zarejestruj się, aby uzyskać bezpłatną bazę danych wektorów Pinecone.
Wymagane biblioteki: SageMaker Python SDK, Pinecone Client

Przewodnik po rozwiązaniu

Korzystając z notatnika SageMaker Studio, najpierw musimy zainstalować wymagane biblioteki:

!pip install -qU sagemaker pinecone-client==2.2.1 ipywidgets==7.0.0

Wdrażanie LLM

W tym poście omawiamy dwa podejścia do wdrażania LLM. Pierwsza odbywa się przez HuggingFaceModel obiekt. Możesz tego użyć podczas wdrażania LLM (i osadzania modeli) bezpośrednio z centrum modeli Hugging Face.

Można na przykład utworzyć konfigurację do wdrożenia dla pliku google/flan-t5-xl model jak pokazano na poniższym zrzucie ekranu:

import sagemaker
from sagemaker.huggingface import (
HuggingFaceModel, get_huggingface_llm_image_uri
)
role = sagemaker.get_execution_role()
hub_config = {'HF_MODEL_ID':'google/flan-t5-xl', # model_id from hf.co/models 'HF_TASK':'text-generation' # NLP task you want to use for predictions # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri("huggingface", version="0.8.2"&)
huggingface_model = HuggingFaceModel(env=hub_config, role=role, # iam role with permissions to create an Endpoint image_uri=llm_image
)

Podczas wdrażania modeli bezpośrednio z Hugging Face zainicjuj plik my_model_configuration z następującymi:

An env config mówi nam, jakiego modelu chcemy użyć i do jakiego zadania.
Nasza realizacja SageMakera role daje nam uprawnienia do wdrożenia naszego modelu.
An image_uri to konfiguracja obrazu przeznaczona specjalnie do wdrażania LLM z Hugging Face.

Alternatywnie SageMaker ma zestaw modeli bezpośrednio kompatybilnych z prostszymi JumpStartModel obiekt. Ten model obsługuje wiele popularnych LLM, takich jak Llama 2, które można zainicjować, jak pokazano na poniższym zrzucie ekranu:

import sagemaker from sagemaker.jumpstart.model import JumpStartModel role = sagemaker.get_execution_role() my_model = JumpStartModel(model_id = "meta-textgeneration-llama-2-7b-f")

Dla obu wersji my_model, rozmieść je, jak pokazano na poniższym zrzucie ekranu:

predictor = my_model.deploy( initial_instance_count=1, instance_type="ml.g5.4xlarge", endpoint_name="llama-2-generator")

Wysyłanie zapytań do wstępnie przeszkolonego LLM

Dzięki naszemu zainicjowanemu punktowi końcowemu LLM możesz rozpocząć wysyłanie zapytań. Format naszych zapytań może się różnić (szczególnie między konwersacyjnymi i niekonwersacyjnymi LLM), ale proces jest generalnie taki sam. W przypadku modelu Przytulona twarz wykonaj następujące czynności:

# https://aws.amazon.com/blogs/machine-learning/llama-2-foundation-models-from-meta-are-now-available-in-amazon-sagemaker-jumpstart/ prompt = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know ANSWER: """ payload = { "inputs": [ [ {"role": "system", "content": prompt}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
out[0]['generation']['content']

Rozwiązanie znajdziesz w Repozytorium GitHub.

Wygenerowana odpowiedź, którą tu otrzymujemy, nie ma większego sensu — to halucynacja.

Zapewnienie dodatkowego kontekstu dla LLM

Lama 2 próbuje odpowiedzieć na nasze pytanie bazując wyłącznie na wewnętrznej wiedzy parametrycznej. Jest oczywiste, że parametry modelu nie przechowują wiedzy o tym, które instancje możemy zastosować w przypadku zarządzanego szkolenia punktowego w SageMaker.

Aby poprawnie odpowiedzieć na to pytanie, musimy skorzystać z wiedzy źródłowej. Oznacza to, że przekazujemy LLM dodatkowe informacje za pośrednictwem podpowiedzi. Dodajmy te informacje bezpośrednio jako dodatkowy kontekst dla modelu.

context = """Managed Spot Training can be used with all instances
supported in Amazon SageMaker. Managed Spot Training is supported
in all AWS Regions where Amazon SageMaker is currently available.""" prompt_template = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know". CONTEXT:
{context} ANSWER: """ text_input = prompt_template.replace("{context}", context).replace("{question}", question) payload = { "inputs": [ [ {"role": "system", "content": text_input}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}") [Input]: Which instances can I use with Managed Spot Training in SageMaker? [Output]:  Based on the given context, you can use Managed Spot Training with all instances supported in Amazon SageMaker. Therefore, the answer is: All instances supported in Amazon SageMaker.

Widzimy teraz poprawną odpowiedź na pytanie; to było łatwe! Jednak jest mało prawdopodobne, aby użytkownik wstawiał konteksty do swoich podpowiedzi, znałby już odpowiedź na swoje pytanie.

Zamiast ręcznie wstawiać pojedynczy kontekst, automatycznie identyfikuj istotne informacje z bardziej rozbudowanej bazy danych. W tym celu będziesz potrzebować generacji rozszerzonej pobierania.

Odzyskanie Augmented Generation

Dzięki funkcji Retrieval Augmented Generation można zakodować bazę danych informacji w przestrzeni wektorowej, gdzie bliskość wektorów reprezentuje ich znaczenie/podobieństwo semantyczne. Używając tej przestrzeni wektorowej jako bazy wiedzy, możesz przekonwertować nowe zapytanie użytkownika, zakodować je w tej samej przestrzeni wektorowej i pobrać najbardziej odpowiednie rekordy, które zostały wcześniej zaindeksowane.

Po pobraniu tych odpowiednich rekordów wybierz kilka z nich i uwzględnij je w monicie LLM jako dodatkowy kontekst, zapewniając LLM bardzo odpowiednią wiedzę źródłową. Jest to proces dwuetapowy, podczas którego:

Indeksowanie wypełnia indeks wektorowy informacjami ze zbioru danych.
Pobieranie odbywa się podczas zapytania i polega na pobieraniu odpowiednich informacji z indeksu wektorowego.

Obydwa etapy wymagają modelu osadzania w celu przetłumaczenia naszego czytelnego dla człowieka zwykłego tekstu na semantyczną przestrzeń wektorową. Użyj wysoce wydajnego transformatora zdań MiniLM firmy Hugging Face, jak pokazano na poniższym zrzucie ekranu. Ten model nie jest modelem LLM i dlatego nie jest inicjowany w taki sam sposób, jak nasz model Lamy 2.

hub_config = { "HF_MODEL_ID": "sentence-transformers/all-MiniLM-L6-v2", # model_id from hf.co/models "HF_TASK": "feature-extraction",
} huggingface_model = HuggingFaceModel( env=hub_config, role=role, transformers_version="4.6", # transformers version used pytorch_version="1.7", # pytorch version used py_version="py36", # python version of the DLC
)

W hub_config, określ identyfikator modelu, jak pokazano na zrzucie ekranu powyżej, ale do tego zadania użyj wyodrębniania cech, ponieważ generujemy osadzanie wektorów, a nie tekst jak nasz LLM. Następnie zainicjuj konfigurację modelu za pomocą HuggingFaceModel jak poprzednio, ale tym razem bez obrazu LLM i z pewnymi parametrami wersji.

encoder = huggingface_model.deploy( initial_instance_count=1, instance_type="ml.t2.large", endpoint_name="minilm-embedding"
)

Możesz ponownie wdrożyć model za pomocą deploy, używając mniejszej (tylko CPU) instancji ml.t2.large. Model MiniLM jest malutki, więc nie wymaga dużej ilości pamięci i nie potrzebuje procesora graficznego, ponieważ może szybko tworzyć osady nawet na procesorze. Jeśli wolisz, możesz uruchomić model szybciej na GPU.

Aby utworzyć osadzenie, użyj opcji predict metodę i przekazać listę kontekstów do zakodowania za pomocą metody inputs klucz jak pokazano:

out = encoder.predict({"inputs": ["some text here", "some more text goes here too"]})

Przekazywane są dwa konteksty wejściowe, zwracając dwa osadzania wektorów kontekstu, jak pokazano:

len(out)

2

Osadzająca wymiarowość modelu MiniLM jest 384 co oznacza, że każdy wektor osadzający wyjścia MiniLM powinien mieć wymiar 384. Jednak patrząc na długość naszych osadów, zobaczysz, co następuje:

len(out[0]), len(out[1])

(8, 8)

Dwie listy zawierają po osiem pozycji każda. MiniLM najpierw przetwarza tekst w etapie tokenizacji. Ta tokenizacja przekształca nasz czytelny dla człowieka zwykły tekst w listę identyfikatorów tokenów czytelnych dla modelu. W cechach wyjściowych modelu można zobaczyć osadzenie na poziomie tokenu. jedno z tych osadzania pokazuje oczekiwaną wymiarowość 384 jak pokazano:

len(out[0][0])

384

Przekształć te osadzania na poziomie tokenu w osadzania na poziomie dokumentu, używając średnich wartości w każdym wymiarze wektorowym, jak pokazano na poniższej ilustracji.

Operacja łączenia średnich w celu uzyskania pojedynczego wektora 384-wymiarowego.

import numpy as np embeddings = np.mean(np.array(out), axis=1)embeddings.shape(2, 384)

Z dwoma 384-wymiarowymi osadzaniami wektorowymi, po jednym dla każdego tekstu wejściowego. Aby ułatwić nam życie, owiń proces kodowania w jedną funkcję, jak pokazano na poniższym zrzucie ekranu:

from typing import List def embed_docs(docs: List[str]) -> List[List[float]]: out = encoder.predict({"inputs": docs}) embeddings = np.mean(np.array(out), axis=1) return embeddings.tolist()

Pobieranie zbioru danych

Pobierz FAQ Amazon SageMaker jako bazę wiedzy, aby uzyskać dane zawierające zarówno kolumny pytań, jak i odpowiedzi.

Pobierz często zadawane pytania dotyczące Amazon SageMaker

Podczas wyszukiwania szukaj tylko odpowiedzi, aby móc usunąć kolumnę Pytanie. Szczegóły znajdziesz w notatniku.

Nasz zestaw danych i potok osadzania są gotowe. Teraz potrzebujemy tylko miejsca do przechowywania tych osadów.

Indeksowanie

Baza danych wektorów Pinecone przechowuje osadzenia wektorów i efektywnie je przeszukuje na dużą skalę. Do utworzenia bazy danych będziesz potrzebować darmowego klucza API firmy Pinecone.

import pinecone
import os # add Pinecone API key from app.pinecone.io
api_key = os.environ.get("PINECONE_API_KEY") or "YOUR_API_KEY"
# set Pinecone environment - find next to API key in console
env = os.environ.get("PINECONE_ENVIRONMENT") or "YOUR_ENV" pinecone.init(api_key=api_key, environment=env)

Po połączeniu się z bazą wektorów Pinecone utwórz pojedynczy indeks wektorowy (podobnie jak tabela w tradycyjnych bazach danych). Nazwij indeks retrieval-augmentation-aws i wyrównaj indeks dimension i metric parametry z wymaganymi przez model osadzania (w tym przypadku MiniLM).

import time index_name = "retrieval-augmentation-aws" if index_name in pinecone.list_indexes(): pinecone.delete_index(index_name) pinecone.create_index(name=index_name, dimension=embeddings.shape[1], metric="cosine")
# wait for index to finish initialization
while not pinecone.describe_index(index_name).status["ready"]: time.sleep(1)

Aby rozpocząć wstawianie danych, wykonaj następujące czynności:

from tqdm.auto import tqdm batch_size = 2 # can increase but needs larger instance size otherwise instance runs out of memory
vector_limit = 1000 answers = df_knowledge[:vector_limit]
index = pinecone.Index(index_name) for i in tqdm(range(0, len(answers), batch_size)): # find end of batch i_end = min(i + batch_size, len(answers)) # create IDs batch ids = [str(x) for x in range(i, i_end)] # create metadata batch metadatas = [{"text": text} for text in answers["Answer"][i:i_end]] # create embeddings texts = answers["Answer"][i:i_end].tolist() embeddings = embed_docs(texts) # create records list for upsert records = zip(ids, embeddings, metadatas) # upsert to Pinecone index.upsert(vectors=records)

Możesz rozpocząć wysyłanie zapytań do indeksu od pytania z wcześniejszej części tego postu.

# extract embeddings for the questions
query_vec = embed_docs(question)[0] # query pinecone
res = index.query(query_vec, top_k=1, include_metadata=True) # show the results
res
{'matches': [{'id': '90', 'metadata': {'text': 'Managed Spot Training can be used with all ' 'instances supported in Amazon ' 'SageMaker.rn'}, 'score': 0.881181657, 'values': []}], 'namespace': ''}

Powyższe dane wyjściowe pokazują, że zwracamy odpowiednie konteksty, które pomogą nam odpowiedzieć na nasze pytanie. Odkiedy top_k = 1, index.query zwrócił najwyższy wynik wraz z metadanymi, które czytają Managed Spot Training can be used with all instances supported in Amazon.

Rozszerzanie podpowiedzi

Użyj pobranych kontekstów, aby rozszerzyć podpowiedzi i zdecydować o maksymalnej ilości kontekstu, który ma zostać wprowadzony do LLM. Użyj 1000 limit znaków, aby iteracyjnie dodawać każdy zwrócony kontekst do zachęty, dopóki nie przekroczysz długości treści.

Rozszerzanie podpowiedzi

Karmić context_str w wierszu polecenia LLM, jak pokazano na poniższym zrzucie ekranu:

payload = create_payload(question, context_str)
out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}")

[Wkład]: Z jakich instancji mogę korzystać w przypadku szkoleń zarządzanych w miejscu docelowym w SageMaker? [Wyniki]: W oparciu o podany kontekst możesz skorzystać ze szkolenia w miejscu zarządzanym ze wszystkimi instancjami obsługiwanymi w Amazon SageMaker. Dlatego odpowiedź brzmi: Wszystkie instancje obsługiwane w Amazon SageMaker.

Logika działa, więc zamknij ją w jedną funkcję, aby zachować porządek.

def rag_query(question: str) -> str: # create query vec query_vec = embed_docs(question)[0] # query pinecone res = index.query(query_vec, top_k=5, include_metadata=True) # get contexts contexts = [match.metadata["text"] for match in res.matches] # build the multiple contexts string context_str = construct_context(contexts=contexts) # create our retrieval augmented prompt payload = create_payload(question, context_str) # make prediction out = predictor.predict(payload, custom_attributes='accept_eula=true') return out[0]["generation"]["content"]

Możesz teraz zadawać pytania podobne do tych pokazanych poniżej:

rag_query("Does SageMaker support spot instances?") ' Yes, Amazon SageMaker supports spot instances for managed spot training. According to the provided context, Managed Spot Training can be used with all instances supported in Amazon SageMaker, and Managed Spot Training is supported in all AWS Regions where Amazon SageMaker is currently available.nnTherefore, the answer to your question is:nnYes, SageMaker supports spot instances in all regions where Amazon SageMaker is available.'

Sprzątać

Aby przestać naliczać niechciane opłaty, usuń model i punkt końcowy.

encoder.delete_model() encoder.delete_endpoint()

Wnioski

W tym poście przedstawiliśmy Ci RAG z ogólnodostępnymi LLM w SageMaker. Pokazaliśmy także, jak wdrożyć modele Amazon SageMaker Jumpstart z Llama 2, Hugging Face LLM z Flan T5 i osadzanie modeli za pomocą MiniLM.

Wdrożyliśmy kompletny, kompleksowy potok RAG, korzystając z naszych modeli o otwartym dostępie i indeksu wektorowego Pinecone. Korzystając z tego, pokazaliśmy, jak zminimalizować halucynacje i aktualizować wiedzę LLM, a ostatecznie poprawić doświadczenie użytkownika i zaufanie do naszych systemów.

Aby samodzielnie uruchomić ten przykład, sklonuj to repozytorium GitHub i wykonaj poprzednie kroki, korzystając z narzędzia Notatnik z odpowiedziami na pytania w serwisie GitHub.

O autorach

Zdjęcie profilowe Vedant Jain Wedant Jain jest starszym specjalistą AI/ML, pracującym nad strategicznymi inicjatywami generatywnej AI. Przed dołączeniem do AWS Vedant zajmował stanowiska specjalizujące się w ML/Data Science w różnych firmach, takich jak Databricks, Hortonworks (obecnie Cloudera) i JP Morgan Chase. Poza pracą Vedant pasjonuje się tworzeniem muzyki, wspinaczką skałkową, wykorzystywaniem nauki do prowadzenia sensownego życia i odkrywaniem kuchni z całego świata.

Jamesa Briggsa jest rzecznikiem programistów w firmie Pinecone, specjalizującym się w wyszukiwaniu wektorowym i AI/ML. Pomaga programistom i firmom w opracowywaniu własnych rozwiązań GenAI poprzez edukację online. Przed Pinecone James pracował nad sztuczną inteligencją dla małych start-upów technologicznych i uznanych korporacji finansowych. Poza pracą James pasjonuje się podróżami i przeżywaniem nowych przygód, od surfingu i nurkowania po Muay Thai i BJJ.

Xin Huang jest starszym naukowcem zajmującym się wbudowanymi algorytmami Amazon SageMaker JumpStart i Amazon SageMaker. Koncentruje się na rozwijaniu skalowalnych algorytmów uczenia maszynowego. Jego zainteresowania badawcze obejmują obszar przetwarzania języka naturalnego, wyjaśnialne głębokie uczenie się na danych tabelarycznych oraz solidną analizę nieparametrycznego grupowania czasoprzestrzennego. Opublikował wiele artykułów na konferencjach ACL, ICDM, KDD i Royal Statistical Society: Series A.

Dystrybucja treści i PR oparta na SEO. Uzyskaj wzmocnienie już dziś.
PlatoData.Network Pionowe generatywne AI. Wzmocnij się. Dostęp tutaj.
PlatoAiStream. Inteligencja Web3. Wiedza wzmocniona. Dostęp tutaj.
PlatonESG. Węgiel Czysta technologia, Energia, Środowisko, Słoneczny, Gospodarowanie odpadami. Dostęp tutaj.
Platon Zdrowie. Inteligencja w zakresie biotechnologii i badań klinicznych. Dostęp tutaj.
Źródło: https://aws.amazon.com/blogs/machine-learning/mitigate-hallucinations-through-retrieval-augmented-generation-using-pinecone-vector-database-llama-2-from-amazon-sagemaker-jumpstart/

Znak czasu: 6 grudnia 2023 r.

Znak czasu: Kwiecień 24, 2024

Łagodzenie halucynacji poprzez generację rozszerzoną odzyskiwania przy użyciu bazy danych wektorów Pinecone i Lamy-2 z Amazon SageMaker JumpStart | Usługi internetowe Amazona

Opublikowane ponownie przez Plato

Odzyskiwanie Augmented Generation (RAG) w Amazon SageMaker

Wymagania wstępne

Przewodnik po rozwiązaniu

Wdrażanie LLM

Wysyłanie zapytań do wstępnie przeszkolonego LLM

Zapewnienie dodatkowego kontekstu dla LLM

Odzyskanie Augmented Generation

Pobieranie zbioru danych

Indeksowanie

Rozszerzanie podpowiedzi

Sprzątać

Wnioski

O autorach

Więcej z Uczenie maszynowe AWS

Wydajnie trenuj, dostrajaj i wdrażaj niestandardowe zespoły za pomocą Amazon SageMaker | Usługi sieciowe Amazona

Użyj Amazon SageMaker Data Wrangler do przygotowywania danych i Studio Labs, aby uczyć się i eksperymentować z ML

Wykryj wariancję populacji zagrożonych gatunków za pomocą Amazon Rekognition

Wybierz konkretne serie czasowe do prognozowania za pomocą prognozy Amazon

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto