Mengurangi Halusinasi Melalui Pengambilan Augmented Generation Menggunakan Database Vektor Biji Pinus & Llama-2 Dari Amazon SageMaker JumpStart

Diterbitkan Ulang Oleh Plato

Followers: 0

Meskipun adopsi LLM di berbagai industri tampaknya tidak dapat dihentikan, LLM merupakan salah satu komponen ekosistem teknologi yang lebih luas yang mendukung gelombang AI baru. Banyak kasus penggunaan AI percakapan memerlukan LLM seperti Llama 2, Flan T5, dan Bloom untuk merespons pertanyaan pengguna. Model ini mengandalkan pengetahuan parametrik untuk menjawab pertanyaan. Model mempelajari pengetahuan ini selama pelatihan dan mengkodekannya ke dalam parameter model. Untuk memperbarui pengetahuan ini, kita harus melatih kembali LLM, yang membutuhkan banyak waktu dan uang.

Untungnya, kami juga dapat menggunakan sumber pengetahuan untuk menginformasikan LLM kami. Sumber pengetahuan adalah informasi yang dimasukkan ke dalam LLM melalui input prompt. Salah satu pendekatan populer untuk menyediakan sumber pengetahuan adalah Retrieval Augmented Generation (RAG). Dengan menggunakan RAG, kami mengambil informasi yang relevan dari sumber data eksternal dan memasukkan informasi tersebut ke dalam LLM.

Dalam postingan blog ini, kami akan mempelajari cara menerapkan LLM seperti Llama-2 menggunakan Amazon Sagemaker JumpStart dan terus memperbarui LLM kami dengan informasi yang relevan melalui Retrieval Augmented Generation (RAG) menggunakan database vektor Pinecone untuk mencegah Halusinasi AI .

Pengambilan Augmented Generation (RAG) di Amazon SageMaker

Pinecone akan menangani komponen pengambilan RAG, tetapi Anda memerlukan dua komponen penting lainnya: tempat untuk menjalankan inferensi LLM dan tempat untuk menjalankan model penyematan.

Amazon SageMaker Studio merupakan lingkungan pengembangan terintegrasi (IDE) yang menyediakan antarmuka visual berbasis web tunggal tempat Anda dapat mengakses alat yang dibuat khusus untuk melakukan semua pengembangan pembelajaran mesin (ML). Ini menyediakan SageMaker JumpStart yang merupakan hub model di mana pengguna dapat menemukan, melihat pratinjau, dan meluncurkan model tertentu di akun SageMaker mereka sendiri. Ini menyediakan model yang telah dilatih sebelumnya, tersedia untuk umum, dan eksklusif untuk berbagai jenis masalah, termasuk Model Fondasi.

Amazon SageMaker Studio menyediakan lingkungan ideal untuk mengembangkan pipeline LLM berkemampuan RAG. Pertama, menggunakan konsol AWS, buka Amazon SageMaker & buat domain SageMaker Studio dan buka notebook Jupyter Studio.

Prasyarat

Selesaikan langkah-langkah prasyarat berikut:

Siapkan Amazon SageMaker Studio.
Masuk ke Domain Amazon SageMaker.
Mendaftarlah untuk mendapatkan Database Vektor Biji Pinus tingkat gratis.
Pustaka prasyarat: SageMaker Python SDK, Klien Pinecone

Panduan Solusi

Menggunakan notebook SageMaker Studio, pertama-tama kita perlu menginstal pustaka prasyarat:

!pip install -qU sagemaker pinecone-client==2.2.1 ipywidgets==7.0.0

Menyebarkan LLM

Dalam posting ini, kami membahas dua pendekatan untuk menerapkan LLM. Yang pertama adalah melalui HuggingFaceModel obyek. Anda dapat menggunakan ini saat menyebarkan LLM (dan menyematkan model) langsung dari hub model Hugging Face.

Misalnya, Anda dapat membuat konfigurasi yang dapat diterapkan untuk google/flan-t5-xl model seperti yang ditunjukkan pada tangkapan layar berikut:

import sagemaker
from sagemaker.huggingface import (
HuggingFaceModel, get_huggingface_llm_image_uri
)
role = sagemaker.get_execution_role()
hub_config = {'HF_MODEL_ID':'google/flan-t5-xl', # model_id from hf.co/models 'HF_TASK':'text-generation' # NLP task you want to use for predictions # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri("huggingface", version="0.8.2"&)
huggingface_model = HuggingFaceModel(env=hub_config, role=role, # iam role with permissions to create an Endpoint image_uri=llm_image
)

Saat menerapkan model langsung dari Hugging Face, inisialisasi my_model_configuration dengan yang berikut ini:

An env config memberi tahu kita model mana yang ingin kita gunakan dan untuk tugas apa.
Eksekusi SageMaker kami role memberi kami izin untuk menerapkan model kami.
An image_uri adalah konfigurasi gambar khusus untuk menerapkan LLM dari Hugging Face.

Alternatifnya, SageMaker memiliki serangkaian model yang kompatibel langsung dengan model yang lebih sederhana JumpStartModel obyek. Banyak LLM populer seperti Llama 2 didukung oleh model ini, yang dapat diinisialisasi seperti yang ditunjukkan pada tangkapan layar berikut:

import sagemaker from sagemaker.jumpstart.model import JumpStartModel role = sagemaker.get_execution_role() my_model = JumpStartModel(model_id = "meta-textgeneration-llama-2-7b-f")

Untuk kedua versi my_model, sebarkan seperti yang ditunjukkan dalam tangkapan layar berikut:

predictor = my_model.deploy( initial_instance_count=1, instance_type="ml.g5.4xlarge", endpoint_name="llama-2-generator")

Menanyakan LLM yang telah dilatih sebelumnya

Dengan titik akhir LLM kami yang diinisialisasi, Anda dapat mulai membuat kueri. Format pertanyaan kami mungkin berbeda (khususnya antara LLM percakapan dan non-percakapan), namun prosesnya secara umum sama. Untuk model Hugging Face, lakukan hal berikut:

# https://aws.amazon.com/blogs/machine-learning/llama-2-foundation-models-from-meta-are-now-available-in-amazon-sagemaker-jumpstart/ prompt = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know ANSWER: """ payload = { "inputs": [ [ {"role": "system", "content": prompt}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
out[0]['generation']['content']

Anda dapat menemukan solusinya di Repositori GitHub.

Jawaban yang kami terima di sini tidak masuk akal - ini hanya halusinasi.

Memberikan Konteks Tambahan ke LLM

Llama 2 mencoba menjawab pertanyaan kami hanya berdasarkan pengetahuan parametrik internal. Jelasnya, parameter model tidak menyimpan pengetahuan tentang instance mana yang dapat kita peroleh dengan pelatihan spot terkelola di SageMaker.

Untuk menjawab pertanyaan ini dengan benar, kita harus menggunakan sumber pengetahuan. Artinya, kami memberikan informasi tambahan kepada LLM melalui prompt. Mari tambahkan informasi tersebut secara langsung sebagai konteks tambahan untuk model.

context = """Managed Spot Training can be used with all instances
supported in Amazon SageMaker. Managed Spot Training is supported
in all AWS Regions where Amazon SageMaker is currently available.""" prompt_template = """Answer the following QUESTION based on the CONTEXT
given. If you do not know the answer and the CONTEXT doesn't
contain the answer truthfully say "I don't know". CONTEXT:
{context} ANSWER: """ text_input = prompt_template.replace("{context}", context).replace("{question}", question) payload = { "inputs": [ [ {"role": "system", "content": text_input}, {"role": "user", "content": question}, ] ], "parameters":{"max_new_tokens": 64, "top_p": 0.9, "temperature": 0.6, "return_full_text": False}
} out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}") [Input]: Which instances can I use with Managed Spot Training in SageMaker? [Output]:  Based on the given context, you can use Managed Spot Training with all instances supported in Amazon SageMaker. Therefore, the answer is: All instances supported in Amazon SageMaker.

Kita sekarang melihat jawaban yang benar atas pertanyaan tersebut; itu mudah! Namun, pengguna tidak mungkin memasukkan konteks ke dalam perintahnya, mereka sudah mengetahui jawaban atas pertanyaannya.

Daripada menyisipkan satu konteks secara manual, identifikasi informasi relevan secara otomatis dari database informasi yang lebih luas. Untuk itu, Anda memerlukan Retrieval Augmented Generation.

Pengambilan Augmented Generation

Dengan Retrieval Augmented Generation, Anda dapat mengkodekan database informasi ke dalam ruang vektor dengan kedekatan antar vektor mewakili relevansi/kesamaan semantiknya. Dengan ruang vektor ini sebagai basis pengetahuan, Anda dapat mengonversi kueri pengguna baru, menyandikannya ke dalam ruang vektor yang sama, dan mengambil rekaman paling relevan yang telah diindeks sebelumnya.

Setelah mengambil catatan yang relevan ini, pilih beberapa di antaranya dan sertakan dalam permintaan LLM sebagai konteks tambahan, sehingga memberikan LLM pengetahuan sumber yang sangat relevan. Ini adalah proses dua langkah di mana:

Pengindeksan mengisi indeks vektor dengan informasi dari kumpulan data.
Pengambilan terjadi selama kueri dan merupakan tempat kami mengambil informasi yang relevan dari indeks vektor.

Kedua langkah tersebut memerlukan model penyematan untuk menerjemahkan teks biasa yang dapat dibaca manusia ke dalam ruang vektor semantik. Gunakan pengubah kalimat MiniLM yang sangat efisien dari Hugging Face seperti yang ditunjukkan pada tangkapan layar berikut. Model ini bukan LLM dan oleh karena itu tidak diinisialisasi dengan cara yang sama seperti model Llama 2 kami.

hub_config = { "HF_MODEL_ID": "sentence-transformers/all-MiniLM-L6-v2", # model_id from hf.co/models "HF_TASK": "feature-extraction",
} huggingface_model = HuggingFaceModel( env=hub_config, role=role, transformers_version="4.6", # transformers version used pytorch_version="1.7", # pytorch version used py_version="py36", # python version of the DLC
)

Dalam majalah hub_config, tentukan ID model seperti yang ditunjukkan pada tangkapan layar di atas tetapi untuk tugasnya, gunakan ekstraksi fitur karena kami menghasilkan penyematan vektor, bukan teks seperti LLM kami. Setelah ini, inisialisasi konfigurasi model dengan HuggingFaceModel seperti sebelumnya, tapi kali ini tanpa gambar LLM dan dengan beberapa parameter versi.

encoder = huggingface_model.deploy( initial_instance_count=1, instance_type="ml.t2.large", endpoint_name="minilm-embedding"
)

Anda dapat menerapkan model itu lagi dengan deploy, menggunakan instance yang lebih kecil (hanya CPU). ml.t2.large. Model MiniLM berukuran kecil sehingga tidak memerlukan banyak memori dan tidak memerlukan GPU karena dapat dengan cepat membuat embeddings bahkan pada CPU. Jika diinginkan, Anda dapat menjalankan model lebih cepat pada GPU.

Untuk membuat penyematan, gunakan predict metode dan meneruskan daftar konteks untuk dikodekan melalui inputs kunci seperti yang ditunjukkan:

out = encoder.predict({"inputs": ["some text here", "some more text goes here too"]})

Dua konteks masukan diteruskan, mengembalikan dua penyematan vektor konteks seperti yang ditunjukkan:

len(out)

2

Dimensi penyematan model MiniLM adalah 384 yang berarti setiap vektor yang menyematkan keluaran MiniLM harus memiliki dimensi 384. Namun, jika dilihat dari panjang embeddings kami, Anda akan melihat yang berikut:

len(out[0]), len(out[1])

(8, 8)

Dua daftar masing-masing berisi delapan item. MiniLM pertama-tama memproses teks dalam langkah tokenisasi. Tokenisasi ini mengubah teks biasa yang dapat dibaca manusia menjadi daftar ID token yang dapat dibaca model. Dalam fitur keluaran model, Anda dapat melihat penyematan tingkat token. salah satu penyematan ini menunjukkan dimensi yang diharapkan 384 seperti yang ditunjukkan:

len(out[0][0])

384

Ubah penyematan tingkat token ini menjadi penyematan tingkat dokumen dengan menggunakan nilai rata-rata di setiap dimensi vektor, seperti yang ditunjukkan dalam ilustrasi berikut.

Operasi pengumpulan rata-rata untuk mendapatkan vektor 384 dimensi tunggal.

import numpy as np embeddings = np.mean(np.array(out), axis=1)embeddings.shape(2, 384)

Dengan dua penyematan vektor 384 dimensi, satu untuk setiap teks masukan. Untuk membuat hidup kita lebih mudah, gabungkan proses pengkodean menjadi satu fungsi seperti yang ditunjukkan pada tangkapan layar berikut:

from typing import List def embed_docs(docs: List[str]) -> List[List[float]]: out = encoder.predict({"inputs": docs}) embeddings = np.mean(np.array(out), axis=1) return embeddings.tolist()

Mengunduh Kumpulan Data

Unduh FAQ Amazon SageMaker sebagai basis pengetahuan untuk mendapatkan data yang berisi kolom pertanyaan dan jawaban.

Unduh FAQ Amazon SageMaker

Saat melakukan pencarian, carilah Jawaban saja, sehingga kolom Pertanyaan dapat di drop. Lihat buku catatan untuk detailnya.

Kumpulan data kami dan alur penyematan sudah siap. Sekarang yang kita butuhkan hanyalah tempat untuk menyimpan embeddings tersebut.

Pengindeksan

Basis data vektor Pinecone menyimpan penyematan vektor dan mencarinya secara efisien dalam skala besar. Untuk membuat database, Anda memerlukan kunci API gratis dari Pinecone.

import pinecone
import os # add Pinecone API key from app.pinecone.io
api_key = os.environ.get("PINECONE_API_KEY") or "YOUR_API_KEY"
# set Pinecone environment - find next to API key in console
env = os.environ.get("PINECONE_ENVIRONMENT") or "YOUR_ENV" pinecone.init(api_key=api_key, environment=env)

Setelah Anda terhubung ke database vektor Pinecone, buatlah indeks vektor tunggal (mirip dengan tabel di DB tradisional). Beri nama indeksnya retrieval-augmentation-aws dan menyelaraskan indeks dimension dan metric parameter dengan yang dibutuhkan oleh model penyematan (MiniLM dalam hal ini).

import time index_name = "retrieval-augmentation-aws" if index_name in pinecone.list_indexes(): pinecone.delete_index(index_name) pinecone.create_index(name=index_name, dimension=embeddings.shape[1], metric="cosine")
# wait for index to finish initialization
while not pinecone.describe_index(index_name).status["ready"]: time.sleep(1)

Untuk mulai memasukkan data, jalankan perintah berikut:

from tqdm.auto import tqdm batch_size = 2 # can increase but needs larger instance size otherwise instance runs out of memory
vector_limit = 1000 answers = df_knowledge[:vector_limit]
index = pinecone.Index(index_name) for i in tqdm(range(0, len(answers), batch_size)): # find end of batch i_end = min(i + batch_size, len(answers)) # create IDs batch ids = [str(x) for x in range(i, i_end)] # create metadata batch metadatas = [{"text": text} for text in answers["Answer"][i:i_end]] # create embeddings texts = answers["Answer"][i:i_end].tolist() embeddings = embed_docs(texts) # create records list for upsert records = zip(ids, embeddings, metadatas) # upsert to Pinecone index.upsert(vectors=records)

Anda dapat mulai menanyakan indeks dengan pertanyaan dari awal postingan ini.

# extract embeddings for the questions
query_vec = embed_docs(question)[0] # query pinecone
res = index.query(query_vec, top_k=1, include_metadata=True) # show the results
res
{'matches': [{'id': '90', 'metadata': {'text': 'Managed Spot Training can be used with all ' 'instances supported in Amazon ' 'SageMaker.rn'}, 'score': 0.881181657, 'values': []}], 'namespace': ''}

Keluaran di atas menunjukkan bahwa kami mengembalikan konteks yang relevan untuk membantu kami menjawab pertanyaan kami. Sejak kita top_k = 1, index.query mengembalikan hasil teratas di samping metadata yang terbaca Managed Spot Training can be used with all instances supported in Amazon.

Meningkatkan Prompt

Gunakan konteks yang diambil untuk menambah perintah dan memutuskan jumlah maksimum konteks untuk dimasukkan ke dalam LLM. Menggunakan 1000 batas karakter untuk menambahkan setiap konteks yang dikembalikan ke prompt secara berulang hingga Anda melebihi panjang konten.

Meningkatkan Prompt

Memberi makan context_str ke dalam prompt LLM seperti yang ditunjukkan pada tangkapan layar berikut:

payload = create_payload(question, context_str)
out = predictor.predict(payload, custom_attributes='accept_eula=true')
generated_text = out[0]['generation']['content']
print(f"[Input]: {question}n[Output]: {generated_text}")

[Input]: Instance manakah yang dapat saya gunakan dengan Managed Spot Training di SageMaker? [Output]: Berdasarkan konteks yang diberikan, Anda dapat menggunakan Managed Spot Training dengan semua instans yang didukung di Amazon SageMaker. Oleh karena itu, jawabannya adalah: Semua instans didukung di Amazon SageMaker.

Logikanya berfungsi, jadi gabungkan menjadi satu fungsi agar semuanya tetap bersih.

def rag_query(question: str) -> str: # create query vec query_vec = embed_docs(question)[0] # query pinecone res = index.query(query_vec, top_k=5, include_metadata=True) # get contexts contexts = [match.metadata["text"] for match in res.matches] # build the multiple contexts string context_str = construct_context(contexts=contexts) # create our retrieval augmented prompt payload = create_payload(question, context_str) # make prediction out = predictor.predict(payload, custom_attributes='accept_eula=true') return out[0]["generation"]["content"]

Anda sekarang dapat mengajukan pertanyaan seperti yang ditunjukkan berikut ini:

rag_query("Does SageMaker support spot instances?") ' Yes, Amazon SageMaker supports spot instances for managed spot training. According to the provided context, Managed Spot Training can be used with all instances supported in Amazon SageMaker, and Managed Spot Training is supported in all AWS Regions where Amazon SageMaker is currently available.nnTherefore, the answer to your question is:nnYes, SageMaker supports spot instances in all regions where Amazon SageMaker is available.'

Membersihkan

Untuk berhenti menimbulkan biaya yang tidak diinginkan, hapus model dan titik akhir.

encoder.delete_model() encoder.delete_endpoint()

Kesimpulan

Dalam postingan ini, kami memperkenalkan Anda pada RAG dengan LLM akses terbuka di SageMaker. Kami juga menunjukkan cara menerapkan model Amazon SageMaker Jumpstart dengan Llama 2, Hugging Face LLM dengan Flan T5, dan menyematkan model dengan MiniLM.

Kami menerapkan pipeline RAG end-to-end yang lengkap menggunakan model akses terbuka dan indeks vektor Pinecone. Dengan menggunakan ini, kami menunjukkan cara meminimalkan halusinasi, dan selalu memperbarui pengetahuan LLM, dan pada akhirnya meningkatkan pengalaman pengguna dan kepercayaan pada sistem kami.

Untuk menjalankan contoh ini sendiri, kloning repositori GitHub ini dan ikuti langkah-langkah sebelumnya menggunakan Buku catatan Menjawab Pertanyaan di GitHub.

Tentang penulis

Foto profil Vedant Jain Vedant Jain adalah Senior Spesialis AI/ML, yang mengerjakan inisiatif AI Generatif yang strategis. Sebelum bergabung dengan AWS, Vedant telah memegang posisi ML/Data Science Specialty di berbagai perusahaan seperti Databricks, Hortonworks (sekarang Cloudera) & JP Morgan Chase. Di luar pekerjaannya, Vedant sangat tertarik dalam membuat musik, panjat tebing, menggunakan sains untuk menjalani hidup yang bermakna & menjelajahi masakan dari seluruh dunia.

James Briggs adalah Staf Advokat Pengembang di Pinecone, yang berspesialisasi dalam pencarian vektor dan AI/ML. Dia memandu pengembang dan bisnis dalam mengembangkan solusi GenAI mereka sendiri melalui pendidikan online. Sebelum Pinecone James bekerja di AI untuk startup teknologi kecil hingga perusahaan keuangan mapan. Di luar pekerjaan, James memiliki hasrat untuk bepergian dan menjalani petualangan baru, mulai dari selancar dan scuba hingga Muay Thai dan BJJ.

Xin Huang adalah Ilmuwan Terapan Senior untuk Amazon SageMaker JumpStart dan algoritme bawaan Amazon SageMaker. Dia berfokus pada pengembangan algoritme pembelajaran mesin yang dapat diskalakan. Minat penelitiannya adalah di bidang pemrosesan bahasa alami, pembelajaran mendalam yang dapat dijelaskan pada data tabular, dan analisis kuat pengelompokan ruang-waktu non-parametrik. Dia telah menerbitkan banyak makalah di konferensi ACL, ICDM, KDD, dan Royal Statistical Society: Series A.

Konten Bertenaga SEO & Distribusi PR. Dapatkan Amplifikasi Hari Ini.
PlatoData.Jaringan Vertikal Generatif Ai. Berdayakan Diri Anda. Akses Di Sini.
PlatoAiStream. Intelijen Web3. Pengetahuan Diperkuat. Akses Di Sini.
PlatoESG. Karbon, teknologi bersih, energi, Lingkungan Hidup, Tenaga surya, Penanganan limbah. Akses Di Sini.
PlatoHealth. Kecerdasan Uji Coba Biotek dan Klinis. Akses Di Sini.
Sumber: https://aws.amazon.com/blogs/machine-learning/mitigate-hallucinations-through-retrieval-augmented-generation-using-pinecone-vector-database-llama-2-from-amazon-sagemaker-jumpstart/

Stempel Waktu: Desember 6, 2023

Stempel Waktu: April 24, 2024

Mengurangi halusinasi melalui Retrieval Augmented Generation menggunakan database vektor Pinecone & Llama-2 dari Amazon SageMaker JumpStart | Layanan Web Amazon

Diterbitkan Ulang Oleh Plato

Pengambilan Augmented Generation (RAG) di Amazon SageMaker

Prasyarat

Panduan Solusi

Menyebarkan LLM

Menanyakan LLM yang telah dilatih sebelumnya

Memberikan Konteks Tambahan ke LLM

Pengambilan Augmented Generation

Mengunduh Kumpulan Data

Pengindeksan

Meningkatkan Prompt

Membersihkan

Kesimpulan

Tentang penulis

Lebih dari Pembelajaran Mesin AWS

Latih, setel, dan terapkan ansambel khusus secara efisien menggunakan Amazon SageMaker | Layanan Web Amazon

Gunakan Amazon SageMaker Data Wrangler untuk persiapan data dan Studio Labs untuk belajar dan bereksperimen dengan ML

Deteksi keragaman populasi spesies yang terancam punah menggunakan Amazon Rekognition

Pilih rangkaian waktu tertentu untuk diramalkan dengan Amazon Forecast

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun