Використовуйте Amazon SageMaker Studio, щоб створити рішення з відповідями на питання RAG за допомогою Llama 2, LangChain і Pinecone для швидкого експерименту

Перевидано Платоном

читають: 0

Retrieval Augmented Generation (RAG) дозволяє надати велику мовну модель (LLM) із доступом до даних із зовнішніх джерел знань, таких як репозиторії, бази даних і API, без необхідності її тонкого налаштування. Використовуючи генеративний штучний інтелект для відповідей на запитання, RAG дозволяє магістрам права відповідати на запитання за допомогою найактуальнішої актуальної інформації та, за бажанням, цитувати свої джерела даних для перевірки.

Типове рішення RAG для отримання знань із документів використовує модель вбудованих даних для перетворення даних із джерел даних на вбудовані та зберігає ці вбудовані дані у векторній базі даних. Коли користувач ставить запитання, він здійснює пошук у векторній базі даних і отримує документи, які найбільше схожі на запит користувача. Далі він поєднує отримані документи та запит користувача в розширеному запиті, який надсилається до LLM для створення тексту. У цій реалізації є дві моделі: модель вбудовування та LLM, яка генерує остаточну відповідь.

У цій публікації ми демонструємо, як використовувати Студія Amazon SageMaker створити рішення з відповідями на питання RAG.

Використання зошитів для відповідей на запитання RAG

Реалізація RAG зазвичай передбачає експериментування з різними моделями вбудовування, векторними базами даних, моделями генерації тексту та підказками, а також налагодження коду, доки ви не отримаєте функціональний прототип. Amazon SageMaker пропонує керовані ноутбуки Jupyter, оснащені екземплярами GPU, що дозволяє швидко експериментувати на цьому початковому етапі без створення додаткової інфраструктури. У SageMaker є два варіанти використання блокнотів. Перший варіант - швидкий запуск ноутбуки доступний через SageMaker Studio. У SageMaker Studio, інтегрованому середовищі розробки (IDE), спеціально створеному для ML, ви можете запускати блокноти, які працюють на різних типах екземплярів і з різними конфігураціями, співпрацювати з колегами та отримувати доступ до додаткових спеціально створених функцій для машинного навчання (ML). Другий варіант – використання a Екземпляр ноутбука SageMaker, який є повністю керованим обчислювальним екземпляром ML із застосунком Jupyter Notebook.

У цій публікації ми представляємо рішення RAG, яке доповнює знання моделі додатковими даними із зовнішніх джерел знань, щоб надавати точніші відповіді, специфічні для спеціального домену. Ми використовуємо один блокнот SageMaker Studio, що працює на ml.g5.2xlarge екземпляр (1 GPU A10G) і Лама 2 7b чат hf, налаштована версія Llama 2 7b, оптимізована для випадків використання діалогів із Hugging Face Hub. Ми використовуємо дві публікації AWS Media & Entertainment Blog як зразки зовнішніх даних, які ми перетворюємо на вбудовані за допомогою BAAI/bge-small-en-v1.5 вбудовування. Ми зберігаємо вкладення в Соснова шишка, векторна база даних, яка пропонує високопродуктивний пошук і зіставлення за подібністю. Ми також обговорюємо, як перейти від експериментування в блокноті до розгортання ваших моделей на кінцевих точках SageMaker для висновків у реальному часі, коли ви закінчите створення прототипу. Той самий підхід можна використовувати з різними моделями та векторними базами даних.

Огляд рішення

Наступна діаграма ілюструє архітектуру рішення.

Використовуйте Amazon SageMaker Studio, щоб створити рішення для відповідей на питання RAG за допомогою Llama 2, LangChain і Pinecone для швидкого експериментування | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Впровадження рішення складається з двох етапів високого рівня: розробки рішення за допомогою ноутбуків SageMaker Studio та розгортання моделей для висновків.

Розробіть рішення за допомогою блокнотів SageMaker Studio

Щоб розпочати розробку рішення, виконайте наведені нижче дії.

Завантажте модель чату Llama-2 7b із Hugging Face Hub у блокнот.
Створіть PromptTemplate за допомогою LangChain і використовуйте його для створення підказок для вашого випадку використання.
Для 1–2 прикладів підказок додайте відповідний статичний текст із зовнішніх документів як контекст підказки та оцініть, чи покращиться якість відповідей.
Припускаючи, що якість покращиться, запровадьте робочий процес відповідей на питання RAG:
- Зберіть зовнішні документи, які допоможуть моделі краще відповісти на запитання у вашому випадку використання.
- Завантажте модель вбудовування BGE і використовуйте її для створення вбудовування цих документів.
- Зберігайте ці вбудовування в індекс Pinecone.
- Коли користувач ставить запитання, виконайте пошук схожості в Pinecone та додайте вміст із найбільш схожих документів до контексту підказки.

Розгорніть моделі в SageMaker для висновків у масштабі

Коли ви досягнете цільової продуктивності, ви зможете розгорнути моделі в SageMaker, щоб використовувати їх у генеративних програмах ШІ:

Розгорніть модель чату Llama-2 7b на кінцевій точці реального часу SageMaker.
Розгорніть BAAI/bge-small-en-v1.5 вбудовування моделі в кінцеву точку реального часу SageMaker.
Використовуйте розгорнуті моделі у своєму запитанні, відповідаючи на генеративні програми ШІ.

У наступних розділах ми проведемо вас через етапи впровадження цього рішення в ноутбуках SageMaker Studio.

Передумови

Щоб виконати дії, описані в цій публікації, вам потрібно мати обліковий запис AWS і Управління ідентифікацією та доступом AWS (IAM) із дозволами на створення та доступ до ресурсів рішення. Якщо ви новачок у AWS, див Створіть окремий обліковий запис AWS.

Щоб використовувати блокноти SageMaker Studio у своєму обліковому записі AWS, вам потрібно a Домен SageMaker з профілем користувача, який має дозволи на запуск програми SageMaker Studio. Якщо ви новачок у SageMaker Studio, Швидке налаштування студії це найшвидший спосіб почати роботу. Одним клацанням миші SageMaker надає домену SageMaker стандартні налаштування, зокрема налаштування профілю користувача, ролі IAM, автентифікації IAM і публічного доступу до Інтернету. Блокнот для цієї посади передбачає ml.g5.2xlarge тип екземпляра. Щоб переглянути або збільшити свою квоту, відкрийте консоль AWS Service Quotas, виберіть Послуги AWS на панелі навігації виберіть Amazon SageMakerі зверніться до значення для запущених програм Studio KernelGateway ml.g5.2xlarge екземпляри.

Після підтвердження обмеження квоти вам потрібно завершити налаштування залежностей, щоб використовувати чат Llama 2 7b.

Чат Llama 2 7b доступний у розділі Лама 2 ліцензія. Щоб отримати доступ до Llama 2 на Hugging Face, спочатку потрібно виконати кілька кроків:

Створіть обліковий запис Hugging Face, якщо у вас його ще немає.
Заповніть форму «Запит на доступ до наступної версії Llama» на Мета сайт.
Запит на доступ до Лама 2 7б чат на Hugging Face.

Після того, як вам надано доступ, ви можете створити новий маркер доступу для доступу до моделей. Щоб створити маркер доступу, перейдіть до Налаштування на веб-сайті Hugging Face.

Вам потрібно мати обліковий запис у Pinecone, щоб використовувати його як векторну базу даних. Pinecone доступний на AWS через Торговий майданчик AWS. Веб-сайт Pinecone також пропонує можливість створити a безкоштовний обліковий запис який постачається з дозволами на створення єдиного індексу, чого достатньо для цілей цієї публікації. Щоб отримати ключі від Pinecone, відкрийте Соснова консоль І вибирай API ключі.

Налаштуйте блокнот і середовище

Щоб слідувати коду в цій публікації, відкрийте SageMaker Studio та клонуйте наступне GitHub сховище. Далі відкрийте блокнот studio-local-gen-ai/rag/RAG-with-Llama-2-on-Studio.ipynb і виберіть PyTorch 2.0.0 Python 3.10 GPU Optimized image, ядро Python 3 і ml.g5.2xlarge як тип екземпляра. Якщо ви вперше використовуєте блокноти SageMaker Studio, див Створіть або відкрийте блокнот Amazon SageMaker Studio.

Щоб налаштувати середовище розробки, вам потрібно інсталювати необхідні бібліотеки Python, як показано в наступному коді:

%%writefile requirements.txt
sagemaker>=2.175.0
transformers==4.33.0
accelerate==0.21.0
datasets==2.13.0
langchain==0.0.297
pypdf>=3.16.3
pinecone-client
sentence_transformers
safetensors>=0.3.3

!pip install -U -r requirements.txt

Завантажте попередньо навчену модель і маркер

Після того, як ви імпортували необхідні бібліотеки, ви можете завантажити файл Лама-2 7б чат моделі разом із відповідними токенізерами від Hugging Face. Ці завантажені артефакти моделі зберігаються в локальному каталозі SageMaker Studio. Це дає вам змогу швидко перезавантажувати їх у пам’ять, коли вам потрібно продовжити роботу в інший час.

import torch from transformers import ( AutoTokenizer, LlamaTokenizer, LlamaForCausalLM, GenerationConfig, AutoModelForCausalLM
)
import transformers tg_model_id = "meta-llama/Llama-2-7b-chat-hf" #the model id in Hugging Face
tg_model_path = f"./tg_model/{tg_model_id}" #the local directory where the model will be saved tg_model = AutoModelForCausalLM.from_pretrained(tg_model_id, token=hf_access_token,do_sample=True, use_safetensors=True, device_map="auto", torch_dtype=torch.float16
tg_tokenizer = AutoTokenizer.from_pretrained(tg_model_id, token=hf_access_token) tg_model.save_pretrained(save_directory=tg_model_path, from_pt=True)
tg_tokenizer.save_pretrained(save_directory=tg_model_path, from_pt=True)

Задайте питання, яке потребує актуальної інформації

Тепер ви можете почати використовувати модель і задавати запитання. Моделі чату Llama-2 очікують, що підказка буде відповідати такому формату:

<s>[INST] <<SYS>>
system_prompt
<<SYS>>
{{ user_message }} [/INST]

Ви можете використовувати PromptTemplate від LangChain, щоб створити рецепт на основі формату підказок, щоб ви могли легко створювати підказки надалі:

from langchain import PromptTemplate template = """<s>[INST] <<SYS>>nYou are an assistant for question-answering tasks. You are helpful and friendly. Use the following pieces of retrieved context to answer the query. If you don't know the answer, you just say I don't know. Use three sentences maximum and keep the answer concise.
<<SYS>>n
{context}n
{question} [/INST] """
prompt_template = PromptTemplate( template=template, input_variables=['context','question'] )

Давайте задамо моделі питання, для якого потрібна остання інформація з 2023 року. Ви можете використовувати LangChain і, зокрема, LLMChain тип ланцюга та передайте як параметри LLM, шаблон підказки, який ви створили раніше, і запитання:

question = "When can I visit the AWS M&E Customer Experience Center in New York City?" tg_tokenizer.add_special_tokens( {"pad_token": "[PAD]"} )
tg_tokenizer.padding_side = "left" tg_pipe = transformers.pipeline(task='text-generation', model=tg_model, tokenizer=tg_tokenizer, num_return_sequences=1, eos_token_id=tg_tokenizer.eos_token_id, pad_token_id=tg_tokenizer.eos_token_id, max_new_tokens=400, temperature=0.7) from langchain.chains import LLMChain
from langchain.llms import HuggingFacePipeline llm=HuggingFacePipeline(pipeline=tg_pipe, model_kwargs={'temperature':0.7})
llm_chain = LLMChain(llm=llm, prompt=prompt_template)
no_context_response = llm_chain.predict(context="", question=question)
print(no_context_response)

Ми отримуємо наступну згенеровану відповідь:

Дякуємо за звернення! Центр обслуговування клієнтів AWS M&E у Нью-Йорку наразі закритий для відвідувань через пандемію COVID-19. Однак ви можете перевірити їх офіційний веб-сайт або облікові записи в соціальних мережах, щоб дізнатися, коли центр знову відкриється. Тим часом ви можете досліджувати їхні віртуальні тури та ресурси, доступні в Інтернеті.

Покращте відповідь, додавши контекст до підказки

Відповідь, яку ми згенерували, не зовсім вірна. Давайте подивимося, чи зможемо ми покращити це, надавши певний контекст. Ви можете додати витяг із допису AWS оголошує про відкриття центру M&E Customer Experience Center у Нью-Йорку, який містить оновлення на тему з 2023 року:

context = """Media and entertainment (M&E) customers continue to face challenges in creating more content, more quickly, and distributing it to more endpoints than ever before in their quest to delight viewers globally. Amazon Web Services (AWS), along with AWS Partners, have showcased the rapid evolution of M&E solutions for years at industry events like the National Association of Broadcasters (NAB) Show and the International Broadcast Convention (IBC). Until now, AWS for M&E technology demonstrations were accessible in this way just a few weeks out of the year. Customers are more engaged than ever before; they want to have higher quality conversations regarding user experience and media tooling. These conversations are best supported by having an interconnected solution architecture for reference. Scheduling a visit of the M&E Customer Experience Center will be available starting November 13th, please send an email to AWS-MediaEnt-CXC@amazon.com."""

Знову скористайтеся LLMChain і передайте попередній текст як контекст:

context_response = llm_chain.predict(context=context, question=question)
print(context_response)

Нова відповідь відповідає на запитання з актуальною інформацією:

Ви можете відвідати AWS M&E Customer Experience Center у Нью-Йорку з 13 листопада. Щоб запланувати візит, надішліть електронний лист на адресу AWS-MediaEnt-CXC@amazon.com.

Ми підтвердили, що додавання правильного контексту покращує продуктивність моделі. Тепер ви можете зосередити свої зусилля на пошуку та додаванні правильного контексту до поставленого запитання. Іншими словами, запровадити RAG.

Реалізуйте відповіді на запитання RAG за допомогою вбудовування BGE та Pinecone

На цьому етапі ви повинні визначитися з джерелами інформації, щоб розширити знання моделі. Ці джерела можуть бути внутрішніми веб-сторінками чи документами вашої організації або загальнодоступними джерелами даних. Для цілей цієї публікації та задля простоти ми вибрали дві публікації блогу AWS, опубліковані в 2023 році:

Ці публікації вже доступні як PDF-документи в каталозі проекту даних у SageMaker Studio для швидкого доступу. Щоб розділити документи на керовані блоки, ви можете використовувати RecursiveCharacterTextSplitter метод від LangChain:

from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import PyPDFDirectoryLoader loader = PyPDFDirectoryLoader("./data/") documents = loader.load() text_splitter=RecursiveCharacterTextSplitter( chunk_size=1000, chunk_overlap=5
)
docs = text_splitter.split_documents(documents)

Далі використовуйте модель вбудовування BGE bge-small-en створений командою Пекінська академія штучного інтелекту (BAAI) який доступний на Hugging Face для створення вставок цих шматків. Завантажте та збережіть модель у локальному каталозі в Studio. Ми використовуємо fp32, щоб він міг працювати на ЦП примірника.

em_model_name = "BAAI/bge-small-en"
em_model_path = f"./em-model" from transformers import AutoModel
# Load model from HuggingFace Hub
em_model = AutoModel.from_pretrained(em_model_name,torch_dtype=torch.float32)
em_tokenizer = AutoTokenizer.from_pretrained(em_model_name,device="cuda") # save model to disk
em_tokenizer.save_pretrained(save_directory=f"{em_model_path}/model",from_pt=True)
em_model.save_pretrained(save_directory=f"{em_model_path}/model",from_pt=True)
em_model.eval()

Використовуйте наступний код, щоб створити функцію embedding_generator, яка приймає фрагменти документа як вхідні дані та генерує вбудовування за допомогою моделі BGE:

# Tokenize sentences
def tokenize_text(_input, device): return em_tokenizer( [_input], padding=True, truncation=True, return_tensors='pt' ).to(device) # Run embedding task as a function with model and text sentences as input
def embedding_generator(_input, normalize=True): # Compute token embeddings with torch.no_grad(): embedded_output = em_model( **tokenize_text( _input, em_model.device ) ) sentence_embeddings = embedded_output[0][:, 0] # normalize embeddings if normalize: sentence_embeddings = torch.nn.functional.normalize( sentence_embeddings, p=2, dim=1 ) return sentence_embeddings[0, :].tolist() sample_sentence_embedding = embedding_generator(docs[0].page_content)
print(f"Embedding size of the document --->", len(sample_sentence_embedding))

У цій публікації ми демонструємо робочий процес RAG за допомогою Pinecone, керованого хмарного середовища векторна база даних який також пропонує API для пошуку подібності. Ви можете переписати наступний код, щоб використовувати бажану векторну базу даних.

Ми ініціалізуємо a Клієнт Python Pinecone і створіть новий векторний індекс пошуку, використовуючи вихідну довжину моделі вбудовування. Ми використовуємо вбудований клас Pinecone LangChain, щоб отримати вбудовані елементи, створені на попередньому кроці. Йому потрібні три параметри: документи для прийому, функція генератора вбудовування та ім’я індексу Pinecone.

import pinecone
pinecone.init( api_key = os.environ["PINECONE_API_KEY"], environment = os.environ["PINECONE_ENV"]
)
#check if index already exists, if not we create it
index_name = "rag-index"
if index_name not in pinecone.list_indexes(): pinecone.create_index( name=index_name, dimension=len(sample_sentence_embedding), ## 384 for bge-small-en metric='cosine' ) #insert the embeddings
from langchain.vectorstores import Pinecone
vector_store = Pinecone.from_documents( docs, embedding_generator, index_name=index_name
)

З моделлю чату Llama-2 7B, завантаженою в пам’ять, і вбудованими компонентами, інтегрованими в індекс Pinecone, тепер ви можете комбінувати ці елементи, щоб покращити відповіді Llama 2 для нашого сценарію використання відповідей на запитання. Щоб досягти цього, ви можете використовувати LangChain RetrievalQA, який доповнює початкову підказку найбільш схожими документами з векторного сховища. За установкою return_source_documents=True, ви отримуєте видимість точних документів, використаних для створення відповіді як частини відповіді, що дозволяє вам перевірити точність відповіді.

from langchain.chains import RetrievalQA
import textwrap #helper method to improve the readability of the response
def print_response(llm_response): temp = [textwrap.fill(line, width=100) for line in llm_response['result'].split('n')] response = 'n'.join(temp) print(f"{llm_response['query']}n n{response}'n n Source Documents:") for source in llm_response["source_documents"]: print(source.metadata) llm_qa_chain = RetrievalQA.from_chain_type( llm=llm, #the Llama-2 7b chat model chain_type='stuff', retriever=vector_store.as_retriever(search_kwargs={"k": 2}), # perform similarity search in Pinecone return_source_documents=True, #show the documents that were used to answer the question chain_type_kwargs={"prompt": prompt_template}
)
print_response(llm_qa_chain(question))

Отримуємо таку відповідь:

З: Коли я зможу відвідати центр обслуговування клієнтів AWS M&E у Нью-Йорку?

A: Я радий допомогти! Згідно з контекстом, центр обслуговування клієнтів AWS M&E у Нью-Йорку буде доступний для відвідувань з 13 листопада. Ви можете надіслати електронний лист на адресу AWS-MediaEnt-CXC@amazon.com, щоб запланувати візит».

Вихідні документи:

{'page': 4.0, 'source': 'data/AWS оголошує про створення центру M&E Customer Experience Center у Нью-Йорку _ AWS для M&E Blog.pdf'}

{'page': 2.0, 'source': 'data/AWS оголошує про створення центру M&E Customer Experience Center у Нью-Йорку _ AWS для M&E Blog.pdf'}

Давайте спробуємо інше запитання:

question2=" How many awards have AWS Media Services won in 2023?"
print_response(llm_qa_chain(question2))

Отримуємо таку відповідь:

З: Скільки нагород отримали AWS Media Services у 2023 році?

В: Згідно з публікацією в блозі, AWS Media Services отримали п’ять галузевих нагород у 2023 році».

Вихідні документи:

{'page': 0.0, 'source': 'data/AWS Media Services нагороджено галузевими нагородами _ AWS для M&E Blog.pdf'}

{'page': 1.0, 'source': 'data/AWS Media Services нагороджено галузевими нагородами _ AWS для M&E Blog.pdf'}

Коли ви досягнете достатнього рівня впевненості, ви можете розгортати моделі Кінцеві точки SageMaker для висновків у реальному часі. Ці кінцеві точки повністю керовані та пропонують підтримку автоматичного масштабування.

SageMaker пропонує виведення великих моделей за допомогою контейнерів Large Model Inference (LMI), які ми можемо використовувати для розгортання наших моделей. Ці контейнери оснащені попередньо встановленими бібліотеками з відкритим вихідним кодом, такими як DeepSpeed, що полегшує впровадження методів підвищення продуктивності, таких як тензорний паралелізм під час логічного висновку. Крім того, вони використовують DJLServing як готову інтегровану модель сервера. DJLServing — це високоефективне універсальне рішення для обслуговування моделей, яке пропонує підтримку динамічного пакетування та автоматичного масштабування робітників, що підвищує пропускну здатність.

У нашому підході ми використовуємо SageMaker LMI з DJLServing і DeepSpeed Inference для розгортання моделей Llama-2-chat 7b і BGE на кінцевих точках SageMaker, що працюють на ml.g5.2xlarge екземплярів, що дозволяє робити висновки в реальному часі. Якщо ви хочете виконати ці кроки самостійно, зверніться до супровідного посібника ноутбук для детальних інструкцій.

Вам буде потрібно два ml.g5.2xlarge екземпляри для розгортання. Щоб переглянути або збільшити свою квоту, відкрийте консоль AWS Service Quotas, виберіть Послуги AWS на панелі навігації виберіть Amazon SageMaker, і зверніться до значення для ml.g5.2xlarge для використання кінцевої точки.

Наступні кроки описують процес розгортання користувацьких моделей для робочого процесу RAG на кінцевій точці SageMaker:

Розгорніть Лама-2 7b модель чату до кінцевої точки реального часу SageMaker, що працює на ml.g5.2xlarge примірник для швидкого створення тексту.
Розгорніть BAAI/bge-small-en-v1.5 модель вбудовування в кінцеву точку реального часу SageMaker, що працює на ml.g5.2xlarge екземпляр. Крім того, ви можете розгорнути власну модель вбудовування.
Задайте питання та скористайтеся LangChain RetrievalQA щоб доповнити підказку найбільш схожими документами з Pinecone, цього разу використовуючи модель, розгорнуту в кінцевій точці реального часу SageMaker:

# convert your local LLM into SageMaker endpoint LLM
llm_sm_ep = SagemakerEndpoint( endpoint_name=tg_sm_model.endpoint_name, # <--- Your text-gen model endpoint name region_name=region, model_kwargs={ "temperature": 0.05, "max_new_tokens": 512 }, content_handler=content_handler,
) llm_qa_smep_chain = RetrievalQA.from_chain_type( llm=llm_sm_ep, # <--- This uses SageMaker Endpoint model for inference chain_type='stuff', retriever=vector_store.as_retriever(search_kwargs={"k": 2}), return_source_documents=True, chain_type_kwargs={"prompt": prompt_template}
)

Використовуйте LangChain, щоб переконатися, що кінцева точка SageMaker із моделлю вбудовування працює належним чином, щоб її можна було використовувати для майбутнього прийому документів:

response_model = smr_client.invoke_endpoint( EndpointName=em_sm_model.endpoint_name, <--- Your embedding model endpoint name Body=json.dumps({ "text": "This is a sample text" }), ContentType="application/json",
) outputs = json.loads(response_model["Body"].read().decode("utf8"))['outputs']

Прибирати

Виконайте наступні кроки, щоб очистити свої ресурси:

Після завершення роботи в блокноті SageMaker Studio переконайтеся, що ви вимкнули його ml.g5.2xlarge екземпляр, щоб уникнути будь-яких витрат, вибравши значок зупинки. Ви також можете налаштувати сценарії конфігурації життєвого циклу автоматично вимикати ресурси, коли вони не використовуються.

Якщо ви розгорнули моделі на кінцевих точках SageMaker, запустіть такий код у кінці блокнота, щоб видалити кінцеві точки:

#delete your text generation endpoint
sm_client.delete_endpoint( EndpointName=tg_sm_model.endpoint_name
)
# delete your text embedding endpoint
sm_client.delete_endpoint( EndpointName=em_sm_model.endpoint_name
)

Нарешті, запустіть такий рядок, щоб видалити індекс Pinecone:

pinecone.delete_index(index_name)

Висновок

Ноутбуки SageMaker пропонують простий спосіб розпочати вашу подорож за допомогою Retrieval Augmented Generation. Вони дозволяють інтерактивно експериментувати з різними моделями, конфігураціями та запитаннями без створення додаткової інфраструктури. У цьому дописі ми показали, як підвищити продуктивність чату Llama 2 7b у варіанті використання відповіді на запитання за допомогою LangChain, моделі вбудовування BGE та Pinecone. Щоб почати, запустіть SageMaker Studio та запустіть ноутбук доступні в наступному GitHub репо. Будь ласка, поділіться своїми думками в розділі коментарів!

Про авторів

Анастасія Цевелека є архітектором рішень з машинного навчання та штучного інтелекту в AWS. Вона працює з клієнтами в регіоні EMEA та допомагає їм розробляти масштабні рішення машинного навчання за допомогою сервісів AWS. Вона працювала над проектами в різних областях, включаючи обробку природної мови (NLP), MLOps і інструменти Low Code No Code.

Пранав Мурті є архітектором спеціалістів із штучного інтелекту та ML в AWS. Він зосереджується на допомозі клієнтам створювати, навчати, розгортати та переносити робочі навантаження машинного навчання (ML) на SageMaker. Раніше він працював у напівпровідниковій промисловості, розробляючи моделі великого комп’ютерного зору (CV) і обробки природної мови (NLP) для вдосконалення напівпровідникових процесів. У вільний час любить грати в шахи та подорожувати.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-studio-to-build-a-rag-question-answering-solution-with-llama-2-langchain-and-pinecone-for-fast-experimentation/

Часова мітка: Листопад 20, 2023

Часова мітка: Листопад 29, 2023

Перевидано Платоном

Як Earth.com і Provectus реалізували свою інфраструктуру MLOps за допомогою Amazon SageMaker | Веб-сервіси Amazon

Анонс Visual Conversation Builder для Amazon Lex

Оголошуємо про оновлений конектор ServiceNow (V2) для Amazon Kendra

Бази знань в Amazon Bedrock тепер спрощують ставити запитання в одному документі | Веб-сервіси Amazon

Створюйте готові для машинного навчання набори даних із офлайн-магазину функцій Amazon SageMaker за допомогою Amazon SageMaker Python SDK | Веб-сервіси Amazon

Створюйте креативну рекламу за допомогою генеративного штучного інтелекту, розгорнутого на Amazon SageMaker | Веб-сервіси Amazon

Визначені користувачем функції Pandas тепер доступні в Amazon SageMaker Data Wrangler

Представляємо програму спеціальної моделі AWS Generative AI Innovation Center для Anthropic Claude | Веб-сервіси Amazon

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки