Извлекательная дополненная генерация (RAG) позволяет предоставить большой языковой модели (LLM) доступ к данным из внешних источников знаний, таких как репозитории, базы данных и API, без необходимости ее точной настройки. При использовании генеративного искусственного интеллекта для ответов на вопросы RAG позволяет LLM отвечать на вопросы, используя наиболее актуальную и актуальную информацию и при необходимости ссылаться на свои источники данных для проверки.
Типичное решение RAG для извлечения знаний из документов использует модель внедрения для преобразования данных из источников данных во внедрения и сохраняет эти внедрения в векторной базе данных. Когда пользователь задает вопрос, он выполняет поиск в базе данных векторов и находит документы, наиболее похожие на запрос пользователя. Затем он объединяет полученные документы и запрос пользователя в расширенном приглашении, которое отправляется в LLM для генерации текста. В этой реализации есть две модели: модель встраивания и LLM, генерирующая окончательный ответ.
В этом посте мы покажем, как использовать Студия Amazon SageMaker создать решение для ответов на вопросы RAG.
Использование тетрадей для ответов на вопросы на основе RAG.
Реализация RAG обычно предполагает экспериментирование с различными моделями внедрения, векторными базами данных, моделями генерации текста и подсказками, а также отладку кода до тех пор, пока не будет создан функциональный прототип. Создатель мудреца Амазонки предлагает управляемые ноутбуки Jupyter, оснащенные экземплярами графического процессора, что позволяет вам быстро экспериментировать на начальном этапе без необходимости развертывания дополнительной инфраструктуры. Есть два варианта использования блокнотов в SageMaker. Первый вариант — быстрый запуск ноутбуки доступно через SageMaker Studio. В SageMaker Studio, интегрированной среде разработки (IDE), специально созданной для машинного обучения, вы можете запускать блокноты, работающие на разных типах экземпляров и в разных конфигурациях, сотрудничать с коллегами и получать доступ к дополнительным специально созданным функциям машинного обучения (ML). Второй вариант – использование Экземпляр записной книжки SageMaker, который представляет собой полностью управляемый экземпляр вычислений машинного обучения, на котором работает приложение Jupyter Notebook.
В этом посте мы представляем решение RAG, которое дополняет знания модели дополнительными данными из внешних источников знаний, чтобы обеспечить более точные ответы, специфичные для пользовательского домена. Мы используем один блокнот SageMaker Studio, работающий на ml.g5.2xlarge
экземпляр (1 графический процессор A10G) и Лама 2 7b чат вч, доработанная версия Llama 2 7b, оптимизированная для сценариев использования диалогов из Hugging Face Hub. Мы используем две публикации в блоге AWS Media & Entertainment в качестве примера внешних данных, которые преобразуем во встраивания с помощью BAAI/bge-small-en-v1.5 вложения. Мы храним вложения в сосновая шишка, векторная база данных, обеспечивающая высокопроизводительный поиск и сопоставление по сходству. Мы также обсудим, как перейти от экспериментов в блокноте к развертыванию моделей на конечных точках SageMaker для получения выводов в реальном времени после завершения прототипирования. Тот же подход можно использовать с разными моделями и векторными базами данных.
Обзор решения
Следующая диаграмма иллюстрирует архитектуру решения.
Реализация решения состоит из двух этапов высокого уровня: разработка решения с использованием блокнотов SageMaker Studio и развертывание моделей для вывода.
Разработайте решение с помощью блокнотов SageMaker Studio.
Чтобы начать разработку решения, выполните следующие шаги:
- Загрузите в блокнот модель чата Llama-2 7b из Hugging Face Hub.
- Создайте шаблон PromptTemplate с помощью Лангчейн и используйте его для создания подсказок для вашего варианта использования.
- Для 1–2 примеров подсказок добавьте соответствующий статический текст из внешних документов в качестве контекста подсказки и оцените, улучшится ли качество ответов.
- Предполагая, что качество улучшится, реализуйте рабочий процесс ответа на вопросы RAG:
- Соберите внешние документы, которые помогут модели лучше ответить на вопросы вашего варианта использования.
- Загрузите модель внедрения BGE и используйте ее для создания внедрений этих документов.
- Сохраните эти вложения в индексе Pinecone.
- Когда пользователь задает вопрос, выполните поиск по сходству в Pinecone и добавьте содержимое наиболее похожих документов в контекст подсказки.
Разверните модели в SageMaker для получения выводов в любом масштабе.
Когда вы достигнете своих целей по производительности, вы сможете развернуть модели в SageMaker для использования в генеративных приложениях искусственного интеллекта:
- Разверните модель чата Llama-2 7b на конечной точке SageMaker в режиме реального времени.
- Разверните BAAI/bge-small-en-v1.5 модель внедрения в конечную точку SageMaker в реальном времени.
- Используйте развернутые модели в своих вопросах, отвечая на генеративные приложения ИИ.
В следующих разделах мы покажем вам этапы реализации этого решения в блокнотах SageMaker Studio.
Предпосылки
Чтобы выполнить действия, описанные в этом посте, вам необходимо иметь учетную запись AWS и Управление идентификацией и доступом AWS (IAM) роль с разрешениями на создание ресурсов решения и доступ к ним. Если вы новичок в AWS, см. Создайте отдельный аккаунт AWS..
Чтобы использовать блокноты SageMaker Studio в своей учетной записи AWS, вам потребуется Домен SageMaker с профилем пользователя, у которого есть разрешения на запуск приложения SageMaker Studio. Если вы новичок в SageMaker Studio, Быстрая настройка студии это самый быстрый способ начать работу. Одним щелчком мыши SageMaker предоставляет домену SageMaker настройки по умолчанию, включая настройку профиля пользователя, роли IAM, аутентификацию IAM и общедоступный доступ в Интернет. Блокнот для этого поста предполагает ml.g5.2xlarge
тип экземпляра. Чтобы просмотреть или увеличить квоту, откройте консоль AWS Service Quotas и выберите Сервисы AWS на панели навигации выберите Создатель мудреца Амазонкии обратитесь к значению для приложений Studio KernelGateway, работающих на ml.g5.2xlarge
экземпляров.
После подтверждения ограничения квоты вам необходимо заполнить зависимости, чтобы использовать чат Llama 2 7b.
Чат Llama 2 7b доступен под Лицензия Ламы 2. Чтобы получить доступ к Llama 2 на Hugging Face, вам необходимо сначала выполнить несколько шагов:
- Создайте учетную запись Hugging Face, если у вас ее еще нет.
- Заполните форму «Запросить доступ к следующей версии Llama» на Meta. веб-сайт.
- Запросить доступ к Лама 2 7б чат на обнимающемся лице.
После того как вам будет предоставлен доступ, вы можете создать новый токен доступа для доступа к моделям. Чтобы создать токен доступа, перейдите к Настройки страница на сайте Hugging Face.
Вам необходимо иметь учетную запись в Pinecone, чтобы использовать ее в качестве базы данных векторов. Сосновая шишка доступна на AWS через Торговая площадка AWS. Веб-сайт Pinecone также предлагает возможность создать бесплатный аккаунт он поставляется с разрешениями на создание единого индекса, чего достаточно для целей этой статьи. Чтобы получить ключи от сосновой шишки, откройте Консоль из шишек , а затем выбрать API ключи.
Настройте ноутбук и среду
Чтобы следовать коду в этом посте, откройте SageMaker Studio и клонируйте следующий код: Репозиторий GitHub. Далее открываем блокнот studio-local-gen-ai/rag/RAG-with-Llama-2-on-Studio.ipynb и выберите изображение PyTorch 2.0.0 Python 3.10, оптимизированное для графического процессора, ядро Python 3 и ml.g5.2xlarge
в качестве типа экземпляра. Если вы впервые используете блокноты SageMaker Studio, см. Создайте или откройте блокнот Amazon SageMaker Studio..
Чтобы настроить среду разработки, вам необходимо установить необходимые библиотеки Python, как показано в следующем коде:
%%writefile requirements.txt
sagemaker>=2.175.0
transformers==4.33.0
accelerate==0.21.0
datasets==2.13.0
langchain==0.0.297
pypdf>=3.16.3
pinecone-client
sentence_transformers
safetensors>=0.3.3
!pip install -U -r requirements.txt
Загрузите предварительно обученную модель и токенизатор
После того, как вы импортировали необходимые библиотеки, вы можете загрузить Лама-2 7б чат модель вместе с соответствующими токенизаторами из Hugging Face. Эти загруженные артефакты модели хранятся в локальном каталоге SageMaker Studio. Это позволяет вам быстро перезагружать их в память, когда вам нужно возобновить работу в другое время.
import torch from transformers import ( AutoTokenizer, LlamaTokenizer, LlamaForCausalLM, GenerationConfig, AutoModelForCausalLM
)
import transformers tg_model_id = "meta-llama/Llama-2-7b-chat-hf" #the model id in Hugging Face
tg_model_path = f"./tg_model/{tg_model_id}" #the local directory where the model will be saved tg_model = AutoModelForCausalLM.from_pretrained(tg_model_id, token=hf_access_token,do_sample=True, use_safetensors=True, device_map="auto", torch_dtype=torch.float16
tg_tokenizer = AutoTokenizer.from_pretrained(tg_model_id, token=hf_access_token) tg_model.save_pretrained(save_directory=tg_model_path, from_pt=True)
tg_tokenizer.save_pretrained(save_directory=tg_model_path, from_pt=True)
Задайте вопрос, требующий актуальной информации
Теперь вы можете начать использовать модель и задавать вопросы. Модели чата Llama-2 ожидают, что приглашение будет соответствовать следующему формату:
<s>[INST] <<SYS>>
system_prompt
<<SYS>>
{{ user_message }} [/INST]
Вы можете использовать Шаблон приглашения из LangChain, чтобы создать рецепт на основе формата подсказки, чтобы вы могли легко создавать подсказки в дальнейшем:
from langchain import PromptTemplate template = """<s>[INST] <<SYS>>nYou are an assistant for question-answering tasks. You are helpful and friendly. Use the following pieces of retrieved context to answer the query. If you don't know the answer, you just say I don't know. Use three sentences maximum and keep the answer concise.
<<SYS>>n
{context}n
{question} [/INST] """
prompt_template = PromptTemplate( template=template, input_variables=['context','question'] )
Давайте зададим модели вопрос, для которого нужна свежая информация за 2023 год. Вы можете использовать LangChain и, в частности, ЛМЧейн тип цепочки и передайте в качестве параметров LLM, созданный ранее шаблон подсказки и вопрос:
question = "When can I visit the AWS M&E Customer Experience Center in New York City?" tg_tokenizer.add_special_tokens( {"pad_token": "[PAD]"} )
tg_tokenizer.padding_side = "left" tg_pipe = transformers.pipeline(task='text-generation', model=tg_model, tokenizer=tg_tokenizer, num_return_sequences=1, eos_token_id=tg_tokenizer.eos_token_id, pad_token_id=tg_tokenizer.eos_token_id, max_new_tokens=400, temperature=0.7) from langchain.chains import LLMChain
from langchain.llms import HuggingFacePipeline llm=HuggingFacePipeline(pipeline=tg_pipe, model_kwargs={'temperature':0.7})
llm_chain = LLMChain(llm=llm, prompt=prompt_template)
no_context_response = llm_chain.predict(context="", question=question)
print(no_context_response)
Мы получаем следующий сгенерированный ответ:
Спасибо, что обратились! Центр обслуживания клиентов AWS M&E в Нью-Йорке в настоящее время закрыт для посещений из-за пандемии COVID-19. Тем не менее, вы можете проверить их официальный сайт или учетные записи в социальных сетях, чтобы узнать, когда центр вновь откроется. А пока вы можете изучить их виртуальные туры и ресурсы, доступные в Интернете.
Улучшите ответ, добавив контекст в подсказку.
Полученный нами ответ не совсем верен. Давайте посмотрим, сможем ли мы улучшить его, предоставив некоторый контекст. Вы можете добавить выдержку из поста AWS объявляет о новом Центре обслуживания клиентов M&E в Нью-Йорке, который включает обновления по теме с 2023 года:
context = """Media and entertainment (M&E) customers continue to face challenges in creating more content, more quickly, and distributing it to more endpoints than ever before in their quest to delight viewers globally. Amazon Web Services (AWS), along with AWS Partners, have showcased the rapid evolution of M&E solutions for years at industry events like the National Association of Broadcasters (NAB) Show and the International Broadcast Convention (IBC). Until now, AWS for M&E technology demonstrations were accessible in this way just a few weeks out of the year. Customers are more engaged than ever before; they want to have higher quality conversations regarding user experience and media tooling. These conversations are best supported by having an interconnected solution architecture for reference. Scheduling a visit of the M&E Customer Experience Center will be available starting November 13th, please send an email to AWS-MediaEnt-CXC@amazon.com."""
Снова используйте LLMChain и передайте предыдущий текст в качестве контекста:
context_response = llm_chain.predict(context=context, question=question)
print(context_response)
Новый ответ отвечает на вопрос с актуальной информацией:
Вы можете посетить Центр обслуживания клиентов AWS M&E в Нью-Йорке, начиная с 13 ноября. Чтобы запланировать посещение, отправьте электронное письмо на адрес AWS-MediaEnt-CXC@amazon.com.
Мы подтвердили, что добавление правильного контекста повышает производительность модели. Теперь вы можете сосредоточить свои усилия на поиске и добавлении правильного контекста для заданного вопроса. Другими словами, внедрите RAG.
Реализуйте ответы на вопросы RAG с помощью вложений BGE и Pinecone.
На этом этапе вы должны определиться с источниками информации для расширения знаний модели. Этими источниками могут быть внутренние веб-страницы или документы вашей организации или общедоступные источники данных. Для целей этой публикации и для простоты мы выбрали две публикации в блоге AWS, опубликованные в 2023 году:
Эти публикации уже доступны в виде PDF-документов в каталоге проекта данных в SageMaker Studio для быстрого доступа. Чтобы разделить документы на управляемые фрагменты, вы можете использовать РекурсивеХарактертекстсплиттер метод из LangChain:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import PyPDFDirectoryLoader loader = PyPDFDirectoryLoader("./data/") documents = loader.load() text_splitter=RecursiveCharacterTextSplitter( chunk_size=1000, chunk_overlap=5
)
docs = text_splitter.split_documents(documents)
Далее используйте модель вложений BGE. bge-small-en созданные с помощью Пекинская академия искусственного интеллекта (BAAI) который доступен на Hugging Face для создания вложений этих фрагментов. Загрузите и сохраните модель в локальном каталоге Studio. Мы используем fp32, чтобы он мог работать на процессоре экземпляра.
em_model_name = "BAAI/bge-small-en"
em_model_path = f"./em-model" from transformers import AutoModel
# Load model from HuggingFace Hub
em_model = AutoModel.from_pretrained(em_model_name,torch_dtype=torch.float32)
em_tokenizer = AutoTokenizer.from_pretrained(em_model_name,device="cuda") # save model to disk
em_tokenizer.save_pretrained(save_directory=f"{em_model_path}/model",from_pt=True)
em_model.save_pretrained(save_directory=f"{em_model_path}/model",from_pt=True)
em_model.eval()
Используйте следующий код, чтобы создать функцию embedding_generator, которая принимает фрагменты документа в качестве входных данных и генерирует вложения с использованием модели BGE:
# Tokenize sentences
def tokenize_text(_input, device): return em_tokenizer( [_input], padding=True, truncation=True, return_tensors='pt' ).to(device) # Run embedding task as a function with model and text sentences as input
def embedding_generator(_input, normalize=True): # Compute token embeddings with torch.no_grad(): embedded_output = em_model( **tokenize_text( _input, em_model.device ) ) sentence_embeddings = embedded_output[0][:, 0] # normalize embeddings if normalize: sentence_embeddings = torch.nn.functional.normalize( sentence_embeddings, p=2, dim=1 ) return sentence_embeddings[0, :].tolist() sample_sentence_embedding = embedding_generator(docs[0].page_content)
print(f"Embedding size of the document --->", len(sample_sentence_embedding))
В этом посте мы демонстрируем рабочий процесс RAG с использованием Pinecone, управляемого облачного решения. вектор базы данных который также предлагает API для поиска сходства. Вы можете переписать следующий код, чтобы использовать предпочитаемую вами базу данных векторов.
Мы инициализируем Python-клиент Pinecone и создайте новый индекс векторного поиска, используя выходную длину модели внедрения. Мы используем встроенный класс Pinecone LangChain для приема вложений, которые мы создали на предыдущем шаге. Ему нужны три параметра: документы для приема, функция генератора вложений и имя индекса шишки.
import pinecone
pinecone.init( api_key = os.environ["PINECONE_API_KEY"], environment = os.environ["PINECONE_ENV"]
)
#check if index already exists, if not we create it
index_name = "rag-index"
if index_name not in pinecone.list_indexes(): pinecone.create_index( name=index_name, dimension=len(sample_sentence_embedding), ## 384 for bge-small-en metric='cosine' ) #insert the embeddings
from langchain.vectorstores import Pinecone
vector_store = Pinecone.from_documents( docs, embedding_generator, index_name=index_name
)
Загрузив в память модель чата Llama-2 7B и встроив ее в индекс сосновой шишки, вы теперь можете комбинировать эти элементы, чтобы улучшить ответы Llama 2 для нашего варианта использования с ответами на вопросы. Для этого вы можете использовать LangChain ПоискQA, который дополняет исходное приглашение наиболее похожими документами из векторного хранилища. Установив return_source_documents=True
, вы получаете доступ к точным документам, использованным для создания ответа, как части ответа, что позволяет вам проверить точность ответа.
from langchain.chains import RetrievalQA
import textwrap #helper method to improve the readability of the response
def print_response(llm_response): temp = [textwrap.fill(line, width=100) for line in llm_response['result'].split('n')] response = 'n'.join(temp) print(f"{llm_response['query']}n n{response}'n n Source Documents:") for source in llm_response["source_documents"]: print(source.metadata) llm_qa_chain = RetrievalQA.from_chain_type( llm=llm, #the Llama-2 7b chat model chain_type='stuff', retriever=vector_store.as_retriever(search_kwargs={"k": 2}), # perform similarity search in Pinecone return_source_documents=True, #show the documents that were used to answer the question chain_type_kwargs={"prompt": prompt_template}
)
print_response(llm_qa_chain(question))
Получаем следующий ответ:
Вопрос: Когда я смогу посетить Центр обслуживания клиентов AWS M&E в Нью-Йорке?
А: Я рад помочь! Согласно контексту, Центр обслуживания клиентов AWS M&E в Нью-Йорке будет доступен для посещения, начиная с 13 ноября. Вы можете отправить электронное письмо на адрес AWS-MediaEnt-CXC@amazon.com, чтобы запланировать посещение».
Исходные документы:
{'page': 4.0, 'source': 'data/AWS объявляет о новом Центре обслуживания клиентов M&E в Нью-Йорке _ AWS для M&E Blog.pdf'}
{'page': 2.0, 'source': 'data/AWS объявляет о новом Центре обслуживания клиентов M&E в Нью-Йорке _ AWS для M&E Blog.pdf'}
Давайте попробуем другой вопрос:
question2=" How many awards have AWS Media Services won in 2023?"
print_response(llm_qa_chain(question2))
Получаем следующий ответ:
Вопрос: Сколько наград получили AWS Media Services в 2023 году?
Ответ: Согласно сообщению в блоге, в 2023 году AWS Media Services завоевали пять отраслевых наград».
Исходные документы:
{'page': 0.0, 'source': 'data/AWS Media Services удостоены отраслевых наград _ AWS for M&E Blog.pdf'}
{'page': 1.0, 'source': 'data/AWS Media Services удостоены отраслевых наград _ AWS for M&E Blog.pdf'}
После того, как вы установили достаточный уровень уверенности, вы можете развернуть модели в Конечные точки SageMaker для вывода в реальном времени. Эти конечные точки полностью управляются и поддерживают автоматическое масштабирование.
SageMaker предлагает вывод больших моделей с использованием контейнеров вывода больших моделей (LMI), которые мы можем использовать для развертывания наших моделей. Эти контейнеры оснащены предустановленными библиотеками с открытым исходным кодом, такими как DeepSpeed, что упрощает реализацию методов повышения производительности, таких как тензорный параллелизм во время вывода. Кроме того, они используют DJLServing в качестве встроенного сервера интегрированной модели. DJLСервировка — это высокопроизводительное универсальное решение для обслуживания моделей, которое поддерживает динамическую пакетную обработку и автоматическое масштабирование рабочих процессов, тем самым увеличивая пропускную способность.
В нашем подходе мы используем SageMaker LMI с DJLServing и DeepSpeed Inference для развертывания моделей Llama-2-chat 7b и BGE на конечных точках SageMaker, работающих на ml.g5.2xlarge
экземпляров, что позволяет делать выводы в реальном времени. Если вы хотите выполнить эти шаги самостоятельно, обратитесь к прилагаемому ноутбук для получения подробных инструкций.
Вам потребуется два ml.g5.2xlarge
экземпляры для развертывания. Чтобы просмотреть или увеличить квоту, откройте консоль AWS Service Quotas и выберите Сервисы AWS на панели навигации выберите Создатель мудреца Амазонкии обратитесь к значению для ml.g5.2xlarge
для использования конечной точки.
Следующие шаги описывают процесс развертывания пользовательских моделей для рабочего процесса RAG на конечной точке SageMaker:
- Разверните Лама-2 7б модель чата к конечной точке SageMaker в реальном времени, работающей на
ml.g5.2xlarge
экземпляр для быстрой генерации текста. - Разверните BAAI/bge-small-en-v1.5 модель внедрения в конечную точку SageMaker в реальном времени, работающую на
ml.g5.2xlarge
пример. Альтернативно вы можете развернуть собственную модель внедрения. - Задайте вопрос и воспользуйтесь LangChain ПоискQA чтобы дополнить приглашение наиболее похожими документами из Pinecone, на этот раз с использованием модели, развернутой в конечной точке реального времени SageMaker:
# convert your local LLM into SageMaker endpoint LLM
llm_sm_ep = SagemakerEndpoint( endpoint_name=tg_sm_model.endpoint_name, # <--- Your text-gen model endpoint name region_name=region, model_kwargs={ "temperature": 0.05, "max_new_tokens": 512 }, content_handler=content_handler,
) llm_qa_smep_chain = RetrievalQA.from_chain_type( llm=llm_sm_ep, # <--- This uses SageMaker Endpoint model for inference chain_type='stuff', retriever=vector_store.as_retriever(search_kwargs={"k": 2}), return_source_documents=True, chain_type_kwargs={"prompt": prompt_template}
)
- Используйте LangChain, чтобы убедиться, что конечная точка SageMaker с моделью внедрения работает должным образом и ее можно использовать для приема документов в будущем:
response_model = smr_client.invoke_endpoint( EndpointName=em_sm_model.endpoint_name, <--- Your embedding model endpoint name Body=json.dumps({ "text": "This is a sample text" }), ContentType="application/json",
) outputs = json.loads(response_model["Body"].read().decode("utf8"))['outputs']
Убирать
Выполните следующие шаги, чтобы очистить ресурсы:
- Закончив работу в блокноте SageMaker Studio, обязательно закройте
ml.g5.2xlarge
экземпляр, чтобы избежать каких-либо расходов, выбрав значок остановки. Вы также можете настроить сценарии настройки жизненного цикла для автоматического отключения ресурсов, когда они не используются.
- Если вы развернули модели на конечных точках SageMaker, запустите следующий код в конце блокнота, чтобы удалить конечные точки:
#delete your text generation endpoint
sm_client.delete_endpoint( EndpointName=tg_sm_model.endpoint_name
)
# delete your text embedding endpoint
sm_client.delete_endpoint( EndpointName=em_sm_model.endpoint_name
)
- Наконец, выполните следующую строку, чтобы удалить индекс шишки:
pinecone.delete_index(index_name)
Заключение
Блокноты SageMaker — это простой способ начать работу с функцией поиска дополненной генерации. Они позволяют вам интерактивно экспериментировать с различными моделями, конфигурациями и вопросами без необходимости создания дополнительной инфраструктуры. В этом посте мы показали, как повысить производительность чата Llama 2 7b в случае использования ответа на вопрос с помощью LangChain, модели внедрения BGE и Pinecone. Для начала запустите SageMaker Studio и запустите ноутбук доступны в следующих Репо GitHub. Пожалуйста, поделитесь своими мыслями в разделе комментариев!
Об авторах
Анастасия Цевелека является специалистом по машинному обучению и ИИ, архитектором решений в AWS. Она работает с клиентами в регионе EMEA и помогает им разрабатывать масштабные решения для машинного обучения с помощью сервисов AWS. Она работала над проектами в различных областях, включая обработку естественного языка (NLP), MLOps и инструменты Low Code No Code.
Пранав Мурти является специалистом по архитектуре решений AI/ML в AWS. Он помогает клиентам создавать, обучать, развертывать и переносить рабочие нагрузки машинного обучения (ML) в SageMaker. Ранее он работал в полупроводниковой промышленности, разрабатывая большие модели компьютерного зрения (CV) и обработки естественного языка (NLP) для улучшения полупроводниковых процессов. В свободное время любит играть в шахматы и путешествовать.
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-studio-to-build-a-rag-question-answering-solution-with-llama-2-langchain-and-pinecone-for-fast-experimentation/
- :имеет
- :является
- :нет
- :куда
- $UP
- 1
- 10
- 100
- 13
- 16
- 2023
- 33
- 500
- 7
- a
- AC
- Академия
- доступ
- Доступ к данным
- доступной
- По
- Учетная запись
- Учетные записи
- точность
- точный
- Достигать
- Добавить
- добавить
- дополнительный
- Дополнительно
- придерживаться
- снова
- AI
- AI / ML
- позволять
- Позволяющий
- позволяет
- вдоль
- уже
- причислены
- Amazon
- Создатель мудреца Амазонки
- Студия Amazon SageMaker
- Amazon Web Services
- Веб-службы Amazon (AWS)
- an
- и
- объявляет
- ответ
- ответы
- любой
- API
- приложение
- Приложения
- подхода
- Программы
- архитектура
- МЫ
- искусственный
- искусственный интеллект
- AS
- спросить
- оценить
- помощник
- Объединение
- предполагает,
- At
- увеличивать
- дополненная
- увеличивает
- Аутентификация
- автоматический
- автоматически
- доступен
- избежать
- награжден
- AWS
- основанный
- BE
- было
- до
- ЛУЧШЕЕ
- Лучшая
- Блог
- Сообщения в блоге
- тело
- вещания
- строить
- встроенный
- by
- CAN
- случаев
- случаев
- Центр
- цепь
- цепи
- проблемы
- расходы
- проверка
- шахматы
- Выберите
- Выбирая
- выбранный
- Город
- класс
- чистым
- нажмите на
- закрыто
- код
- сотрудничать
- коллеги
- COM
- объединять
- комбинаты
- как
- выходит
- Комментарии
- полный
- Вычисление
- компьютер
- Компьютерное зрение
- краткий
- доверие
- Конфигурация
- ПОДТВЕРЖДЕНО
- состоит
- Консоли
- Контейнеры
- содержание
- контекст
- продолжать
- Соглашение
- Беседы
- конвертировать
- соответствующий
- может
- Covid-19.
- COVID-19 пандемия
- Создайте
- создали
- Создающий
- В настоящее время
- изготовленный на заказ
- клиент
- опыт работы с клиентами
- Клиенты
- данным
- База данных
- базы данных
- решать
- По умолчанию
- восторг
- демонстрировать
- убивают
- Зависимости
- развертывание
- развернуть
- развертывание
- развертывание
- подробный
- развивающийся
- Развитие
- устройство
- Диалог
- различный
- обсуждать
- распределительный
- делить
- документ
- Документация
- домен
- доменов
- Дон
- Dont
- вниз
- скачать
- два
- в течение
- динамический
- e
- Ранее
- легко
- усилия
- элементы
- вложения
- в регионе EMEA
- позволяет
- позволяет
- конец
- Конечная точка
- занятый
- повышать
- Развлечения
- полностью
- Окружающая среда
- оборудованный
- установленный
- События
- НИКОГДА
- эволюция
- пример
- существует
- ожидать
- ожидаемый
- опыт
- эксперимент
- Больше
- и, что лучший способ
- извлечение
- Face
- облегчающий
- БЫСТРО
- быстрый
- Особенности
- несколько
- окончательный
- обнаружение
- Во-первых,
- Впервые
- 5
- Фокус
- фокусируется
- следовать
- после
- Что касается
- форма
- формат
- вперед
- Бесплатно
- дружественный
- от
- полностью
- функция
- функциональная
- будущее
- Gain
- порождать
- генерируется
- генерирует
- поколение
- генеративный
- Генеративный ИИ
- генератор
- получить
- ГЛОБАЛЬНО
- Цели
- будет
- GPU / ГРАФИЧЕСКИЙ ПРОЦЕССОР
- предоставленный
- счастливый
- Есть
- имеющий
- he
- помощь
- полезный
- помощь
- помогает
- на высшем уровне
- высокая производительность
- высший
- его
- Удар
- Как
- How To
- Однако
- HTML
- HTTPS
- хаб
- ОбниматьЛицо
- i
- IBC
- ICON
- ID
- Личность
- if
- иллюстрирует
- изображение
- осуществлять
- реализация
- Осуществляющий
- Импортировать
- улучшать
- улучшенный
- улучшается
- in
- В других
- включает в себя
- В том числе
- Увеличение
- повышение
- индекс
- промышленность
- Отраслевые мероприятия
- информация
- Инфраструктура
- начальный
- вход
- устанавливать
- пример
- инструкции
- интегрированный
- Интеллекта
- взаимосвязано
- в нашей внутренней среде,
- Мультиязычность
- Интернет
- доступ в Интернет
- в
- IT
- ЕГО
- путешествие
- JPG
- JSON
- всего
- Сохранить
- ключи
- Знать
- знания
- язык
- большой
- запуск
- изучение
- оставил
- Длина
- уровень
- библиотеки
- такое как
- ОГРАНИЧЕНИЯ
- линия
- Лама
- LLM
- загрузка
- загрузчик
- локальным
- Низкий
- машина
- обучение с помощью машины
- сделать
- управляемый
- управляемого
- многих
- согласование
- максимальный
- то время
- Медиа
- Память
- Мета
- Метаданные
- метод
- мигрировать
- ML
- млн операций в секунду
- модель
- Модели
- БОЛЕЕ
- самых
- должен
- NAB
- имя
- национальный
- натуральный
- Обработка естественного языка
- Откройте
- Навигация
- необходимо
- Необходимость
- потребности
- Новые
- Новый доступ
- New York
- Нью-Йорк
- следующий
- НЛП
- нет
- ноутбук
- Ноябрь
- сейчас
- of
- предлагают
- Предложения
- Официальный представитель в Грузии
- Официальный веб-сайт
- on
- ONE
- онлайн
- открытый
- с открытым исходным кодом
- оптимизированный
- Опция
- Опции
- or
- организация
- OS
- Другое
- наши
- внешний
- контур
- выходной
- выходы
- собственный
- площадка
- страница
- пандемия
- хлеб
- параметры
- часть
- партнеры
- pass
- Выполнять
- производительность
- Разрешения
- фаза
- штук
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- игры
- пожалуйста
- После
- Блог
- привилегированный
- представить
- предыдущий
- предварительно
- процесс
- Процессы
- обработка
- Профиль
- Проект
- проектов
- прототип
- макетирования
- обеспечивать
- обеспечение
- что такое варган?
- публично
- опубликованный
- целей
- Питон
- pytorch
- поиск
- вопрос
- Вопросы
- САЙТ
- быстро
- быстро
- быстро
- достигнув результата
- реального времени
- последний
- рецепт
- относиться
- ссылка
- по
- соответствующие
- возобновить
- требовать
- обязательный
- Требования
- требуется
- Полезные ресурсы
- ответ
- ответы
- результат
- продолжить
- возвращают
- обзоре
- правую
- Роли
- Run
- Бег
- sagemaker
- Сакэ
- то же
- Сохранить
- сохраняются
- сообщили
- Шкала
- масштабирование
- график
- планирование
- Поиск
- поиск
- Во-вторых
- разделах
- посмотреть
- полупроводник
- Отправить
- послать
- сервер
- обслуживание
- Услуги
- набор
- установка
- Поделиться
- она
- показывать
- продемонстрированы
- показал
- закрывать
- выключать
- аналогичный
- простота
- одинарной
- Размер
- So
- Соцсети
- социальные сети
- Решение
- Решения
- некоторые
- Источник
- Источники
- специалист
- конкретный
- конкретно
- автономные
- Начало
- и политические лидеры
- Начало
- статический
- Шаг
- Шаги
- Stop
- магазин
- хранить
- магазины
- простой
- студия
- такие
- достаточный
- поддержка
- Поддержанный
- Убедитесь
- быстро
- принимает
- Сложность задачи
- задачи
- снижения вреда
- Технологии
- шаблон
- текст
- чем
- который
- Ассоциация
- их
- Их
- Там.
- тем самым
- Эти
- они
- этой
- три
- Через
- пропускная способность
- время
- в
- знак
- токенизировать
- инструменты
- тема
- факел
- башни
- Train
- трансформеры
- переход
- Путешествие
- правда
- стараться
- два
- напишите
- Типы
- типичный
- типично
- под
- Universal
- до
- новейший
- Updates
- Применение
- использование
- прецедент
- используемый
- Информация о пользователе
- Пользовательский опыт
- использования
- через
- использовать
- ценностное
- различный
- проверка
- проверить
- версия
- с помощью
- просмотров
- Виртуальный
- виртуальные туры
- видимость
- видение
- Войти
- Посещения
- от
- хотеть
- Путь..
- we
- Web
- веб-сервисы
- Вебсайт
- Недели
- были
- когда
- когда бы ни
- который
- в то время как
- будете
- в
- без
- Выиграл
- слова
- Работа
- работавший
- работник
- рабочий
- работает
- работает
- год
- лет
- йорк
- Ты
- ВАШЕ
- себя
- зефирнет