Налаштуйте Llama 2 за допомогою QLoRA та розгорніть її на Amazon SageMaker за допомогою AWS Inferentia2

Перевидано Платоном

читають: 0

У цій публікації ми демонструємо точне налаштування моделі Llama 2 за допомогою методу параметрично ефективного тонкого налаштування (PEFT) і розгортаємо налаштовану модель на AWS Inferentia2. Ми використовуємо AWS нейрон комплект розробки програмного забезпечення (SDK) для доступу до пристрою AWS Inferentia2 і отримання переваг від його високої продуктивності. Потім ми використовуємо великий контейнер висновків моделі, що працює на основі Глибока бібліотека Java (DJLServing) як наше модельне рішення для обслуговування.

Огляд рішення

Ефективне тонке налаштування Llama2 за допомогою QLoRa

Сімейство великих мовних моделей (LLM) Llama 2 — це набір попередньо підготовлених і точно налаштованих генеративних текстових моделей із масштабом від 7 до 70 мільярдів параметрів. Llama 2 був попередньо навчений на 2 трильйонах токенів даних із загальнодоступних джерел. Клієнти AWS іноді вирішують налаштувати моделі Llama 2 за допомогою власних даних для досягнення кращої продуктивності для подальших завдань. Однак через велику кількість параметрів моделі Llama 2 повне тонке налаштування може бути надзвичайно дорогим і трудомістким. Підхід до ефективного точного налаштування параметрів (PEFT) може вирішити цю проблему шляхом точного налаштування лише невеликої кількості додаткових параметрів моделі, одночасно заморожуючи більшість параметрів попередньо навченої моделі. Для отримання додаткової інформації про PEFT можна прочитати це після. У цій публікації ми використовуємо QLoRa для точного налаштування моделі Llama 2 7B.

Розгорніть налаштовану модель на Inf2 за допомогою Amazon SageMaker

AWS Inferentia2 — це спеціально створений прискорювач машинного навчання (ML), розроблений для робочих навантажень логічного висновку, який забезпечує високу продуктивність за до 40% нижчої вартості для генеративних робочих навантажень штучного інтелекту та магістра права в порівнянні з іншими екземплярами, оптимізованими для логічного висновку на AWS. У цій публікації ми використовуємо Amazon Elastic Compute Cloud (Amazon EC2) Екземпляр Inf2, що містить AWS Inferentia2, прискорювачі Inferentia2 другого покоління, кожен з яких містить два NeuronCores-v2. Кожен NeuronCore-v2 є незалежною гетерогенною обчислювальною одиницею з чотирма основними двигунами: тензорним, векторним, скалярним і GPSIMD. Він містить вбудовану програмно-керовану пам’ять SRAM для максимальної локальності даних. Оскільки на Inf2 було опубліковано кілька блогів, читач може звернутися до цього після і наші документація для отримання додаткової інформації про Inf2.

Для розгортання моделей на Inf2 нам потрібен AWS Neuron SDK як програмний рівень, який працює поверх апаратного забезпечення Inf2. AWS Neuron — це пакет SDK, який використовується для виконання завдань глибокого навчання на AWS Inferentia та AWS Trainium засновані екземпляри. Це забезпечує наскрізний життєвий цикл розробки ML для створення нових моделей, навчання й оптимізації цих моделей, а також розгортання їх для виробництва. AWS Neuron включає глибоке навчання компілятор, час виконання та інструменти які вбудовано інтегровані з такими популярними фреймворками, як TensorFlow і PyTorch. У цьому блозі ми збираємося використовувати transformers-neuronx, який є частиною AWS Neuron SDK для робочих процесів визначення декодера трансформатора. Це опори ряд популярних моделей, включаючи Llama 2.

Для розгортання моделей на Amazon SageMaker, ми зазвичай використовуємо контейнер, який містить необхідні бібліотеки, такі як Neuron SDK і transformers-neuronx а також компонент обслуговування моделі. Amazon SageMaker підтримує контейнери глибокого навчання (DLC) із популярними бібліотеками з відкритим кодом для розміщення великих моделей. У цій публікації ми використовуємо Великий контейнер висновків моделі для Neuron. У цьому контейнері є все необхідне для розгортання вашої моделі Llama 2 на Inf2. Щоб отримати ресурси для початку роботи з LMI на Amazon SageMaker, зверніться до багатьох наших наявних публікацій (блог 1, блог 2, блог 3) на цю тему. Коротше кажучи, ви можете запускати контейнер без написання додаткового коду. Ви можете використовувати обробник за замовчуванням для бездоганної взаємодії з користувачем і передайте одну з підтримуваних назв моделей і будь-які настроювані параметри часу завантаження. Це компілює та обслуговує LLM на примірнику Inf2. Наприклад, розгорнути OpenAssistant/llama2-13b-orca-8k-3319, ви можете надати наступну конфігурацію (як serving.properties файл). в serving.properties, ми вказуємо тип моделі як llama2-13b-orca-8k-3319, розмір партії 4, ступінь паралельності тензора 2, і все. Повний список параметрів, які можна налаштувати, див Усі параметри конфігурації DJL.

# Engine to use: MXNet, PyTorch, TensorFlow, ONNX, PaddlePaddle, DeepSpeed, etc.
engine = Python # default handler for model serving
option.entryPoint = djl_python.transformers_neuronx
# The Hugging Face ID of a model or the s3 url of the model artifacts. option.model_id = meta-llama/Llama-2-7b-chat-hf
#the dynamic batch size, default is 1.
option.batch_size=4
# This option specifies number of tensor parallel partitions performed on the model.
option.tensor_parallel_degree=2
# The input sequence length
option.n_positions=512
#Enable iteration level batching using one of "auto", "scheduler", "lmi-dist"
option.rolling_batch=auto
# The data type to which you plan to cast the model default
option.dtype=fp16
# worker load model timeout
option.model_loading_timeout=1500

Крім того, ви можете написати власний файл обробки моделі, як показано тут приклад, але це вимагає реалізації методів завантаження моделі та висновку, щоб служити мостом між API DJLServing.

Передумови

У наведеному нижче списку описано передумови для розгортання моделі, описаної в цій публікації блогу. Ви можете реалізувати або з Консоль управління AWS або за допомогою останньої версії Інтерфейс командного рядка AWS (AWS CLI).

Проходження

У наступному розділі ми розглянемо код у двох частинах:

Точне налаштування моделі Llama2-7b і завантаження артефактів моделі у вказане місце сегмента Amazon S3.
Розгорніть модель у Inferentia2 за допомогою контейнера обслуговування DJL, розміщеного в Amazon SageMaker.

Повні зразки коду з інструкціями можна знайти тут GitHub сховище

Частина 1: Тонка настройка моделі Llama2-7b за допомогою PEFT

Ми збираємося використовувати нещодавно представлений метод у статті QLoRA: налаштування низькорангового адаптера з урахуванням квантування для генерації мови Тім Деттмерс та ін. QLoRA — це нова техніка для зменшення обсягу пам’яті великих мовних моделей під час тонкого налаштування без шкоди для продуктивності.

Примітка: Точне налаштування моделі llama2-7b, показане нижче, було протестовано на Amazon Блокнот SageMaker Studio з оптимізованим ядром Python 2.0 GPU за допомогою a мл.g5.2xвеликий тип екземпляра. Як найкращу практику ми рекомендуємо використовувати an Студія Amazon SageMaker Інтегроване середовище розробки (IDE), запущене у вас Віртуальна приватна хмара Amazon (Amazon VPC). Це дозволяє вам контролювати, відстежувати й перевіряти мережевий трафік всередині та за межами вашого VPC за допомогою стандартних мережевих можливостей AWS та безпеки. Додаткову інформацію див Забезпечення підключення до Amazon SageMaker Studio за допомогою приватного VPC.

Квантуй базову модель

Спочатку ми завантажуємо квантовану модель із використанням 4-бітового квантування Трансформери Huggingface бібліотека наступним чином:

# The base pretrained model for fine-tuning
model_name = "NousResearch/Llama-2-7b-chat-hf" # The instruction dataset to use
dataset_name = "mlabonne/guanaco-llama2-1k" #Activate 4-bit precision base model loading
use_4bit = True
bnb_4bit_compute_dtype = "float16"
bnb_4bit_quant_type = "nf4"
use_nested_quant = False compute_dtype = getattr(torch, bnb_4bit_compute_dtype) bnb_config = BitsAndBytesConfig(
load_in_4bit=use_4bit,
bnb_4bit_quant_type=bnb_4bit_quant_type,
bnb_4bit_compute_dtype=compute_dtype,
bnb_4bit_use_double_quant=use_nested_quant,
) # Load base model and tokenizer
model = AutoModelForCausalLM.from_pretrained(
model_name,
quantization_config=bnb_config,
device_map=device_map
)
model.config.pretraining_tp = 1 tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

Завантажити навчальний набір даних

Далі ми завантажуємо набір даних, щоб подати модель для етапу тонкого налаштування, як показано нижче:

# Load dataset (you can process it here)
dataset = load_dataset(dataset_name, split="train")

Приєднайте адаптерний шар

Тут ми прикріплюємо невеликий рівень адаптера, який можна навчити, налаштований як LoraConfig визначено в Hugging Face пефт бібліотека

# include linear layers to apply LoRA to.
modules = find_all_linear_names(model) ## Setting up LoRA configuration
lora_r = 64 # Alpha parameter for LoRA scaling
lora_alpha = 16 # Dropout probability for LoRA layers
lora_dropout = 0.1 peft_config = LoraConfig(
lora_alpha=lora_alpha,
lora_dropout=lora_dropout,
r=lora_r,
bias="none",
task_type="CAUSAL_LM",
target_modules=modules)

Тренуйте модель

Використовуючи показану вище конфігурацію LoRA, ми налаштуємо модель Llama2 разом із гіперпараметрами. Нижче показано фрагмент коду для навчання моделі:

# Set training parameters
training_arguments = TrainingArguments(...) trainer = SFTTrainer(
model=model,
train_dataset=dataset,
peft_config=peft_config, # LoRA config
dataset_text_field="text",
max_seq_length=max_seq_length,
tokenizer=tokenizer,
args=training_arguments,
packing=packing,
) # Train model
trainer.train() # Save trained model
trainer.model.save_pretrained(new_model)

Об’єднати вагу моделі

Виконана вище налаштована модель створила нову модель, що містить навчені вагові коефіцієнти адаптера LoRA. У наступному фрагменті коду ми об’єднаємо адаптер із базовою моделлю, щоб ми могли використовувати налаштовану модель для висновку.

# Reload model in FP16 and merge it with LoRA weights
base_model = AutoModelForCausalLM.from_pretrained(
model_name,
low_cpu_mem_usage=True,
return_dict=True,
torch_dtype=torch.float16,
device_map=device_map,
)
model = PeftModel.from_pretrained(base_model, new_model)
model = model.merge_and_unload() save_dir = "merged_model"
model.save_pretrained(save_dir, safe_serialization=True, max_shard_size="2GB") # Reload tokenizer to save it
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"
tokenizer.save_pretrained(save_dir)

Завантажте вагу моделі в Amazon S3

На останньому кроці частини 1 ми збережемо ваги об’єднаних моделей у вказаному місці Amazon S3. Вага моделі використовуватиметься контейнером для обслуговування моделі в Amazon SageMaker для розміщення моделі за допомогою екземпляра Inferentia2.

model_data_s3_location = "s3://<bucket_name>/<prefix>/"
!cd {save_dir} && aws s3 cp —recursive . {model_data_s3_location}

Частина 2: Модель хосту QLoRA для висновків за допомогою AWS Inf2 за допомогою контейнера SageMaker LMI

У цьому розділі ми розглянемо етапи розгортання точно налаштованої моделі QLoRA в середовищі хостингу Amazon SageMaker. Ми будемо використовувати a Подача DJL контейнер від SageMaker DLC, який інтегрується з трансформери-нейронкс бібліотека для розміщення цієї моделі. Налаштування полегшує завантаження моделей на прискорювачі AWS Inferentia2, розпаралелює модель у кількох NeuronCores і забезпечує обслуговування через кінцеві точки HTTP.

Підготуйте артефакти моделі

DJL підтримує багато бібліотек оптимізації глибокого навчання, в тому числі DeepSpeed, FasterTransformer і більше. Для конкретних конфігурацій моделі ми пропонуємо a serving.properties з ключовими параметрами, такими як tensor_parallel_degree та model_id щоб визначити параметри завантаження моделі. The model_id може бути ідентифікатор моделі Hugging Face або шлях Amazon S3, де зберігаються ваги моделі. У нашому прикладі ми надаємо розташування Amazon S3 нашої точно налаштованої моделі. У наступному фрагменті коду показано властивості, які використовуються для показу моделі:

%%writefile serving.properties
engine=Python
option.entryPoint=djl_python.transformers_neuronx
option.model_id=<model data s3 location>
option.batch_size=4
option.neuron_optimize_level=2
option.tensor_parallel_degree=8
option.n_positions=512
option.rolling_batch=auto
option.dtype=fp16
option.model_loading_timeout=1500

Будь ласка, зверніться до цього документація для отримання додаткової інформації про настроювані параметри, доступні через serving.properties. Зверніть увагу, що ми використовуємо option.n_position=512 у цьому блозі для швидшої компіляції AWS Neuron. Якщо ви хочете спробувати більшу довжину вхідного токена, ми рекомендуємо читачеві заздалегідь скомпілювати модель (див. Модель попередньої компіляції AOT на EC2). В іншому випадку ви можете зіткнутися з помилкою тайм-ауту, якщо час компіляції занадто великий.

Після serving.properties файл визначено, ми запакуємо файл у a tar.gz у такому форматі:

%%sh
mkdir mymodel
mv serving.properties mymodel/
tar czvf mymodel.tar.gz mymodel/
rm -rf mymodel

Потім ми завантажимо tar.gz до сегмента Amazon S3:

s3_code_prefix = "large-model-lmi/code"
bucket = sess.default_bucket()  # bucket to house artifacts
code_artifact = sess.upload_data("mymodel.tar.gz", bucket, s3_code_prefix)
print(f"S3 Code or Model tar ball uploaded to --- > {code_artifact}")

Створіть кінцеву точку моделі Amazon SageMaker

Щоб використовувати примірник Inf2 для обслуговування, ми використовуємо Amazon Контейнер SageMaker LMI з підтримкою DJL neuronX. Будь ласка, зверніться до цього після для отримання додаткової інформації про використання контейнера DJL NeuronX для висновків. У наступному коді показано, як розгорнути модель за допомогою Amazon SageMaker Python SDK:

# Retrieves the DJL-neuronx docker image URI
image_uri = image_uris.retrieve(
framework="djl-neuronx",
region=sess.boto_session.region_name,
version="0.24.0"
) # Define inf2 instance type to use for serving
instance_type = "ml.inf2.48xlarge" endpoint_name = sagemaker.utils.name_from_base("lmi-model") # Deploy the model for inference
model.deploy(initial_instance_count=1,
instance_type=instance_type,
container_startup_health_check_timeout=1500,
volume_size=256,
endpoint_name=endpoint_name) # our requests and responses will be in json format so we specify the serializer and the deserializer
predictor = sagemaker.Predictor(
endpoint_name=endpoint_name,
sagemaker_session=sess,
serializer=serializers.JSONSerializer(),
)

Кінцева точка тестової моделі

Після успішного розгортання моделі ми можемо перевірити кінцеву точку, надіславши зразок запиту до предиктора:

prompt="What is machine learning?"
input_data = f"<s>[INST] <<SYS>>nAs a data scientistn<</SYS>>n{prompt} [/INST]" response = predictor.predict(
{"inputs": input_data, "parameters": {"max_new_tokens":300, "do_sample":"True"}}
) print(json.loads(response)['generated_text'])

Вихідний зразок показано таким чином:

У контексті аналізу даних машинне навчання (ML) відноситься до статистичних методів, здатних отримувати прогностичну силу з набору даних зі зростаючою складністю та точністю шляхом ітеративного звуження обсягу статистики.

Машинне навчання — це не нова статистична техніка, а скоріше комбінація існуючих методик. Крім того, він не був розроблений для використання з певним набором даних або для отримання певного результату. Швидше, він був розроблений, щоб бути достатньо гнучким, щоб адаптуватися до будь-якого набору даних і робити прогнози щодо будь-яких результатів.

Прибирати

Якщо ви вирішите, що більше не бажаєте підтримувати роботу кінцевої точки SageMaker, ви можете видалити її за допомогою AWS SDK для Python (boto3), AWS CLI або Amazon SageMaker Console. Крім того, ви також можете закрийте ресурси Amazon SageMaker Studio які більше не потрібні.

Висновок

У цій публікації ми показали вам, як точно налаштувати модель Llama2-7b за допомогою адаптера LoRA з 4-бітним квантуванням за допомогою одного екземпляра GPU. Потім ми розгорнули модель в екземплярі Inf2, розміщеному в Amazon SageMaker, використовуючи контейнер обслуговування DJL. Нарешті, ми перевірили кінцеву точку моделі Amazon SageMaker за допомогою передбачення генерації тексту за допомогою SDK SageMaker Python. Спробуйте, ми раді почути ваші відгуки. Слідкуйте за новинами про додаткові можливості та нові інновації з AWS Inferentia.

Більше прикладів про AWS Neuron див aws-neuron-samples.

Про авторів

Вей Тех є старшим архітектором рішень зі штучного інтелекту/ML в AWS. Він захоплений тим, щоб допомогти клієнтам просунути свій шлях до AWS, зосереджуючись на сервісах Amazon Machine Learning і рішеннях на основі машинного навчання. Поза роботою він любить активний відпочинок на свіжому повітрі, як-от кемпінг, риболовлю та походи з родиною.

Налаштуйте Llama 2 за допомогою QLoRA та розгорніть його на Amazon SageMaker за допомогою AWS Inferentia2 | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Цінвея Лі є спеціалістом з машинного навчання в Amazon Web Services. Отримав ступінь доктора філософії. в дослідженні операцій після того, як він зламав грантовий рахунок свого радника і не вручив обіцяну Нобелівську премію. Зараз він допомагає клієнтам у сфері фінансових послуг і страхування створювати рішення машинного навчання на AWS. У вільний час любить читати та викладати.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/fine-tune-llama-2-using-qlora-and-deploy-it-on-amazon-sagemaker-with-aws-inferentia2/

Часова мітка: 13 Грудня, 2023

Часова мітка: Травень 2, 2023

Перевидано Платоном

Навчання масштабу та визначення тисяч моделей машинного навчання за допомогою Amazon SageMaker | Веб-сервіси Amazon

Розмістіть сервер коду на Amazon SageMaker

Збільште продуктивність і зменшіть витрати на навчання глибокого навчання за допомогою AWS Trainium і Amazon SageMaker

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки